生成式人工智能/大语言模型

借助 2D 和 3D 数字人虚拟形象扩展 AI 智能体界面选项

在与 生成式 AI 应用程序交互时,用户有多种通信选项 – 文本、语音或通过数字化的虚拟形象。

传统聊天机器人或 Copilot 应用具有文本界面,用户可在其中输入查询并接收基于文本的响应。对于免持通信,语音人工智能技术如 自动语音识别 (ASR) 和 文本转语音 (TTS) 促进了口头互动,非常适合电话客户服务等场景。此外,将数字化虚拟形象与语音能力相结合,可为用户提供更具动态性的界面,以便用户以直观方式与应用互动。根据 Gartner 的预测,到 2028 年,拥有 500 名以上员工的组织中,45% 的组织将利用员工人工智能虚拟形象来扩展人力资本能力。1

数字虚拟形象的风格差异很大,一些用例受益于逼真的 3D 或 2D 虚拟形象,而其他用例使用风格化或卡通化的虚拟形象时效果更好。

  • 3D 虚拟形象 提供完全身临其境的体验,展示逼真的动作和逼真效果。开发这些虚拟形象需要专业的软件和技术专业知识,因为它们涉及复杂的身体动画和高质量渲染。
  • 2D 虚拟形象 的开发速度更快,是 Web 嵌入式解决方案的理想选择。它们提供了一种创建交互式 AI 的简化方法,通常需要艺术家进行设计和动画,但在技术资源方面的投入较少。

要开始创建逼真的数字人,您可以针对各种用例定制适用于客户服务的数字人的 NVIDIA AI 蓝图 。此功能现已包含在对 NVIDIA Maxine Audio2Face-2D NIM 微服务的支持中。此外,蓝图现在还为 3D 虚拟形象开发者提供了使用 Unreal Engine 的渲染灵活性。

如何向代理应用程序添加会说话的数字化虚拟形象

在数字人的 AI 蓝图中,用户与利用 NVIDIA ACE 技术的 AI 智能体 进行交互(图 1)。

Diagram illustrating the architecture of the digital human AI Blueprint where a user interacts with an NVIDIA ACE agent that is connected to a RAG pipeline to generate a response.
图 1. NVIDIA AI 蓝图(数字人)架构图

用户的音频输入将发送到 ACE 代理,ACE 代理负责编排各种 NIM 微服务之间的通信。ACE 代理使用 Riva Parakeet NIM 将音频转换为文本,然后由 RAG 流水线进行处理。RAG 流水线使用 NVIDIA NeMo Retriever 嵌入 重新排序 NIM 微服务,以及 LLM NIM ,来响应存储文档中的相关上下文。

最后,通过 Riva TTS 将响应转换回语音,使用 Audio2Face-3D NIM 或 Audio2Face-2D NIM 为数字人制作动画。

设计 AI 智能体应用时的注意事项

在全球企业中,跨语言的通信障碍会降低运营速度。具有多语种功能的 AI 虚拟形象可以轻松进行跨语言通信。数字人 AI 蓝图提供对话式 AI 功能,可通过 Riva ASR、神经机器翻译(NMT)以及智能中断和交换支持,模拟人类互动,适应用户的语音风格和语言。

数字人 AI 智能体的主要优势之一是能够为员工和客户提供“始终在线”的资源。由 RAG 提供支持的 AI 智能体不断从交互中学习并随着时间的推移而改进,从而提供更准确的响应和更好的用户体验。

对于考虑使用数字人机界面的企业来说,选择合适的虚拟形象和渲染选项取决于用例和定制偏好。

  • 用例 :3D 虚拟形象非常适合高度沉浸式的用例,例如实体店、售货亭或主要是一对一的交互,而 2D 虚拟形象则适用于 Web 或移动对话式 AI 的用例。
  • 开发和自定义偏好 :拥有 3D 和动画专业知识的团队可以利用其技能组合创建沉浸式和超逼真的虚拟形象,而希望快速迭代和自定义的团队可以从简单的 2D 虚拟形象中受益。
  • 扩展注意事项:在评估角色和相应的渲染选项时,扩展是一个重要考虑因素。流吞吐量,尤其是 3D 角色的流吞吐量,在很大程度上取决于所使用的角色资产的选择和质量,所需的输出分辨率和所选的渲染选项(Omniverse Renderer 或 Unreal Engine)在确定每个流计算足迹方面发挥着关键作用。

NVIDIA Audio2Face-2D 支持仅通过肖像和语音输入创建栩栩如生的 2D 虚拟形象。简单易用的配置可让开发者快速迭代,并为其数字人用例生成目标虚拟形象和动画。凭借实时输出和云原生部署,2D 数字人是交互式用例的理想选择,也是交互式 Web 嵌入式解决方案流式传输虚拟形象的理想选择。

例如,希望在多台设备上部署 AI 代理并将数字人插入 Web 或移动优先客户旅程的企业,可以从 2D 虚拟形象的硬件需求降低中受益。

逼真的 3D 虚拟形象可为要求高度同理心的用户参与度的用例提供无与伦比的沉浸式体验。NVIDIA Audio2Face-3D 和 Animation NIM 微服务通过生成混合形状以及微妙的头部和身体动画,为 3D 角色制作动画,以创建逼真的沉浸式虚拟形象。数字人 AI 蓝图现在支持两个 3D 虚拟形象渲染选项,包括 NVIDIA Omniverse Renderer 和 Unreal Engine Renderer,让开发者能够灵活地集成他们选择的渲染选项。

要探索数字人如何增强您的企业,请访问 NVIDIA API 目录,了解不同的人像选项。

数字虚拟形象入门 

要使用 Audio2Face-2D 和 Unreal Engine NIM 微服务进行实践开发,请 申请 ACE Early Access 或深入阅读 数字人 AI 蓝图技术博客 ,了解如何将数字人界面添加到个性化的聊天机器人应用中。

1Gartner®,《未来工作的炒作周期》(Hype Cycle for the Future of Work),2024 年,作者:Tori Paulman、Emily Rose McRae 等,2024 年 7 月。GARTNER 是 Gartner, Inc.和/或其关联公司在美国和国际上的注册商标和服务商标,经许可在此使用。所有权利保留。

 

标签