内容创建/渲染

借助 NVIDIA Maxine 实现远程呈现和新一代数字人技术的突破

在本周的 SIGGRAPH 2024 上,NVIDIA 将展示 NVIDIA Maxine AI 开发者平台的最新进展,该平台通过 NVIDIA AI Enterprise 提供。该平台使您能够部署先进的 AI 功能,以提高音频和视频质量,并实现增强现实效果。

NVIDIA 刚刚宣布即将为早期访问开发者提供 Maxine 3D 和 Maxine Video Relighting,同时推出生产的 Maxine Eye Contact NVIDIA NIM 微服务early access

Maxine 3D 与 NVIDIA ACE, 一套用于语音、智能和动画的生成式 AI 技术,一起,为各种开发者和应用程序带来逼真的数字人。它支持通过商品视频会议音频和视频设备使用实时、照片级真实的 3D 数字人类。

现在,通过全面的 NVIDIA API 目录,现在为 Eye Contact NIM 微服务以及 Audio2Face-2D (也称为 Speech Live Portrait) 增加了可发现性和试用选项。

现有的 NVIDIA Maxine 功能仍在不断发展。例如,Studio Voice 和 Background Noise Reduction 2.0 在性能和质量方面都有显著改进,现已可用于生产。

NVIDIA Maxine 的新功能

处于 NVIDIA 创新前沿的是 Maxine 3D,这是一项突破性技术,可实时将 2D 视频肖像输入无缝转换为沉浸式 3D 角色。这一进步使您能够使用商用视频会议设备在实时双向通信中集成 3D 角色。

NVIDIA Maxine 正在推动虚拟和 telepresence 技术在虚拟活动空间、视频会议、视频处理和编辑软件以及其他沉浸式环境中的采用。它使用 NVIDIA RTX 渲染实现 lifelike、ultra-realistic 视觉效果,并有望通过将标准 2D 视频输入转换为 dynamic 3D avatars 来重新定义用户体验。

Looking Glass 联合创始人兼首席执行官 Shawn Frayne 表示:“NVIDIA Maxine 让我们离实现 Looking Glass 创立以来的梦想更近了一步:物理空间之间的虚拟传送。”

“借助 Maxine,我们现在能够将任何 2D 视频输入转换为沉浸式的高保真 3D 全息体验,而无需复杂的摄像头设置。这项技术的简单性与 Looking Glass 的精神完美搭配,使 3D 更加易于每个人使用,而无需使用头显设备。”

Looking Glass 一直与 NVIDIA Research 合作,利用全息 3D 显示器打造创新的视频会议展示。这合作使用 NVIDIA 技术,包括 NVIDIA RTX 6000 Ada GPUs 和 Maxine 3D,使多名观众能够同时体验真实的 3D 内容,而无需使用头显设备或进行眼动追踪。该演示在 NVIDIA GTC 2024 和 SIGGRAPH 2023 上亮相,展示了通过 2D 图像合成 3D 场景的能力,从而能够在 Looking Glass 的 32 英寸景观和 16 英寸肖像显示器上进行群体观看。

Maxine 3D 目前可通过 Early Access 访问,它采用 AI、神经重建和实时渲染来制作高度逼真的数字化身。通过利用 Neural Radiance Fields (NeRF),它可以从单个 2D 图像中重建详细的 3D 视角。

Two people having a video conferencing session. The person on screen is being shown as a 3D hologram.
图 1. 使用由 NVIDIA Maxine 提供支持的 Looking Glass Display 的 3D 视频会议

Maxine 集成了 Audio2Face-2D 技术,可实现即时的音频到 2D 面部动画,将这些 2D 虚拟形象提升为沉浸式 3D 表示。这种突破性的功能使您能够创造出与现实世界中的对应物非常相似的数字人,从而丰富虚拟会议、娱乐等领域的体验。

增强可发现性、可访问性和可移植性

NVIDIA 在其 API 目录中引入了 Maxine 功能,使您能够在进入 Early AccessNVIDIA AI Enterprise 之前,轻松发现和试用先进的 AI 功能。这显著降低了任何人探索和集成先进的 AI 功能到应用程序中的门槛。

API 预览目录中提供的 Maxine 功能也将作为 NVIDIA NIM 微服务提供。这些微服务为 AI 部署提供高度优化的通用解决方案,提供具有行业标准 API 的预构建容器,可将部署时间从数周大幅缩短到几分钟。它们支持各种 NVIDIA 硬件平台和云提供商,确保可移植性以及与热门 AI 框架轻松集成。

作为NVIDIA AI Enterprise软件平台的一部分,NVIDIA NIM 微服务具有严格的验证、安全更新和企业级支持,是寻求企业级功能的企业的理想选择。

眼神交流 NIM 和 Audio2Face-2D 预览版已发布

Maxine 的两个热门功能,即 Eye Contact (现在作为 NVIDIA 的 NIM 微服务) 和 Audio2Face-2D,现在在 NVIDIA API 目录中提供。

眼神交流使用户在视频通话期间看起来像直接眼神交流一样,从而增强用户在虚拟会议中的参与度和出席率。该微服务的发布在实施眼神交流时实现了更高的可移植性和灵活性。

Speech Live Portrait / Audio2Face-2D 在 Early Access 计划中发布,可根据音频输入对静态肖像进行动画处理,从而根据单个图像创建动态的、会话的虚拟形象。

Orpheus 总裁兼首席开发者 Benjamin Portman 说:“将 Maxine 集成到我们的应用中花费了 2 个小时,API 非常流畅,” said。

视频 1. NVIDIA Maxine 的 Eye Contact NIM 微服务和 Video Relighting

高级视频和音频增强功能

随着视频和音频技术的不断发展,一些新的增强功能被引入以增强用户体验:

  • 视频重照
  • Studio Voice
  • 背景降噪 2.0
  • Maxine 托管 API

视频重照

Maxine Video Relighting 微服务 (目前处于 Early Access 阶段) 支持使用 3D HDR 内容地图进行实时照明,从而实现前景照明与各种背景和环境的无缝匹配。

Video Relighting 利用 AI 实时改善照明条件,确保受试者始终保持最佳状态,无论其物理环境或虚拟背景如何,都能获得匹配的、逼真的照明。这一功能在各种次优照明情况下保持最佳外观特别有用。

Studio Voice

Studio Voice 的最新版本在质量和性能方面实现了显著改进,使其首次适用于实时通信。这一进步使用低延迟模型为日常视频会议设置带来了 studio-quality 的音频。

背景降噪 2.0

Background Noise Reduction 2.0 在音频清晰度方面树立了新标准,能够有效消除背景噪音,同时保持语音的自然质量。在多样化的环境中,保持清晰沟通对此功能至关重要。

在与自动语音识别(ASR)技术结合使用时,此模型也特别有用,可以减少转录中的错误。

图 2 显示了使用 Background Noise Reduction 2.0 实现的 Character Error Rate (CER) 改进。

Image of a graph showing 35% Character Error Rate (CER) Improvements, using Background Noise Reduction 2.0.
图 2. 使用 Maxine 的背景降噪 2.0 实现的字符错误率 (Character Error Rate) 改进

图 3 显示了使用 Background Noise Reduction 2.0 实现的 Word Error Rate (WER) 改进。

Image of a graph showing 33% Word Error Rate (WER) improvements, using Background Noise Reduction 2.0.
图 3. 使用 Maxine 的 Background Noise Reduction 2.0 实现的 Word Error Rate (WER) 改进

Maxine 托管 API

Maxine 功能,从行业领先的 Eye Contact 开始,可作为 NVIDIA Compute Framework (NVCF) 上的 REST APIs 使用。它们为 Maxine 算法提供了灵活的低代码部署选项。前面提到的 Studio Voice 即将作为 NVIDIA Compute Framework (NVCF) API 推出。

助力开发者和行业

NVIDIA Maxine 是一个综合性平台,赋能您创建下一代远程呈现和数字人创建应用。

通过提供这些工具,NVIDIA 使娱乐、游戏、医疗健康和教育等行业能够使用 AI 驱动的通信技术的强大功能。该平台能够从 2D 输入创建沉浸式 3D 体验,对于蓬勃发展的数字人类市场尤为重要。

随着虚拟意见领袖、AI 助手和数字虚拟形象的日益普及,Maxine 的技术为打造可靠且引人入胜的数字人物奠定了基础。

展望未来

SIGGRAPH 2024 表明,NVIDIA Maxine 将在塑造数字通信和 telepresence 的未来方面发挥关键作用。凭借其先进的 AI 能力并专注于开发者可访问性,Maxine 开发者平台不仅支持现有的通信范式,还为您提供工具,为我们在数字空间中的交互方式创造全新的可能性。

Maxine 3D、advanced audio-visual enhancementseasy-to-integrate APIs 相结合,使 NVIDIA 合作伙伴处于数字人类革命的前沿。

  • 随着这些技术的市场持续增长

,NVIDIA 的创新将为各行各业带来新一波immersivelifelike数字体验。

 

 

Tags