通过利用大语言模型和语音模型,生成式 AI 正在创建智能 3D 虚拟形象,使用户能够在从视频游戏到客户服务等场景中进行自然对话。为了让这些角色更加栩栩如生,它们需要具备类人化的情感表达。NVIDIA Audio2Face 借助生成式 AI 技术,提供实时的面部动画与唇形同步,加速了逼真数字角色的开发进程。
今天,NVIDIA 正在开源我们的 Audio2Face 技术,以加速 AI 驱动的虚拟形象在游戏和 3D 应用中的应用。
Audio2Face 使用 AI 技术根据音频输入生成逼真的面部动画。它通过分析音素、语调等声学特征,创建动画数据流,并将其映射到角色的面部姿态。这些数据既可针对预先编写的内容进行离线渲染,也可为由 AI 驱动的动态角色实现实时流式传输,从而实现精准的唇形同步与自然的情感表达。

NVIDIA 正在开源 Audio2Face 模型和 SDK,使每位游戏和 3D 应用开发者都能利用先进的动画技术,构建并部署高保真角色。我们同时开源了 Audio2Face 的训练框架,以便开发者可根据特定用例对现有模型进行微调和自定义。
请参阅下表,获取开源工具的完整列表,并访问 NVIDIA Developer 了解更多信息。
软件包 | 用途 |
Audio2Face SDK | 用于在设备上或云中创作和运行面部动画的库和文档 |
Autodesk Maya 插件 | 具有本地执行功能的参考插件 (v2.0) ,允许用户在 Maya 中为角色发送音频输入和接收面部动画 |
Unreal Engine 5 插件 | UE5 插件 (v2.5) 适用于 UE 5.5 和 5.6,允许用户在 Unreal Engine 5 中为角色发送音频输入和接收面部动画 |
Audio2Face 训练框架 | 框架 (v1.0) 可以使用您的数据创建 Audio2Face 模型 |
软件包 | 用途 |
Audio2Face 训练数据示例 | 示例数据,用于开始使用训练框架 |
Audio2Face 模型 | 回归 (v2.2) 和扩散 (v3.0) 模型,以生成唇部同步 |
Audio2Emotion 模型 | 生产 (v2.2) 和实验 (v3.0) 模型,以根据音频推断情绪状态 |
借助开源技术,开发者、学生和研究人员能够学习并构建先进的代码。这形成了一个良性循环:社区成员可以持续添加新功能,并针对不同应用场景优化技术。我们很高兴能让高质量的面部动画技术变得更加易于理解,并期待看到社区利用它创造出精彩的内容。欢迎加入 Discord 上的 NVIDIA Audio2Face 开发者社区,分享你的最新作品。
业界领先的 Audio2Face 模型已广泛应用于游戏、媒体与娱乐以及客户服务行业。包括 Convai、Codemasters、GSC Game World、Inworld AI、网易、Reallusion、完美世界游戏、Streamlabs 和 UneeQ Digital Humans 在内的众多独立软件开发商(ISV)及游戏开发商,均已将 Audio2Face 集成至其应用中。
Reallusion 为创作者提供了构建 3D 角色的平台,并将 Audio2Face 集成到其工具套件中。“Audio2Face 利用 AI 技术,从音频中生成富有表现力的多语种面部动画,”Reallusion, Inc. 创新主管 Elvis Huang 表示,“它与 Reallusion 的 iClone、Character Creator 以及 iClone AI Assistant 实现无缝集成,结合面部关键帧编辑、面部操控和 AccuLip 等高级编辑工具,使高质量角色动画的制作变得更加高效与便捷。”
“异形:暴入侵:进化版 (Alien: Rogue Incursion Evolved Edition)”的开发者 Survios 通过优化动画制作流程,显著提升了高质量角色体验的交付速度。Survios 游戏总监兼首席工程师 Eugene Elkin 表示:“通过将 Audio2Face 集成到 Evolved Edition 中,我们简化了口型同步与面部捕捉的流程,确保玩家获得更加身临其境且真实的角色体验。”
“切尔诺贝利 (Chernobylite)”游戏系列的开发商 The Farm 51 在其最新作品中集成了 Audio2Face 技术。The Farm 51 创意总监 Wojciech Pazdur 表示:“将 NVIDIA Audio2Face 技术集成到《切尔诺贝利 2:排除区 (Chernobylite 2: Exclusion Zone)》对我们来说是一项变革。它使我们能够直接从音频生成高度精细的面部动画,大幅节省了动画制作所需的时间。原版《切尔诺贝利人 (Chernobylite)》中难以实现的创意如今成为可能,为角色带来了更深层次的真实感与沉浸感,让他们的表演比以往更加生动自然。”
以下是本月面向游戏开发者发布的其他公告。
RTX Kit 的最新更新
RTX Kit 是我们用于神经网络渲染的技术套件,能够利用 AI 实现游戏中的光线追踪,渲染包含大规模几何图形的场景,并创建具备逼真视觉效果的游戏角色。
RTX 神经纹理压缩 SDK 可在不牺牲质量的情况下显著降低高质量纹理的显存占用,并实现了一系列优化,包括:
- 针对超大型纹理集进行了库优化,并通过 DX12 上的协作向量提高了性能
- 扩展了渲染示例的功能集,提高了性能并支持 DLSS
- 在压缩和解压缩非常大的纹理集时,改进了命令行工具
- 全新 Intel Sponza 场景,非常适合基准测试
RTX 全局照明 SDK 提供了光线追踪间接照明解决方案,并已获得进一步改进:
- 在 pathtracer 示例中添加 VSync 选项
- 通过材质解调开关添加缓存可视化。
- 空间哈希辐射缓存 (SHaRC) 算法消除了规整选项,引入了可选的材质解调、额外的调试通过和文档更新
NVIDIA vGPU 可扩展游戏开发环境
NVIDIA 虚拟 GPU (vGPU) 技术支持在虚拟化环境中实现 GPU 资源的共享,使多个用户能够高效共用 GPU,从而为整个组织的游戏开发者提供可扩展的图形计算能力。Activision 利用 NVIDIA vGPU 彻底改造了其全球集成、交付和部署工作流,仅用 6 台由 RTX GPU 驱动的设备便取代了 100 台传统服务器。结果:
- 占地面积减少 82%
- 功耗降低 72%
- 每天在 3000 名开发者和 500 多个系统中运行超过 250000 个任务
通过整合基础设施并启用动态 GPU 分配,Activision 构建了一个可扩展的自动化测试平台,支持从多人验证到视觉回归及性能测试的各类任务,显著加快了迭代速度,并全面提升了代码质量。
探索 Activision 案例,了解集中式 GPU 调度如何重塑 AAA 游戏开发流程。
SIGGRAPH 2025 的图形开发和性能调优会议
NVIDIA 举办了一系列培训课程和技术演示。特别针对游戏开发者的实践实验室,展示了 Nsight 图形开发者工具套件的最新进展。这些会议的录像现已可通过 NVIDIA On-Demand 进行流式传输。
Nsight Graphics in Action:开发和调试现代光线追踪应用 专注于帧的分析与调试,以识别和诊断常见的渲染错误及性能瓶颈,并通过全新的 Graphics Capture 工具提供扩展且现代化的工作流程。
Nsight Graphics in Action:在现代光线追踪应用中优化着色器是对 GPU Trace Profiler 的深入探索,可帮助您深入分析着色器代码的每一行,精准识别运行时的性能瓶颈。
借助 NVIDIA Nsight Systems 优化显存管理 展示了如何利用长达几分钟的追踪来全面分析应用程序在 CPU 和 GPU 上的性能表现及资源利用率。重点介绍了全新的图形热点分析工具,该工具可将原始时间轴数据转化为基于 Web 的界面,并提供易于阅读的并发分析摘要、帧卡顿信息等内容。
下载 Nsight Graphics 和 Nsight Systems,开始优化您的游戏和图形应用程序。
下一步是什么
如果您今天早上未能观看我们关于 Unreal Engine 5.6 中 RTX Mega Geometry 的“借助 NVIDIA 实现升级”在线研讨会,请务必点击此处点播回看 这里。
单击此处查看游戏开发者资源的完整列表,并关注我们,及时获取 NVIDIA 游戏开发的最新资讯:
- 加入 NVIDIA 开发者计划 (选择游戏行业)
- 在社交媒体上关注我们: X、LinkedIn、Facebook 和 YouTube
- 加入我们的 Discord 社区