NVIDIA Maxine

利用 AI 重塑实时视频通信

开始使用


什么是 NVIDIA Maxine?

NVIDIA Maxine 是 NVIDIA AI 平台的一部分,这是一款 GPU 加速的 SDK 套件,利用 AI 技术重塑音频和视频通信,加强标准麦克风和摄像头的效果,实现清晰的在线通信。Maxine 具有出色的实时 AI 音频、视频和增强现实功能,可内置于可定制的端到端深度学习工作流。

Maxine 的 AI SDK(Audio Effects、Video Effects 和 Augmented Reality)经过高度优化并且具有可扩展性,可在 GPU、PC、数据中心和云端提供出色性能。Maxine 还可与其他 NVIDIA AI 产品(例如用于构建对话式 AI 应用的 SDK NVIDIA Riva)一起使用,可提供基于语言的出色功能(例如脚本转录和翻译),以及用于加速编码、解码和转码的 SDK NVIDIA Video Codec

可在 PC、数据中心和云端使用。





NVIDIA Maxine 有哪些优势?

先进的 NVIDIA AI 功能

Maxine 基于 NVIDIA AI 平台构建,具有出色的预训练模型,可实现高质量音频、视频和增强现实 (AR) 功能。

实时 AI 性能

加速和优化的 AI 功能,可在 GPU 上进行实时推理。

端到端解决方案

完整的端到端流程,用于视频解码、转码、编码、对话式 AI、计算机视觉、视频流和分析。

合作伙伴

Avaya,NVIDIA Maxine 合作伙伴
AVerMedia,NVIDIA Maxine 合作伙伴
Be.Live,NVIDIA Maxine 合作伙伴
Cimpatico Studios,NVIDIA Maxine 合作伙伴
Cyberlink,NVIDIA Maxine 合作伙伴
Headroom,NVIDIA Maxine 合作伙伴
Logitech,NVIDIA Maxine 合作伙伴
Notch,NVIDIA Maxine 合作伙伴
OBS,NVIDIA Maxine 合作伙伴
Pexip,NVIDIA Maxine 合作伙伴
Pixotope,NVIDIA Maxine 合作伙伴
SoftBank,NVIDIA Maxine 合作伙伴
腾讯云,NVIDIA Maxine 合作伙伴
Touchcast,NVIDIA Maxine 合作伙伴
XSplit,NVIDIA Maxine 合作伙伴

Maxine SDK

Audio Effects SDK

Audio Effects SDK 提供基于 AI 的音频质量增强算法,提高窄带、宽带和超宽带音频的端到端对话质量。


经过优化的高性能 AI 模型允许每个 GPU 实时处理数千个音频流,从而在主观和客观质量指标(如语音质量感知评估和感知客观听力质量评估)中将音频质量提升多达两个均值意见得分点。在桌面应用中,经过优化的模型允许多个应用(例如游戏)同步运行,同时更大限度减少对两个应用质量的减少。


开发者可以集成到独立的 Windows 和 Linux 应用,以处理麦克风和扬声器音频,也可以集成到高密度服务器中,以便每台服务器处理数千个音频流。


主要功能包括:

  • 音频超分辨率:将音频输入流从 8kHz 提升至 16kHz,并将采样率从 16kHz 提高到 48kHz,从而提高实时音频质量
  • 声学回声消除:消除输入音频流中的实时声学设备回声,从而去除不匹配的声对和双声。借助基于 AI 的技术,Maxine 实现了比传统数字信号处理算法更有效的回声消除
  • 降噪:使用先进的 AI 模型消除多种常见的背景噪音,同时保留说话者的自然声音。
  • 房间回声消除:使用先进的 AI 模型消除音频中的混响,恢复说话者声音的清晰度。

使用这些功能,开发者还可以将降噪和房间回声消除相结合,同时提供优化的性能和实时延迟,从而创建创新的多重效果。


开始使用 Audio Effects SDK  









Video Effects SDK

Maxine 的 Video Effects SDK 支持基于 AI 的视觉效果,可使用标准网络摄像头输入运行,并可轻松集成到视频会议和内容创作工作流。底层深度学习模型通过 NVIDIA AI 进行优化,使用 NVIDIA® TensorRT™ 以实现高性能推理,使开发者能够在实时应用中应用多种效果。


主要功能包括:

  • 超高分辨率:使用 AI 神经网络生成细节增强的视频,以高达 4 倍的高质量扩展减少伪影并保留纹理。
  • 放大器:使用可调整的锐化参数提供高吞吐量和高达 4 倍的高质量缩放视频。
  • 减少伪影:在保留原始细节的同时,从已编码的视频中消除压缩伪影。
  • 视频降噪:消除视频拍摄过程中引入的低光照摄像头噪音,同时保留细节。
  • 虚拟背景:分割出人物,并应用 AI 赋能的背景消除、替换或模糊处理。

开始使用 Video Effects SDK  

Augmented Reality SDK

Augmented Reality SDK 基于标准网络摄像头馈送,提供基于 AI 的实时 3D 面部追踪和身体姿态估计。开发者可以创建独特的 AR 效果,例如在面部覆盖 3D 内容、实时驱动 3D 角色和虚拟交互。


主要功能包括:

  • 人脸追踪:在图像和视频中检测人脸,并指定边界框的位置和大小。
  • 人脸特征追踪:使用 126 个关键点识别面部特征和轮廓,并实时追踪头部移动和表情在三自由度中造成的头部姿势和面部变形。
  • 人脸网格:以高达 3000 个顶点和 6 个自由度的 3D 网格表示人脸。
  • 身体姿态估计:以 2D 和 3D 形式预测和追踪人体的 34 个关键点。通常用于实时的活动识别、动作传输和虚拟交互。
  • 身体姿态估计:以 2D 和 3D 形式预测和追踪人体的 34 个关键点。通常用于实时的活动识别、动作传输和虚拟交互。
  • 眼神交流:通过预估和将视线与摄像头对齐来模拟眼神交流
  • Audio2Face(即将推出):仅根据音频输入即可借助高保真度为 2D 或 3D 数字面部制作动画。

开始使用 Augmented Reality SDK  








Maxine 项目基于功能强大的 NVIDIA AI SDK 构建

探索与 Maxine 模块化、可定制和可扩展工作流相集成的技术。例如,在使用受众所用的语言时,可以显著改善与全球受众的协作。为实现更顺畅的沟通和更深入的理解,Maxine 项目利用 NVIDIA AI 平台并将 NVIDIA Riva 的实时翻译和文字转语音功能与 Maxine 的照片动画“实时肖像”和实时眼神交流相互集成。Maxine 项目是 NVIDIA Omniverse™ ACE 的一个参考应用,后者是用于生成交互式 AI 虚拟形象的技术平台。


NVIDIA Omniverse Avatar

Avatar Cloud Engine

Omniverse Avatar Cloud Engine 是一系列基于云的 AI 模型和服务,可供开发者轻松构建、定制和部署交互式虚拟形象。该平台可连接 NVIDIA AI 的核心技术,包括适用于语音 AI 的 NVIDIA Riva、适用于计算机视觉的 NVIDIA Metropolis、适用于自然语言理解的 NVIDIA NeMo Megatron 以及 NVIDIA Merlin™ 推荐引擎。

了解详情
GPU 加速的视频编码和解码

GPU 加速的视频编码和解码

Video Codec SDK 是一套全面的 API(包含高性能工具、样本和文档),用于在 Windows 和 Linux 上执行硬件加速视频编码和解码。

了解详情
NVIDIA Riva 语音 AI SDK

语音 AI

NVIDIA Riva 是 NVIDIA AI 平台的一部分,这是一款 GPU 加速的 SDK,可构建在 GPU 上提供实时性能的语音 AI 应用。

了解详情


资源

重塑视频应用

了解 Notch、Headroom、Be.Live 和 Touchcast 的开发者如何使用 NVIDIA Maxine。

立即观看

新的 NVIDIA AI 技术

了解在 GTC 2021 大会上发布的新款开发者软件工具。

阅读新闻

GTC 2022 主题演讲

聆听 NVIDIA 首席执行官黄仁勋的演讲,了解 NVIDIA Maxine 的最近更新。

立即观看

Maxine 新动态

了解先进的协作、内容创作和流媒体提供商如何使用 NVIDIA Maxine。

阅读新闻


NVIDIA 开发者计划会员可免费下载 NVIDIA Maxine。

立即下载