NVIDIA 刚刚发布了一系列小语言模型 (SLMs),可增加数字人用于增强响应能力的信息量和类型。其中包括可提供更多相关答案的新型大上下文模型,以及可将图像用作输入的新型多模态模型。这些模型现已作为 NVIDIA ACE 的一部分提供,NVIDIA ACE 是一套数字人技术,可为代理、助手和虚拟形象带来生命。
NVIDIA ACE 推出首款多模态 SLM
为了提升数字人的响应速度,他们必须能够像人类一样提取更多的世界背景。NVIDIA Nemovision-4B-Instruct 模型是一种小型多模态模型,使数字人能够理解现实世界和 Windows 桌面上的视觉图像,从而输出相关响应。
此模型使用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架和配方进行蒸馏、剪枝和量化,使其足够小,可以在广泛的 NVIDIA RTX GPU 上表现出色,同时保持开发者所需的准确性。多模式是智能体工作流的基础,使数字人能够在几乎无需用户协助的情况下推理和采取行动。
解决更大的问题需要大上下文语言模型
新的大环境 SLM 系列旨在处理大量数据输入。这使模型能够理解难度更大的提示。Mistral-NeMo-Minitron-128k-Instruct 系列模型具有 8B、4B 和 2B 参数版本,适合希望在 NVIDIA RTX AI PC 上实现速度、内存使用和准确性优化的用户。这些大环境模型可以在一次通道中处理大型数据集,从而减少分割和重新组合的需求,并提供更高的准确性。
Mistral NeMo-Minitron-8B-128k-Instruct | Mistral NeMo-12B-Instruct | Llama-3.1-8B-Instruct | Qwen-2.5-7B-Instruct | Phi-3-Small-12-8k-Instruct | Gemma-2 -9B-Instruct | ||
特征 | 上下文窗口 | 128K | 128K | 128K | 128K | 8K | 8K |
基准测试* | 说明如下 IFEval |
83.7 | 64.7 | 79.7 | 76.9 | 65.8 | 75.2 |
推理 MUSR |
12.08 | 8.48 | 8.41 | 8.45 | 16.77 | 9.74 | |
函数调用 BFCL v2 Live |
69.5% | 47.9 | 44.3% | 62.1 | 39.9 | 65.7 | |
多回合对话 MTBench (GPT4-Turbo) |
7.84 | 8.10 | 7.78 | 8.41 | 7.63 | 8.05 | |
常识 GPQA (主) 0 次射击 |
33.3% | 28.6% | 30.4 | 29.9% | 30.8 | 35.5% | |
常识 MMLU 专业版 |
33.36 | 27.97 | 30.68 | 36.52% | 38.96 | 31.95 英镑 | |
数学 GSM8k 零射 |
87.6 | 79.8 | 83.9% | 55.5% | 81.7 | 80.1 | |
编码 MBPP 0 分 |
74.1 | 66.7 | 72.8 | 73.5% | 68.7 | 44.4% | |
速度* | 延迟 (TTFT) | 190 毫秒 | 919 毫秒 | 170 毫秒 | 557 毫秒 | DNR** | 237 毫秒 |
吞吐量 (Tok/s) | 108.4 | 51.4% | 120.7 | 80.8 | DNR** | 84.4% |
表格将 Mistral NeMo-Minitron-8B-128k-Instruct 模型与尺寸范围相似的其他模型以及 Mistral NeMo 12B 教师模型进行了比较。数字越高,准确性越高。粗体数字表示最佳数字,下划线表示在 8B 模型类别中排名第二的最佳数字。 注意:使用 NVIDIA RTX 4090、Q4_0 量化的 llama.cpp 执行的模型。输入序列长度 = 2000 个令牌,输出序列长度 = 100 个令牌。*以 FP16 精度完成基准测试。速度在 INT4 量化中实现。**不以 GPT 生成的统一格式 (GGUF) 运行
抢先体验版提供 NVIDIA Nemovision-4B Instruct 和更大的上下文模型。
Audio2Face-3D NIM 微服务的新更新
在构建这些更智能的数字人时,您需要逼真的面部动画,以确保真实的交互感觉可信。
NVIDIA Audio2Face 3D NIM 微服务 使用实时音频来提供唇部同步和面部动画。现在,Audio2Face-3D NIM 微服务,一种易于使用的推理微服务,用于加速部署,可作为一个可下载的优化容器提供。此 NVIDIA NIM 微服务提供了新的配置,以提高可定制性。它还包括用于“James”数字人供公众使用的推理模型。
为 NVIDIA RTX AI PC 部署数字人变得更加容易
高效编排动画、智能和语音 AI 模型以及优化流程以更快的 PC 响应速度和更高的准确性极具挑战性。
在引入充分实现高级用例(例如自主代理)所需的多个输入和输出时,这些流程变得更加复杂。选择合适的模型和框架、编写编排代码并针对特定硬件进行优化是一项耗时的任务,会减慢开发速度。
NVIDIA 宣布推出适用于设备端工作流的新 SDK 插件和示例。此集合包括用于语音转文本转录的 NVIDIA Riva 自动语音识别 、检索增强生成 (RAG) 演示和参考实现,以及由 Audio2Face-3D 提供支持的 Unreal Engine 5 示例应用。
这些设备端插件基于 NVIDIA In-Game Inference SDK 构建,现已提供测试版。In-Game Inference SDK 通过自动下载模型和依赖项、抽象出推理库和硬件的详细信息,以及启用混合 AI 来简化 AI 集成,其中应用程序可以在 PC 上运行的 AI 与云端运行的 AI 之间轻松切换。
您可以立即在 NVIDIA Developer 处开始使用 SDK 插件和示例 。