生成式人工智能/大语言模型

借助 NVIDIA Nemotron 开放推理模型推动代理式 AI 发展

随着 AI 向更大的自主性迈进,能够独立决策的 AI 智能体的出现标志着一个重要的里程碑。为了在复杂的现实环境中有效发挥作用,这些智能体必须超越模式识别和统计预测。这是由采用 reasoning models 驱动的,这些模型旨在处理信息、应用逻辑和做出决策,从而实现更智能、适应性更强的行为。

通过将结构化思维与情境感知相结合,推理模型为智能体提供认知基础,使其能够以类似人类的理解来处理动态任务。

企业需要在任何平台上运行完全控制的高级推理模型,以更大限度地提高智能体的能力。为了加速企业采用 AI 智能体,NVIDIA 正在构建 NVIDIA Nemotron 开放模型系列。这些模型在推理和代理式任务方面实现了领先的准确性,并在从边缘到数据中心和云的加速计算中提供了开放推理模型中的最高计算效率。

本文将介绍构建 Nemotron 模型的过程,该过程从可用的最佳基础模型开始。然后,对这些模型进行增强,以实现推理和代理性能,并更大限度地提高计算效率、吞吐量和延迟性能。

领先的准确性、更高的吞吐量和更低的 TCO

为了创建 Nemotron 模型,团队从开放前沿模型开始,并执行一系列关键步骤,如 Table 1 和 Figure 1 所示。

技术 说明 目的/ 优势
神经架构搜索 (Neural Architecture Search) 自动探索模型设计,平衡 Llama 等 LLM 的准确性、延迟和效率,实现大规模代理式 AI。 优化模型结构,在性能和效率之间实现最佳权衡。
知识蒸馏 在训练的多个阶段都使用了Synthetic data generation (SDG),以及精心策划的高质量数据,将推理技能从大型模型转移到速度更快的小型模型,从而在提高性能的同时降低计算成本。 以更低的计算成本创建具有强大推理能力的高效模型。
监督式微调 使用混合推理和非推理数据训练模型,帮助它们根据任务类型调整响应。 提高各种任务的模型适应性和响应质量。
强化学习 (RL) 通过奖励准确、结构化的输出,进一步改进非推理任务的推理质量和性能,提高性能,而不仅仅是监督式学习。 通过基于 reward-based 优化提高输出质量和任务性能。
表 1。训练 NVIDIA Nemotron 模型的关键步骤
Diagram showing the model optimization pipeline: starting from an open model, applying NAS, knowledge distillation, synthetic data pretraining with reasoning prompts, supervised fine-tuning, and reinforcement learning to develop efficient, high-performing reasoning models.
图 1。NVIDIA Nemotron 模型训练流程

得益于这些优化技术,Nemotron 模型能够在显著减小模型大小的同时实现领先的准确性,从而提供更高的吞吐量。这降低了总体 TCO,使它们非常适合企业使用。如图 2 所示,与其他领先的开放模型相比,之前发布的 Llama Nemotron 模型可提供高达 5x 的吞吐量。

Chart comparing average accuracy (x-axis) versus throughput (y-axis) for Llama 3.3 70B, Llama Nemotron Super, and DeepSeek-R1 Llama. Llama Nemotron Super shows 5x higher throughput.
图 2。Llama Nemotron Super 模型的平均准确率与吞吐量比较

欧洲的模型构建商采用 NVIDIA Nemotron

GTC 巴黎大会上,NVIDIA 宣布与欧洲 (包括法国、德国、意大利、卢森堡、波兰、西班牙和瑞典) 的几位杰出主权 AI 模型开发者合作,共同创建其模型的优化版本。Nemotron 模型还可作为 NVIDIA NIM 推理微服务使用,并针对高吞吐量和低延迟进行了优化。NVIDIA NIM 利用行业标准 API,在本地或云端提供无缝、可扩展的 AI 推理

宣布推出适用于 AI 智能体的先进模型 Mistral-Nemotron

Mistral-Nemotron 模型是 Nemotron 系列的新成员,是企业代理式 AI 的重大进步。Mistral-Nemotron 是一种 Turbo 模型,可提供显著的计算效率和高精度,以满足企业级 AI 智能体的严苛需求。

Mistral-Nemotron 专为各种专业应用而设计,在编码和指令遵循方面表现出色。它在软件开发和客户服务等领域表现出色。Mistral-Nemotron 在工具调用方面也表现出色,非常适合企业应用中的构建智能体。

Mistral-Nemotron 模型作为 NIM 微服务提供,可提供高吞吐量和低延迟。您可以下载 NIM 微服务,并将其部署到从本地到云端的任意位置。

更多领先的企业级 Nemotron 开放模型

Llama Nemotron UltraLlama Nemotron Nano 等企业就绪型模型在推理、数学和工具调用方面处于领先地位,其大小也各不相同。最近发布的 Llama Nemotron Vision 在 OCRBench V2 中的视觉推理和文档理解方面排名最高。

NVIDIA 研究团队还推出了 AceReasoning NemotronNemotron-H,前者在数学和编码方面表现出色,后者是 Mamba-Transformer 混合模型系列,可提供高准确度和更快的推理速度。

Llama Nemotron Safety Guard V2 是领先的开放内容安全模型,在 NVIDIA 测试期间,其总体平均准确率最高,为 81.6%。它使用 Nemotron 内容安全数据集 V2 进行训练,具有超过 33K 次标注的人类 – LLM 交互。它基于 Llama 3.1 8B Instruct 模型构建,可将提示和响应分类为安全或不安全,并使用 NVIDIA 详细的安全风险分类标记违规情况。

在智能体中,Nemotron-CORTEXA 作为最先进的软件工程智能体脱颖而出,旨在解决 GitHub 存储库上的实际问题。它可以识别正确的源文件和代码片段,生成多个错误修复和单元测试,并使用 LLM-as-a-judge 策略选择最佳解决方案。它解决了 SWE-bench Verified 集中 68.2%的问题,提高了分辨率的准确性和效率。

Nemotron 团队还开源了用于训练模型的数据集,这些数据集一直在 Hugging Face 排行榜上名列前茅。

OpenMathReasoning 数据集旨在训练 LLM 进行高级数学问题解决。相反,OpenCodeReasoning 数据集侧重于增强 LLM 在代码生成和推理方面的能力,包括竞争性编程挑战和由 DeepSeek-R1 等模型生成的高质量解决方案。

Nemotron-Personas 是一个开源合成角色数据集,与美国的真实人口和地理分布保持一致,以反映人口在年龄、教育、职业和种族等属性方面的多样性。它使用 Gretel Data Designer 进行设计,旨在提高合成数据的多样性和复杂性,并减少模型偏差,支持各种领域和用例。

开始使用 NVIDIA Nemotron 模型

直接在浏览器中试用 Mistral-Nemotron NIM。敬请关注即将推出的可下载 NIM。您还可以访问之前发布的 Llama Nemotron 模型和训练数据集:

标签