生成式人工智能/大语言模型

使用先进的开放式 NVIDIA Llama Nemotron 推理模型构建企业级 AI 智能体

企业组织正在采用 AI 智能体 来提高生产力并简化运营。为了更大限度地发挥影响,这些智能体需要强大的推理能力来解决复杂的问题,发现隐藏的联系,并在动态环境中自主做出逻辑决策。

由于推理模型能够解决复杂问题,因此已成为代理式 AI 生态系统的关键部分。通过使用长思考、Best-of-N 或自我验证等技术,这些模型可以更好地处理代理式流程不可或缺的推理密集型任务。

从自动化客户支持到优化供应链和执行财务策略,推理模型正在为各种应用提供支持。在物流领域,它们通过模拟假设场景 (例如在中断运输期间改变货运路线) 来提高效率。在科学研究中,它们有助于生成假设和多步骤解决问题。在医疗健康领域,它们增强了诊断和治疗规划。通过实现精确的逻辑推理,这些模型正在推动各行各业实现更可靠、更可扩展的 AI 解决方案。

本文将介绍 NVIDIA Llama Nemotron 推理模型系列 。我们将介绍构建这一系列先进模型的过程。我们还将探索如何在 AI 智能体和协作式多智能体系统 中使用这些模型,以推动推理之外的工作,并将其用于开放式的通用领域任务。

NVIDIA Llama Nemotron 推理模型系列

今天,NVIDIA 宣布推出 NVIDIA Llama Nemotron ,这是一个开放的领先 AI 模型系列,提供卓越的推理能力、计算效率和供企业使用的开放许可证。

该系列有三种规模,可根据开发者的用例、计算可用性和准确性要求,为其提供合适的模型大小。

  • Nano:8B 从 Llama 3.1 8B 中提炼而成,可在 PC 和边缘上实现更高的准确性。
  • Super:从 Llama 3.3 70B 中提取出 49B,可在数据中心 GPU 上实现更高的准确性和吞吐量。此模型是本文的重点。
  • Ultra:从 Llama 3.1 405B 中提炼出的 253B,可在多 GPU 数据中心服务器上实现更高的代理精度 (即将推出)。

带有推理模型的 Llama Nemotron 在行业标准推理和代理基准测试中提供了领先的准确性,这些基准测试包括 GPQA Diamond、AIME 2024、AIME 2025、MATH 500 和 BFCL,以及 Arena Hard。此外,这些模型具有商业可行性,因为它们基于开放的 Llama 模型构建,并基于 NVIDIA 审查的数据集以及使用开放模型合成生成的数据进行训练。

除了本文中概述的方法,以及该模型已获得许可,我们还将分享 Hugging Face 上的后训练流程中使用的大部分数据。这些数据包括后训练数据,包含近 3000 万个高质量数据样本,重点关注数学、代码、指令遵循、安全、聊天和推理功能。

您可以在 Hugging Face 上详细了解数据集。我们的团队致力于持续发布数据。我们还公开了 HelpSteer3,作为我们之前在 HelpSteer 和 HelpSteer2 方面工作的延续。

测试时扩展概述

在深入探讨 NVIDIA 如何创建这些令人惊叹的模型之前,我们需要简要解释测试时扩展和推理,以及它们对使用 AI 进行构建的组织的重要性。

测试时扩展是一种在推理期间应用更多计算的技术,以便通过各种选项进行思考和推理,从而改善模型或系统的响应。这有助于在关键的下游任务上扩展模型或系统的性能。

通过问题进行推理是一项复杂的任务,而测试时计算是使这些模型达到对前面提到的用例有用所需的推理水平的重要组成部分。让模型在推理过程中使用更多资源,为探索更多可能性开辟了更大的空间。这增加了模型建立所需连接的可能性,或者在没有额外时间的情况下达到它可能无法达到的解决方案的可能性,例如使用 GPU 或其他专用硬件加速推理过程,或者使用像 cuOpt 和 cuQuantum 这样的库来优化计算。

虽然推理和测试时扩展对代理式工作流中的许多重要任务大有益,但在当前的先进推理模型中存在一个常见问题。具体来说,开发者无法选择模型推理的时间,因为他们无法在“推理”和“推理”操作之间进行选择。Llama Nemotron 系列模型通过系统提示打开或关闭推理,使模型在非推理问题领域也保持有用性。

使用推理构建 Llama Nemotron

Llama 3.3 Nemotron 49B Instruct 基于 Llama 3.3 70B Instruct。它经历了一个广泛的后训练阶段,以减小模型的大小,同时保留并增强模型的原始功能。

使用了后训练的三个广泛阶段:

  1. 蒸馏到神经架构搜索和知识蒸馏 。如需了解更多信息,请参阅 Puzzle:基于 Distillation-Based NAS 的 NAS,用于推理优化型 LLM
  2. 利用 NVIDIA 创建的 60B 个合成数据令牌(代表 3000 万个生成样本中的 400 万个)进行监督式微调,以确保在推理开启和推理关闭领域的高质量内容。在此阶段,该团队利用 NVIDIA NeMo 框架 高效扩展训练后工作流。
  3. 通过 NVIDIA NeMo 完成强化学习 (RL) 阶段,以增强聊天功能和指令遵循性能。这可确保对各种任务做出高质量的响应。
The diagram shows the flow of building the Llama Nemotron reasoning family of models which starts with the Llama family as base. These models are pruned to improve performance and distilled to improve efficiency. They are aligned for human preferences with synthetic data and further distilled with NVIDIA-curated synthetic data generated from DeepSeek-R1 to add reasoning capabilities.
图 1。Llama Nemotron 推理模型基于 Llama 开放模型构建,并使用由 DeepSeek-R1 生成的 NVIDIA 精选合成数据进行后训练,为代理式 AI 系统添加高质量的推理功能

神经架构搜索 (Neural Architecture Search, NAS) 技术报告详细介绍了第一阶段 (图 1 中的步骤 1 和 2) 。在简化的形式中,可以将其视为通过多种蒸馏和 NAS 方法,将每个模型的参数计数“合理地调整”为基于特定旗舰硬件的预先选定的最佳计数。模型后训练的第二阶段 (图 1 中的步骤 3 和 4) 涉及合成数据驱动的监督式微调,旨在实现一些重要目标。第一个目标是提高多项任务的非推理性能。后训练流程的这一部分 (第 3 步) 利用 NVIDIA 精心策划的提示,通过基准模型 (Llama 3.3 70B Instruct) 以及 Qwen2.5 7B Math 和 Coder 模型创建合成数据。然后,NVIDIA 对这些数据进行筛选和审查,以用于增强 Chat、Math 和 Code 任务的推理性能。此外,我们还付出了大量努力,确保 Instruction Following 和 Function Calling 的推理性能在此阶段达到一流水平。

第二个目标(第 4 步)是基于精心策划的 DeepSeek-R1 数据(仅适用于数学、代码和科学)进行训练,从而创建出色的推理模型。每个提示和响应都经过精心策划,确保在推理增强过程中只使用高质量的数据,并借助 NVIDIA NeMo 框架 。这种方法可确保我们有选择地将 DeepSeek-R1 的强大推理能力运用到其擅长的领域。

“Reason ON/OFF” (图 1 中的步骤 3 和 4) 是同时训练的,并且仅因系统提示而有所区别,这意味着生成的模型既可以作为推理模型,也可以作为带有开关 (系统提示) 的传统 LLM 在每种模式之间进行切换。这样做的目的是让组织可以使用一个大小合适的模型来执行推理和非推理任务。

最后阶段使用强化学习来更好地与用户意图和期望保持一致 (图 1 中的步骤 5 和 6) 。该模型在执行这两项任务时利用 REINFORCE 算法和基于启发式验证器进行强化学习,以实现 Instruction Following 和 Function Calling 增强 (步骤 5) 。之后,使用 Reinforcement Learning from Human Feedback (RLHF) ,使用 HelpSteer2 数据集和 NVIDIA Llama 3.1 Nemotron Reward 模型 (步骤 6) 将最终模型与聊天用例对齐。

这些细致的后训练步骤可生成一流的推理模型,而且本质上不会影响函数调用和指令遵循性能,即在这两种范式之间进行切换。此训练后工作流创建的模型在代理式 AI 工作流和工作流的每个步骤中都有效,同时为旗舰 NVIDIA 硬件保持最佳参数数量。

借助 Llama Nemotron Super 在基准测试中实现领先的准确性

NVIDIA Llama Nemotron 模型将 DeepSeek-R1 等模型的强大推理能力与 Meta 的 Llama 3.3 70B Instruct 的出色的世界知识和可靠工具调用以及指令遵循相结合,从而生成在关键代理任务中领先的模型。

The bar charts show Llama Nemotron Super delivering leading performance on GPQA Diamond, AIME 2024/2-25, MATH-500, MBPP, Arena Hard, BFCL, and IFEval.
图 2。Llama Nemotron 模型系列在一系列推理和代理基准测试中表现出色
The chart plots Throughput v. accuracy performance of Llama Nemotron 49B, DeepSeek R1 Llama 70B, and Llama 3.3. Llama Nemotron 49B  shows highest accuracy and 5x higher throughput. Accuracy numbers are the equally weighted average of GPQA-Diamond, AIME2025,  MATH500, BFCL, Arena Hard benchmarks.
图 3。Llama Nemotron Super 为代理式任务提供更高的准确性和吞吐量,从而降低推理成本

使用 Llama Nemotron Super 为系统提供动力支持,以执行复杂任务

本节将介绍一种新的测试时扩展方法,该方法使用由 NVIDIA Llama 3.3 Nemotron 49B Instruct 提供支持的多智能体协作系统。它以 92.7 的分数在 Arena Hard 基准测试 (预测 Chatbot Arena 性能的关键指标) 中实现了最先进的性能。有关更多详细信息,请参阅 专用反馈和编辑模型为开放式通用域任务提供推理时间缩放功能

许多测试时扩展方法主要用于解决具有可验证解决方案的问题,包括数学问题、逻辑推理和竞争性编程。然而,许多重要任务都没有可验证的解决方案,包括提出研究想法、撰写研究论文或开发有效的方法来交付复杂的软件产品,例如使用 GPU、PyTorch 或 pandas 等工具。

Llama Nemotron 测试时缩放系统解决了这一限制。该方法采用更人性化的方法来解决这些问题,并涉及以下步骤:

  1. 针对某个问题集思广益地制定一个或多个初始解决方案
  2. 从朋友、同事或其他专家处获取有关解决方案的反馈
  3. 根据提供的反馈编辑初始解决方案
  4. 在合并编辑后,选择最具前景的解决方案

这种方法能够在广泛的通用域任务中利用测试时扩展,例如在使用 GPU 和 PyTorch 等技术时。

对于这种多智能体协作系统的概念化,一个很好的类比是团队合作,为没有预定义解决方案的问题提出最佳解决方案。相比之下,长思考可以被概念化为一个经过训练的人长期思考一个问题,得出一个可以用答案进行检查的答案。

开始使用 NVIDIA Llama Nemotron 模型

他们将蒸馏、神经架构搜索、强化学习和传统对齐策略巧妙地结合在一起,创建了出色的 NVIDIA Llama Nemotron 推理模型 。借助这些模型,您可以选择大小合适的模型,这些模型不会影响功能,并且经过构建可保留其指令遵循和函数调用优势,确保它们在代理式 AI 系统中具有力倍增能力。您可以利用这些模型为多智能体协作系统提供支持,以处理艰巨的开放式通用领域任务。

除了作为此版本的一部分而开放源代码的模型外, 大量数据 用于训练过程中每个步骤的 recipe (通过技术报告) 以及 test-time scaling 系统将发布以供许可使用。您可以使用这两种方法构建自己的自定义模型 SFT 以及 强化学习 使用 NVIDIA NeMo 框架。

探索此模型系列,并 在 build.nvidia.com 上开始原型设计 。对于生产,在任何 GPU 加速系统上部署专用的 API 端点,并由 NVIDIA AI Enterprise 提供支持,以实现高性能和可靠性。或者,只需通过 NVIDIA 生态系统合作伙伴 (包括 Baseten Fireworks AI Together AI ) 单击几下,即可获得专用的托管 NVIDIA NIM 端点。

如需详细了解自定义推理模型和推理用例,请查看 NVIDIA GTC 2025 会议“Build Reasoning Models to Achieve Advanced Agentic AI Autonomy”

 

标签