随着大语言模型在数学和科学等领域越来越多地承担推理密集型任务,其输出长度也变得越来越长,有时会跨越数万个 token。这种转变使得高效吞吐量成为一个关键瓶颈,尤其是在现实世界、延迟敏感型环境中部署模型时。
为了应对这些挑战,并使研究社区能够推进推理模型背后的科学发展,NVIDIA 开发了 Nemotron-H-47B-Reasoning-128K 和 Nemotron-H-8B-Reasoning-128k。这两种模型还提供 FP8 量化变体。所有模型均基于 Nemotron-H-47B-Base-8K 和 Nemotron-H-8B-Base-8K 基础模型开发而成。
与类似大小的 Transformer 模型相比,该系列中功能最强大的模型 Nemotron-H-47B-Reasoning 可显著加快推理时间。值得注意的是,它提供的吞吐量比 Llama-Nemotron Super 49B V1.0 高出近 4 倍,支持 128K 令牌上下文,并且达到或超过了推理密集型任务的准确性。与 Llama-Nemotron Nano 8B V1.0 模型相比,Nemotron-H-8B-Reasoning-128k 模型也显示了类似的趋势。
这些结果表明,像 Nemotron-H 这样的混合架构可以像纯 Transformer 模型一样有效地进行后训练,同时在吞吐量和上下文长度方面也具有显著优势。
新的 Nemotron-H 推理模型系列的一个关键特征是能够在推理和非推理模式下运行。用户可以选择接收包含详细中间步骤的输出,也可以指示模型根据任务做出简洁的响应。如果未指定偏好,模型会智能地自行选择最佳策略。这种灵活的控制使模型能够轻松适应各种用例。
NVIDIA 将以开放的研究许可证发布四个 Nemotron-H Reasoning 模型,我们邀请社区使用它们进行构建、测试和创新。此处提供了模型卡和模型权重:
- Nemotron-H -47B-Reasoning-128k
- Nemotron-H-47B-Reasoning-128k-FP8
- Nemotron-H -8B-Reasoning-128k
- Nemotron-H-8B-Reasoning-128k-FP8
训练阶段
训练流程从监督式微调 (Supervised Fine-Tuning, SFT) 开始,使用包含显式推理跟踪 (包含在 标签中) 的精选示例来指导模型在得出最终答案之前逐步解决问题。这些轨迹通常表示多种可能的解路径,并鼓励模型探索替代方案和进行迭代,从而提高准确性。但是,增加的详细程度也会增加推理成本,尤其是对于更长的追踪。
为了平衡这一点,我们引入了配对示例,并删除了推理,使模型能够学习何时以及如何直接做出响应。这种双格式训练有助于模型流畅地适应不同的推理要求。
第 1 阶段:掌握数学、代码 和科学理解
微调的第一阶段专注于数学、科学和编码,这些领域的显式推理特别有价值。此处的训练数据使用的推理与非推理样本的比例为 5:1,其中一些示例可在 Llama-Nemotron-Post-Training-Dataset 中公开获取。超过 30,000 个步骤 (批量大小为 256) ,该模型在内部 STEM 基准测试中表现出了一致的改进。
第 2 阶段:扩大教学范围、对话范围和安全性
第二阶段转向指令遵循、安全对齐和多轮对话,同时继续从阶段 1 中采样,以保持强大的 STEM 性能。该数据集更紧凑 (约小 10 倍) ,并均衡混合了推理和非推理样本。这有助于模型在更广泛的任务范围内进行泛化,同时改进对推理模式切换的控制。
长语境训练
为了支持 128K 个 token 的上下文,我们使用多达 256K 个 token 的合成序列训练模型。这些模型通过将较短的对话 (来自第 2 阶段训练数据) 拼接在一起,并通过旨在强调远程记忆的任务来增强这些对话来构建。例如,我们包括:
- 参考先前轮次的后续问题
- 基于长文档的QA,需要深入理解
- 交叉参考的Multi-turn chat
- 使用干扰器执行Keyword aggregation tasks
这些示例鼓励模型开发出可靠的长上下文注意力模式。我们在非推理模式下使用 RULER 基准测试来评估此功能。在相同的 128K-token 条件下,该模型的 RULER 分数为 84%,而 Llama-Nemotron 的 RULER 分数仅为 46%,这表明长上下文处理的显著提升。
使用 GRPO 进行强化学习
在 SFT 之后,我们在多个阶段应用了 Group Relative Policy Optimization (GRPO) 。每个阶段都针对特定技能 (如 instruction following 或 tool use) ,方法是使用自动验证器创建特定于任务的数据集,然后使用通用奖励模型进行更广泛的微调。
指令遵循调优
为了增强指令依从性,我们从 LMSYS Chat 数据集中对 16,000 个提示词进行了采样,并将其与 IFEval 式指令配对。基于规则的验证器根据它们对每个指令的满足程度对输出进行评分,从而创建一个奖励信号,使其能够精确地优先遵循方向。
弃权的函数调用
接下来,我们使用来自 Glaive V2 和 Xlam 的大约 40,000 个有效工具使用示例进行训练。为了建立鲁棒性,我们在无法正确调用函数的情况下添加了 10,000 个负样本,从而奖励模型识别何时弃权。这种均衡的 50K 样本数据集使模型能够在使用工具时变得更加敏锐。
通过奖励模型提供一般帮助
在最后的 RL 阶段,我们使用基于 Qwen-32B 的奖励模型 (在 RewardBench 上得分 92.8) 来提高整体响应可用性。根据 HelpSteer2 中的提示,我们运行了大约 200 个 GRPO 步骤。虽然时间很短,但这一最后阶段显著提高了输出质量,尤其是在工具使用和指令依从性方面。
推理时的受控推理
可以使用系统提示符中的简单控制标签自定义 Inference-time 行为:
{'reasoning': True}
触发推理模式{'reasoning': False}
触发直接应答模式- 省略标签可让模型选择
我们的 Jinja 聊天模板会检测这些控制字符串,并相应地修改助手的响应。当存在 {'reasoning': True}
时,响应以 Assistant:<think>\n
为前缀,表示推理追踪的开始。找到 {'reasoning': False}
时,响应以 Assistant:<think></think>
为前缀,发出非推理响应的信号。这种机制几乎 100% 控制了推理或非推理模式。
最终结果
在数学、编码、科学、工具使用和对话等基准测试中,Nemotron-H-47B-Reasoning-128K 的准确性与 Llama-Nemotron Super 49B V1.0 相当或更出色,并且在所有非编码基准测试中都优于 Qwen3 32B。该模型还支持应用于所有线性层的后训练量化,以最小的精度损失实现高效部署。最后,我们提供此量化版本的检查点和结果,以证明其在实践中的有效性。

无论您的应用需要透明度、精度还是速度,Nemotron-H-47B-Reasoning 都能为您提供多功能和高性能的基础。
吞吐量比较
与类似大小的 Transformer 模型相比,Nemotron-H-47B-Reasoning 采用混合式 Mamba-Transformer 架构,可显著加快推理时间。下图显示了推理式工作负载与推理吞吐量的平均基准准确性。我们使用 Megatron-LM 对 BF16 中两个 NVIDIA H100 GPU 上可实现的最大吞吐量进行基准测试,其中每个模型都会处理简短的输入序列 (128 个令牌) ,并生成扩展的推理追踪 (32K 个输出令牌) 。为了更大限度地提高每个 GPU 的吞吐量,我们为每个模型选择适合的最大批量大小。

我们的内部评估流程(用于确保一致的苹果到苹果比较)显示,Qwen3 达到了最高的平均基准得分,紧随其后的是 Nemotron-H-47B-Reasoning。值得注意的是,Nemotron-H 提供的吞吐量约比基于 Transformer 的基准高出 4 倍。
贡献者
Yian Zhang、David Mosallanezhad、Bilal Kartal、Dima Rekesh、Luis Vega、Haifeng Qian、Felipe Soares、Julien Veron Vialard、Gerald Shen、Fei Jia、Ameya Mahabaleshwarkar、Samuel Kriman、Sahil Jain、Parth Chadha、Zhiyu Li、Terry Kong、Hoo Chang Shin、Anna Shors、Roger Waleffe、Duncan Riach、Cyril、Meurillon Matvei、Novikov、Daria Gitman、Evelina Bakhturina、Igor Gitman、Shubham Toshniwal、Ivan Moshkov、Wei Du、Prasoon Varshney、Makesh Narsimhan Sreedhar、Somshubra Majumdar、 Wasi Uddin Ahmad、Sean Narenthiran、Mehrzad Samadi、Jocelyn Huang、Siddhartha Jain、Vahid Noroozi、Krysztof Pawelec、Twinkle Vashishth、Oleksii Kuchaiev、Boris Ginsburg、Mostofa Patwary、and Adithya Renduchintala