Nemotron 3 Super の紹介: エージェント型推論向けのオープンハイブリッド Mamba-Transformer MoE

Reading Time: 3 minutes

エージェント型 AI システムには、複雑な技術問題を自律的に解決するための専門性に深いモデルが必要です。それらは推論、コーディング、長文コンテキストの分析に優れ、同時にスケールして継続的に実行でｋるだけの効率性も備えていなければなりません。

マルチエージェントシステムは、標準的なチャットと比較して最大 15 倍のトークンを生成し、各ターンごとに履歴、ツールの出力、推論ステップを再送します。長時間のタスクでは、この「コンテキストの爆発」が発生し、エージェントが元の目的との整合性を徐々に失う「ゴールドリフト (goal drift)」を引き起こします。また、あらゆるサブタスクに大規模な推論モデルを使用する「思考税 (thinking tax) 」により、マルチエージェントアプリケーションは実用的な用途には高コストかつ低速になってしまいます。

本日、これらの制約に対処するために、Nemotron 3 Super をリリースします。この新しい Super モデルは、総パラメーター数　1200 億、アクティブパラメーター数 120 億あり、ソフトウェア開発やサイバーセキュリティのトリアージといった複雑なマルチエージェント用途において、最大の計算効率と高い精度を実現しますこのモデルは、12 月に発表された Nemotron 3 Nano に続くものです。

Super は、ハイブリッド Mixture-of-Experts (MoE) アーキテクチャによって「思考税」を解消しています。以前の Nemotron Super と比較して、5 倍以上のスループットを提供します。また、このモデルはネイティブで 100 万トークンのコンテキストウィンドウを持ち、「コンテキスト爆発」に対処します。これにより、エージェントは長期メモリを持ち、アライメントさらた高精度な推論が可能になります本モデルは完全にオープンであり、重み、データセット、レシピが公開されているため、開発者はカスタマイズ、最適化、および独自のインフラへのデプロイが簡単に実行できます。

Nemotron 3 Super の特徴

Nemotron 3 Super は、単なる Nano を大きくしたものではありません。高容量の推論モデルにおける典型的な効率と精度のトレードオフを軽減するアーキテクチャ革新を導入しています。

Latent MoE はトークンがエキスパートに到達する前にトークンを圧縮することで、同じ推論コストで 4 倍の数のエキスパートを呼び出します。
マルチトークン予測 (MTP) は 1 つのフォワードパスで複数の将来のトークンを予測することにより、長文シーケンスの生成時間を劇的に短縮し、組み込みの投機的なデコードを可能にします。
ハイブリッド Mamba-Transformer バックボーンはシーケンス効率を高める Mamba レイヤーと精密な推論を行う Transformer レイヤーを統合することで、メモリと演算効率を 4 倍に高め、より高いスループットを実現します。
NVIDIA Blackwell 向けに最適化されたネイティブ NVFP4 事前トレーニングは、精度を維持しながら、メモリ要件を大幅に削減し、NVIDIA B200 での推論速度を NVIDIA H100 での FP8 と比較して 4 倍向上させます。
マルチ環境強化学習 (RL) は NVIDIA NeMo Gym と NVIDIA NeMo RL を活用し、21 の環境構成全体で実施しました。さらに、120 万回以上の環境ロールアウト (エージェントが環境で試行、実行した一連の行動シーケンス) を通じて強化学習 (RL) での事後トレーニングがされています。

これらの利点によって、長時間稼働するの自律エージェントに最適なモデルを構築しています。 LLM モデルが OpenClaw エージェントの頭脳としてどの程度機能するかを測定する新しいベンチマークである PinchBench において、Nemotron 3 Super はテストスイート全体で 85.6% のスコアを記録し、同クラスで最高のオープンモデルとなっています。

実際に確認

Nemotron 3 Super を実際に使いたい場合は、以下のチュートリアルビデオをご覧ください。ここでは、build.nvidia.com から OpenCode まで、モデルの使い方を説明します。

動画 1. Nemotron 3 Super のチュートリアル

アーキテクチャの詳細を見る

Hybrid Mamba-Transformer MoE バックボーン

Super は、Nano と同じハイブリッド理念を基盤にしていますが、根本的に異なる規模で構築されています。バックボーンは、3 種類のレイヤータイプを交互に組み合わせて構成されています。

Mamba-2 レイヤーは、シーケンス処理の大部分を処理します。状態空間モデル (SSM) は、シーケンス長に対して線形時間計算量を与えます。そのため、100 万トークンのコンテキストウィンドウは理論上のものではなく実用的なものとなっています。エージェントがコードベース全体、長い会話履歴、または大量の取得されたドキュメントのストック全体にわたって推論を行う必要がある場合、Mamba レイヤーはメモリ使用量を管理しやすい状態に保ちます。

Transformer のアテンションレイヤーは、キーの深さでインターリーブされています。純粋な SSM だけでは、精緻な連想的想起に苦労することがあります。これは、長いコンテキストの中に埋もれた 1 つの特定の事実を見つけるようなタスクを指します。アテンションレイヤーは、この機能を保護し、競合する情報が大量に存在する場合でも Super が高精度な検索を維持できるようにします。

MoE レイヤーは、高密度なコンピューテーションのコストをかけずに、効果的なパラメーター数を拡張します。エキスパートのトークンあたりのアクティベート数を抑えることで、低遅延と高スループットを維持しています。これは、共有デプロイで多くのエージェントを同時に実行している場合に重要です。

Latent MoE

標準の MoE アーキテクチャは、トークンをモデルの完全な隠れ次元からエキスパートに直接ルーティングします。モデルが成長するにつれ、このルーティング層はボトルネックとなり、コンピューティングコストが増加し、実質的にデプロイできるエキスパート数が制限されます。

そこで、Super では Latent MoE を導入しています。特徴として、ルーティング決定が下される前に、トークン埋め込みが圧縮された低ランクの潜在空間に投影されます。エキスパートのコンピューテーションは、この小さな次元で行われ、結果は後でモデル次元全体に投影されます。

実用面での重要性:

より多くのエキスパートを同じコストでトークンがエキスパートに到達する前に圧縮することで、Latent MoE により、モデルは 1 つのエキスパートを実行するのとまったく同じ演算コストで、4 倍の数のエキスパートに相談できます。

より精緻な専門化 より多くのエキスパートが利用可能になることで、モデルは高度に専門化されたルーティングを実現できます。たとえば、Python 構文と SQL ロジックのそれぞれについて異なるエキスパートをアクティベートするなど、厳密に必要な場合にのみアクティベートされます。この粒度は、一度の会話内の数回のやり取りでツール呼び出し、コード生成、データ分析、対話推論に至るエージェント型設定で特に重要です。

マルチトークン予測 (MTP)

標準言語モデルは、一度に 1 つのトークンを予測するようにトレーニングされています。これは基本的に近視的な目標です。 Super は、専門的な予測ヘッドが各ポジションから複数の将来トークンを同時に予測する MTP でトレーニングされています。

これには、2 つの具体的な利点があります。

トレーニング中の推論の強化 複数の将来トークンを予測することで、モデルは長期的な構造と論理的依存関係を内部化します。もっともらしい次の単語を推測するのではなく、モデルは一貫したシーケンスを予測することを学ばなければなりません。これにより、ステップを論理的に連鎖させていく必要がある Chain-of-Thought タスクにおいて、目に見える成果をもたらします。

推論時の投機的デコード機能を内蔵 1 つのフォワードパスで複数の将来のトークンを同時に予測することで、MTP は長いシーケンスの生成に必要な時間を劇的に短縮します。 MTP ヘッドは、並列で検証可能なドラフト予測を提供し、個別のドラフトモデルを必要とせずに、コードやツール呼び出しなどの構造化生成タスクにおいて、実時間で最大 3 倍の高速化を可能にします。

両方の利点は、同じ設計決定から生じます。オフセットごとに独立した予測ヘッドをトレーニングするアーキテクチャとは異なり、Super はすべての MTP ヘッドで共有重み設計を採用しています。これにより、パラメーターのオーバーヘッドを最小限に抑えながら、トレーニングの安定性を向上させます。ヘッドは、オフセット固有のショートカットに分裂するのではなく、一貫した継続に合意できるようになります。同様の重み共有により、独立してトレーニングされたヘッドが通常劣化するような長いドラフト長においても、投機的ドラフトの一貫性が向上します。

ネイティブ NVFP4 事前トレーニング

ほとんどの量子化モデルは、全精度で計算を開始し、トレーニング後に圧縮されるため、精度の低下は避けられないものです。 Super では別のアプローチを採用しています。事前トレーニング中の浮動小数点乗算/累積演算の大部分は NVFP4、すなわち NVIDIA 4 ビット浮動小数点形式で実行されています。 Blackwell 向けに最適化されたこの手法は、精度を維持しながら、FP8 と比較してメモリ要件を大幅に削減しながらも、推論を高速化します。

低精度でネイティブにトレーニングを行うことは、モデルが最初の勾配更新から 4 ビット演算の制約内で正確であるように学習することを意味します。その結果、大幅に削減されたメモリフットプリントで実行しながら、数学的に安定し、正確なモデルが構築されています。

Nemotron 3 Super のトレーニング方法

Nemotron 3 Super は、3 つの連続した段階でトレーニングされ、各段階は前の段階を基盤に構築されます。事前トレーニングは、幅広い世界の知識と言語理解を確立します。教師ありファインチューニングは、デプロイで遭遇するタスクタイプ全体でモデルの動作を形作ります。その後、強化学習によって、さまざまなエージェント環境全体で検証可能な結果と照らし合わせ、その動作を改良します。

事前トレーニング

Super は、NVIDIA Blackwell 向けに最適化された NVIDIA 4 ビット浮動小数点形式である NVFP4 を使用して、25 兆トークンで事前トレーニングされています。事後的に全精度モデルを量子化するのではなく、Super は最初の勾配更新から低精度でネイティブにトレーニングされます。つまり、モデルは推論時だけでなく、事前トレーニング全体を通じて 4 ビット演算の制約内で正確であることを学習します。事前トレーニングコーパスは、キュレーションされた 10 兆個の一意のトークンを含みます。モデルは実行全体で合計 25 兆個のトークンを処理し、推論とコーディングに重点を置いた追加の計算処理も行います。

教師ありファインチューン

強化学習の前に、Super は約 700 万の SFT サンプルで教師ありファインチューニングを実施します。これらは、推論、指示追従、コーディング、安全性、およびマルチステップのエージェントタスクを網羅する、4,000 万サンプルからなるより広範なポストトレーニングコーパスから抽出されています。この段階で、RL が改良する動作基盤が確立されます。モデルは、タスクタイプ全体で正しい応答のフォーマットと構造を学習し、未加工のチェックポイントから最適化するのではなく、後続の RL フェーズに安定した開始点を提供します。

マルチ環境強化学習

Super を実際のエージェント的な振る舞いに適合させるために、本モデルは、強化学習 (RL) のトレーニング環境を構築、スケーリングするための NVIDIA のオープンソースライブラリである NeMo Gym 上の多様な環境において、強化学習によるポストトレーニングが行われています。これらの環境は、単に満足のいくシングルターンの応答を提供するだけでなく、正しいツール呼び出しの生成、機能的なコードの記述、検証可能な基準を満たすマルチパート計画の作成といった、一連のアクションを実行するモデルの能力を評価します。これらの軌跡は、NeMo RL オープンライブラリで大規模な強化学習を実行するためのコアトレーニングデータを形成します。

この軌跡ベースの強化学習により、Nemotron 3 はマルチステップのワークフローにおいても安定した挙動を示し、推論のドリフトを低減するとともに、エージェント型パイプラインで一般的に求められる構造化されたオペレーションを適切に処理できるモデルとなっています。

Nemotron 3 Super のベンチマーク

Nemotron 3 Super は、驚異的なスループットを維持しながら、多くの重要なエージェント型ベンチマークで最高の精度を実現しています。

「Super + Nano」デプロイパターン

Nemotron 3 Nano は、エージェント型ワークフロー内でターゲットを絞った個別のステップを高い精度で実行できる優れた選択肢です。しかし、マルチエージェントアプリケーションが複雑なマルチステップの作業にエスカレートすると、優れた計画と推論を実現する高容量モデルが必要です。たとえば、高品質スライド 10 枚によるプレゼンテーションを作成するために、さまざまな種類のツール (モダリティ) の中から適切なものを選択し、意思決定を行う必要があるコンピューター操作エージェントを想像してみてください。

Nemotron 3 Super は、このような用途に適しています。たとえば、ソフトウェア開発では、簡単なマージリクエストは Nemotron 3 Nano で処理され、コードベースのより深い理解を必要とする複雑なコーディングタスクは Nemotron 3 Super で処理されます。また、エキスパートレベルのコーディングタスクは、プロプライエタリなモデルで対処できます。

Super のオープンリソースを活用した構築

Nemotron 3 Super は、重み、データセット、レシピが完全に公開されているため、開発者はプライバシーとセキュリティを最大限に高めるために、独自のインフラ上でのモデルのカスタマイズ、最適化、およびデプロイが簡単にできます。

モデルの重み

Nemotron 3 Super の完全なパラメーターチェックポイントは、Hugging Face および NVIDIA NIM を通じて利用できます。 NVIDIA Nemotron Open Model License は、企業にデータ制御を維持し、どこにでもデプロイできる柔軟性を与えます。

エンドツーエンドのトレーニングと評価レシピ

NVIDIA では Nemotron 3 Super のトレーニングと評価の完全なレシピをリリースしています。レシピは事前トレーニングからアライメントまで、パイプライン全体をカバーしています。これにより、開発者は、Super のトレーニングを再現したり、ドメイン固有のバリエーションにレシピを適応したり、独自のハイブリッドアーキテクチャ研究の出発点として活用できます。

デプロイクックブック

NVIDIA では主要な推論エンジン向けの即時利用可能なクックブックを構築しており、構成テンプレート、パフォーマンスチューニングガイダンス、リファレンススクリプトをそれぞれ備えています。

vLLM Cookbook: Super 用の高スループットな継続的バッチ処理とストリーミング。
SGLang Cookbook: マルチエージェントのツール呼び出しワークロード向けに最適化された高速で軽量な推論。
NVIDIA TensorRT LLM Cookbook: 本番環境グレードの低遅延デプロイを実現する、latent MoE カーネルを備えた、完全に最適化された TensorRT LLM エンジン。

ファインチューニングのクックブック

ドメイン向けの効率的なファインチューニング (LoRA/SFT) やエージェント型推論機能 (GRPO/DAPO) を強化する、Nemotron 3 Super カスタマイゼーションクックブックをご覧ください。

NVIDIA NeMo Megatron-Bridge を使用した Nemotron 3 Super 上の LoRA SFT
NVIDIA NeMo Automodel を使用した Nemotron 3 Super 上の LoRA SFT
NeMo RL を使用した Nemotron 3 Super 上の GRPO/DAPO

オープンデータセット

Nemotron 3 Super は、事前トレーニング、ポストトレーニング、そしてインタラクティブな強化学習に至るまでもを網羅した完全にオープンなエンドツーエンドのデータパイプライン上に構築されており、エージェント型 AI のための再現可能なビルディングブロックを開発者に提供しています。

事前トレーニングコーパス: 10 兆個のキュレート済みトークン、合計 25 兆個以上のトレーニング済みトークンに加え、推論に焦点を当てた 100 億個のトークンと 1,500 万件のコーディング問題。すべてが積極的に重複排除と品質フィルタリングが行われ、S/N 比を最大化しています。
ポストトレーニングデータセット: 4,000 万件の新しい教師ありサンプルおよびアライメントサンプル。教師付きファインチューニング、選好データ、RL 軌跡全体にわたる推論、命令フォロー、コーディング、安全性、マルチステップエージェントタスクを網羅しています。(SFT に直接使用される約 700 万件)
RL タスクと環境: ソフトウェアエンジニアスタイルのエージェントトレーニングやツールで拡張された検索 / 計画タスクなど、21 の環境構成と 37 のデータセット (うち約 10 はリリース中) にわたるインタラクティブ RL。静的なテキストではなく、動的で検証可能な実行ワークフローへと移行し、トレーニング中に約 120 万件の環境ロールアウトを生成します。

オープントレーニングと評価インフラ

NVIDIA は開発手法とツールを公開しており、研究者や企業が Nemotron 3 Super をカスタマイズしたり、独自の推論モデルを構築したりできる柔軟性を提供しています。すべてのレシピは Nemotron GitHub リポジトリ、NeMo Gym、NeMo RL、NVIDIA NeMo Data Designer、NVIDIA NeMo Curator、NVIDIA NeMo Evaluator と統合され、データからデプロイまで、完全かつ再現可能なパイプラインを提供しています。

すべての Nemotron モデルはオープンな評価アプローチでリリースされており、これには誰でも Nemotron 3 Super の評価パイプライン全体を再実行および検査できるようにする公開済み評価レシピが含まれています。

今すぐ始める

Nemotron 3 Super は現在利用可能です。主要な推論プラットフォームで利用可能で、NVIDIA NIM としてパッケージ化された Super は、ワークステーションからクラウドまで、どこでも実行できます。 Perplexity の Pro サブスクリプションまたは API、あるいは OpenRouter、build.nvidia.com よりお試しください。

Hugging Face から重みをダウンロードして NVIDIA NIM を通じて最適化されたインスタンスを追加し、Unsloth でファインチューニングを行うか、クックブックから始めることでモデルを数分で実行できます。

また、Baseten、Cloudflare、CoreWeave、DeepInfra、Fireworks AI、FriendliAI、Inference.net、Lightning AI、Modal、Nebius、Together AI を通じても利用可能です。

OpenCode、OpenHands、OpenClaw などのプラットフォームの使い方を紹介している GitHub リポジトリをご覧ください。

技術的な詳細については、Nemotron 3 Super 技術レポートをご覧ください。

NVIDIA ニュースの購読や、LinkedIn、X、Discord、および YouTube で NVIDIA AI をフォローすると、NVIDIA Nemotron の最新情報を入手できます。開発を始めるためのリソースについては、Nemotron 開発者ページをご覧ください。Hugging Face で公開されている Nemotron モデルとデータセット、および build.nvidia.com の Blueprints をぜひご覧ください。また、Nemotron ライブストリーム、チュートリアル、NVIDIA フォーラムの開発者コミュニティ、および Discord で交流しましょう。

翻訳に関する免責事項

この記事は、「Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

Nemotron 3 Super の紹介: エージェント型推論向けのオープンハイブリッド Mamba-Transformer MoE

Nemotron 3 Super の特徴

実際に確認