Generative AI

高度でオープンな NVIDIA Llama Nemotron リーズニング モデルでエンタープライズ AI エージェントを構築

Reading Time: 3 minutes

組織は、生産性を向上させ、業務を合理化するために AI エージェントを採用しています。 複雑な問題の解明や、隠れた結びつきの発見、動的な環境での自律的で論理的な意思決定といった、エージェントの影響を最大化するにあたっては、強力なリーズニング能力が必要となります。

複雑な問題に対処する能力により、リーズニング モデルはエージェント型 AI エコシステムの重要な部分となっています。長時間思考、Best-of-N、自己検証などの技術を活用することで、これらのモデルは、エージェント パイプラインに不可欠な推論負荷の高いタスクで秀でた一面を発揮します。 

リーズニング モデルは、顧客サポートの自動化からサプライチェーンの最適化、財務戦略の実行まで、さまざまなアプリケーションを強化します。 物流では、例えば混乱時に配送ルートを再設定するなどの仮想シナリオをシミュレーションすることで、効率を向上させます。科学研究では、仮説の生成と多段階の問題解決を支援します。 ヘルスケアでは、診断と治療計画の質を向上させます。 これらのモデルは、正確で論理的な推論を可能にすることで、業界全体でより信頼性とスケーラブルな AI ソリューションを推進しています。

この記事では、NVIDIA Llama Nemotron 推論モデル ファミリを紹介します。 この最先端のモデル ファミリーを構築したプロセスをご覧ください。 また、これらのモデルを、AI エージェントや協働マルチエージェント システムで活用し、推論の領域を超えオープンエンドの汎用的なタスクの中心で利用していく方法についても探ります。

AI エージェントにオープンなリーズニング モデルが必要な理由

企業は、おしゃべりなアシスタントを望むだけではありません。複雑な問題の解明や、あらゆる活動の妥当性の証明、規則やコストに強く縛られる環境へのシームレスな適合といったことができるデジタルコーワーカーを必要としています。 オープンなリーズニング モデルは、エキスパートレベルのロジックと、完全な可監査性とデプロイの自由度を組み合わせることで、これらの要求を満たします。

  • 問題解決と意思決定の強化: 多段階の法的レビュー、財務リスクのスコアリング、サプライチェーン計画、医療トリアージを、人間の専門家に匹敵する透明性を持った段階的なロジックで取り組むことができます。
  • 透明性、可監査性、事実に基づく根拠づけ: すべての回答の背後にある思考の連鎖を明らかにし、ハルシネーションを減らし、金融、医療、法律分野の厳格なコンプライアンス チームを満足させます。
  • 民主化と迅速なイノベーション: オープン ウェイトによってあらゆるチームでドメイン データをファインチューニング可能となり、コミュニティ主導のブレイクスルーを促進します。
  • 競争優位性とワークフローの自動化: 大規模な専門家分析を自動化し、曖昧さと矛盾する制約を処理し、スピード、品質、信頼性で競合他社を上回ります。

NVIDIA Llama Nemotron 推論モデル ファミリ

2025 年 3 月、NVIDIA は、優れたリーズニング機能、コンピューティング効率、企業向けのオープン ライセンスを提供する、最先端 AI モデルのオープン ファミリーである NVIDIA Llama Nemotron を発表しました。

モデル ファミリは、NanoSuperUltra の 3 つのサイズを提供しており、開発者はユース ケース、コンピューティングの可用性、精度要件に基づいて適切なサイズのモデルを利用できます。

Nano

Nano は、Llama 3.1 8B から 8B ファインチューニングされており、PC とエッジで最高の精度を提供します。

図 1. さまざまなリーズニングとエージェントのベンチマークでクラス最高のパフォーマンスを発揮する Llama Nemotron Nano

Super

Super は、Llama 3.3 70B から抽出された 49B のデータで、データ センター GPU で最高の精度と最高のスループットを実現します。 このモデルがこの記事の焦点です。

図 2. さまざまなリーズニングとエージェントのベンチマークで最高のパフォーマンスを発揮する Llama Nemotron Super

Ultra

Ultra は、Llama 3.1 405B から抽出された 253B で、マルチ GPU データ センター サーバーで最大限のエージェント精度を実現します。

図 3. FP8 でクラス最高のリーズニングとエージェント ベンチマーク パフォーマンスを発揮する Llama Nemotron Ultra

リーズニング モデルを搭載した Llama Nemotron は、GPQA Diamond、AIME 2024、AIME 2025、MATH 500、BFCL、Arena Hard など、業界標準の各種リーズニングおよびエージェント ベンチマークにおいて業界をリードする精度を発揮します。 さらに、これらのモデルはオープンな Llama モデルを基盤に構築され、NVIDIA が検証したデータセットに加えて、オープン モデルを使用して合成生成されたデータでトレーニングされているため、商業利用が可能です。

このブログで説明しているトレーニング手法 (recipes) に加え、本モデルは permissive なライセンスで提供されています。さらに、ポストトレーニング パイプラインで使用したデータの大部分を Hugging Face 上で公開しており、開発者が再現、検証、拡張できるようにしています。このデータには、計算、コード、指示の遵守、安全性、チャット、推論機能を中心とした、約 3,000 万サンプルからなる高品質データのポストトレーニング データが含まれています。

データセットの詳細は、Hugging Face でご覧いただけます。 NVIDIA のチームは、継続的なデータ公開に努めています。 また、以前の HelpSteer および HelpSteer2 の取り組みを継続するものとして、HelpSteer3 を公開しました。

テストタイム スケーリングの概要

NVIDIA がこれらの優れたモデルをどのように開発したのかを掘り下げる前に、まず テストタイム スケーリング (test-time scaling) と リーズニングとは何か、そしてそれらが AI を活用してプロダクトやシステムを構築する組織にとってなぜ重要なのかを簡単に説明します。

テストタイム スケーリングは、リーズニング中により多くのコンピューティングを適用して、さまざまなオプションを介して思考とリーズニングを行い、モデルやシステムの応答を改善する手法です。 これにより、主要な下流のタスクでのモデル、あるいはシステムのパフォーマンスをスケーリングできます。

問題を通したリーズニングは複雑なタスクであり、テストタイム コンピューティングは、このようなモデルが、前述のユース ケースに役立つために必要なレベルのリーズニングを達成できるようにする要素の重要な部分です。 モデルが推論中により多くのリソースを費やせるようにすることで、可能性がより大きく広がります。 これにより、モデルが必要とする物事のつながりを確立する可能性、または、そうでなければ到達できないかもしれないソリューションを達成する可能性が高くなります。

リーズニングとテストタイム スケーリングは、エージェント型ワークフローにおける多くの重要なタスクに対して大きな利点がありますが、現在の最先端のリーズニングモデルには共通した問題があります。 具体的には、開発者は「リーズニングをオンにする」と「リーズニングをオフにする」のいずれかを選択できないため、モデルがリーズニングを発生させるタイミングを選択できない点です。Llama Nemotron ファミリのモデルは、システム プロンプトを介してリーズニングをオンまたはオフにし、非リーズニング問題領域でもモデルが有用性を維持できるようにします。

リーズニングを備えた Llama Nemotron の構築

Llama 3.3 Nemotron 49B Instruct は、Llama 3.3 70B Instruct をベースに開発されました。 大規模なポストトレーニングを経てモデルのサイズを縮小した一方で、本来の機能を維持したまま、さらに強化しました。

ポストトレーニングでは、3 つの広範なフェーズを使用しました。

  1. ニューラル アーキテクチャ検索と知識蒸留による蒸留プロセス。詳細については、「Puzzle: 推論最適化仕様の LLM 向け蒸留ベース型 NAS」をご覧ください。
  2. NVIDIA が作成した 60B トークン (生成された 3,000 万サンプルのうち 400 万トークン) を活用した教師ありファインチューニングによる、リーズニングオフ/オン両領域での高品質コンテンツ確保。この段階で、チームは NVIDIA NeMo フレームワークを活用して、事後トレーニング パイプラインを効果的かつ効率的に拡張しました。
  3. NVIDIA NeMo を活用して完了した強化学習 (RL) フェーズによる、チャット機能と指示追従パフォーマンスの向上。これにより、幅広いタスクで高品質な応答を保証します。
図 4. Llama Nemotron リーズニング モデルは、Llama オープン モデルを基盤に構築され、DeepSeek-R1 から生成された NVIDIA がキュレーションした合成データによるポストトレーニングで、エージェント型 AI システムに高品質のリーズニング機能を追加する。

第 1 フェーズ (ステップ 1 と 2) の詳細は、ニューラル アーキテクチャ検索 (NAS) テクニカル レポートでご紹介します。 簡略化すると、さまざまな蒸留と NAS アプローチを介して、各モデルのパラメーター数を「適切なサイズ」にするために使用されるものと考えることができます。

モデルのポストトレーニングの第 2 フェーズ (ステップ 3 と 4) は、合成データを活用した教師ありファインチューニングが含まれ、いくつかの重要な目的の達成を目指します。 1 つ目の目的は、多くのタスクにわたる非リーズニング パフォーマンスを向上させることです。 ポストトレーニングプロセスのこの部分 (ステップ 3) は、NVIDIA がキュレーションしたプロンプトを活用して、ベースライン モデル (Llama 3.3 70B Instruct) と Qwen2.5 7B 数学およびコーダー モデルを介して合成データを作成しました。その後、このデータは NVIDIA によるキュレーションと検証が実施され、チャット、数学、コード タスクにおけるリーズニングオフ性能を向上させるために使用されました。また、このフェーズでは、クラス最高の命令追従および関数呼び出しのリーズニングオフ性能を達成するために多大な労力を費やしました。

2 番目の目的 (ステップ 4) は、キュレーションされた DeepSeek-R1 データ (計算、コード、および科学のみ) でトレーニングすることで、クラス最高のリーズニング モデルを作成することでした。 各プロンプトと応答は、リーズニング強化プロセス中に高品質のデータのみが使用されるようにキュレーションされ、NVIDIA NeMo フレームワークを使用して支援されました。このアプローチにより、DeepSeek-R1 の強力な推論能力を、DeepSeek-R1 が優れている分野で選択的に抽出できます。

リーズニングのオン/オフ (ステップ 3 と 4) は同時にトレーニングされ、システム プロンプトによってのみ異なります。つまり、結果として得られたモデルは、リーズニング モデルと、各モードを切り替えるためのスイッチ (システム プロンプト) を備えた従来の LLM の両方として動作できます。 これは、組織が単一の正しいサイズのモデルを、リーズニング タスクと非リーズニング タスクの両方に使用できるようにするため行われました。

最終フェーズでは、RL を活用してユーザーの意図と期待との整合性を向上させました (ステップ 5 と 6)。 モデルは、両方のタスクで、REINFORCE アルゴリズムとヒューリスティック ベースの検証ツールを活用して RL を受け、命令追従と関数呼び出しの強化を図ります (ステップ 5)。その後、人間のフィードバックによる強化学習 (RLHF) を活用し、最終モデルは HelpSteer2 データセットと NVIDIA Llama 3.1 Nemotron 報酬モデルを使ってチャットのユース ケース向けに調整されます (ステップ 6)。

これらの綿密なポストトレーニング ステップは、これら 2 つのパラダイムを切り替えることにより、関数呼び出しと命令追従のパフォーマンスを妥協することなく、クラス最高のリーズニング モデルをもたらします。 このポストトレーニング パイプラインにより、エージェント型 AI のワークフローおよびパイプラインの各ステップで高い性能を発揮しつつ、NVIDIA のフラッグシップ ハードウェアに最適化されたパラメーター数を維持するモデルが実現されています。

Llama Nemotron Super でベンチマーク最高の精度を達成

NVIDIA Llama Nemotron モデルは、DeepSeek-R1 などのモデルの強力なリーズニング機能と、優れた世界知識、および Meta の Llama 3.3 70B Instruct による信頼性の高いツール呼び出しと命令追従を組み合わせ、主要なエージェント タスクをリードするモデルを生成します。

図 5. エージェント タスクに最高の精度とスループットを提供し、推論コストを削減する Llama Nemotron Super

Llama Nemotron Ultra 253B で最高の推論精度を実現

合計パラメーターがわずか 253B と、Llama Nemotron Ultra は、DeepSeek-R1 などの上位のオープン リーズニング モデルに匹敵、あるいはそれを上回るリーズニングパフォーマンスを提供します。また、最適化されたサイジングにより、スループットが大幅に向上しながらも、優れたツール呼び出し機能を維持しています。 ツール呼び出しを妥協することなく、優れたリーズニング能力を組み合わせることで、エージェント型ワークフローにおいて最高水準のモデルを実現します。

Llama Nemotron Ultra は、Llama Nemotron Super の事後トレーニングの全パイプラインに加え集中 RL フェーズによる訓練を実行することで、リーズニング能力を強化しました。

図 6. 優れた精度と驚異的なスループットの両方を提供する Llama Nemotron Ultra

Llama Nemotron Super による複雑なタスクに向けたシステムの強化

このセクションでは、NVIDIA Llama 3.3 Nemotron 49B Instruct を活用したマルチエージェント コラボレーション システムを使用する新しいテストタイム スケーリング アプローチについて説明します。 Chatbot Arena のパフォーマンスを予測する重要な指標である Arena Hard ベンチマークで最先端のパフォーマンスを達成し、スコアは 92.7 を記録しました。詳細については、「Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks」を参照してください。

テストタイム スケーリング手法の多くは、主に計算問題、論理的リーズニング、競技プログラミングなど、検証可能な解を持つ問題に使用するように設計されています。 しかし、研究アイデアを出すこと、研究論文の執筆、複雑なソフトウェア製品を提供する効果的なアプローチの開発など、多くの重要なタスクには検証可能なソリューションがありません。

Llama Nemotron テストタイム スケーリング システムは、この制限に対処します。 このアプローチでは、これらの問題に対し以下の手順を伴う、より人間的なアプローチを取ります。

  1. 問題に対する 1 つまたは複数の初期解決策をブレインストーミング
  2. 友人、同僚、その他の専門家からソリューションに関するフィードバックを取得
  3. 提供されたフィードバックに基づいた初期ソリューションの調整
  4. 調整後のものを含んだ、最も有望なソリューションの選択

この方法は、幅広い汎用分野のタスクでテストタイム スケーリングの活用を可能にします。

このマルチエージェント コラボレーション システムの概念をうまく例えるのであれば、事前定義されたソリューションのない問題に対して、最善のソリューションを考え出すために協力しているチームです。 対照的に、長時間思考は、問題を長時間熟考し、回答キーと照らして確認できる回答に到達するようにトレーニングされた 1 人の人間として概念化できます。

NVIDIA Llama Nemotron モデルを使い始める

蒸留、ニューラル アーキテクチャ検索、強化学習、従来のアライメント戦略の洗練された組み合わせが、クラス最高の NVIDIA Llama Nemotron リーズニング モデルを構築するために使用されました。 これらのモデルにより、機能面で妥協せず、命令追従と関数呼び出しの強みを維持するように構築された、適切なサイズのモデルを選択できます。これにより、エージェント型 AI システムのパワー増幅装置としてセットアップされます。これらのモデルを活用して、マルチエージェント コラボレーション システムを強化し、オープンエンドの一般的なドメインのタスクに取り組むことができます。

今回のリリースの一環としてモデルがオープンソース化されることに加えて、トレーニング プロセスの各ステップで使用されるデータの大部分、各モデルのトレーニングに使用されるレシピ (技術レポートによるレシピ)、テスト時のスケーリング システムが公開されます。 NVIDIA NeMo フレームワークを使用して、SFTRL の両方で独自のカスタム モデルを構築できます。

build.nvidia.com でこのモデル ファミリを探求し、プロトタイプ作成を始めましょう。 本番環境では、NVIDIA AI Enterprise を活用した GPU アクセラレーテッド システムに専用 API エンドポイントをデプロイし、高いパフォーマンスと信頼性を実現します。 あるいは、BasetenFireworks AITogether AI などの NVIDIA エコシステム パートナーを通じて、ほんの数クリックで専用のホスト型 NVIDIA NIM エンドポイントを入手できます。 また、Hugging Face にてモデル ファミリをご覧いただけます。 リーズニング モデルとリーズニングのユース ケースをカスタマイズする方法については、NVIDIA GTC 2025 セッション「Build Reasoning Models to Achieve Advanced Agentic AI Autonomy」をご覧ください。

翻訳に関する免責事項

この記事は、「Build Enterprise AI Agents with Advanced Open NVIDIA Llama Nemotron Reasoning Models」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

Tags