Generative AI

NVIDIA Nemotron の新しいモデル (Vision、RAG、ガードレール) で特化型 AI エージェントを開発

Reading Time: 3 minutes

エージェント型 AI とは、特化型の言語モデルと視覚モデルが連携して機能するエコシステムです。これらのモデルは計画、リーズニング、検索、セーフティガードレールといった役割を担います。

開発者は、特定ドメインのワークフロー、実環境でのデプロイ、コンプライアンス対応に向けて、専門的な AI エージェントを必要とします。このような特化型 AI を構築するには、ファインチューニング可能なオープン モデル、高品質なデータセット、モデル精度と計算効率を最適化するためのレシピ、それらを大規模デプロイするための効率的な推論、といった 4 つの要素が不可欠です。

NVIDIA GTC DC で 、リーズニング、視覚言語、検索拡張生成 (RAG)、セーフティモデルを発表しました。オープン データとレシピも公開し、精度、計算効率性、オープン性を提供します。

このブログでは、新しい Nemotron モデルを活用して、マルチモーダル エージェント、RAG パイプライン、コンテンツ安全性を備えた AI を構築する方法や、各モデルの特長、性能、チュートリアルを紹介します。  

NVIDIA Nemotron Nano 3 で効率的に思考するエージェントを実現する

NVIDIA Nemotron Nano 3 は、36 億個のアクティブパラメーターを備えた 320 億パラメーターの効率的で高精度な Mixture-of-Experts (MoE) モデルであり、開発者が特化型エージェント AI システムを構築するために設計されています。まもなく提供開始予定のこのモデルは、同等規模の密モデルと比較してより高いスループットを実現し、より広い探索空間を扱うことができます。その結果、自己反省能力が向上し、 科学的推論、コーディング、数学、ツールコーリングなどのベンチマークで高い精度を示します。さらに、MoE アーキテクチャにより、計算コストとレイテンシが削減されます。

NVIDIA Nemotron Nano 2 VL でマルチモーダルの理解とリーズニングを追加

NVIDIA Nemotron Nano 2 VLOCRBenchV2 でトップクラスの性能を示すモデルであり、ドキュメント インテリジェンスとビデオ理解のためのオープンな 120 億パラメーターのマルチモーダル推論モデルです。このモデルにより、AI アシスタントはテキスト、画像、表、ビデオといったさまざまな形式の情報を抽出、解釈、活用できるにようになります。そのため、 データ分析、文書処理、視覚的理解に特化したエージェント開発に特に有用であり、 レポート生成、動画キュレーション、メディア資産管理や検索拡張生成のための高密度キャプション生成などのアプリケーションで力を発揮します。  

動画 1. NVIDIA Nemotron VLM を活用したドキュメントおよびビデオ インテリジェンス向けマルチモーダル AI エージェントの構築 (※この動画の日本語音声は自動翻訳によるものです。内容に誤訳が含まれる可能性がありますのでご了承ください。正確な情報は英語音声でご確認ください。)

この視覚言語モデル (VLM) は Mamba-Transfomer ハイブリッド アーキテクチャを採用しており、視覚およびテキスト タスクにおいて高い精度、優れたトークン スループット、低レイテンシを実現し、大規模リーズ二ングを効率的に実行します。本モデルは、Nemotron VLM Dataset V2 を用いて学習されています。 このデータセットには、1,100 万件を超える高品質サンプルが含まれており、画像 Q&A、OCR、高密度キャプション生成、動画 Q&A、複数画像リーズ二ングなど、複数のタスクを網羅しています。データセットの詳細はこちらをご覧ください。私たちは FP8 を採用し、より高速な処理と長文入力を扱うためのコンテキスト並列化を実現しました。これにより、動画や長文書タスクでより高い効率と精度を達成しています。

このモデルでは、Efficient Video Sampling (EVS) 手法を導入しています。この手法は、ビデオ シーケンス内の時間的に変化のないパッチを検出し、削除するというものです。トークンの冗長性を減らし、重要な意味情報を保持するため、モデルは長いクリップを処理したり、結果を瞬時に出力したりできます。

このモデルは FP4FP8BF16 に量子化されており、vLLM および TRT-LLM 推論エンジンに対応しています。 さらに、NVIDIA NIM として提供されます。開発者は、長尺動画を解析する NVIDIA AI Blueprint for Video Search and Summarization (VSS) を活用できるほか、NVIDIA NeMo を用いてマルチモーダルデータセットをキュレーションし、独自モデルをカスタマイズまたは構築することも可能です。こちらのテクニカル レポートでは、Nemotron 技術を用いてカスタムかつ最適化されたモデルを構築するためのモデル選択や手法についても解説しています。

NVIDIA Nemotron Parse 1.1 でドキュメント インテリジェンスを向上

NVIDIA Nemotron Parse 1.1 も同時にリリースされます。これは 10 億個のパラメーターを持つコンパクトな VLM ベースのドキュメント パーサーであり、 ドキュメント インテリジェンスを強化するように設計されています。このモデルは入力された画像から、テキストや表を構造化データとして抽出し、バウンディング ボックスやセマンティック クラスの情報も同時に出力します。これにより、リトリーバの精度向上、大規模言語モデル (LLM) 学習データの拡充、ドキュメント処理パイプラインの最適化といった下流タスクが強化されます。

Nemotron Parse は、テキスト、表、レイアウトの包括的な理解を提供し、リトリーバやデータ キュレーションのワークフローで活用できます。その抽出データセットと構造化出力は、LLM と VLM の両方の学習を支援し、VLM 実行時の推論精度を向上させます。

オープンな RAG モデルでエージェントを強化

NVIDIA Nemotron RAG は、RAG パイプラインおよびリアルタイム ビジネス インサイト構築のためのモデル群です。データ プライバシーを確保し、さまざまな環境における機密データへ安全にアクセスできるよう設計されており、エンタープライズレベルの検索をサポートします。NVIDIA AI-Q および NVIDIA RAG Blueprint の中核コンポーネントとして、Nemotron RAG は、インテリジェントな検索ベースの AI アプリケーションにスケーラブルで本番環境対応の基盤を提供します。

その基盤により、複数の AI エージェントが認識、計画、行動を通じて複雑な目標を達成するマルチエージェント システムから、IT サポート、人事業務、カスタマー サービスを支援する特化型大規模言語モデルを活用する生成型コパイロットまで、幅広いアプリケーションを開発できます。また、社内データを活用して開発者と自然に対話する AI アシスタントや、文書レポートや映像ハイライトを作成する要約ツールがサポートされます。

その埋め込みモデルは、視覚及びマルチモーダル検索の ViDoReMTEB や、多言語テキスト検索の MMTEB など、業界のリーダーボードで常に上位に位置しており、このクラス最高の RAG パイプラインの構築に適しています。新しいモデルは Hugging Face で公開されています。

動画 2. NVIDIA Nemotron RAG を活用した情報検索対応カスタム AI エージェントの開発 (※この動画の日本語音声は自動翻訳によるものです。内容に誤訳が含まれる可能性がありますのでご了承ください。正確な情報は英語音声でご確認ください。)

Llama 3.1 Nemotron セーフティ ガードで AI の安全性を強化

リーズ二ング、検索、自律行動が可能なエージェント型 AI システムを開発者が構築する中で、有害または意図しない挙動を防ぐため、安全性が不可欠な要素となっています。LLM は、 悪用されたり、不適切な出力を誘発されたり、 特に非英語圏では文化的ニュアンスを誤解したりするおそれがあり、そのため、責任ある開発には信頼できるモデレーション モデルが欠かせません。

新しい Llama 3.1 Nemotron Safety Guard 8B V3 は、多言語対応のコンテンツ セーフティ モデルです。このモデルはNemotron Safety Guard データセットでファインチューニングされており、データセットには 23 の地域対応セーフティ カテゴリにわたる 38 万 6000件以上の多文化サンプルが含まれています。各カテゴリには、敵対的プロンプトや脱獄プロンプトの例も収録されています。

このモデルは、プロンプトとレスポンスの両方で安全性違反やポリシー違反のコンテンツを検知できます。対象は 23 の安全性カテゴリおよび 9 言語 (アラビア語、ヒンディー語、日本語など) に及びます。図 4 は、言語ごとのモデルの性能比較を示しています。 

このモデルは有害コンテンツ分類において 84.2% の精度を達成し、極めて低いレイテンシで動作します (図 5 参照)。その高い性能を支えるのは、次の 2 つの新しい手法です。LLM 駆動の文化適応は、プロンプトや応答を地域固有の言い回しや感受性に合わせて調整し、文化的背景を踏まえて安全性を評価するものであり、コンシステンシ フィルタリングは、ノイズの多い、または整合性の取れていないサンプルを除去し、高品質なファインチューニングを可能にするものです。

軽量設計のため、単一 GPU 上や NVIDIA NIM としてもデプロイ可能です。NeMo Guardrails と連携することで、 エージェント型 AI パイプラインにおいてリアルタイムかつ多言語対応のコンテンツ セーフティを可能にします。HuggingFace または build.nvidia.com でモデルやデータセットを確認し、さらに安全でグローバル基準に整合した AI システムの構築を始めてください。

動画 3. Nemotron Safety Guard を使用し、文化的文脈を認識する LLM ガードレールで AI を強化する (※この動画の日本語音声は自動翻訳によるものです。内容に誤訳が含まれる可能性がありますのでご了承ください。正確な情報は英語音声でご確認ください。)

NVIDIA NeMo を使用してモデルを評価し、AI エージェントを最適化する

LLM の性能を信頼性高く評価できるように、NVIDIA NeMo Evaluator SDK がオープンソース化されました。この SDK により、再現性のあるベンチマークテストが可能となり、開発者は報告されたスコアにとどまることなく、実運用における性能に確信を持てることができます。 

NeMo Evaluator は現在、ProfBench にも対応しており、マルチステップ リーズ二ングやツール使用など、エージェント型 AI の挙動を評価するための動的かつインタラクティブなワークフローでのモデル評価ができるようになりました。 

標準化された評価環境をオープンソース化することで、 開発者は一貫した条件下でモデルの性能をベンチマークし検証、評価することができます。 

NeMo Agent Toolkit は MCP などの業界標準に準拠に対応したオープンソース フレームワークであり、 Semantic Kernel、Google ADK、LangChain、CrewAI など他のフレームワークとも互換性があります。新機能の Agent Optimizer は、LLM type、temperature、max tokens といった主要ハイパーパラメーターを自動でチューニングし、 精度、根拠性、レイテンシ、トークン使用量、カスタム メトリクスを最適化します。これにより試行錯誤の手間を削減し、エージェント、ツール、ワークフローの開発スピードを加速させます。 

GitHub ノートブックで今すぐお試してください。

今すぐ Nemotron で AI の構築を始めましょう

このブログでは、Nemotron ファミリの新しいモデル群とその機能の一部を紹介しました。

まずは、Hugging Face から Nemotron モデルとデータセットをダウンロードして始めましょう。 

Nemotron Nano 2 VL は、BasetenDeep InfraFireworksHyperbolicNebiusReplicate などの推論プロバイダーでもホストされており、エージェント型 AI の開発から本番利用までを効率的に進める手段となります。

NVIDIA がホストする API エンドポイントを build.nvidia.comOpenRouter で評価することもできます。

NVIDIA Nemotron の最新情報を入手するには、NVIDIA ニュースを購読し、LinkedInXDiscordYouTube で NVIDIA AI をフォローしてください。

翻訳に関する免責事項

この記事は、「Develop Specialized AI Agents with New NVIDIA Nemotron Vision, RAG, and Guardrail Models」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

Tags