NVFP4 が AI のトレーニングと推論を加速する 3 つの方法

Reading Time: 2 minutes

最新の AI モデルでは規模と複雑が増し続け、トレーニングや推論に必要な演算性能の向上が求められています。この変化はムーアの法則が追い付けないほど急速です。そのため NVIDIA は徹底的な共同設計に携わっています。複数のチップと大量のソフトウェアを統合して設計することで、AI ファクトリーのパフォーマンスと効率性の飛躍的な進歩を実現しています。

低精度の AI フォーマットは、演算性能とエネルギー効率を向上させる鍵です。一方で高い精度を維持しながら、超低精度の数値演算の利点を AI トレーニングと推論に持ち込むには、テクノロジスタックのあらゆる層にわたる広範なエンジニアリングが必要です。これはフォーマットの作成、シリコンへの実装、多くのライブラリに渡ってのエコシステムとの緊密な連携によって実現された新たなトレーニングレシピと推論最適化手法のデプロイまでの全般にわたります。NVIDIA Blackwell 以降で搭載される NVIDIA GPU 向けに開発および実装された NVFP4 は、4 ビットの浮動小数点精度による性能とエネルギー効率の利点を提供しながら、高精度のフォーマットと同等の精度を維持します。

AI トレーニングと推論のパフォーマンスを最大化したいと考えている方々に、NVFP4 についてお伝えしたい 3 つのポイントをご紹介します。

NVFP4 は、Blackwell アーキテクチャ以降のアーキテクチャにおけるトレーニングと推論で、大幅なパフォーマンス向上を実現

NVIDIA Blackwell Ultra GPU は、最大 15 ペタフロップスのピーク時の高密度 NVFP4 スループットを実現します。これは同一の GPU での FP8 の 3 倍となります。この向上はピーク時スペックだけではなく、トレーニングと推論ワークロードの実際のパフォーマンス測定でも見られるものです。

推論では、最近の技術ブログ記事で示されているように、FP8 から NVFP4 に移行することで、特定のインタラクティビティレベルながら、671B のパラメーターを持つ人気の Mixture-of-Experts (MoE) モデルである DeepSeek-R1 のトークンスループットが劇的に向上しました。特定のトークンレート時およびそれ以上のトークンレート時でもスループットが向上し、ユーザー体験の向上を実現します。

NVIDIA は最近 NVFP4 のトレーニングレシピを公開しました。NVFP4 がもたらす大規模な性能メリットをモデルトレーニングに導入して、モデルメーカーは迅速かつ低コストで AI をトレーニングできます。

MLPerf Training ベンチマークスイートの最新バージョンでは、複数の NVIDIA GB300 NVL72 システム (合計 512 基の Blackwell Ultra GPU) で、NVFP4 精度を活用することで、Llama 3.1 405B の事前トレーニングベンチマークを 64.6 分で完了させました。これは、前回のラウンドで FP8 を使用してベンチマークを完了した複数の NVIDIA GB200 NVL72 システム上の 512 基の Blackwell GPU 活用時よりも 1.9 倍高速です。

今後の展望として、NVIDIA Rubin プラットフォームはトレーニングと推論における NVFP4 性能を大幅に進化させ、NVFP4 トレーニング演算で 35 ペタフロップス、NVFP4 Transformer Engine 推論演算で 50 ペタフロップスを実現します。これらは、Blackwell と比較してそれぞれ 3.5 倍と 5 倍の飛躍的な向上となります。

2. 業界ベンチマークで実証された NVFP4 の高精度

ベンチマークで指定された精度要件を満たすことで、Closed Division での MLPerf トレーニングおよび推論の提出結果は初めて有効になります。推論の場合、応答が所定の精度しきい値を満たす必要があり、トレーニングの場合、モデルを特定の品質目標に合わせてトレーニングする必要があります (つまりモデルのトレーニングプロセスが収束される必要があります)。

NVIDIA は、最新バージョンの MLPerf トレーニングで Blackwell と Blackwell Ultra GPU を使用して NVFP4 を活用したすべての大規模言語モデル (LLM) テストの Closed Division での結果を提出しました。また、NVIDIA は、MLPerf 推論で NVFP4 を活用した多くのモデルとシナリオを提出しています。これには、DeepSeek-R1、Llama 3.1 8B および 405B、Llama 2 70B が含まれます。NVIDIA は、これらのモデルの NVFP4 量子化バージョンを使用し、厳格なベンチマーク要件を満たしました。

3. 成長を続ける幅広いエコシステムのサポートを受けている NVFP4

NVIDIA Model Optimizer、LLM Compressor、torch.ao などのライブラリにより、開発者はより高い精度でトレーニングされたモデルを NVFP4 に量子化し、NVFP4 KV キャッシュを実装することで、精度を維持しながら、長いコンテキストと大規模なバッチサイズをサポートできます。 NVIDIA TensorRT-LLM、vLLM、SGLang などの人気のある推論フレームワークも現在 NVFP4 形式でのモデルの実行をサポートしており、NVFP4 のバリアントのモデルを利用できます。たとえば HuggingFace では、開発者は Llama 3.3 70B、FLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B、NVIDIA Nemotron Nano など、すぐにデプロイできる NVFP4 バージョンを見つけることができます。

また、エコシステムは、NVFP4 を採用して、さまざまなモデルにわたる本番環境での推論スループットを向上させています。これらの企業には、Black Forest Labs、Radical Numerics、Cognition、Red Hat などが名を連ねています。

Black Forest Labs は、NVIDIA と協力して、Blackwell 上に FLUX.2 の NVFP4 推論を拡張しました。「CUDA Graphs、torch.compile、NVFP4 precision、TeaCache などの最適化を階層化することで、単一の B200 で最大 6.3 倍の速度向上を実現し、遅延を大幅に短縮し、より効率的な本番利用を可能にします」と Black Forest Labs の共同創業者兼 CEO の Robin Rombach 氏は述べています。

Radical Numerics は、NVFP4 を活用して、科学的な世界モデルのスケーリングを高速化しています。「言語とは異なり、科学データは古典的な単一モーダリティの自動回帰レシピを超えており、非常に長い背景理解の手法と堅牢なマルチモーダルの融合が求められます」と Radical Numerics の共同創業者兼チーフ AI サイエンティストの Michael Poli 氏は述べています。同氏は、低精度のレシピを活用して新しいアーキテクチャの事前学習と事後学習をすることについて「非常に楽観的」であると付け加えています。

Cognition では大規模な強化学習に NVFP4 を活用することで「遅延とスループットが大幅に向上」していると Cognition 研究チームの Steven Cao 氏は述べています。

また、Red Hat は、NVFP4 の量子化を活用して LLM ワークロードを拡張しており、フロンティアモデルと MoE モデルの両方で基準値に近い精度を開発者に提供しながら、厳しいメモリ制約を守っています。品質の実質的に低下なく、アクティベーションと重みのフットプリントを大幅に削減することで、NVFP4 は Red Hat のエンジニアが既存のインフラを使用して、より大きなコンテキストウィンドウと高い並列性で最先端の LLM をトレーニングし、提供することを可能にします。

NVIDIA Transformer Engine ライブラリには NVFP4 トレーニングレシピの実装が組み込まれており、Megatron-Bridge などのトレーニングフレームワークには開発者がすぐ始められる実装が用意されています。また、NVIDIA は継続的にイノベーションを行い、エコシステムと協力して NVFP4 トレーニングのパフォーマンスと効率性の利点をエコシステム全体に提供し、よりスマートで複雑なモデルをより迅速かつ効率的にトレーニングできる道を切り開いていく予定です。

まとめ

NVFP4 の使用により、NVIDIA Blackwell と NVIDIA Rubin の両方のプラットフォームでは大幅なパフォーマンス向上が期待できます。徹底的な共同設計によって、モデルのトレーニングと推論の両方において、優れた精度でこれらの大幅なパフォーマンスの向上が達成が見込めるようになりました。人気のオープン LLM の NVFP4 バージョンが広く利用可能となることで、これらのモデルを 100 万トークン規模といった大規模かつ高いスループットでサービスする際でもコストを抑制して実行できるようになります。

強化された NVFP4 など、Rubin プラットフォームによって実現されたアーキテクチャの飛躍的な進歩が、AI トレーニングと推論の新たなレベルのパフォーマンスをどのように実現するかについては詳細をご覧ください。

翻訳に関する免責事項

この記事は、「3 Ways NVFP4 Accelerates AI Training and Inference」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

NVFP4 が AI のトレーニングと推論を加速する 3 つの方法

NVFP4 は、Blackwell アーキテクチャ以降のアーキテクチャにおけるトレーニングと推論で、大幅なパフォーマンス向上を実現

2. 業界ベンチマークで実証された NVFP4 の高精度

3. 成長を続ける幅広いエコシステムのサポートを受けている NVFP4

まとめ

翻訳に関する免責事項

Tags

About the Authors

NVFP4 が AI のトレーニングと推論を加速する 3 つの方法

NVFP4 は、Blackwell アーキテクチャ以降のアーキテクチャにおけるトレーニングと推論で、大幅なパフォーマンス向上を実現

2. 業界ベンチマークで実証された NVFP4 の高精度

3. 成長を続ける幅広いエコシステムのサポートを受けている NVFP4

まとめ

翻訳に関する免責事項

Tags

About the Authors

Related posts

NVIDIA Spectrum-X イーサネット フォトニクス による電力効率に優れた AI ファクトリーの拡張

NVIDIA Rubin プラットフォームの内部: 6 つの新チップと AI スーパーコンピューター

NVIDIA Nemotron 3 の内部: 効率性と高精度を実現する手法、ツール、データ

NVIDIA テクノロジを活用した日本語医療音声エージェントの構築による臨床業務負担の軽減

NVIDIA Grove で Kubernetes 上の複雑な AI 推論を合理化する

NVIDIA Spectrum-X イーサネットフォトニクスによる電力効率に優れた AI ファクトリーの拡張