Generative AI

NVIDIA Rubin CPX により、トークン コンテキストが 100 万を超えるワークロードの推論性能と効率が向上

Reading Time: 2 minutes

推論は AI における複雑性の新たな最前線として浮上しています。最新のモデルは、マルチステップ推論、永続メモリ、長期コンテキストに対応したエージェント型システムに進化しており、ソフトウェア開発、ビデオ生成、ディープ リサーチといったさまざまな分野で複雑なタスクをこなすことができます。こうしたワークロードは、インフラストラクチャにかつてないほどの負荷を与え、コンピューティング、メモリ、ネットワークにおいて新たな課題を生み出しており、推論のスケーリングと最適化のあり方そのものを根本から再考する必要を迫っています。

その中でも、特定のワークロードにおける大規模コンテキストの処理は、ますます重要性を増しています。 例えば、ソフトウェア開発では、AI システムがリポジトリ全体の構造を理解し、ファイルをまたぐ依存関係を維持し、コードベース全体を対象に推論する必要があります。これにより、コーディング アシスタントは単なるオートコンプリート ツールから、知的なアシスタントへと変貌を遂げています。 同様に、長時間の動画や研究用途のアプリケーションでは、数百万に及ぶトークンの最初から最後まで整合性を保ち、メモリを保持する必要があります。 このような要件のため、現在のインフラストラクチャでサポートできる限界が見え始めています。

こうした変革に対応し、その先に進むための道筋となるのが NVIDIA SMART フレームワークです。規模、多次元的パフォーマンス、アーキテクチャ、ROI、および広範な技術 エコシステム全体にわたって、推論を最適化するための包括的なアプローチです。 このフレームワークではフルスタックの分散型インフラストラクチャを重視しており、コンピューティングとメモリのリソースを効率的に割り振ることができます。NVIDIA Blackwell や NVIDIA GB200 NVL72 などのプラットフォームと、低精度推論用の NVFP4 や NVIDIA TensorRT-LLM や NVIDIA Dynamo などのオープンソース ソフトウェアを組み合わせることで、AI 全体の推論性能を再定義します。

このブログでは、次世代の分散型推論インフラストラクチャについて説明するとともに、 NVIDIA Rubin CPX を紹介します。これは長文コンテキストを扱う AI ワークロードの要求を満たし、効率や ROI をこれまでよりも高めるために特別に設計された専用 GPUです。

分散型推論: AI の複雑な課題に取り組む拡張性に富んだアプローチ

推論はコンテキスト フェーズと生成フェーズという 2 つのフェーズで成り立っています。それぞれのフェーズでインフラストラクチャにかかる負荷は根本的に異なります。コンテキスト フェーズは計算負荷が高い段階であり、大量の入力データを取り込んで分析し、最初のトークン出力結果を生成するために高スループット処理が必要になります。これに対し、生成フェーズはメモリ帯域幅がボトルネックとなり、トークンごとの出力パフォーマンスを維持できるかどうかはメモリ転送と NVLink などの相互接続が高速かどうかに依存しています。

分散型推論は、これら 2 つのフェーズを独立して処理し、コンピューティングとメモリ リソースを目的別に最適化できるようになります。アーキテクチャがこのように切り替わると、スループットが改善し、レイテンシが低減され、全体的なリソース利用率が向上します (図 1)。

図 1. GPU 機能をコンテキストと生成のワークロードに合わせて最適化し、推論性能を向上させる

しかし、分散型推論によって新たに生じる複雑な問題もあります。低遅延の KV キャッシュ転送、LLM の特性に対応したルーティング、効率的なメモリ管理など、精密な調整が求められます。これらの要素を統合的に制御するオーケストレーション層として機能するのが NVIDIA Dynamo で、最新の MLPerf Inference ベンチマーク結果においても、極めて重要な役割を果たしました。Dynamo と GB200 NVL72 による分離型推論の実装が、いかにして新たな性能記録を打ち立てたのかについてご覧ください。 

特に計算負荷の高いコンテキスト フェーズにおいて、分離型推論の利点を最大限に引き出すためには、専用のアクセラレーションが不可欠です。このニーズに応えるべく、NVIDIA は Rubin CPX GPU を発表しました。これは、価値の高い長文コンテキストを推論するワークロードにおいて高スループット性能を発揮し、分離型インフラストラクチャにシームレスに統合できるよう設計された専用ソリューションです。

Rubin CPX: 長文コンテキスト処理を高速化する設計

Rubin CPX GPU は、既存のインフラストラクチャを補完しながら長文コンテキストを処理する性能を強化します。さらに、コンテキストに応じた推論をデプロイする際に効率を柔軟に調節し、ROI を最大化できる設計となっています。Rubin アーキテクチャを採用した Rubin CPX は、推論の中でも特に計算集約的なコンテキスト フェーズにおいて画期的な性能を発揮します。30 ペタ FLOP の NVFP4 演算性能、128GB 搭載の GDDR7 メモリ、ビデオのデコードとエンコードのハードウェア サポート、(NVIDIA GB300 NVL72 と比較して) 3 倍のアテンション処理性能を特長としています。 

Rubin CPX は長いシーケンスを効率的に処理するように最適化されており、ソフトウェア アプリケーションの開発や HD ビデオ生成などの価値の高い推論が必要な用途には欠かせません。既存の分散型推論アーキテクチャを補完する設計となっており、スループットと応答性を向上させながら、生成 AI の大規模なワークロードで ROI を最大限に高めます。

Rubin CPX は NVIDIA Vera CPU および Rubin GPU と連携して生成フェーズの処理を行います。そうした CPU や GPU と組み合わせ、長文コンテキストで使用できる高性能な分散型ソリューションとなっています。NVIDIA Vera Rubin NVL144 CPX ラックは、144 基の Rubin CPX GPU、144 基の Rubin GPU、36 基の Vera CPU を収めることができ、NVFP4 のコンピューティング性能は 8 エクサ FLOP に達します。これは GB300 NVL72 の 7.5 倍となり、1.7 PB/s のメモリ帯域幅を持つ 100 TB の高速メモリとともに、すべて単一のラック内に収められます。 

 NVIDIA Quantum-X800 InfiniBand または Spectrum-X Ethernet を使用し、NVIDIA ConnectX-9 SuperNIC と組み合わせ、Dynamo プラットフォームによって調和よく機能するよう調整することで、Vera Rubin NVL144 CPX はその機能を発揮します。将来的に数百万に及ぶトークンのコンテキストを AI が推論することになっても、そうしたワークロードに対応すると同時に、推論コストを削減し、世界中の開発者やクリエイター向けに高度な機能を提供できるように構築されています。

大規模環境において、このプラットフォームは投資利益率 (ROI) で 30 〜 50 倍を実現し、1 億ドルの CAPEX 投資に対して最大 50 億ドルの収益を生み出す可能性があります。これは、推論経済の新たなベンチマークを打ち立てるものです。分離型インフラストラクチャ、専用アクセラレーション、フルスタックのオーケストレーションを統合した Vera Rubin NVL144 CPX により、次世代の生成 AI アプリケーションを開発する企業にとって、全く新しい可能性が拓けます。

図 2. Rubin Context GPU (Rubin CPX)、Rubin GPU、Vera CPU を搭載した NVIDIA Vera Rubin NVL144 CPX ラックとトレイ

まとめ

NVIDIA Rubin CPX GPU と NVIDIA Vera Rubin NVL144 CPX ラックは SMART プラットフォームの哲学を体現しています。すなわち、革新的なアーキテクチャとエコシステムの統合によって、拡張性が高く多次元的な性能と優れた ROI 実現するという考え方です。このプラットフォームを支えるのは NVIDIA Dynamo で、大規模なコンテキストを扱える設計となっています。高度なソフトウェア コーディングやビデオ生成といったワークロードの限界を押し広げ、フルスタックの AI インフラストラクチャの新たなスタンダードとなっています。 

 NVIDIA Rubin CPX の詳細はこちらからご覧ください。

Tags