AI は産業化段階に移行しています。
個別の AI モデルのトレーニングや人と直接対話する推論を実行するシステムとして始まった AI は、現在では常時稼働する AI ファクトリーに進化し、電力、半導体、データを大規模なインテリジェンスへと継続的に変換しています。こういったファクトリーは現在、事業計画の生成、市場分析、徹底的な研究の実施、広大な知識体系にわたる推論を実施するアプリケーションを支えています。
これらの機能を大規模に提供するために、次世代 AI ファクトリーは、エージェント型推論、複雑なワークフロー、マルチモーダル パイプラインに必要な長文コンテキストを提供する数十万単位の入力トークンを処理する必要があります。同時に、電力、信頼性、セキュリティ、デプロイ速度、コストといった制約の範囲でリアルタイム推論を維持しなければなりません。
NVIDIA Rubin プラットフォームは、この新たな現実に向けて特別に設計されました。
徹底的な共同設計が Rubin プラットフォームの基盤です。GPU、CPU、ネットワーク、セキュリティ、ソフトウェア、電力供給、冷却システムは、個別に最適化されるのではなく、単一のシステムとして統合的に設計されています。そうすることで、Rubin プラットフォームは単一の GPU サーバーではなく、データ センターをコンピューティングの単位として扱います。このアプローチは、大規模環境において効率的、安全に、予測可能な形でインテリジェンスを生成するための新たな基盤を確立します。単なる個別コンポーネントのベンチマークだけでなく、本番環境のデプロイにおいても、パフォーマンスと効率性が向上することを保証します。
この技術的詳細の解説では、AI ファクトリーが新しいアーキテクチャのアプローチを必要とする理由、NVIDIA Vera Rubin NVL72 がラックスケール アーキテクチャとして機能する仕組み、Rubin プラットフォームのシリコン、ソフトウェア、システムが大規模環境での持続的なパフォーマンスとトークンあたりのコスト削減にどう貢献するのかを説明します。
本ブログの構成は以下のとおりです。
- AI ファクトリーに新しいプラットフォームが必要な理由: 推論主導の常時稼働する AI への移行と、現在規模を定義している制約、つまり電力、信頼性、セキュリティ、デプロイの速度。
- NVIDIA Rubin プラットフォームの紹介: 持続的なインテリジェンス本番環境を可能にするラックスケール プラットフォームとコアにおける画期的な技術革新。
- 6 つの新チップと 1 台の AI スーパーコンピューター: 6 チップのアーキテクチャと、GPU、CPU、ネットワーク、インフラが 1 つのコヒーレントなシステムとして動作する仕組み。
- チップからシステムまで: NVIDIA Vera Rubin スーパーチップから DGX SuperPOD まで: Rubin がスーパーチップからラック、NVIDIA DGX SuperPOD スケールの AI ファクトリーのデプロイまで拡張する方法。
- ソフトウェアと開発者の体験: NVIDIA CUDA と NVIDIA CUDA-X からトレーニングと推論フレームワークに至る、ラックスケールをプログラマブルにするソフトウェア スタック。
- AI ファクトリー規模での運用: 本番環境の基盤: オペレーション、信頼性、セキュリティ、エネルギー効率、エコシステムへの対応。
- 大規模環境におけるパフォーマンスと効率性: Rubin がアーキテクチャを大規模環境で現実の成果に変える方法。具体的にはトレーニングに必要な GPU 数を 4 分の 1 に削減し、推論スループットを 10 倍向上させ、トークンあたりのコストを 10 分の 1 に削減する仕組みについて。
- Rubin が AI ファクトリー プラットフォームである理由: 徹底的な共同設計が、実際のデプロイにおいて予測可能なパフォーマンス、経済性、拡張性を実現する方法について。
1. AI ファクトリーに新しいプラットフォームが必要な理由
AI ファクトリーは、従来のデータセンターとは根本的に異なります。断続的な人間主導のリクエストにサービングするのではなく、常時稼働のインテリジェンス本番環境システムとして機能します。ここでは、サーバーのピーク演算能力だけでなく、推論、コンテキスト処理、データ移動の効率性がパフォーマンスを左右します。
最新の AI ワークロードは、非常に長いコンテキストでマルチステップ推論を実行する推論モデルとエージェント モデルへの依存度を強めています。こうしたワークロードは、提供されるコンピューティング パフォーマンス、GPU 間通信、インターコネクトの遅延、メモリ帯域幅と容量、利用効率、電力供給など、プラットフォームのあらゆる層に同時に負荷をかけます。わずかな非効率性であっても、数兆のトークン規模で乗算されると、最適なコスト、スループット、競争力を損なうことになります。
このダイナミクスは、AI の進化を推進する 3 つのスケーリング法則によって捉えられます。
- 事前学習のスケーリング: モデルが固有の知識を学習する段階
- 事後学習のスケーリング: モデルがファインチューニングと強化学習を通じて思考を学ぶ段階
- テスト時のスケーリング: モデルが推論中に多くのトークンを生成することで推論する段階

これらのスケーリング法則が複合的に作用するため、インフラ要件はさらに厳格になります。NVIDIA Blackwell NVL72 は、従来のサーバー境界の制約から GPU、CPU、相互接続を解き放ち、ラックを統合の主要単位へと変えました。このシフトが、スケールアップ帯域幅、効率性、デプロイ可能性において大きな進歩を可能にし、今日の大規模な AI デプロイの多くを支えています。
より高度なインテリジェンスの提供、トークンあたりのコストの削減、ビジネスへの影響力の拡大が求められるに伴い、厳しく制限された電力と冷却の環境内でデータセンター規模の決定性を維持しながら、ラックスケールのパフォーマンスを拡張する必要性がますます高まってきています。
2. NVIDIA Rubin プラットフォームの紹介
NVIDIA Rubin プラットフォームは、大規模なインテリジェンス生成方法の変革を目的に設計されました。コンピューティング、ネットワーク、電力供給、冷却、システム アーキテクチャ全体にわたる徹底的な共同設計を適用し、AI ファクトリー規模での持続的なインテリジェンス生成を可能にします。
プラットフォーム レベルで、Rubin は以下の 5 つの世代にわたる革新的な成果を提供します。

これらの機能を組み合わせることで、Rubin ベースのシステムは、独立したコンポーネントの集合体ではなく、予測可能で安全かつ継続的に利用可能なインテリジェンス生成単位として動作することが可能になります。
Rubin プラットフォームのフラッグシップは、Vera Rubin NVL72 ラックスケール システムです。これは大規模な AI ファクトリー内でラック全体がコヒーレントなマシンとして動作するように設計されています。NVL72 システムは、ピーク時のパフォーマンスを追求するだけでなく、持続的なインテリジェンス生産のために最適化されています。具体的には、予測可能な遅延、異種実行フェーズ全体での高い使用率、電力を実用的なインテリジェンスに効率的に変換する、といった能力を備えます。

Rubin プラットフォームが統合システムとしてどのように機能するのかを視覚的に理解するために、以下のビデオでは、ラックスケール アーキテクチャの概要と、持続的なインテリジェンス生成における各主要コンポーネントの役割を説明しています。
このシステムレベルの概要は、Rubin プラットフォームのチップが、どのように単一の AI スーパーコンピューターとして動作するよう設計されているのかを理解する基盤を確立するものです。
3. 6 つの新しいチップ、1 つの AI スーパーコンピューター
徹底的な共同設計は、チップレベルで最も明確に表現されます。
Rubin プラットフォームは、6 つの新しいチップで構成され、それぞれが AI ファクトリーにおける特定の役割に合わせて、統合ラックスケール システムの一部として動作するように設計されています。コンピューティング、ネットワーク、インフラを緩やかに結合した層として扱うのではなく、Rubin はこれらをアーキテクチャに直接統合します。これにより、通信、連携、セキュリティ、効率性が設計で確実に最優先されます。

6 つの新チップは以下のとおりです。
- NVIDIA Vera CPU: 次世代 AI ファクトリー向けに最適化された 88 個の NVIDIA カスタム設計の Olympus コア を搭載し、Arm と完全な互換性を持つチップ。
- NVIDIA Rubin GPU: HBM4 と新しい NVIDIA Transformer Engine を搭載した高性能 AI コンピューティング ユニット。
- NVIDIA NVLink 6 スイッチ: 3.6 TB/秒の GPU 間帯域幅を実現する第 6 世代のスケールアップ ファブリック。
- NVIDIA ConnectX-9: スケールアウト AI 向けのエンドポイントにおける高スループット、低遅延のネットワーク インターフェイス。
- NVIDIA BlueField-4 データ処理ユニット (DPU): 以下を組み合わせたデュアル ダイ パッケージ:
- インフラのオフロードとセキュリティ向けの 64 コア NVIDIA Grace CPU。
- 緊密に結合されたデータ移動のための統合 NVIDIA ConnectX-9 高速ネットワーク チップ。
- NVIDIA Spectrum-6 イーサネット スイッチ: 効率性と信頼性をもたらすコパッケージド光モジュールを使用したスケールアウト接続。
これらのチップは統合され、GPU が transformer 時代のワークロードを実行し、CPU がデータとフローを制御し、スケールアップとスケールアウトのファブリックがトークンと状態を効率的に移動させ、専用のインフラ プロセッサが AI ファクトリー自体を運用・保護するという同期化されたアーキテクチャを形成します。
以下のセクションでは、これらの各ビルディング ブロックを詳細に検証します。まず、データ移動、メモリ、制御フローを調整し、AI ファクトリー規模で GPU 利用率を維持する Vera CPU について説明します。
Vera CPU: AI ファクトリー向けに設計
AI ファクトリーの規模拡大に伴い、GPU パフォーマンスだけではスループットを維持するのに十分ではなくなりました。 数千基の GPU を高い利用率で使用するには、システムにおけるデータ、メモリ、制御のフローの効率性が鍵となります。Vera CPU は、この役割に向けた設計となっており、大規模な AI ファクトリーの効率的な運用を維持する高帯域幅、低遅延のデータ移動エンジンとして機能します。
Vera は従来の汎用ホストとしてではなく、ラック全体でのオーケストレーション、データ移動、コヒーレントなメモリ アクセスに最適化されています。ホスト CPU として Rubin GPU と組み合わせるか、エージェント処理用のスタンドアロン プラットフォームとしてデプロイすることで、Vera は、トレーニングおよび推論環境で発生する CPU 側のボトルネックを排除し、より高い持続的な使用率を実現します。

NVIDIA Grace から Vera まで – AI ファクトリー向けに CPU をスケーリング
NVIDIA Grace は、高帯域幅でエネルギー効率に優れた CPU 設計に対する NVIDIA のアプローチを確立しました。Vera は、AI ファクトリーのワークロード向けにすべてカスタマイズされた、コア密度の向上、メモリ帯域幅の大幅な増加、コヒーレンスの向上、コンフィデンシャル コンピューティングへの完全対応により、その基盤を拡張します。
下表に示すように、Vera はデータ集約型ワークロードをサポートするために 2.4 倍のメモリ帯域幅と 3 倍のメモリ容量を提供し、NVLink-C2C 帯域幅を倍増させ、ラックスケールでコヒーレントな CPU-GPU オペレーションを維持します。これらの進歩により、CPU を単なる補助的役割から脱却させ、AI ファクトリーにおける次世代 GPU の効率性を支える重要な推進力へと進化しています。
| 特徴 | Grace CPU | Vera CPU |
| コア数 | 72 個の Neoverse V2 コア | 88 個の NVIDIA カスタム Olympus コア |
| スレッド | 72 | 176 の空間マルチスレッド |
| コアあたりの L2 キャッシュ | 1 MB | 2 MB |
| 統合 L3 キャッシュ | 114 MB | 162 MB |
| メモリ帯域幅 (BW) | 最大 512 GB/秒 | 最大 1.2 TB/秒 |
| メモリ容量 | 最大 480 GB LPDDR5X | 最大 1.5 TB LPDDR5X |
| SIMD | 4x 128b SVE2 | 6x 128b SVE2 FP8 |
| NVLink-C2C | 900GB/秒 | 1.8TB/秒 |
| PCIe/CXL | Gen5 | Gen6/CXL 3.1 |
| コンフィデンシャル コンピューティング | サポートなし | サポートあり |
空間マルチスレッドを備えた NVIDIA Olympus コア
Vera CPU の中核には 88 個の NVIDIA カスタム Olympus コアが搭載されています。これは、Arm と完全に互換性があり、高いシングルスレッドのパフォーマンスとエネルギー効率を実現するよう設計されています。このコアは、分岐予測、プリフェッチ、ロード ストアのパフォーマンスを向上させた幅広く高度なマイクロアーキテクチャを採用し、制御負荷が集中するデータ移動が頻繁なワークロード向けに最適化されています。
Vera は、タイムスライシングではなくリソースを物理的に分割することで、コアあたり 2 つのハードウェア スレッドを実行する新しいタイプのマルチスレッドである空間マルチスレッディングを導入し、パフォーマンスと効率性のバランスをランタイム時に調整可能にします。このアプローチは、マルチテナント AI ファクトリーにとって重要な要件である予測可能なパフォーマンスと強力な分離性を維持しながら、スループットと仮想 CPU 密度を向上させます。
Scalable Coherency Fabric – 決定論的なデータ移動
第 2 世代 NVIDIA Scalable Coherency Fabric (SCF) は、88 個の Olympus コアすべてを、単一のモノリシック コンピュート ダイ上の共有 L3 キャッシュとメモリ サブシステムに接続します。チップレットの境界を避けることで、SCF は一貫した遅延を実現し、高負荷でもピークメモリ帯域幅の 90% 以上を維持し、コアとメモリ コントローラ間のボトルネックを解消します。
CPU 全体で決定論的な高スループット データ移動を実現する SCF は、コア数の増加に合わせて、確実にオーケストレーションとデータ処理ワークロードを線形に拡張します。これは、AI ファクトリー規模でデータとコマンドを GPU に供給し続けるために不可欠です。
メモリ帯域幅とコヒーレントな実行
Vera は、SCF を最大 1.5 TB の LPDDR5X メモリ サブシステムと組み合わせ、低電力で最大 1.2 TB/秒の帯域幅を提供します。LPDDR5X を備えた小型アウトライン圧縮接続メモリ モジュール (SOCAMM) は、保守性と障害分離性を向上させ、AI ファクトリーのアップタイムの要件を満たします。
第 2 世代 NVLink-C2C は、Vera CPU と Rubin GPU 間に 1.8 TB/秒のコヒーレントな帯域幅を提供し、CPU と GPU メモリにまたがる統一アドレス空間を実現します。アプリケーションは、LPDDR5X と HBM4 を単一のコヒーレントなプールとして扱うことが可能となり、データ移動のオーバーヘッドを削減しながら、KV キャッシュ オフロードや効率的なマルチモデル実行などの技術を活用できます。

ソフトウェアの互換性と安全な運用
Vera は、Arm v9.2 アーキテクチャをサポートし、Arm ソフトウェア エコシステムとシームレスに統合されます。主要な Linux ディストリビューション、AI フレームワーク、オーケストレーション プラットフォームは修正することなく動作し、既存のインフラ ソフトウェアを中断することなく Vera ベースのシステムに拡張できます。
コンフィデンシャル コンピューティングはネイティブでサポートされており、パフォーマンスを維持しながら、CPU–GPU の境界を越え、マルチソケット構成全体での安全な実行を可能にします。
AI ファクトリー向けのデータ エンジン
Vera は、AI ファクトリー規模でデータを効率的に移動、処理、調整することで、GPU を最大限に活用できるよう設計された専用 CPU です。受動的なホストとして機能するのではなく、データ ステージング、スケジューリング、オーケストレーション、エージェント型ワークフローなど、制御負荷が高く通信集約的な処理パスを高速化するデータ エンジンとして機能します。また、分析、クラウド、ストレージ、インフラ サービスにおいて優れたスタンドアロン性能を発揮します。
Olympus CPU コア、第 2 世代 SCF、高帯域幅 LPDDR5X メモリ、コヒーレントな NVLink-C2C 接続を組み合わせることで、Vera は、コンピューティング、メモリ、通信主導のフェーズ間で実行が移行するような状況であっても、トレーニング、ポスト トレーニング、推論ワークロード全体にわたる Rubin GPU の生産性を維持します。
次のセクションでは、この一貫性のあるラックスケールの基盤を持続的なトレーニングと推論のパフォーマンスに変換する実行エンジン、Rubin GPU について検証します。
Rubin GPU: transformer 時代の AI 向けの実行エンジン
Vera CPU がオーケストレーションとデータ移動の基盤を提供する一方で、Rubin GPU はラックスケールの性能をインテリジェンスに変換する実行エンジンとして機能します。これは、常時稼働する AI ファクトリーにおける継続的なトレーニング、事後学習、推論のために設計されています。
推論、Mixture-of-Experts (MoE)、長文脈推論、強化学習など、最新の AI ワークロードは、ピーク浮動小数点演算 (FLOPS) のみで制限されるものではありません。これらは、コンピューティング、メモリ、通信の全領域にわたる実行効率を維持できるかどうかにより制約されます。Rubin GPU は、このような現実に対応するために特別に設計され、電力、帯域幅、メモリを大規模なトークンに変換する完全な実行パスを最適化します。
これらの条件下でスループットを維持するため、Rubin GPU は、コンピューティング密度、メモリ帯域幅、ラックスケール通信という 3 つの密接に連携した次元でアーキテクチャを進化させています。

半導体レベルで Rubin は NVIDIA の実績ある GPU 基盤をベースに構築され、transformer 時代のワークロード向けにすべての重要なサブシステムを拡張します。この GPU は、低精度の NVFP4 と FP8 の実行に最適化された第 6 世代 Tensor コアを搭載した 224 個のストリーミング マルチプロセッサ (SM) を統合しています。これらの Tensor コアは、拡張された特殊関数ユニット (SFU) および実行パイプラインと密接に連携し、最新の AI モデルに共通のアテンション、アクティベーション、スパース コンピューティング パスを高速化するような設計になっています。
NVIDIA Blackwell を基盤とする Rubin は、NVIDIA のハードウェアとソフトウェアの徹底的な共同設計をさらに拡張し、トレーニング、事後学習、推論のワークロード全体で、より高い持続スループットとトークンあたりのコストの削減を実現します。NVFP4 サポートの改善により演算密度と効率性が向上し、モデル精度を維持しながら、ワットあたりの有用な演算量を増加させます。低精度の実行をアーキテクチャとソフトウェア スタックの両方に深く統合することで、Rubin は数値形式の進歩をスループット、利用率、AI ファクトリーの経済性における現実的な向上に直接結びつけます。
デバイス全体にわたり、Rubin は事前学習、事後学習、推論の全工程で持続スループットを飛躍的に向上させます。スケールアップ帯域幅を拡大し、全体的な効率を向上させ、通信負荷の高い実行環境下で高い利用率を維持することで、Rubin は大規模トレーニングの実効パフォーマンスを向上させるとともに、事後学習と推論ワークフローに大幅な改善をもたらします。
持続的なコンピューティングと実行のスケーリング
Rubin は、計算能力、Transformer Engine のサポート、実行バランスを共に拡張することで、実世界のスループットを制限する利用率の急落を回避します。
下表は、Blackwell 以降のコア演算特性の進化の過程を示しています。
| 特徴 | Blackwell | Rubin |
| トランジスタ (フルチップ) | 208B | 336B |
| 演算処理用ダイ | 2 | 2 |
| NVFP4 推論 (PFLOPS) | 10 | 50* |
| NVFP4 トレーニング (PFLOPS) | 10 | 35** |
| Softmax 高速化 (SFU EX2 Ops/Clk/SM FP32 | FP16) | 16 | 32 | 64 |
* Transformer Engine での演算処理
** 高密度コンピューティング
AI と科学コンピューティングのコンバージェンス
NVIDIA Rubin プラットフォームの追加により、AI とシミュレーションが相互に強化し合う、科学コンピューティングの新しい段階を迎えます。今日の多くのスーパーコンピューティング環境では、シミュレーションは、単一の結果を生成する計算集約型の実行エンドポイントとして扱われます。高精度シミュレーションは、データセット生成のエンジンとして活用され、従来型ソルバーを補完する AI モデルのトレーニング データを生成するケースが増えています。
これらの AI モデルは、インテリジェントな事前条件設定装置として機能し、コンバージェンスを高速化し、反復ワークフローにおいて高速なサロゲート モデルとして機能します。AI サロゲートは飛躍的なスピードアップを実現する一方(場合によっては精度の低下を伴いますが)、真の基準値の確立と最終的な検証には、依然として従来型のシミュレーションが不可欠です。その結果、AI と科学コンピューティングの両方で強力なパフォーマンスを要求する、収束するワークロード プロファイルが生まれています。
下表は、NVIDIA Hopper、Blackwell、Rubin GPU の FP32 と FP64 演算能力を比較したものです。
| 特徴 | Hopper GPU | Blackwell GPU | Rubin GPU |
| FP32 ベクトル (TFLOPS) | 67 | 80 | 130 |
| FP32 マトリクス (TFLOPS) | 67 | 227* | 400* |
| FP64 ベクトル (TFLOPS) | 34 | 40 | 33 |
| FP64 マトリクス (TFLOPS) | 67 | 150* | 200* |
*Tensor コア ベースのエミュレーション アルゴリズムを使用したピーク パフォーマンス
上記のマトリクス パフォーマンスは、アーキテクチャの機能強化とソフトウェア技術を組み合わせて実現されており、前世代と比較して高い実効スループットをもたらします。これは、NVIDIA が単体のピーク性能指標ではなく、アプリケーション レベルのパフォーマンスに継続的に注力していることを反映しています。
AI と科学コンピューティングの両方において NVIDIA の徹底的な共同設計の哲学は、現実のワークロードにおける持続的パフォーマンスを優先します。本番環境のシミュレーション コードの分析は、マトリクス乗算カーネルで最高レベルの持続的 FP64 パフォーマンスが得られることが多いことを示しています。Hopper は専用ハードウェアを使用してこれらのパスを高速化しました。Blackwell と、現在の Rubin により、NVIDIA はこの戦略を進化させ、低精度の実行ユニットで複数のパスを通じて高い FP64 マトリクス スループットを達成し、コンバージド ワークロード向けのアーキテクチャの柔軟性を維持しています。
同時に、マトリクス カーネルが支配的でない科学アプリケーションでは、専用の FP64 ベクトル パフォーマンスが依然として重要です。このような場合、性能は純粋な演算能力ではなく、レジスタ、キャッシュ、高帯域幅メモリ (HBM) を通じたデータ移動による制約を受けます。したがって、バランスの取れた GPU 設計は、利用可能なメモリ帯域幅を飽和させるのに十分な FP64 リソースを確保し、効率的に利用できない演算能力の過剰割り当てを回避します。
Rubin プラットフォームにより、実際のアプリケーション パフォーマンスが世代ごとに向上し続けています。下図は、純粋な FP64 ベクトル スループットの向上ではなく、アーキテクチャとシステム レベルの改善により実現する、代表的なハイパフォーマンス コンピューティング (HPC) シミュレーション コード全体で予測される性能向上を示しています。

Transformer Engine
第 3 世代 NVIDIA Transformer Engine は、従来のイノベーションを基盤とし、精度を維持しながら NVFP4 のパフォーマンスを向上させるために設計された、新たなハードウェア アクセラレーション対応の適応圧縮技術を備えています。この機能は、推論処理で最大 50 PetaFLOPS の NVFP4 性能を可能にします。
Blackwell GPU と完全な互換性を持つ新しい Transformer Engine では、既存のプログラミング モデルを維持し、以前に最適化されたコードを Rubin にシームレスに移行すると同時に、より高い演算密度と改善された実行効率の恩恵を自動的に享受できるようになります。
メモリとデコードの効率性
コンテキスト長が増加し、推論がますますインタラクティブになるに伴って、達成されるメモリのパフォーマンスが、全体的な効率性を左右する主要な要因となります。Rubin GPU は、HBM3e と比較してインターフェイス幅が 2 倍になった新世代の高帯域幅メモリ HBM4 を統合しています。
新しいメモリ コントローラ、メモリ エコシステムとの密接な共同エンジニアリング、そしてコンピューティングとメモリのより緊密な統合を通じて、Rubin GPU は、Blackwell と比較してメモリ帯域幅をほぼ 3 倍に拡張しています。
主な特徴は以下のとおりです。
- GPU あたり最大 288 GB の HBM4
- 最大 22 TB/秒の合計帯域幅
- 負荷がかかっている状態でも実行パイプラインにデータを安定供給できるデコードとフロントエンドの効率性の向上

これらの進歩により、Rubin GPU は、並列処理や利用率を犠牲にすることなく、長コンテキスト推論、高バッチ MoE 実行、インタラクティブな推論を維持することが可能になります。
通信主導の AI 向けに構築されたスケールアップ相互接続
Rubin プラットフォームは、システム内の GPU 間通信向けに第 6 世代 NVIDIA NVLink (NVLink 6)、Vera CPU とのコヒーレントな CPU-GPU 接続向けに NVIDIA NVLink-C2C (チップ間接続)、ホストとデバイスの統合向けに PCIe Gen6 をサポートします。
NVIDIA NVLink 6 は、GPU あたり 3.6 TB/秒の双方向の GPU 間帯域幅を実現し、前世代と比較してスケールアップ帯域幅が 2 倍になっています。NVL72 システム内では、MoE ルーティング、集合演算、同期処理の多い推論パスに不可欠な要件である、予測可能な遅延で、72 基の GPU 間の全対全通信を可能にします。
スケールアップのボトルネックを解消することで、Rubin GPU は、モデル サイズ、エキスパート数、推論深度が増加しても、通信が利用率を低下させることがないようにします。
下表では、Blackwell から Rubin までの GPU 相互接続の帯域幅を比較しています。
| インターコネクト | Blackwell | Rubin |
| NVLink (GPU-GPU) (GB/秒、双方向) | 1,800 | 3,600 |
| NVLink-C2C (CPU-GPU) (GB/秒、双方向) | 900 | 1,800 |
| PCIe インターフェイス (GB/秒、双方向) | 256 (Gen 6) | 256 (Gen 6) |
AI ファクトリーのワークロード向けに開発
NVIDIA Rubin GPU は現代の AI ファクトリーを定義するワークロード向けに最適化されています。このワークロードではピーク演算能力よりも、処理能力、メモリ、通信全体にわたる持続的な効率性によりパフォーマンスが左右されます。具体的には、動的な全対全通信を基盤とする MoE モデル、推論とツールの使用を交互に行うエージェント型パイプライン、長期にわたり高い使用率を維持しなければならない長期実行トレーニングと事後学習のワークフローが該当します。
適応型実行と大規模なスケールアップ帯域幅を組み合わせることで、Rubin プラットフォームは、高密度の行列演算のみに最適化する従来の GPU とは異なり、計算集約型のカーネル、メモリ集約型のアテンション、通信に制約のあるエキスパート ディスパッチなど、実行の全フェーズにわたり GPU の生産性を維持します。これは前世代からの小規模なアップグレードではありません。Rubin プラットフォームは、Vera CPU、NVLink 6 スケールアップ、プラットフォーム ソフトウェアと連携して、大規模な継続的運用を実現するために GPU アーキテクチャを再調整し、ラック全体で電力とシリコンを実用的なインテリジェンスへと効率的に変換します。
次のセクションでは、72 基の GPU を単一の密接に結合されたシステムとして動作させるラックスケール ファブリック、NVLink 6 スイッチングについて検証します。
NVLink 6 スイッチ: ラックスケールのスケールアップ ファブリック
AI ファクトリー規模では、通信がパフォーマンスを左右する鍵となります。MoE ルーティング、集合演算、同期処理を多用するトレーニング、リーズニング推論は、いずれも高速かつ予測可能な全対全データ移動に依存しています。スケールアップ帯域幅が不足すると、GPU はアイドル状態となり、トークンあたりのコストが上昇します。
NVLink 6 は、このボトルネックを解消するために設計されています。これは Rubin プラットフォームのスケールアップ ファブリックであり、NVL72 システム内の 72 基の Rubin GPU が、通信負荷の高いワークロードの下で均一な遅延と持続的な帯域幅を備えた、単一の緊密に結合されたアクセラレーターとして動作することを可能にします。

各 Rubin GPU は、3.6 TB/秒の双方向帯域幅で NVLink 6 に接続し、前世代と比較して GPU あたりのスケールアップ帯域幅は 2 倍です。NVLink 6 スイッチ トレイはラック全体で単一の全対全トポロジを形成し、あらゆる GPU が他の GPU と一貫した遅延と帯域幅で通信することを可能にします。
この均一化されたトポロジにより、階層的なボトルネックとホップ依存の動作が排除されます。ソフトウェアの観点から、ラック全体が単一の大規模なアクセラレーターとして動作し、通信負荷の高いモデルのスケーリングを簡素化します。
MoE と推論のための全対全スケーリング
高速 MoE トレーニングと推論には、エキスパート並列処理 (Expert Parallelism, EP) が用いられます。これは、異なる GPU 上に存在するエキスパート間のトークンのきめ細かい動的なルーティングに依存します。これらのパターンにより、階層的または部分的に接続されたファブリックを圧倒する頻繁かつバースト的な通信が生成されます。
NVLink 6 は、NVL72 システム全体に完全な全対全ファブリックとしてデプロイされています。エキスパート ルーティング、同期、集合演算は、リンクの飽和や予測不可能な遅延を招くことなく、72 基の GPU すべてに渡って効率的に拡張されます。
大規模な MoE 推論向けに、NVLink 6 は、全対全操作において前世代と比較して最大 2 倍のスループットを実現します。

集合演算のためのネットワーク内コンピューティング
NVLink 6 は、NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) ネットワーク内コンピューティングを統合し、ファブリック内で直接、集合演算を高速化します。all-reduce、reduce-scatter、all-gather の各演算の一部がスイッチ内で実行され、冗長なデータ移動と GPU 同期のオーバーヘッドを削減します。
各 NVLink 6 スイッチ トレイは、14.4 TFLOPS の FP8 のネットワーク内コンピューティングをもたらし、集合演算が集中するフェーズを低遅延および高効率で実行できます。集合的減算処理をネットワークにオフロードすることで、SHARP は大規模 AI ワークロードにおける通信トラフィックを最大 50% 削減し、テンソル並列実行時間を最大 20% 改善することが可能です。
このオフロードは、GPU の実効利用率を向上させ、クラスター規模の拡大に合わせてスケーリング効率を向上させます。結果は、モデル アーキテクチャ、並列化戦略、参加ノード数、NCCL の構成に依存します。
AI ファクトリー規模での運用性
スケールアップ ネットワークは、高速であるだけでなく、確実に運用可能でなければなりません。NVLink 6 スイッチ トレイは、ホットスワップ対応トレイ、ラックに部分的に設置された状態での継続稼働、スイッチがオフラインになった際の動的なトラフィックの再ルーティングなど、耐障害性とメンテナンス性を高める新機能を統合しています。また、サービス提供中のソフトウェア更新をサポートし、スイッチ インターフェイスを介してきめ細かなリンク テレメトリをストリーミングし、リアルタイムの監視を実現します。
ソフトウェア デファインドのルーティング、詳細なテレメトリ、保守可能なスイッチ トレイを組み合わせることで、障害時やメンテナンス イベント時にもラックの切り離しやアクティブなワークロードの中断を伴わずに、トラフィックを動的に再ルーティングできます。これらの機能により、NVLink 6 は本番環境の AI ファクトリーが求める、ダウンタイム ゼロの要件を満たすことができます。
GPU あたりの帯域幅を倍増し、均一な全対全接続を可能にし、ファブリック内で直接集合演算を高速化することで、NVLink 6 は、通信負荷の高いワークロードのラック規模で予測可能なスケーリングを可能にします。
次のセクションでは、GPU を Spectrum-X イーサネット スケールアウト ファブリックに接続することで、このパフォーマンスをラックを超えて拡張するエンドポイント インターフェイスを提供する ConnectX-9 に目を向けます。
ConnectX-9: AI スケールアウト帯域幅の限界を押し上げる
ConnectX-9 は、Spectrum-X イーサネット ファブリックのインテリジェントなエンドポイントとして機能し、AI ファクトリーの成長に合わせてトラフィックの分離と安全な運用を強化しながら、予測可能なスケールアウト パフォーマンスを提供します。

Vera Rubin NVL72 ラックスケール アーキテクチャでは、各コンピューティング トレイに 4 枚の ConnectX-9 SuperNIC ボードが搭載され、Rubin GPU 1 基あたり 1.6Tb/秒のネットワーク帯域幅を提供します。これにより、GPU はネットワーク エッジでボトルネックを生じることなく、エキスパート ディスパッチ、集合演算、同期処理に完全に参加できます。
バーストする AI トラフィックに対応するエンドポイント制御
MoE 推論やトレーニングなどの AI ワークロードは、高度に相関するトラフィック パターンを生成します。多数の GPU がネットワークへ同時にデータを送信しようとすることで、一時的なトラフィック混雑のピークが発生しますが、従来の NIC はこのようなトラフィックを管理するようには設計されていません。
ConnectX-9 は、プログラム可能な輻輳制御、トラフィック シェーピング、パケット スケジューリングをエンドポイントで直接実施することで、この課題に対処します。Spectrum-6 スイッチと連携する ConnectX-9 は、キューが溜まった後に対応するのではなく、輻輳の発生を未然に防ぎます。
このエンドポイントからファブリックへの協調的動作により以下が可能になります。
- 全対全フェーズでトラフィック注入を円滑化
- HoL (head-of-line) ブロッキングと被害フローを低減
- 負荷下で高効率の帯域幅を維持
マルチテナント AI ファクトリーにおけるパフォーマンス分離
AI ファクトリーがワークロードを統合するに伴って、分離はスループットと同様に重要になってきています。バースト性のあるジョブや構成ミスのあるジョブが、クラスター全体のパフォーマンスを低下させることがあってはなりません。
ConnectX-9 はエンドポイントで公平性と分離を強化し、他のジョブまたはテナントのアクティビティにかかわらず、各ジョブまたはテナントが予測可能なネットワーク動作を受けられることを保証します。この機能は、推論、トレーニング、事後学習のワークロードが同じファブリック上で同時に実行されることが多い、共有 AI インフラでは極めて重要です。
適用をエンドポイントに移行することで、プラットフォームはスイッチ レベルのメカニズムのみに依存するのを回避し、拡張性を向上させるとともに、運用の複雑さを軽減します。
AI インフラ向けの安全なエンドポイント
ConnectX-9 は、AI ファクトリーのネットワークを保護する上でも中心的な役割を果たします。統合された暗号化エンジンは、転送中のデータと保存中のデータに対する高スループット暗号化をサポートし、パフォーマンスを犠牲にすることなく、安全な運用を可能にします。
主なセキュリティ機能は以下のとおりです。
- IP Security (IPsec) と Platform Security Protocol (PSP) で転送データの暗号化を加速し、GPU 間通信を保護
- 保存データの暗号化を高速化してストレージ プラットフォームを保護
- セキュア ブート、ファームウェア認証、デバイス認証
これらの機能により、AI ファクトリーは、共有環境、クラウド環境、規制された環境で、ほぼネイティブのネットワーク パフォーマンスを維持しながら安全に運用できます。
エンドポイント制御からインフラのオフロードまで
ConnectX-9 は、トラフィックがファブリックに流入する方法を制御することで、Spectrum-X イーサネット スケールアウト アーキテクチャを完成させます。エンドポイントでの通信を形成、スケジューリング、分離、セキュリティ確保により、AI ファクトリー ネットワークが実際のワークロード下で予測可能な動作をすることを保証します。
ファブリック レベルの動作が Spectrum-6 によって定義され、エンドポイントの動作が ConnectX-9 により強化されるため、残る課題は CPU と GPU の貴重なリソースを消費せずに、このインフラを大規模に運用、保護、管理する方法です。
その責任は BlueField-4 DPU に移行しています。これは、AI ファクトリー自体を運用するソフトウェア デファインドのインフラ層を提供します。次のセクションでは、BlueField-4 が Rubin プラットフォーム全体でネットワーク、ストレージ、セキュリティ、制御サービスをどのように強化するかを検証します。
BlueField-4 DPU: AI ファクトリーのオペレーティング システムを駆動
AI インフラが数千基の GPU、ペタバイト規模のデータにまで拡大するのに伴って、AI ファクトリーは、最新のクラウド インフラと同水準の厳密性、自動化、制御により運用されなければなりません。この課題は、GPU の接続だけでなく、AI ワークロードを効率的に拡張、保護、運用できる高度に分散化されたシステムのオーケストレーションにまで及んでいます。AI インフラにクラウド規模の原則を適用するには、自動化、融通性、エンドツーエンドのセキュリティを最初から基盤として組み込む必要があります。
これらの要求を満たすには、インフラ層そのものに専用設計のプロセッサが必要となります。NVIDIA BlueField-4 は、AI コンピューテーションとは独立して制御、セキュリティ、データ移動、オーケストレーションを処理することで、この役割を果たします。実質的に、BlueField-4 は、大規模な AI を支えるインフラの接続、保護、管理に特化して設計された、AI ファクトリーのオペレーティング システムを支えるプロセッサです。
Rubin プラットフォーム内で、BlueField-4 は、AI ファクトリー向けのソフトウェア デファインドの制御プレーンとして機能し、ホスト CPU と GPU に依存することなく、セキュリティ、分離、運用上の決定性を確保します。専用の処理層にインフラ サービスをオフロードして高速化することで、BlueField-4 は、一貫したパフォーマンス、強力な分離、効率的な運用を維持しながら、AI ファクトリーの拡張性を実現できます。

BlueField-4 は、64 コア Grace CPU と高帯域幅 LPDDR5X メモリを ConnectX-9 ネットワークと統合し、DPU 上で直接インフラ サービスを実行しながら、最大 800 Gb/s の超低遅延イーサネットまたは InfiniBand 接続を提供します。
下表は、BlueField-3 と比較して、BlueField-4 の帯域幅、演算能力、メモリに関する主な進歩をまとめたものです。これらの改善により、AI ファクトリーはインフラが制限要因になることなく、ポッドとサービスを拡張できます。
| 特徴 | BlueField-3 | BlueField-4 |
| 帯域幅 | 400 Gb/秒 | 800 GB/秒 |
| Compute | 16 基の Arm A78 コア | 64 基の Arm Neoverse V2 6 倍のコンピューティング パフォーマンス |
| メモリ帯域幅 | 75 GB/秒 | 250 GB/秒 |
| メモリ容量 | 32GB | 128GB |
| クラウド ネットワーク | 32K ホスト | 128K ホスト |
| 転送中のデータの暗号化 | 400 Gb/秒 | 800 Gb/秒 |
| NVMe ストレージの分離 | 4K で 1,000 万 IOPS | 4K で 2,000 万 IOPS |
この世代ごとの向上により、AI ファクトリーはポッド、サービス、テナントを拡張しながら、インフラの運用、効率性、サイバーセキュリティを向上させることができます。
AI ファクトリー規模でのインフラの高速化
従来のシステムでは、インフラ サービスはホスト CPU 上で実行されるため、ワークロードの拡張に伴い、変動性、競合、セキュリティ リスクが発生します。BlueField-4 は、ネットワーク、ストレージ、テレメトリ、セキュリティサービスを完全にホスト外で実行することで、この結合を解消します。この分離により以下のことが実現します。
- ワークロードの組み合わせに依存しない確定的なインフラの挙動
- AI 実行のための GPU と CPU 使用率の向上
- 障害の分離性と運用回復性の向上
NVIDIA DOCA は、BlueField の各世代にわたって一貫性のあるソフトウェア基盤を提供し、アプリケーションのワークロードを中断することなく、迅速なイノベーションを可能にしながら、インフラ サービスの再利用を可能にします。
安全なマルチテナント運用向けに構築
AI ファクトリーがベアメタルおよびマルチテナントのデプロイ モデルを採用する機会が増えるにつれ、特に占有データ、規制対象コンテンツ、高価値モデルを処理する環境において、強力なインフラの制御と分離を維持することが不可欠となっています。
Rubin プラットフォームの一部として、BlueField-4 は、コンピューティング トレイ内に信頼ドメインを確立するシステム レベルの信頼アーキテクチャである Advanced Secure Trusted Resource Architecture (ASTRA) を導入しています。ASTRA は、AI インフラ構築者に単一の信頼できる制御ポイントを提供し、パフォーマンスを犠牲にすることなく、大規模 AI 環境を安全にプロビジョニング、分離、運用できるようにします。
テナントのワークロードから制御、データ、管理プレーンを分離することで、BlueField ASTRA は、安全なベアメタル運用、強力なマルチテナント分離、ホスト ソフトウェアから独立して動作する、信頼できるインフラ制御を実現します。
NVIDIA Inference Context Memory Storage — AI ネイティブのストレージ インフラ
Rubin プラットフォームは、推論状態が単一の GPU 実行ウィンドウを超えて継続するエージェント型時代向けに設計された AI ネイティブなインフラ層である NVIDIA Inference Context Memory Storage (ICMS) を導入しています。長コンテキスト、マルチターン、マルチエージェントのワークロードが数百万トークン規模に拡大するにつれ、KV キャッシュ容量は急速に増加します。これにより状態データは、限られたGPU HBMか耐久性が最適化されたエンタープライズ ストレージのいずれかに格納されることを余儀なくされ、トークンあたりのレイテンシ、電力消費、コストを押し上げます。
NVIDIA BlueField-4 を搭載した ICMS は、GPU メモリ層と共有ストレージの間のギャップを埋めます。ICMS はポッドレベルの「G3.5」コンテキスト メモリ層を確立します。これはイーサネット接続のフラッシュベース層であり、一時的にレイテンシの影響を受けやすい KV キャッシュのために最適化されています。GPU ポッドあたりペタバイト規模の共有容量を備え、デコード ストールを回避するため、ホスト メモリと GPU メモリへの頻繁な事前ステージングを前提に構築されています。
大規模環境において、ICMS は再利用可能な KV キャッシュをノードごとの負担ではなく共有ポッド リソースに変換し、利用率を向上させ冗長な再計算を削減します。NVIDIA は、この専用層から KV を確実に提供および事前ステージングすることで、従来のストレージ手法と比較してトークン数が最大毎秒 5倍、電力効率が最大 5 倍向上したと報告しています。
- G3.5 層: KV キャッシュ専用のイーサネット接続フラッシュで、ローカル層 (HBM、DRAM、ローカル SSD) と耐久性のある共有ストレージの間に配置され、コンテキストが十分に近い状態を保ち、「G4 レイテンシ」を発生することなく再利用できます。
- BlueField-4 オフロード: BlueField-4 は KV I/O プレーンを実行し、NVMe-over-Fabrics およびオブジェクト/RDMA プロトコルを効率的に終端処理します。これにより、ホストのオーバーヘッドを削減しつつ、KV 移動を高速、予測可能、かつ安全に保ちます。
- Spectrum-Xファブリック: Spectrum-X イーサネットは、Rubin コンピューティング ノードと ICMS ターゲット ノード間で予測可能な低遅延かつ低ジッターの RDMA 接続を提供し、ポッド全体で一貫した共有 KV アクセスを実現します。
- オーケストレーション: NVIDIA Dynamo と NIXL は階層全体にわたる KV ブロック管理と事前ステージングを調整し、DOCA はコンテキストを優先的にリソースとして扱う KV 通信およびストレージ インターフェイスを提供します。
システムとしての AI ファクトリーの運用
BlueField-4 は、AI ファクトリーのファーストクラスのアーキテクチャ層としてインフラを確立します。専用の処理層で制御、セキュリティ、データ移動、オーケストレーション プレーンを運用することで、AI ファクトリーを大規模な処理において予測可能、安全、効率的な状態に維持することができます。
Rubin プラットフォーム内では、NVLink がスケールアップの動作を定義する一方で、ConnectX-9 と Spectrum-X イーサネット スイッチがスケールアウトとスケールアクロス通信を制御し、BlueField-4 が AI ファクトリーそのものを運用します。
Spectrum-6 イーサネット スイッチ: AI ファクトリー向けのスケールアウトとスケールアクロス
AI ファクトリーは、単一の Vera Rubin NVL72 システムを超えて拡張する必要もあり、多くの場合、地理的に分散したデータセンター間に拡張する必要が生じます。パフォーマンスは、帯域幅だけでなく、同期されたバースト性の AI トラフィックの下でネットワークがどれだけ予測可能な動作をするかによって決定されます。
スケールアウトとスケールアクロス両方の AI ファクトリーのデプロイをサポートするために、Rubin プラットフォームは、コパッケージド オプティクスをベースとする新世代の Spectrum-X Ethernet スイッチングである NVIDIA Spectrum-X Ethernet フォトニクス を導入し、アクセラレーテッド コンピューティング向けに設計された NVIDIA のイーサネット ファブリックを進化させます。

Spectrum-6 は、トラフィックが高度に同期化し、バースト性が高く、非対称である AI ワークロードに特化した設計になっています。Spectrum-6 は、200G PAM4 SerDes を採用してスイッチ チップあたりの帯域幅を 2 倍の 102.4 Tb/秒に倍増させ、AI トラフィック パターンに最適化された高密度・高ポート数のファブリックを可能にします。
高実効の帯域幅、きめ細かなテレメトリ、ハードウェア支援のパフォーマンス分離により、大規模なマルチテナント AI ファブリックにおいて決定論的な動作が可能になるとともに、標準への完全準拠、オープン ネットワーキング ソフトウェアとの相互運用性を確保しています。
Spectrum-X イーサネット ファブリック
既製のイーサネットとは異なり、Spectrum-X イーサネット は、高度な輻輳制御、適応ルーティング、ロスレス イーサネットの動作を通じて、大規模環境でも予測可能な低遅延・高帯域幅接続を実現します。これらの機能により、持続的な AI 負荷の下でもジッタ、テール レイテンシ、パケット損失を最小限に抑制できます。
Spectrum-6 を基盤とする Spectrum-X イーサネット は、Rubin プラットフォームとの共同設計を通じ、ルーティング動作、輻輳制御、テレメトリが、従来のエンタープライズ ネットワークの想定ではなく、実際の AI 通信パターンを反映するようになっています。この連携により、理論的なピーク スループットではなく、アプリケーションの動作に追従するスケールアウト パフォーマンスが可能になります。
Spectrum-X イーサネット はまた、Spectrum-XGS イーサネット スケールアクロス技術を統合しています。つまり、地理的に分散している大規模な AI デプロイ向けに距離を考慮した輻輳制御が追加されています。エンドツーエンドのテレメトリと決定論的ルーティングは、サイト間の効率的な負荷分散を可能にし、複数サイトの AI ファクトリーを高い使用率で稼働させることが可能です。
Spectrum-X イーサネット フォトニクス: AI スケールにおけるネットワーク効率の再定義
Spectrum-X イーサネット フォトニクス は、プラグイン可能なトランシーバーと DSP リタイマーを排除することで、ネットワーク効率を根本的に向上させます。外部レーザーアレイと統合されたシリコンフォトニクスにより、従来の差し込み式トランシーバーをベースとするネットワークファブリックと比較して、コンポーネント数と障害ポイントが削減されます。Spectrum-X イーサネット フォトニクス は以下の利点をもたらします。
- ネットワークの電力効率が最大 5 倍向上
- エンドツーエンドの遅延の短縮
- 信号の整合性を劇的に改善
光損失を約 22 dB から約 4 dB に低減することで、Spectrum-X イーサネット は最大 64 倍の信号完全性を実現します。これにより、稼働時間の延長、高密度 MMC-12 ケーブル接続による保守性の簡素化、大規模なトレーニングおよび推論クラスターにおける総所有コストの削減を可能にします。

実際の AI トラフィック パターンに対応した設計
最新の MoE トレーニングと推論では、確率的なエキスパート トークン ディスパッチによって駆動される可変的な全対全通信フェーズを導入しています。これらのワークロードは、従来のイーサネット ファブリックを圧倒する可能性のある非常にバースト性の高いトラフィックを生成し、パケット損失、輻輳崩壊、ジョブ完了時間の低下につながります。
Spectrum-X イーサネット は、スイッチとエンドポイント全体にわたる調整された輻輳制御と適応型ルーティングを通じて、ファブリック レベルでこの問題に対処します。その結果、実際の AI 負荷の下でのエキスパートのディスパッチと集合演算のジョブ完了時間が大幅に短縮されます。

ネットワークを再設計することなく、ファブリックを進化させる
Spectrum-X イーサネット は、スイッチ シリコン、光モジュール、SuperNIC、システム ソフトウェア全体にわたるエンドツーエンドの共同設計を通じて、世代ごとに進化しています。これにより、基本的なファブリックの再設計を必要とすることなく、帯域幅、信号処理、拡張性の面で協調的な向上を実現し、パフォーマンス要件の拡大に合わせてお客様が AI クラスターを予測的に拡張できるようにします。
| 特徴 | Blackwell | Rubin | ||
| 主要コンポーネント | Spectrum-X SN5000 シリーズ | ConnectX-8 SuperNIC | Spectrum-X SN6000 シリーズ | ConnectX-9 SuperNIC |
| チップ | Spectrum-4 | ConnectX-8 | Spectrum-6 | ConnectX-9 |
| 最大帯域幅 | スイッチ チップあたり 51.2 Tb/秒 (64 x 800 Gb/秒) | GPU あたり 800 Gb/秒 (2 x 400G) | スイッチ チップあたり 102.4 Tb/秒 (128 x 800 Gb/秒) | GPU あたり 1600 Gb/秒 (2 x 800 Gb/秒) |
| SerDes | 100G PAM4 | 100/200G PAM4 | 200G PAM4 | 200G PAM4 |
| プロトコル | イーサネット | イーサネット、InfiniBand | イーサネット | イーサネット、InfiniBand |
| コネクティビティ | OSFP | OSFP、QSFP112 | OSFP | OSFP、QSFP112 |
Spectrum-X イーサネット フォトニクス の詳細については、こちらのブログ記事をご覧ください。
4. チップからシステムへ: NVIDIA Vera Rubin スーパーチップから DGX SuperPOD まで
AI ファクトリーのパフォーマンスは、個々のチップの性能により決まるのではなく、それらのチップが信頼性の高いデプロイ、運用、スケーリングが可能なシステムに、どのように統合されるかに依存します。Rubin プラットフォームは、この進歩を念頭に置いて設計され、シリコン レベルのイノベーションからラック スケールのシステム、そして最終的には完全な AI ファクトリーのデプロイへと確実に段階を踏んで移行します。
このセクションでは、基盤となるコンピューティング ビルディング ブロックとしての Vera Rubin スーパーチップから始まり、NVL72 ラック アーキテクチャとその統合ネットワーク ファブリックを通じてスケールし、AI ファクトリーのデプロイ規模のユニットとしての NVIDIA DGX SuperPOD へと至る、その進歩を追跡します。各段階における目標は同じです。システムの外部スケールに合わせてチップ レベルで達成される効率性、コヒーレンス、利用率の向上を維持することです。
NVIDIA Vera Rubin スーパーチップ
Rubin プラットフォームの中核を成しているのは NVIDIA Vera Rubin スーパーチップです。AI の実行と高帯域幅のデータ移動およびオーケストレーションを緊密に統合する基盤となるコンピューティング ビルディング ブロックです。各スーパーチップは、メモリ コヒーレントな NVLink-C2C 相互接続を通じて 2 基の Rubin GPU と 1 基の Vera CPU を統合し、従来の CPU-GPU の境界を統合したラック スケールの実行ドメインに変えます。
このアプローチは、NVIDIA にとって新しいものではありません。NVIDIA Grace Hopper を起点として後継世代にわたる継続的な CPU-GPU の緊密な統合は、コンピューティング、メモリ、相互接続を共同最適化し、実際のトレーニングと推論のワークロードの下で利用率を維持するための核心的な設計原則でした。
Vera Rubin スーパーチップでは、CPU は GPU の実行に密接に結合されたデータ エンジンとして機能します。この結合は、トレーニング、事後学習、推論のワークロード全体にわたる低遅延の調整、共有メモリ アクセス、効率的なオーケストレーションを可能にします。Vera CPU は外部ホストとして動作するのではなく、ボトルネックを発生させることなく、データの移動、スケジューリング、同期、実行フローの処理に直接参加します。
単一のホスト処理マザーボード上の高帯域幅 CPU データ エンジンと GPU コンピューティングを統合することで、このスーパーチップは、データの局所性を向上させ、ソフトウェアのオーバーヘッドを削減し、異種の実行フェーズ全体で高い使用率を維持します。チップ レベルのイノベーションとラック スケールのインテリジェンスを結ぶ、アーキテクチャのブリッジとして機能します。

Vera Rubin NVL72 コンピュート トレイ
このコンピュート トレイは、Vera Rubin スーパーチップを AI ファクトリー規模向けに設計された、導入可能で保守性の高いユニットへと変換します。各トレイは、2 つのスーパーチップ、電力供給、冷却、ネットワーク、管理機能を統合し、密度、信頼性、操作の容易さを最適化したモジュール式でケーブル不要のアセンブリに統合しています。
再設計された内部液体マニホールドと汎用的な迅速接続解除機能により、従来の世代よりも大幅に高い流量に対応し、高負荷の電力ワークロードが持続する状況下でも安定したパフォーマンスを発揮します。モジュール式コンピュート トレイは独立した前面ベイと背面ベイを採用し、組み立てと保守を効率化します。メンテナンス中にコンピュート トレイをオフラインにする必要がありますが、モジュール式でケーブル不要の設計により、保守時間を最大 18 倍短縮します。

ConnectX-9 SuperNIC が高帯域幅スケールアウト接続を実現し、BlueField-4 DPU がネットワーク、ストレージ、セキュリティ サービスの負荷をオフロードすることで、CPU と GPU は AI の実行に集中できます。

Vera Rubin NVL72 NVLink スイッチ トレイ
複数のコンピュート トレイを単一のコヒーレントなシステムへと転換するために、Vera Rubin は、NVLink 6 スイッチ トレイを導入しています。
各スイッチ トレイには 4 つの NVLink 6 スイッチ チップが組み込まれ、GPU あたりのスケールアップ帯域幅とネットワーク内演算能力が倍増し、ファブリック内で集合演算を直接高速化します。これは、スケールアップ効率がコストと遅延に直接影響を及ぼす MoE ルーティング、同期処理を多用する推論、通信集約型のトレーニング フェーズにおいて、非常に重要な役割を果たします。
第一級のラック コンポーネントとしてスケールアップ ネットワークを統合することで、NVLink スイッチ トレイは、モデル規模、バッチ サイズ、推論深度が継続的に増加する際でも、パフォーマンスを予測可能な形で拡張できるようにします。

スケールアウト AI ファクトリー向けの Spectrum-X イーサネット スイッチング
NVLink 6 は、72 基の GPU をラック内で単一のコヒーレントなアクセラレータとして動作させることが可能です。Spectrum-X イーサネット はその機能をラック外まで拡張し、複数の列やデータセンター間において予測可能な高スループットのスケールアウト接続を実現します。その結果、従来のイーサネットが同期された AI トラフィックの下で生じがちな変動性を抑えます。
AI ファクトリーの通信パターンは、エンタープライズ ワークロードとは根本的に異なります。MoE ディスパッチ、集合演算、同期処理の多いフェーズでは、バースト性・非対称性、高い相関性を持つフローが生じ、大規模環境では輻輳、テール遅延、パフォーマンス ジッタを助長する可能性があります。Spectrum-X イーサネット は、協調的な輻輳制御、適応ルーティング、エンドツーエンドのテレメトリを通じて、これらのパターンに特化して設計されており、負荷下でも有効帯域幅を維持し、安定したパフォーマンスを提供します。
Vera Rubin NVL72 プラットフォーム内で、Spectrum-X はコンピューティング ノードに含まれる Spectrum-6 スイッチと ConnectX-9 SuperNIC エンドポイントを組み合わせて実現されます。これらは共に、ファブリックとエンドポイントが連携してトラフィックの形成、ワークロードの分離、ホットスポットの防止を目的に、徹底的に共同設計されたスケールアウト システムを構成します。これにより、マルチジョブ、マルチテナントの AI ファクトリーにおける高い利用率を実現します。

NVIDIA DGX SuperPOD: AI ファクトリー デプロイ ユニット
DGX SuperPOD は、Rubin プラットフォームのデプロイ規模での実現に向けたブループリントとなります。8 台の DGX Vera Rubin NVL72 システムで構築され、AI ファクトリーの経済性、信頼性、パフォーマンスが本番環境で収束する最小単位を定義します。
個別のコンポーネントから構成される従来のクラスターとは異なり、DGX SuperPOD は完全なシステムとして設計されています。シリコンと相互接続、オーケストレーション、運用に至るまで、すべての層が共同設計および検証されており、持続的な利用率、予測可能な遅延、および大規模な電力をトークンへの効率的な変換を実現します。
各 NVIDIA DGX Vera Rubin NVL72 システム内では、72 基の Rubin GPU が NVLink 6 を通じて単一のコヒーレントなアクセラレーターとして動作します。Spectrum-X イーサネット により、決定論的で高スループットのスケールアウト接続を実現し、プラットフォームをラック外へと拡張し、複数の DGX Vera Rubin NVL72 システムを単一の DGX SuperPOD に統合することが可能になります。NVIDIA Mission Control ソフトウェアと認定済みストレージと統合されたこれらの要素は、検証済みで本番環境対応の AI ファクトリーのビルディング ブロックを構成し、数万の GPU 規模への拡張に対応しています。
この設計により、DGX SuperPOD は、トレーニング、事後学習、リアルタイム推論ワークロード全体にわたる継続的な運用、高い稼働率での保守性、一貫したパフォーマンスといった、真の AI ファクトリーの能力を提供できます。

5. ソフトウェアと開発者の経験
Vera Rubin は、開発者にソフトウェアの再設計を強いることなく、イノベーションを高速化するよう設計されています。基盤となるプラットフォームはハードウェアの世代を超えた完全な CUDA 下位互換性を維持し、既存のモデル、フレームワーク、ワークフローのシームレスな実行を保証すると同時に、コンピューティング、メモリ、相互接続における世代ごとの改善の恩恵を自動的に享受できるようになっています。
CUDA-X ライブラリ — パフォーマンスの基盤
CUDA プラットフォームは、アプリケーションを高速化し、ラックスケール システムの完全な分散処理機能を最大限に引き出すプログラミング モデル、コア ライブラリ、通信スタックで構成されています。開発者は NVIDIA Collective Communications Library (NCCL)、NVIDIA Inference Transfer Library (NIXL)、NVLink 対応の集合演算を使用して、Rubin GPU を個別のデバイスとして、または単一の 72-GPU NVLink ドメインの一部としてプログラムできます。この設計により、カスタム パーティション化、トポロジ対応の回避策、手動のオーケストレーションを必要とすることなく、モデルをラック全体に拡張することが可能です。

カーネルおよびライブラリ層で、NVIDIA は最も要求の厳しい AI ワークロード向けに、高度に最適化されたビルディング ブロックを提供しています。NVIDIA cuDNN、NVIDIA CUTLASS、FlashInfer、新しい Transformer Engine などのライブラリは、アテンション、アクティベーション、狭精度実行において最高の効率性を発揮します。これらのコンポーネントは、Rubin の Tensor コア、HBM4 メモリ サブシステム、NVLink 6 相互接続と密接に連携し、高密度、スパース性、通信負荷の高いワークロードにおいて持続的なパフォーマンスを可能にします。
これらのライブラリを組み合わせることで、開発者はハードウェア固有のチューニングではなく、モデルの動作に集中しながら、基盤プラットフォームから最大限のパフォーマンスを引き出すことができます。
大規模なトレーニング – NVIDIA NeMo による研究から本番環境まで
より高いレベルのフレームワークは、Rubin プラットフォーム上に直接構築され、開発者の生産性と拡張性を最大化します。PyTorch と JAX フレームワークは、ネイティブの NVIDIA アクセラレーションを搭載し、トレーニング、事後学習、推論ワークフローを最小限のコード変更でラック全体に拡張することができます。
NVIDIA のトレーニングおよびカスタマイズ スタックの中核を成しているのは NVIDIA NeMo Framework です。これは AI ファクトリー規模での大規模モデルの構築、適応、調整、デプロイのためのエンドツーエンドのワークフローを提供します。NeMo は、データ キュレーション、大規模な分散トレーニング、アライメント、パラメータ効率に優れたカスタマイズを、単一の本番環境指向のフレームワークに統合します。NVIDIA NeMo Run を通じて、開発者はローカル環境、SLURM クラスター、Kubernetes ベースの AI ファクトリーのすべてで、一貫した実験の設定、起動、管理ができます。

極めて大規模なトレーニングで、NeMo は、基盤となる分散トレーニング エンジンを供給する NVIDIA Megatron Core と緊密に連携します。Megatron Core は、高度な並列化戦略、最適化されたデータローダーを提供するほか、高密度 LLM、MoE、状態空間モデル、マルチモーダル ネットワークなどの最新のモデル アーキテクチャのサポートを提供します。この統合により、NeMo は数千台の GPU にトレーニングを拡張しながら、並列処理と通信の複雑さをユーザーに感じさせないよう抽象化できます。
また、NeMo は、人間のフィードバックによる強化学習 (RLHF)、直接選好最適化 (DPO)、近接ポリシー最適化 (PPO)、教師ありファインチューニングなどの強化学習やアライメント技術を含む、高度な事後学習ワークフローもサポートしています。これらの機能により、開発者はパイプラインを再設計することなく、単一のフレームワーク内で事前学習からアライメント、カスタマイズに至るまで、シームレスに移行することができます。
エコシステム ワークフローを連携させるために、NVIDIA NeMo Megatron Bridge は、Hugging Face と Megatron のフォーマット間の双方向チェックポイント変換および検証を可能にします。このツールは、モデルがコミュニティ ツール、NeMo ベースのトレーニング、強化学習、最適化された推論デプロイ間の信頼性の高い移行を可能にしながら、正確性と再現性を維持します。
推論フレームワークと最適化 — リアルタイム インテリジェンスのサービング
Rubin プラットフォームは、低遅延、高並列性、大量の通信を伴う実行環境が求められる最新の推論ワークロードに、大幅な性能向上をもたらすよう設計されています。このプラットフォームは、SGLang、NVIDIA TensorRT-LLM、vLLM、NVIDIA Dynamo など、広く使用されているオープンソースおよび NVIDIA 推論フレームワークと連携し、プラットフォームの可用性に伴ってソフトウェア サポートが提供されると、長コンテキスト、MoE、エージェント型ワークロードの効率的な実行を可能にします。
NVIDIA Model Optimizer は、量子化、剪定、蒸留、投機的デコードを通じて推論パフォーマンスを向上させ、アーキテクチャの進歩を遅延の短縮とトークンあたりのコストの削減に直接的に結びつけます。サービング層では、NVLink 対応通信、分散推論、LLM 対応ルーティング、ストレージへの KVキャッシュ オフロード、Kubernetes 自動スケーリングが Dynamo を通じて提供され、MoE 推論やマルチエージェント パイプラインなど、通信負荷の高いワークロードのスケーラブルなサービングを可能にします。

開発者向けのプログラム可能なラックスケール プラットフォーム
NVIDIA のアーキテクチャは、ラックスケールでのプラットフォーム ソフトウェアのパフォーマンスと開発者の利便性を最大限に高めるよう、ゼロから設計されています。プラットフォーム ソフトウェアと開発者の体験をアーキテクチャに直接統合することで、Rubin プラットフォームは強力なだけでなく、デプロイとプログラミングに非常に実用的なものになっています。開発者は、インフラの複雑さではなく、モデル、エージェント、サービスに集中できます。一方、オペレーターは、AI ファクトリー規模でのパフォーマンス、信頼性、効率性を制御し続けることができます。
6. AI ファクトリー規模での運用
大規模な AI ファクトリーを運用するには、単なるパフォーマンス以上のものが必要となります。現実世界のデータセンター環境においては、継続的、安全、効率的、予測可能な運用ができるシステムが求められています。Rubin プラットフォームは、画期的なコンピューティング能力を提供するだけでなく、インテリジェントな信頼性、フルスタックのセキュリティ、エネルギー効率に配慮した設計、成熟したラック エコシステムを通じて、長期にわたるコンピューティング能力を維持できるよう設計されています。これらの機能を組み合わせることで、Rubin プラットフォーム上に構築された AI ファクトリーは、迅速な拡張、最小限の障害での運用、電力、インフラ、シリコンを産業規模で実用的なインテリジェンスに変換できます。
デプロイと運用
NVIDIA Mission Control は、Vera Rubin NVL72 デプロイの構成から、設備との統合、クラスターとワークロードの管理まで、AI ファクトリーの運用のあらゆる側面を高速化します。インテリジェントな統合ソフトウェアにより、企業は冷却と電力イベントに対する制御を向上させ、インフラの回復力を再定義します。Mission Control は、迅速な漏洩検出で、より迅速な対応を可能にし、NVIDIA の最新の効率化技術へのアクセスを実現し、自律回復機能により AI ファクトリーの生産性を最大化します。

Mission Control は企業に検証済みの実装を提供し、クラスター ライフサイクル全体を通じて AI ファクトリーのデプロイと運用方法を簡素化・拡張します。
- シームレスなワークロード オーケストレーション: NVIDIA Run:ai の機能により、モデル開発者に簡単でシンプルなワークロード管理を実現します。
- 電力最適化: 開発者が選択可能な制御により、さまざまなワークロード タイプに合わせて電力要件のバランスをとり、GPU のパフォーマンスを調整します。
- 自律回復エンジン: 手動の介入なしに問題の特定、分離、回復を実行し、生産性とインフラの耐障害性を最大化します。
- カスタマイズ可能なダッシュボード: クラスターに関する重要なテレメトリ データへのアクセスと、設定しやすいダッシュボードを利用して、主要業績評価指標を追跡できます。
- 継続的な正常性チェック: インフラのライフサイクル全体を通じてハードウェアとクラスターのパフォーマンスを検証します。
エンタープライズ ソフトウェアとライフサイクル サポート
NVIDIA AI Enterprise は、大規模な AI ファクトリーの運用に必要なエンタープライズ グレードのソフトウェア基盤を提供します。アプリケーション開発ライブラリ、フレームワーク、マイクロサービス、GPU 管理のためのインフラ ソフトウェアに及ぶ検証済みかつサポート対象のソフトウェア スタックを提供します。本番環境での AI デプロイにおいて、予測可能なパフォーマンス、セキュリティ、安定性を実現します。

エージェント型 AI の開発向けに、NVIDIA AI Enterprise には NVIDIA NIM、NeMo、その他のコンテナー化されたライブラリとマイクロサービスが含まれており、標準化された API を通じて最適化された推論、モデル トレーニング、カスタマイズを可能にします。NVIDIA、パートナー、コミュニティの AI モデルをサポートする NIM マイクロサービスは、企業がエージェント型 AI 機能をより迅速にデプロイできるよう支援します。
さらに、アプリケーション開発用 SDK、フレームワーク、ライブラリは、Rubin プラットフォームのアーキテクチャ機能をパフォーマンス向上へと変換します。CUDA、Transformer Engine、cuDNN、関連ライブラリはアクセラレーテッド スタックとして検証されており、ハードウェアの進歩が上位レベルのフレームワークとサービスによって自動的に実現されることを保証します。
インフラ管理について、NVIDIA AI Enterprise は、専用オペレーターと検証済みの GPU、ネットワーク、仮想化ドライバーを通じて Kubernetes と連携します。これらのコンポーネントにより、安全なマルチテナント運用、ワークロード オーケストレーション、クラスター全体の可観測性が実現し、オペレーターは信頼性とコンプライアンスを維持しながら、利用率を最大化できます。
長期サポート、定期的なセキュリティ更新、ハードウェア世代間の互換性検証が提供されている NVIDIA AI Enterprise は、NVIDIA AI ファクトリーのソフトウェア基盤として機能します。これは、データセンター、クラウド、エッジ環境全体にわたるプログラム可能で安全かつ運用可能な本番環境プラットフォームへと、ラックスケール システムを変換します。
NVIDIA AI Enterprise は、ソリューション インテグレーター、データおよびエンタープライズ プラットフォーム、ハイブリッド クラウドおよびマルチクラウド プロバイダー、AIOps ソリューションなど、幅広いパートナーのエコシステムにより支えられています。既存のエンタープライズ ソフトウェア スタックとシームレスに統合され、生産グレードの AI を実現し、市場投入までの時間を短縮します。
信頼性、可用性、保守性
AI ファクトリーは、メンテナンス ウィンドウを設ける余裕のあるバッチ システムではなくなりました。継続的なトレーニング、リアルタイム推論、検索、分析を実行する常時稼働環境となっています。Vera Rubin NVL72 は、この現実に対応するために設計され、稼働時間を最大化し、有用な AI 作業の実質的処理量であるグッドプットを向上させ、長期実行される AI ワークロードの予測可能な完了を保証するラックスケールの RAS アーキテクチャを導入しています。
この文脈でのグッドプットとは、システムの稼働時間を、トレーニング ステップの完了、推論リクエストの処理、トークンの配信といった成果に、どれだけ効率的に変換できるかを示しています。ジョブの再起動、チェックポイントのロールバック、遅延処理、コンポーネント障害に起因するパフォーマンス低下といった損失のない状態を指します。ワークロードが数千の GPU に広がり、数日または数週間実行される場合、短時間の中断や局所的な障害でさえ、グッドプットを大幅に低下させる可能性があります。
Rubin プラットフォームの耐障害性は、シリコン、相互接続、物理システム アーキテクチャにおよぶエンドツーエンドの設計です。その結果、障害の隔離、トラフィックの再ルーティング、中断のないワークロードの継続実行を可能にする、統一された信頼性へのインテリジェントなアプローチが実現しました。これにより、持続的なスループットと予測可能なジョブ完了を維持しながら、ラックスケールでの計画的なダウンタイムをゼロに抑えることができます。
ラックスケールの耐障害性: 根本からの設計見直し
Vera Rubin NVL72 は、信頼性と保守性を第一級のアーキテクチャ要件として考慮する第 3 世代の NVIDIA MGX ラック設計を基盤として開発されました。コンピュート トレイ、NVLink スイッチ トレイ、電源/冷却インフラは、モジュール式でホットスワップ対応となっていて、ラックの電源を切断したり、アクティブなワークロードを中断したりすることなく、現場で交換できるように設計されています。
下のアニメーションで確認できるように、ケーブル不要、ホース不要、ファンレスのコンピュート トレイ アーキテクチャは、トレイ内の手動による PCIe 接続、ネットワーク接続、管理接続が大幅に削減され、従来のケーブル接続トレイ設計につきものの組み立てと保守の面倒な問題が解消されます。この機械的な簡素化により、前世代のトレイ アーキテクチャと比較して最大 18 倍に組み立て速度が向上し、現場保守時のサービス時間を大幅に短縮し、デプロイ時間と継続的な運用オーバーヘッドを削減します。
80 社以上の MGX パートナーからなる成熟したエコシステムにより、グローバルな製造可能性、サービスの即応性、スケーラブルなデプロイが保証されます。これにより、大規模な環境においても一貫した信頼性を維持しながら、AI ファクトリーを迅速に立ち上げることが可能です。

相互接続全体におけるインテリジェントな耐障害性
システム レベルで、NVIDIA NVLink のインテリジェントな耐障害性により、メンテナンス、部分的な導入、コンポーネントの交換時にラックを完全に稼働し続けることができます。ソフトウェア デファインドのルーティングとインテリジェントなフェイルオーバーを活用することで、アクティブなトレーニングまたは推論ジョブを中断させることなく、障害を回避してトラフィックを動的に再ルーティングします。
この機能は、AI ファクトリーが数千基の GPU に拡張する上で非常に重要です。中断を「システム停止」イベントとして扱うのではなく、システムはリアルタイムに適応し、コンポーネントの保守または交換時にグッドプットを向上させる際にも、高い利用率と予測可能なパフォーマンスを維持します。
ダウンタイム ゼロのシリコンレベルの正常性監視
このアーキテクチャの中核には、Rubin GPU の第 2 世代の信頼性、可用性、拡張性エンジン (RAS) があり、GPU をオフラインにすることなく、継続的なシステム内の正常性監視を実現します。正常性チェックはアイドル状態の実行ウィンドウ中に実行され、稼働中のワークロードに影響を与えることなく、完全な診断を可能にします。
RAS エンジンは、実行中の現場での SRAM 修復と、ゼロ ダウンタイムの自己診断をサポートし、実効平均故障時間を延長し、システム全体の歩留まりを向上させます。この機能は、計画外の中断のコストが高く、許容できない長期実行のトレーニング ジョブと持続的な推論サービスにとって特に重要です。
Vera CPU は、システム内 CPU コア検証、診断時間の短縮、保守性と障害分離の向上のために設計された SOCAMM LPDDR5X メモリにより、GPU レベルの耐障害性を補完します。
AI ファクトリー規模での予測運用
これらのハードウェア機能は、NVIDIA AI 搭載の予測管理と連動して、ラック全体で数千ものハードウェアとソフトウェアのテレメトリ信号を分析します。潜在的な問題を早期に特定して、所在を正確に把握し、積極的に対処します。オペレーターは、サービス レベル目標に影響を与えることなく、ワークロードの再バランス、チェックポイント戦略の調整、スタンバイ容量の有効化、メンテナンスのスケジュール設定を行うことができます。
これらの機能を組み合わせることで、RAS は事後対応型のプロセスから、ダウンタイムを最小化し、運用の複雑さを軽減し、AI ワークロードをスケジュール通りに完了させるというインテリジェントな予測システムへと変貌します。
Vera Rubin NVL72 により、信頼性はスケールの制限要因ではなくなります。シリコンからシステムに至るまで、このプラットフォームは、AI ファクトリーを前例のない規模で継続的、効率的、かつ予測可能な形で運用できるよう設計されています。
フルスタックのコンフィデンシャル コンピューティング
AI ファクトリーの本番環境への移行に伴い、セキュリティ要件は個別のデバイスの保護から、大規模で継続的に運用されるシステム全体の保護にまで拡大します。最新の AI ワークロードは、インフラを暗黙的に信頼できない共有環境またはクラウド環境で、多くの場合、独自のトレーニング データ、規制対象コンテンツ、高価値モデルを日常的に処理しています。これらの要件を満たすには、パフォーマンスの低下や運用上の摩擦を引き起こすことなく、シリコン、相互接続、システム ソフトウェアを網羅するセキュリティが求められます。
Vera Rubin NVL72 は、基盤機能としてフルスタックのコンフィデンシャル コンピューティングを搭載して設計され、個別のコンポーネントからラック全体へと信頼性を拡張します。
第 3 世代のコンフィデンシャル コンピューティング: ラック レベルのセキュリティ
下図に示すように、Vera Rubin NVL72 はコンフィデンシャル コンピューティングを個別のデバイスを超えて拡張し、CPU、GPU、相互接続に及ぶ統合されたラックスケールの信頼できる実行環境を構築します。この設計により、共有環境またはクラウド環境においても、機密性の高い AI ワークロードをネイティブに近いパフォーマンスで大規模かつ安全に実行できます。

AI ファクトリーは、実行されるインフラにさえ公開できない独自データ、規制対象コンテンツ、ミッション クリティカルなモデルを処理するケースが増加傾向にあります。Vera Rubin NVL72 は、CPU から GPU、GPU から GPU、デバイス I/O パス全体にわたるエンドツーエンドの暗号化を提供することで、この要件に対応します。これにより、企業はスループットや遅延を犠牲にすることなく、安全なトレーニング、推論、検索、分析パイプラインをデプロイできます。
デバイスレベルのセキュリティからラックスケールの信頼性へ
NVIDIA は、複数の世代にわたり GPU のセキュリティを向上させてきました。Hopper では、GPU 向けに高性能のコンフィデンシャル コンピューティングを導入しました。Blackwell はこれらの機能を拡張し、セキュリティとパフォーマンスとで従来生じていたトレードオフを解消しました。Vera Rubin NVL72 はこの進化を完結させ、CPU と GPU のセキュリティをラック全体にわたる単一の信頼ドメインに統合します。
このラックレベルのアプローチにより、独自モデル、トレーニング データ、埋め込みデータ、推論プロンプトは、他のテナントからだけでなく、基盤となるクラウド プロバイダーのインフラ自体からも継続的に保護されるようになります。
暗号化認証と検証可能なコンプライアンス
Vera Rubin NVL72 は、NVIDIA リモート認証サービス (NRAS) と連携して、システムの完全性を暗号的に証明します。組織は、CPU、GPU、NIC、ファームウェア、ドライバー、実行中のワークロードが、NVIDIA が提供する既知の正常なリファレンス測定値と一致することを検証し、ラックスケールでゼロトラスト アーキテクチャを実現することが可能です。
このプラットフォームは、NVIDIA Attestation Cloud サービスによるオンデマンド認証と、キャッシュした結果を必要とするデプロイ モデルや、完全なエアギャップ環境での運用にも対応しています。この柔軟性により、企業は運用効率を維持しながら、厳格な規制、コンプライアンス、データ主権の要件を満たすことができます。
ラック全体にわたる一元的セキュリティ
Vera Rubin NVL72 は、業界標準と NVIDIA の技術を組み合わせて、以下に示すような一元的セキュリティ ドメインを確立します。
- TEE Device Interface Security Protocol (TDISP): デバイス レベルの信頼性を実現
- PCIe 整合性とデータ暗号化 (IDE): 安全な I/O を実現
- NVLink-C2C 暗号化: 保護された CPU-to-GPU および CPU-to-CPU 通信を実現
- NVLink 暗号化: 大規模な GPU 間データ転送の安全性を確保
これらの機能を組み合わせることで、世界最大クラスの AI モデルや最も要求の厳しいエンタープライズ ワークロードに対応できる、完全に暗号化された一貫性のある信頼実行環境が実現します。ユーザーのデバイスからクラウド規模の AI ファクトリーまで、Vera Rubin NVL72 は、実行場所を問わず、あらゆるタイプのデータを保護するフルスタックのコンフィデンシャル コンピューティングを提供します。
トークン生成の電力: サーマルおよび電力のイノベーション
AI ファクトリーは数百メガワットの電力を消費します。しかし、その電力が実際に処理を行う GPU に到達するまでに、電力変換、配電、冷却の過程で電力の約 30% が失われます。この電力は演算処理をサポートするシステムによって消費されますが、AI 出力の基本単位であるトークンを直接生成するわけではありません。「寄生電力」と呼ばれるこの電力は、規模が拡大することで数十億ドル規模の潜在的収益の損失に結び付きます。

無駄に消費されるワット数は、トークン生成に利用できたはずのワット数です。AI が知識創造の主な原動力になってきた現状では、電力効率の向上は、スループットの向上、トークンあたりのコストの削減、持続可能性の向上に直接結びつきます。
寄生電力の削減は、トークンを生成するエンジンである GPU に、より多くの使用可能な電力を供給することを意味します。Rubin プラットフォームは、常時稼働する AI ファクトリー向けに設計された、よりシンプルな電力経路、より効率的な冷却、システム レベルのオーケストレーションを通じて、これらの隠れたコストを最小化するように設計されています。
従来のデータセンターは、空冷に大きく依存しており、空気の移動と空調に多くのエネルギーを消費します。Blackwell と同様に、Vera Rubin NVL72 システムは、45℃ の供給温度で温水型の単相直接液冷 (DLC) を使用します。液冷は空冷よりもはるかに効率的に熱を吸収し、Blackwell の 45℃ の冷却温度を維持することで、データセンターは周囲の空気で水を冷却できます。これは、35℃ の液冷を必要とする他のソリューションと比較して、コスト、複雑さ、省電力の面で大幅な改善につながります。
Blackwell の液冷設計を基盤とする Vera Rubin は、冷却の複雑さやコストを増加することなく、同じラック フットプリントでサーマル性能をほぼ 2 倍にすることで、冷却効率をさらに向上させます。これにより、過酷な持続的ワークロードの下で迅速な排熱を可能にし、サーマル スロットリングを防止し、パフォーマンスを安定させます。冷却に費やす電力が少なくなることは、AI ファクトリー全体でコンピューティングに利用できる電力が増加し、持続的な利用率が向上することを意味します。
ラック レベルの電力平滑化とサイト レベルのエネルギー貯蔵
AI ワークロードは本質的に動的です。大規模トレーニングでは、メガワット規模の電力急増を伴う全対全の同期通信フェーズが発生する一方で、推論では、急激かつ突発的な需要の急増を招きます。

対策を講じない場合、こういった電力の変動は電力供給ネットワークに負荷を与え、送電網の制約を違反し、オペレーターにインフラの過剰構築や GPU のスロットリングを強いる可能性があります。いずれも電力を浪費し、デプロイ可能なコンピューティング能力を制限します。
Rubin AI ファクトリーは、多層的なアプローチでこの課題に対処します。

ラックレベルでは、Vera Rubin NVL72 は電力平滑化により電力変動を均等化し、Blackwell Ultra と比較して約 6 倍のローカル エネルギー バッファリングを内蔵し、急激な電力変動を発生源で直接吸収します。下の図は、運用におけるラックレベルの電力平滑化の効果を示しています。同期化した AI ワークロードの電力変動は、安定した電力の上限と下限を定め、制御された傾斜波形に再形成され、ローカル エネルギー バッファリングが発生源で急速な過渡電流を吸収します。その結果、データセンターと電力網の制約に合わせて GPU の実行を調整し、よりスムーズで予測可能な電力プロファイルを実現します。

下図は、この動作を可能にする 3 つの補完的なメカニズムに分解しています。制御された急増、強制された制限、局所的蓄電が協調システムとして動作し、パフォーマンスを低下させることなく、ピーク需要を削減し、急増率の違反を抑制し、電力供給を安定化します。これらのメカニズムにより、AI ファクトリーは最悪のケースの急増ではなく、持続的な電力を前提に計画することが可能になり、メガワットあたりのデプロイ可能な演算能力を直接向上させることができます。

サイト レベルでは、バッテリー エネルギー貯蔵システム (BESS) が迅速な応答能力を提供し、電力網イベントに対応し、ワークロードを中断することなく安定性を維持します。
AI インフラの電力管理は、NVIDIA Domain Power Service (DPS) を活用して電力ドメイン レベルの制御を提供し、各ジョブに対して NVIDIA Workload Power Profile Solution (WPPS) を活用して、SLURM や NVIDIA Mission Control などのスケジューラーにおけるワットあたりのパフォーマンスを最適化します。Mission Control は、クラスタ全体のテレメトリ、調整された電力認識ポリシー、施設との統合 (エネルギー最適化された電力プロファイルとビル管理システム インターフェイスを含む) を提供し、効率的な大規模運用を実現します。低レベルの GPU テレメトリ、電力制限、正常性の制御は、NVIDIA System Management Interface (SMI) と NVIDIA Data Center GPU Management (DCGM) API を通じて処理されます。

Vera Rubin NVL72 は、ピーク時電力と平均電力の比率を低減することで、利用可能な電力網容量 1 メガワットあたりに、より多くの GPU をプロビジョニングし、最悪のケースの電力急増ではなく、持続的な電力供給を前提にして計画できます。これにより、使用率が向上し、インフラのオーバーヘッドが削減され、エネルギー単位あたりのトークン生成数が直接増加します。
持続可能な AI ファクトリー規模のための電力最適化と電力網認識
AI ファクトリーは孤立して動作するわけではありません。急増率、ピーク需要、運用の安定性に制限を課す電力網と密接に連携しています。これらの制約を手動で管理することは大規模な環境では非現実的であり、強制的なスロットリングやダウンタイムを引き起こす可能性があります。NVIDIA はバージニア州マナサスに Vera Rubin NVL72 AI ファクトリー研究センターを建設し、100 MW からギガワット規模の AI ファクトリー向けのリファレンス設計を最適化および検証しています。このリファレンス設計は、Vera Rubin NVL72 ラック設計を電力および冷却インフラと大規模に統合し、電力網の電力制御を AI ファクトリーのテレメトリおよび制御と接続する API を実装しています。
Vera Rubin NVL72 AI ファクトリーは、ソフトウェア デファインドの電力制御向けに NVIDIA Omniverse DSX リファレンス設計を統合しています。DSX Flex は、電気会社の信号を実用的なクラスター レベルの電力イベントに変換します。DSX Boost は、急増率のコンプライアンスを徹底し、ファクトリー全体でワークロードの電力予算を動的に調整します。
これらの機能を組み合わせることで、AI ファクトリーは、ワークロードを高い使用率で実行しながら、電力網要件に準拠し続けることができます。ラック、ノード、ジョブ全体にわたる電力の挙動を調整することで、DSX は、Vera Rubin NVL72 AI ファクトリーが同じ電力エンベロープ内で最大 30% 多くの GPU 容量をプロビジョニング可能にし、トークンの出力と収益可能性を直接的に向上させます。
成熟したエコシステムにより実現されるシームレスな移行

Vera Rubin NVL72 は、第 3 世代 NVIDIA MGX ラック アーキテクチャ上に構築され、パフォーマンス、信頼性、保守性を向上させながら、同じ物理ラック フットプリントを維持します。この継続性は意図的なものです。インフラの急激な変更を強いることなく、プラットフォームを進化させることで、NVIDIA は予測可能で効率的なデプロイ モデルを維持しながら、AI 機能の飛躍的な向上を実現します。
Vera Rubin NVL72 はラックあたり最大 3.6 exaFLOPS の AI 推論演算能力を提供し、課題はもはやパフォーマンスそのものではなく、そのパフォーマンスをいかに迅速に大規模な環境に展開できるかが課題となっています。MGX デザインでは、電力、冷却、機械的統合、保守ワークフローがすでに実証済みであるため、パートナーとオペレーターは、インフラの再設計ではなく、本番環境始動までの時間の短縮に注力できます。
この一貫性は、より迅速なスケールアップに直結します。Vera Rubin は、システム メーカー、インテグレーター、データセンター ソリューション プロバイダーに及ぶ 80 社以上の MGX パートナーの成熟したエコシステムにサポートされており、その多くはすでにプラットフォームをスケールアップしています。これらのパートナーは、前世代から苦労して得られた運用経験を有し、リスクを軽減し、グローバルなデプロイを加速します。
データセンターのオペレーターにとって、これは最小限の摩擦による Vera Rubin へのスムーズな移行を意味します。既存の施設は、レイアウトの見直し、サービス チームの再トレーニング、基本的なラック設計の再検証をすることなく、次世代のエージェント型 AI インフラを導入できます。その結果、より迅速なデプロイ、予測可能な運用、需要の増加に合わせた AI ファクトリーの迅速な拡張といった能力が得られます。
Vera Rubin の成熟したエコシステムは、プラットフォームの革新がデプロイ速度を犠牲にしないことを保証し、企業とクラウド プロバイダーは、かつてないスピードでイノベーションを本番環境へと移行できます。
運用と性能が交差するところ
これらの機能を組み合わせると、AI ファクトリー規模での運用の意味が定義されます。Vera Rubin NVL72 は、ゼロ ダウンタイムの信頼性、フルスタックのセキュリティ、エネルギー効率の高いシステム設計、成熟したラック エコシステムを組み合わせ、パフォーマンスの向上を本番環境において真に持続可能な成果に結びつくことを保証します。運用、電力、デプロイのボトルネックを排除することで、このプラットフォームは、AI ファクトリーが最も重要なことに集中できるようにします。つまり、ワットあたり、ラックあたり、データ センターあたりのインテリジェンスを向上させることです。この基盤を整えた上で、次のセクションでは、Vera Rubin がこれらのシステム レベルの利点を大規模なパフォーマンス向上にどのように変換するかを検証します。
7. 大規模におけるパフォーマンスと効率性
Vera Rubin NVL72 のパフォーマンスの影響を理解するには、モデルの進化の観点から捉えることが役立ちます。業界は現在、10 兆パラメーターの Mixture-of-Experts (MoE) モデルに代表される極めて大規模なトレーニング、推論エージェントや複雑なワークフローに必要な低遅延の推論という 2 つの方向に同時に進んでいます。この規模において、課題はもはや単独のピーク スループットではなく、プラットフォーム全体がインフラを持続的なモデルの進歩にどのように効率的に変換するかが課題です。
Hopper から Blackwell、そして現在 Rubin へと業界が進化するにつれ、力任せのスケーリングではなく、アーキテクチャ効率からパフォーマンス向上が実現されるようになってきました。Vera Rubin NVL72 は、管理不能なクラスターのスプロールなしに巨大な MoE モデルのトレーニングに必要なアーキテクチャの密度を提供するとともに、リアルタイムの高度な推論に必要な持続的な実行効率をもたらします。
徹底的な共同設計で、10T MoE の時代を切り開く
次世代のフロンティア モデルのトレーニングには、徹底的な共同設計が必要です。パラメータ数が増加し続けるのに伴って、10T MoE アーキテクチャが実用化される段階に業界は急速に近づいています。これらのモデルは、膨大な処理能力とより効率的な推論を提供しますが、動的なエキスパート ルーティングと頻繁な全対全の通信のため、トレーニング中にかなりの通信オーバーヘッドが発生します。
Rubin プラットフォームは、演算処理、メモリ、ネットワーク全体にわたる徹底的な共同設計を通じて、このオーバーヘッドを吸収するように設計されています。ラックあたりの演算密度の向上と、より効率的な相互接続により、同期処理とエキスパート間の通信コストが削減され、クラスター規模の増加に伴ってトレーニングの効率性が低下するのではなく、拡張が可能になります。
下図は、固定されたトレーニング目標を使用したこの共同設計の影響を表しています。100 兆トークンで 10T MoE モデルを 1 か月以内にトレーニングするために、Vera Rubin NVL72 は、Blackwell NVL72 に必要な約 4 分の 1 の GPU 数で目標を達成します。厳しいスケジュールに対応するために、これまで以上に大規模なクラスターにスケールアウトするのではなく、Rubin は効果的なトレーニング能力をより少ない GPU に集中させます。

必要な GPU 数の削減は、大規模トレーニングにおける構造的な変化を表しています。クラスターのスプロールと通信オーバーヘッドを最小化することで、Vera Rubin NVL72 は、従来 MoE の拡張性を制限してきた複雑性の大部分を解消します。10T クラスのモデルを大規模に実用化する上で主要な要因となるのは、GPU の総数ではなく、アーキテクチャの効率性です。
大規模なリアルタイム推論
マルチエージェント型 AI システムへの移行は、推論の挙動を根本的に変えます。短いステートレスのリクエストではなく、エージェントは永続的なコンテキストの保持し、ターンを超えてエージェント間で状態を継続的に交換します。各リクエストは、会話履歴、ツール定義、構造化 API スキーマ、取得された RAG コンテキスト、ワークフロー内の他のエージェントからの中間出力など、数万のトークンを運ぶことができます。この持続的なコンテキスト負荷の下で応答性を維持するには、ピーク時の演算能力以上に、計算、メモリ、通信全体にわたる高い持続的スループットが要求されます。
同時に、Moonshot AI の Kimi-K2-Thinking など、最新の「思考」モデルは、追加の実行フェーズを導入しています。最終応答を生成する前に、これらのモデルは長い内部推論シーケンスを生成し、出力トークン数を大幅に増加させます。8,000 の出力トークンを必要とするワークロードの場合、ユーザーあたり約 50 トークン毎秒という従来のユーザー推論速度では、応答時間が数分間に及ぶことになります。大規模な環境において、この遅延は同時接続ユーザー間で累積し、ユーザー体験とシステム効率の両方を悪化させます。
Vera Rubin NVL72 は、このボトルネックを解消するために設計されました。高いインタラクティブ レベルで高スループットを維持することで、このプラットフォームは、応答性を犠牲にすることなく、推論負荷の高い処理を可能にします。下図は、この世代的な変化を示しています。Kimi-K2-Thinking ワークロードにおいて、Vera Rubin NVL72 は、NVIDIA Blackwell GB200 NVL72 システムと比較して、同等のユーザー インタラクション性を維持しながら、メガワットあたりで最大 10 倍のトークン生成スループットを実現します。以前のアーキテクチャでは、ユーザーあたりの TPS が増加するにつれ、スループットが急激に低下しますが、Vera Rubin NVL72 は、流動的なインタラクティブ推論に必要な動作範囲全体で効率性を維持します。これにより、1 兆パラメータ規模の MoE モデルでも、「思考待ち」のペナルティなしに、リアルタイムのエージェント型ワークロードを処理できるようになります。

スループットだけでなく、Vera Rubin NVL72 は推論処理の経済性を根本的に変えます。下図は、同一ワークロードの出力遅延と、100 万トークンあたりのコストの関係を示しています。長文コンテキストにおける推論中心の推論処理で、Vera Rubin NVL72 は Blackwell NVL72 と比較して、100 万トークンあたりのコストを最大 10 分の 1 に削減します。
この優位性は、対話型エージェントに必要なサービス レベルで最も顕著です。従来のプラットフォームは応答性を段階的に向上させる際にコストが急増する効率性の壁に直面する可能性がありました。Vera Rubin は、この領域で高いコスト効率を維持し、長文推論をプレミアム機能からスケーラブルで本番環境対応のサービスへと変えます。

効率性の限界の再定義
これらの結果は、AI 推論における応答性と効率性の従来のトレードオフを再定義するものです。以前のプラットフォームでは、オペレーターは低遅延と合理的なコストのいずれかを選択する必要がありましたが、Vera Rubin NVL72 は両方を同時に実現します。これにより、長大なコンテキストで推論負荷の高いモデルが、大規模な環境でインタラクティブに運用され、高インテリジェンスな推論をプレミアム機能から本番環境標準のサービスへと変わります。
8. Rubin が AI ファクトリー プラットフォームである理由
AI インフラは転換点に到達しました。モデルが長コンテキストの推論、エージェント型の実行、継続的な事後学習に向けて進化する中で、パフォーマンスはもはや単一コンポーネントで左右されることはありません。これは、システム全体が電力、シリコン、データ移動を大規模かつ実用的なインテリジェンスに変換する効率性によって決定されます。
Rubin は、この現実のために設計されました。
独立したチップの最適化ではなく、Rubin プラットフォームはデータセンターをコンピューティングの単位として扱います。GPU、CPU、スケールアップ ネットワークとスケールアウト ネットワーク、インフラ オフロード、電力供給、冷却、セキュリティ、システム ソフトウェアにわたる徹底的な共同設計を通じて、Vera Rubin は、一貫性があり、予測可能で、継続的に利用可能なシステムとして AI ファクトリーが動作することを可能にします。
実行層で、Rubin GPU は演算能力、メモリ、通信に依存するワークロードに持続的なスループットを提供します。Vera CPU は高帯域幅のデータ エンジンとして機能し、GPU に効率的にデータをストリーミングし、ボトルネックになることなくシステム レベルのオーケストレーションを高速化します。NVLink 6 はラックを単一のコヒーレントなシステムに統合し、すべての GPU で予測可能なパフォーマンスを実現します。BlueField-4 は、AI ファクトリーそのものを運用し、インフラ サービスの負荷をオフロードし、大規模なセキュリティ、分離、制御を強いることで、スタックを完成します。Spectrum-X イーサネット と ConnectX-9 は、この決定論的な動作をラックを超えて拡張し、マルチラック デプロイ全体で効率的でスケーラブルな AI ファクトリーを実現します。
最も重要な点は、これらの機能が理論上のものではないことです。NVIDIA Mission Control、エンタープライズ ソフトウェア、成熟した MGX エコシステムでサポートされる、検証済みの本番環境対応プラットフォームとして DGX SuperPOD を通じて提供されます。この設計により、組織は安全な AI ファクトリーをより迅速にデプロイし、より信頼性の高い運用を実現しながら、需要の増加に合わせてより効率的に拡張することが可能になります。
その結果、AI の経済性にも根本的な変化がもたらされます。利用率の最大化、運用上の摩擦の低減、無駄な電力の最小化により、Rubin プラットフォームはトークンあたりのコストを削減し、ワットあたりのトークン数およびラックあたりのトークン数を増加させます。かつては無秩序に拡張する必要があった脆弱なクラスターが、現在では、より高密度、より高い信頼性、予測可能なパフォーマンスで提供されるようになりました。
Rubin プラットフォームは、単なる次世代のアクセラレーテッド コンピューティングではありません。AI ファクトリーが実験段階から産業規模のインテリジェンス生産へと移行することを可能にするプラットフォームです。
9. 関連情報
Rubin プラットフォーム、Vera CPU、Vera Rubin NVL72、NVIDIA NVLink 6 スイッチ、NVIDIA ConnectX-9 SuperNIC、NVIDIA BlueField-4 DPU、NVIDIA Spectrum-6 イーサネット スイッチ、DGX SuperPOD 構成、その他のデプロイ オプションの詳細は、nvidia.com でご覧ください。また、CES プレス リリースもお読みください。
謝辞
Alex Sandu、Amr Elmeleegy、Ashraf Eassa、Brian Sparks、Casey Dugas、Chris Hoge、Chris Porter、Dave Salvator、Eduardo Alvarez、Erik Pounds、Farshad Ghodsian、Fred Oh、Gilad Shainer、Harry Petty、Ian Buck、Itay Ozery、Ivan Goldwasser、Jamie Li、Jesse Clayton、Joe DeLaere、Jonah Alben、Kirthi Devleker、Laura Martinez、Nate Dwarika、Praveen Menon、Rohil Bhargava、Ronil Prasad、Santosh Bhavani、Scot Schultz、Shar Narasimhan、Shruti Koparkar、Stephanie Perez、Taylor Allison、Traci Psaila と、本記事の作成に協力いただいた NVIDIA の製品リーダー、エンジニア、アーキテクト、パートナーの皆様に心より感謝申し上げます。
翻訳に関する免責事項
この記事は、「Inside the NVIDIA Rubin Platform: Six New Chips, One AI Supercomputer」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。