ヒューマノイドや自動運転車のような次世代の AI 駆動型ロボットは、高精度で物理法則を考慮したトレーニング データに依存しています。 多様で代表的なデータセットがなければ、これらのシステムは適切なトレーニングを受けられず、汎用性の低さ、現実世界の変動への対応不足、エッジ ケースにおける予測不能な動作などにより、テスト段階でのリスクに直面することになります。トレーニング用に膨大な現実世界のデータセットを収集することは、コストと時間がかかるだけでなく、多くの場合、実現可能性に限界があります。
NVIDIA Cosmos Cookbook では、Cosmos WFM の構築、適応、および展開に関するステップバイステップのワークフロー、技術的な手順、および具体的な例をご覧いただけます。
NVIDIA Cosmos は、世界基盤モデル (WFM: World Foundation Model) の開発を加速させることで、この課題を解決します。 Cosmos WFM は、プラットフォームの中核として、合成データの生成を加速させ、トレーニング後の基盤として機能することで、これらの課題を解決するための、ドメインまたはタスク固有の物理 AI モデルを解発します。 この記事では、最新の Cosmos WFM 、フィジカル AI を進化させる主な機能、そしてそれらの使用方法について解説します。
Cosmos 世界基盤モデルのアップデート
NVIDIA Cosmos 世界基盤モデルは、急速に進化し続けており、合成データの生成とフィジカル AI の開発をさらに加速させる大きな進歩を遂げています。 導入から 1 年が経過し、主なアップデートには以下が含まれます :
- Cosmos Transfer 2.5 — シミュレーションや 3D 空間入力からのデータ拡張が、より高速かつスケーラブルになり、環境、照明条件、シーンのバリエーションにおいて、より豊かな多様性を実現します。
- Cosmos Predict 2.5 — 最大 30 秒のシーケンスにおけるロングテールシナリオ生成機能を強化し、独自のデータまたはドメイン固有のデータで事後学習を行った場合、最大 10 倍の精度向上を実現します。 マルチビュー出力、カスタムカメラのレイアウト、およびアクション シミュレーションなどの代替ポリシー出力をサポートしています。
- Cosmos Reason 2 — 時空間の理解とタイムスタンプの精度が向上し、高度なフィジカル AI リーズニングが可能になりました。 2D/3D の座標特定とバウンディング ボックスの座標による物体検出機能に加え、推論の説明とラベルも追加します。入力トークン数が最大 256K まで拡張され、長文コンテキストのサポートが強化されました。
物理法則に基づいたフォトリアルな動画を実現する Cosmos Transfer
Cosmos Transfer は、構造的な入力から再現性の高い世界のシーンを生成し、正確な空間的配置とシーン構成を保証します。
Cosmos Transfer は、ControlNet アーキテクチャを採用することで、事前学習済みの知識を保持し、構造化された一貫性のある出力を実現します。 時空間コントロールマップを活用して、合成データと実世界の表現を動的に一致させることで、シーンの構成、オブジェクトの配置、およびモーション ダイナミクスをきめ細かく制御することが可能になります。
入力:
- 構造化されたビジュアル データまたはジオメトリ データ: セグメント化マップ、深度マップ、エッジマップ、人間の動作キーポイント、LiDAR スキャン データ、軌跡、HD マップ、3D バウンディング ボックス。
- グラウンド トゥルース アノテーション: 正確な位置合わせのための高精度な参照データ。
出力: レイアウト、オブジェクト配置、および動きが制御された、フォトリアルな動画シーケンス。


図 1. 左側は、NVIDIA Omniverse で作成された仮想シミュレーション、すなわち「グラウンド トゥルース」です。右側は、Cosmos Transfer を使用したフォトリアル変換です。
主な機能:
- 現実世界の物理法則に合致する、スケーラブルでフォトリアルな合成データを生成します。
- 構造化されたマルチモーダル入力を通じて、オブジェクトの相互作用とシーン構成を制御します。
Cosmos Transfer を使用して制御可能な合成データを作成
NVIDIA Omniverse は、生成 AI API と SDK を活用して、フィジカル AI シミュレーションを高速化します。 開発者は、OpenUSD を基盤とする NVIDIA Omniverse を使用して、ロボットや自動運転車のトレーニングおよびテスト向けの現実世界環境を正確にシミュレーションする 3D シーンを作成します。 これらのシミュレーションは、注釈やテキストによる指示と組み合わされ、Cosmos Transfer のグラウンド トゥルース ビデオ入力として機能します。Cosmos Transfer は、環境、照明、視覚的な条件を変化させながら、フォトリアリズムを向上させ、スケーラブルで多様な世界の状況を生成します。
このワークフローは、高品質なトレーニング データセットの作成を加速させ、AI エージェントがシミュレーションから現実世界への展開において効果的に適応できることを保証します。


Cosmos Transfer は、合成操作モーション生成向けの Isaac GR00T Blueprint と、トレーニング用のさまざまな環境および気象条件に対応する自動運転車のシミュレーション向けの Omniverse Blueprint で、リアルな照明、色、テクスチャを可能にすることで、ロボット開発を強化します。 このフォトリアルなデータは、トレーニング後のポリシーモデルにとって極めて重要であり、シミュレーションから現実へのスムーズな移行を保証し、知覚 AI や GR00T N1 などの特殊ロボット モデルのモデル トレーニングを支援します。
新しい Cosmos Transfer 2.5 の実行方法
- 新しい Cosmos Transfer 2.5 で推論を実行するには、推論ガイドに従ってください。
- 独自データまたはドメイン データで事後学習を行うには、事後学習ガイドに従ってください。
- NVIDIA Cosmos Cookbook では、Cosmos ユーザーによるステップバイステップのワークフローや技術的なレシピをご覧いただけます。
未来の世界の状態を生成するための Cosmos Predict
Cosmos Predict WFM は、テキスト、ビデオ、開始/終了フレーム シーケンスを含むマルチモーダル入力から未来の世界状態をビデオとしてモデル化するように設計されています。 これは、時間的な一貫性とフレーム補間を強化するトランスフォーマー ベースのアーキテクチャを使用して構築されています。
主な機能:
- テキスト プロンプトから直接、現実的な世界状態を生成します。
- 欠落しているフレームを予測したり、動きを延長したりすることで、ビデオ シーケンスに基づいた次の状態を予測します。
- 開始画像と終了画像の間にマルチフレームを生成し、完全で滑らかなシーケンスを作成します。
Cosmos Predict WFM は、ロボット工学や自動運転車における下流の世界モデルをトレーニングするための強力な基盤を提供します。 これらのモデルを事後学習させることで、ポリシー モデリングのために動画の代わりにアクションを生成したり、視覚言語理解に適応させてカスタム知覚 AI モデルを作成したりすることができます。
新しい Cosmos Predict 2.5 の実行方法
- 新しい Cosmos Predict 2.5 で推論を実行するには、推論ガイドに従ってください。
- 独自データまたはドメイン データで事後学習を行うには、事後学習ガイドに従ってください。
- NVIDIA Cosmos Cookbook では、Cosmos ユーザーによるステップバイステップのワークフローや技術的なレシピをご覧いただけます。
知覚し、推論し、知的に反応するための Cosmos Reason
Cosmos Reason は、動き、オブジェクト相互作用、および時空間の関係を理解するために特別に開発された、完全にカスタマイズ可能なマルチモーダル AI リーズニングモデルです。 このモデルは、思考の連鎖 (CoT: Chain of Thought) 推論を使用して視覚入力を解釈し、与えられたプロンプトに基づいて結果を予測し、最適な意思決定に報酬を与えるものです。 テキストベースの LLM とは異なり、現実世界の物理学に基づいて推論し、自然言語で明確かつ文脈を考慮した応答を生成します。
入力: ビデオ観測データとテキストベースのクエリまたは指示。
出力: 長期的な CoT 推論によって生成されたテキスト応答。
主な機能:
- オブジェクトが時間の経過とともにどのように移動、相互作用、変化するかを把握しています。
- 入力された観測データに基づいて、次にとるべき最適な行動を予測し、報酬を与えます。
- 意思決定を継続的に改善します。
- 知覚 AI および身体化 AI モデルを構築するための事後学習向けに構築されています。
トレーニング パイプライン
Cosmos Reason は、3 段階のトレーニングを経て、現実世界でのシナリオにおける推論、予測、意思決定への対応能力を高めます。
- 事前学習: Vision Transformer (ViT) を使用してビデオ フレームを構造化された埋め込みに処理し、テキストと位置合わせすることで、オブジェクト、アクション、および空間的な関係についての共通理解を実現します。
- 教師ありファインチューニング (SFT): モデルを 2 つの主要レベルで物理リーズニングに特化させます。 一般的なファインチューニングは、多様なビデオテキスト データセットを用いて言語の基礎知識とマルチモーダル認識を強化する一方、フィジカル AI データを用いたトレーニングを増やすことで、現実世界の相互作用についてモデルがリーズニングする能力を磨きます。 現実世界でオブジェクトがどのように使用されるかといったオブジェクトの挙動、アクション シーケンス、マルチステップのタスクがどのように展開されるかの決定、そして現実的な配置と不可能な配置を区別するための空間的な実現可能性を学習します。

強化学習 (RL): このモデルはさまざまな推論経路を評価し、試行や報酬のフィードバックを通じてより良い決定が得られた場合にのみ、自らを更新します。 人間がラベル付けしたデータに頼るのではなく、ルールに基づいた報酬を使用します。
- エンティティ認識: オブジェクトとその特性を正確に識別することで報酬が得られます。
- 空間的制約: 物理的に不可能な配置にペナルティを課す一方で、現実的なオブジェクトの配置を強化します。
- 時間的推論: 原因と結果の関係に基づいて、正しい順序を予測することを促します。
新しい Cosmos Reason 2 の実行方法
- 新しい Cosmos Reason 2 で推論を実行するには、推論ガイドに従ってください。
- 独自データまたはドメイン データで事後学習を行うには、事後学習ガイドに従ってください。
- NVIDIA Cosmos Cookbook では、Cosmos ユーザーによるステップバイステップのワークフローや技術的なレシピをご覧いただけます。
今すぐ始める
- Cosmos WFM の構築、適応、展開に関するステップバイステップのワークフロー、技術的な手順、具体的な例については、Cosmos Cookbook をご覧ください。
- Hugging Face と GitHub で新しいオープンな Cosmos モデルとデータセットを調べたり、build.nvidia.com でモデルを試したりできます。
- コミュニティの一員になり、Cosmos Discord チャンネルに参加しましょう。
- すでにCosmos をご利用ですか? 支援の方法について詳細をご覧ください。
- NVIDIA 創業者/CEO である Jensen Huang による GTC 基調講演をご覧ください。また、Cosmos のセッションもご覧ください。
NVIDIA Cosmos 世界基盤モデルの改良に伴い、2026 年 3 月 13 日に更新されました。
翻訳に関する免責事項
この記事は、「Scale Synthetic Data and Physical AI Reasoning with NVIDIA Cosmos World Foundation Models」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。