R²D²：利用 NVIDIA Research 的全球基础模型和工作流提升机器人训练效率

随着物理 AI 系统的进步，对丰富标记数据集的需求正在加速增长，超出了我们在现实世界中手动捕捉的能力。世界基础模型 (WFM) 是经过训练的生成式 AI 模型，能够根据现实世界环境的动态来模拟、预测和推理未来的世界状态，有助于克服这一数据挑战。

NVIDIA Cosmos 是一个用于物理 AI（如机器人和自动驾驶汽车）的 WFM 开发平台。Cosmos WFM 包括三种模型类型，可针对特定应用进行后训练，即 Cosmos Predict、Cosmos Transfer 和 Cosmos Reason。

Cosmos Predict 可根据图像、视频和文本提示生成“未来世界状态”视频。Cosmos Transfer 使开发者能够根据 2D 输入和文本提示执行逼真的风格转换。Cosmos Reason 是一种推理 VLM，可以对生成的数据进行整理和注释，也可以通过后训练作为机器人视觉-语言-动作 (VLA) 模型。这些数据用于训练物理 AI 和工业视觉 AI，以了解空间感知、规划运动轨迹并执行复杂任务。

本期 NVIDIA 机器人研发摘要 (R2D2) 探讨了 NVIDIA Research 的 Cosmos WFM 和工作流。我们将深入探讨它们如何在物理 AI 应用的合成数据生成 (SDG) 和数据管理中发挥重要作用：

Cosmos Predict：用于预测和优化机器学习模型的工具。适用于自动驾驶汽车的 Single2MultiView 解决方案 Cosmos-Drive-Dreams（宇宙驱动梦想） NVIDIA Isaac GR00T-Dreams 机器人平台（GR00T-Dreams）扩散渲染器 (DiffusionRenderder) – 扩散渲染器是一种基于物理的渲染器，它使用物理学原理来模拟光线在物体表面上的反射。它可以生成逼真的图像，并提供逼真的阴影和反射效果。加速视频生成
Cosmos Transfer：用于将数据从一个 Cosmos 数据库转移到另一个 Cosmos 数据库。 Cosmos Transfer for Autonomous Vehicles（适用于自动驾驶汽车的 Cosmos Transfer）边缘模型蒸馏
Cosmos Reason（宇宙理性）

Cosmos Predict：NVIDIA 研究团队为机器人打造的未来仿真模型

Cosmos Predict 模型可以针对物理 AI 应用（如机器人和自动驾驶汽车）进行后训练。Cosmos Predict 以文本、图像或视频的形式输入，并生成连贯且物理准确的未来帧。这加速了 SDG 在训练后的 AI 模型上执行复杂物理任务。让我们来看一些后训练的示例。

Cosmos Predict 后训练应用

适用于自动驾驶汽车的 Single2MultiView 是 Cosmos Predict 模型的后期训练版本。它可以从单一的前视自动驾驶视频生成多个一致的摄像头视角。结果是用于自动驾驶汽车 (AV) 开发的同步多视图摄像头镜头。

视频 1。Cosmos Predict 在训练后，可从单个视频生成多个摄像头视图

单视图输入视频的推理示例：

CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/video2world_view_extend_multiview.py \
    --checkpoint_dir checkpoints \
    --diffusion_transformer_dir 
Cosmos-Predict1-7B-Video2World-Sample-AV-Single2MultiView/t2w_model.pt \
    --view_condition_video assets/diffusion/sv2mv_input_view.mp4 \
    --num_input_frames 1 \
    --condition_location "first_cam" \
    --prompt "${PROMPT}" \
    --prompt_left "${PROMPT_LEFT}" \
    --prompt_right "${PROMPT_RIGHT}" \
    --prompt_back "${PROMPT_BACK}" \
    --prompt_back_left "${PROMPT_BACK_LEFT}" \
    --prompt_back_right "${PROMPT_BACK_RIGHT}" \
    --video_save_name diffusion-single2multiview-text2world

Cosmos-Drive-Dreams 是一个用于生成自动驾驶汽车挑战性驾驶条件的工作流。Cosmos Drive 模型经过驾驶领域后训练，可生成多视图、高保真、时空一致的驾驶数据。然后，使用经过后训练的 Cosmos Transfer 模型对生成的多个视图数据进行放大，以提高在雾、雨等低能见度条件下的泛化能力，从而完成 3D 车道检测、3D 物体检测和驾驶策略学习等任务。

Synthetic videos generated using Cosmos Drive Dreams. Visual variation is generated by giving descriptions like ‘rainforest’ or ‘cyberpunk city’ and corner cases like ‘zebra on road’. — *图 1。使用 Cosmos Drive Dreams 生成的各种合成视频*

Isaac GR00T-Dreams 基于 DreamGen 研究，是用于生成大规模合成轨迹数据（用于人形机器人训练的真实到真实数据工作流）的蓝图。GR00T-Dreams 使用 Cosmos Predict 创建了各种逼真的机器人执行任务的视频。它通过图像和文本提示来实现这一点，并提取称为神经轨迹的动作数据来训练机器人策略。这有助于机器人以最少的人类示范来训练新技能并适应不同的环境。

A GIF of a neural trajectory from a humanoid robot’s perspective, and a video of the real robot executing the same task of watering a plant. — *图 2。植物浇水任务的神经轨迹（左）和真实机器人的执行（右）*

GR1 数据上的后训练 GR00T 示例：

EXP=predict2_video2world_training_2b_groot_gr1_480

torchrun --nproc_per_node=8 --master_port=12341 -m scripts.train --config=cosmos_predict2/configs/base/config.py -- experiment=${EXP}

DiffusionRenderer 是一种神经渲染框架，能够在无需明确的 3D 几何图形或照明数据的情况下，从单个视频输入实现逼真的重新照明、材质编辑和物体插入。它利用视频扩散模型来估计场景属性，然后生成逼真的新图像。使用 Cosmos Predict 的扩散模型可以提高 DiffusionRenderer 的照明功能的质量，从而实现更准确、时间上更一致的结果。这有助于物理 AI 仿真，因为它使场景编辑高效且可控。

Images and videos showing rendering and re-lighting capabilities of DiffusionRenderer. — *图 3。DiffusionRenderer 是一个基于 Cosmos 的图像和视频去光照和重新光照框架。*

A diagram showing the DiffusionRenderer method. — *图 4。DiffusionRenderer 方法概述*

以下是视频重新光照的示例命令。这将新颖的照明应用于逆向渲染器的帧，并生成重新照明的视频帧：

CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/inference_forward_renderer.py \
    --checkpoint_dir checkpoints \
    --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B \
    --dataset_path=asset/example_results/video_delighting/gbuffer_frames \
    --num_video_frames 57 \
    --envlight_ind 0 1 2 3 \
    --use_custom_envmap=True \
    --video_save_folder=asset/example_results/video_relighting/

加速视频生成 Cosmos-Predict2 现在使用邻域注意力 (NATTEN) ，提高了对相关视频区域的关注。该注意力系统具有层级自适应性，可动态平衡全局和局部上下文，以实现最佳速度和质量。通过在模型层中实现稀疏注意力，可以最大限度地减少视频生成过程中的不必要计算。NATTEN 的效率还通过专门针对 NVIDIA 硬件设计的硬件优化后端代码得到进一步提升。因此，在 NVIDIA H100 和 NVIDIA B200 等高级 GPU 上，视频推理速度可提升 2 到 2.5 倍。

Cosmos Transfer：用于机器人和自动驾驶汽车的受控合成数据生成工具

Cosmos Transfer 模型根据多个控制输入（如分割图、深度、边缘图、激光雷达扫描、关键点和高清地图）生成世界模拟。这些不同的模态使用户能够控制场景构图，同时通过用户文本提示生成各种视觉特征。其目标是通过增加具有巨大视觉多样性的合成数据集，并改善机器人和自动驾驶应用中的整体仿真到现实转移。

Cosmos Transfer 应用

现在，让我们来看看使用 Cosmos Transfer 的一些工作流。

Cosmos Transfer for AVs 使用不同的文本提示，从单个驾驶场景生成天气、照明和地形等新条件。它使用多模态控制作为输入来放大数据变化，例如在 Cosmos Drive Dreams 用例中。这有助于创建自动驾驶汽车训练数据集，因为它可以根据用户文本提示，从单个视频中扩展数据生成。

Different videos generated from the same input video using Cosmos Transfer and different text prompts. — 图 5。Cosmos Transfer 可根据相同的输入视频和不同的文本提示（如“雪天”或“夜间场景”）生成各种条件和边缘情况。

使用 Cosmos Transfer 生成基于文本提示和高清地图条件视频的 RGB 视频的示例命令：

export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:=0}"
export CHECKPOINT_DIR="${CHECKPOINT_DIR:=./checkpoints}"
export NUM_GPU="${NUM_GPU:=1}"
PYTHONPATH=$(pwd) torchrun --nproc_per_node=$NUM_GPU --nnodes=1 --node_rank=0 cosmos_transfer1/diffusion/inference/transfer.py \
    --checkpoint_dir $CHECKPOINT_DIR \
    --video_save_folder outputs/example1_single_control_edge_distilled \
    --controlnet_specs assets/inference_cosmos_transfer1_single_control_edge.json \
    --offload_text_encoder_model \
    --offload_guardrail_models \
    --num_gpus $NUM_GPU \
    --use_distilled

边缘模型蒸馏是 Cosmos Transfer 的改进版本。原始的 Cosmos Transfer 模型需要 70 次传递才能生成视频，计算成本很高。用于边缘模式的蒸馏模型生成了一个更小的学生模型，该模型能够在单一步骤中执行相同的任务，并与原始模型的质量密切匹配。其他控制模式（如深度、分割、高清地图和激光雷达）也可以通过类似的方式进行提炼，从而提高性能。减少视频生成所需的计算工作量，从而实现更快、更经济的部署。可以通过 --use_distilled 标志启用蒸馏变体：

Cosmos Reason：用于物理 AI 的长距离推理

Cosmos Reason 作为专注于物理 AI 推理的世界基础模型，能够理解物理常识，并通过长链式思维推理生成适当的具体决策。这有助于在 SDG 期间使用 Cosmos Reason 作为批评者来策划高质量的训练数据，因为它能够理解动作序列和现实世界的约束。该模型分两个阶段进行训练：监督式微调（SFT）和强化学习。

A diagram showing the Cosmos Reason architecture. The input video and text prompt are tokenized and concatenated and passed into the LLM backbone. The model outputs responses in natural language based on long chain-of-thought reasoning. — *图 6。Cosmos Reason 架构概述*

SFT 训练可以提高 Reason 模型在特定任务上的性能。例如，使用 robovqa 数据集进行训练可以提高机器人视觉问答用例的性能。以下是启动 SFT 训练的示例命令：

cosmos-rl --config configs/cosmos-reason1-7b-fsdp2-sft.toml
./tools/dataset/cosmos_sft.py

入门指南

请查看以下资源以了解更多信息：

Cosmos Predict2：项目网站、GitHub、Hugging Face、论文
Cosmos Transfer1：项目网站、GitHub、Hugging Face、论文
Cosmos Reason1：项目网站、GitHub、Hugging Face、论文
Isaac GR00T-Dreams：GitHub、论文
Cosmos-Drive-Dreams：项目网站、GitHub、论文、数据集
DiffusionRenderer：项目网站、GitHub、论文、Hugging Face

在 SIGGRAPH 2025 上与 NVIDIA 一起体验世界基础模型的新时代：

8 月 11 日（周一）的特别演讲，NVIDIA AI 研究负责人 Sanja Fidler、Aaron Lefohn 和 Ming-Yu Liu 将介绍计算机图形和物理 AI 的下一个前沿领域。
动手操作：学习使用 NVIDIA Cosmos（一个生成式世界基础模型平台）生成用于训练物理 AI 的数据和场景。

本文是我们 NVIDIA 机器人研发摘要 (R2D2) 的一部分，旨在让开发者更深入地了解 NVIDIA Research 在物理 AI 和机器人应用方面的最新突破。

订阅新闻通讯并关注 NVIDIA 机器人 YouTube、Discord 和开发者论坛，及时了解最新动态。要开始您的机器人之旅，请注册免费的 NVIDIA 机器人基础课程。

致谢

感谢以下人员对本文中所提到的研究做出的贡献：Niket Agarwal、Arslan Ali、Mousavian Arsalan、Alisson Azzolini、Yogesh Balaji、Hannah Brandon、Tiffany Cai、Tianshi Cao、Prithvijit Chattopadhyay、Mike Chen、Yongxin Chen、Yin Cui、Ying Cui、Yifan Ding、Daniel Dworakowski、Francesco Ferroni、Sanja Fidler、Dieter Fox、Ruiyuan Gao、Songwei Ge、Rama Govindaraju、Siddharth Gururani、Zekun Hao、Ali Hassani、Ethan He、Fengyuan Hu、Shengyu Huang、Spencer Huang、Michael Isaev、Pooya Jannaty、Brendan Johnson、Alexander Keller、Rizwan Khan、Seung Wook Kim、Gergely Klár、Grace Lam、Shiyi Lan、Elena Lantz、Tobias Lasser、Nayeon Lee、Anqi Li、Zhaoshuo Li、Chen-Hsuan Lin、Tsung-Yi Lin、Zhi-Hao Lin、Zongyu Lin、Ming-Yu Liu、Xian Liu、Xiangyu Lu、Yifan Lu、Alice Luo、Ajay Mandlekar、Hanzi Mao、Andrew Mathau、Seungjun Nah、Avnish Narayan、Yun Ni、Sriprasad Niverty、Despoina Paschalidou、Tobias Pfaff、Wei Ping、Morteza Ramezanali、Fabio Ramos、Fitsum Reda、Zheng Ruiyuan、Amirmojtaba Sabour、Ed Schmerling、Tianchang Shen、Stella Shi、Misha Smelyanskiy、Shuran Song、Bartosz Stefaniak、Steven Sun、Xinglong Sun、Shitao Tang、Przemek Tredak、Wei-Cheng Tseng、Nandita Vijaykumar、Andrew Z. Wang、Guanzhi Wang、Ting-Chun Wang、Zian Wang、Fangyin Wei、Xinyue Wei、Wen Xiao、Stella Xu、Yao Xu、Yinzhen Xu、Dinghao Yang、Xiaodong Yang、Zhuolin Yang、Seonghyeon Ye、Yuchong Ye、Xiaohui Zeng、Yuxuan Zhang、Zhe Zhang、Ruijie Zheng、Yuke Zhu 和 Artur Zolkowski。

R²D²：利用 NVIDIA Research 的全球基础模型和工作流提升机器人训练效率

Cosmos Predict：NVIDIA 研究团队为机器人打造的未来仿真模型

Cosmos Predict 后训练应用

Cosmos Transfer：用于机器人和自动驾驶汽车的受控合成数据生成工具

Cosmos Transfer 应用

Cosmos Reason：用于物理 AI 的长距离推理

入门指南

致谢

标签

关于作者

R²D²：利用 NVIDIA Research 的全球基础模型和工作流提升机器人训练效率

Cosmos Predict：NVIDIA 研究团队为机器人打造的未来仿真模型

Cosmos Predict 后训练应用

Cosmos Transfer：用于机器人和自动驾驶汽车的受控合成数据生成工具

Cosmos Transfer 应用

Cosmos Reason：用于物理 AI 的长距离推理

入门指南

致谢

标签

关于作者

相关文章

借助全新 NVIDIA Cosmos 世界基础模型简化端到端自动驾驶汽车开发

NVIDIA Cosmos World 基础模型平台助力物理 AI 进步

相关文章

通过 NVIDIA Jetson AGX Thor 实现 7 倍生成式 AI 性能，解锁更快速、更智能的边缘模型

R²D²：NVIDIA 研究的三项神经突破改变机器人学习的格局

借助 NVIDIA DRIVE AGX Thor 开发者套件加速智能汽车开发

适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能：统一 Arm 生态系统等

使用远程手术工作流程入门 NVIDIA Isaac 进行医疗保健应用开发