构建更智能的机器人和自动驾驶汽车 (AV) 始于能够理解现实世界动态的物理 AI 模型。这些模型发挥着两个关键作用:加速合成数据生成 (SDG) ,帮助自主机器了解现实世界的物理特性和交互(包括罕见的边缘案例),以及作为基础模型,可针对专门任务进行后训练或适应不同的输出类型。
Cosmos Predict-1 正是为此而打造,能够生成逼真的物理感知型未来世界状态。
现在,全新 Cosmos Predict-2 在速度、视觉质量和自定义方面进行了重大升级。在本文中,您将了解该模型,以及如何针对特定领域的用例对其进行后期训练。
Cosmos Predict-2
Cosmos Predict-2 是一款性能出色的世界基础模型,经过架构优化,可提高速度和可扩展性,并跨用例和硬件平台提供分辨率和帧速率灵活性。有两个模型变体针对任务复杂性进行了优化:
- Cosmos Predict-2 2B:与 Predict-1 相比,提供更快的推理速度和更低的内存占用率,非常适合原型设计、低延迟应用程序和边缘部署。
- Cosmos Predict-2 14B:专为需要复杂场景理解、扩展时间一致性和提示精度的高保真世界建模任务而设计。
开发者可以首先使用文本转图像模型生成预览,然后对 video2world 模型进行调整,以生成一致、物理精准的视频世界状态。这加速了迭代提示和场景设计。


Cosmos Predict-2 即将提供多分辨率和多帧速率选项,详情如下:
- 分辨率:支持 704p (~ 720p) 和 480p。在不需要高分辨率时,480p 选项可提供更快的吞吐量。
- 帧速率:10 fps 和 16 fps 现已推出,24 fps 支持即将推出,非常适合 10 Hz 模拟和 AV 训练流程。
推理和性能优化
Cosmos Predict-2 专为在各种硬件和用例中进行快速、灵活的推理而设计。
对于快速原型设计或低延迟应用程序,2B 模型变体可提供快速性能,在 NVIDIA GPU(例如 NVIDIA GB200 NVL72、NVIDIA DGX B200 和 NVIDIA RTX PRO 6000)上在 5 秒内生成图像预览。对于需要更高保真度和时间一致性的更复杂任务,14B 版本可提高质量,同时在 GB200 和 B200 系统上实现快速周转。
有关完整的设置说明,请访问 NVIDIA-cosmos/cosmos-predict2 GitHub 存储库。
用于下游基础模型的后训练 Cosmos 模型
开发者可以对 Cosmos Predict-2 进行后训练,使其专注于机器人、AVs 和工业自动化等应用。本节将详细介绍如何使用 GR00T-Dreams 蓝图作为案例研究,对机器人、AVs 和工业应用的模型进行后训练。它还详细介绍了确保最佳性能的评估方法。
按照本节中的步骤对模型进行后训练,并为采摘苹果的示例任务生成自定义合成训练数据。
领域 | 特定于硬件的操作 | 示例应用 |
机器人 | 指令控制、对象操作 | 调整robot arm来采摘具有不同stem强度的苹果 |
自动驾驶汽车 | 多视图生成、边缘案例模拟 | 通过 lidar/摄像头同步模拟雨天高速公路驾驶 |
工业 | 受动作影响的工作流程 | 传送带机器人的预测性维护 |
愿景 | 摄像头姿态调节 | 来自单个图像的 3D-consistent 视频 |
表 1。Cosmos Predict-2 后训练用例,重点介绍机器人、自动驾驶汽车、工业自动化和视觉领域中特定于硬件的操作和示例应用
第 1 步:准备数据
收集约 100 小时的远程操作视频。使用 Data Curator 分割片段。确保数据反映您的设置(机器人模型、照明和物体类型),并且是文本和视觉配对。
对于描述,开发者可以使用任何视觉语言模型,包括 Cosmos Reason (详情请参阅第 4 步)。
第 2 步:后训练模型
使用精选的视频 – 文本对,针对您的特定任务和环境对 Cosmos Predict-2 进行后训练。使用 NVIDIA-cosmos/cosmos-predict2 GitHub 存储库中的后训练脚本。
第 3 步:生成合成场景
为模型提示“Pick up the bruised apple under low light”(弱光下捡起受伤的苹果)等文本。您还可以使用初始图像提示模型创建特定领域的“dream”视频。
第 4 步:验证物理准确性
Cosmos Reason是一个开放的、具有时空感知的推理模型,可通过文本提示解释视觉输入,执行思维链推理,并生成最佳文本决策或描述。它有助于评估生成的数据。在本示例中,它会批判生成的数据或“dreams”。例如:
- 机器人能正确抓握苹果吗?
- 关节角度是否在极限范围内?
- 是否存在物体碰撞或运动伪影?

后训练、生成和验证循环可迭代提高合成数据质量和下游模型性能。
开发者还可以使用 Cosmos Transfer,根据在 NVIDIA Omniverse 中创建的结构化输入或仿真,添加不同的环境或照明条件等,从而扩展其数据集。了解有关使用 Cosmos Transfer 实现合成数据集增强的更多信息。
NVIDIA Research 如何使用 Cosmos Predict
NVIDIA Research 正在利用 Cosmos Predict-1 开发先进的视频和 3D 应用。DiffusionRenderer 方法集成到 Cosmos 中,可将高质量合成数据与现实世界的视频相结合,以提高长视频序列中的照明真实感、几何图形和材质准确性,为视频照明控制、随机化和编辑提供了一个通用框架。

Difix3D+ 是一种一步法扩散模型,可增强 NeRF 和 3DGS 工作流中的 3D 重建和新颖视图合成。它与 Cosmos Predict-1 集成,可提高时间一致性、减少闪烁并锐化细节,从而解决高帧率渲染中的关键挑战。
NVIDIA Research 还基于 Cosmos Transfer 和 Cosmos Predict-1 构建了用于自动驾驶开发的合成数据生成流程 (称为 Cosmos-Drive-Dreams) 。这两种模型根据 HDMaps、LiDARdepth 和文本提示生成不同的驾驶视频,在不同的条件下实现逼真的场景,并可以从单视图扩展到多视图一致的视频。
Cosmos Predict-2 入门
Cosmos Predict-2 标志着为机器人、视觉和自主系统生成物理感知型高保真合成数据的重大飞跃。凭借更快的推理速度、可扩展的性能以及灵活的分辨率和帧速率选项,它能够适应不同的领域和硬件平台。
它与 Cosmos 系列中的其他世界基础模型 (包括用于物理 AI 推理的 Cosmos Reason 和用于增强的 Cosmos Transfer) 搭配使用,实现了一个完整的循环 — 后训练、生成、验证和优化。这加快了特定领域模型和更智能、更安全的物理 AI 系统的开发。
在 GitHub 上试用 Cosmos Predict-2。它包括用于运行 Hugging Face 开放模型检查点的推理和后训练脚本。有关更多信息,请访问 NVIDIA-cosmos GitHub 存储库。
在 Hugging Face 上关注 NVIDIA,获取有关新开放模型发布的通知。
观看 NVIDIA 创始人兼首席执行官 Jensen Huang 在 VivaTech 2025 上发表的 NVIDIA GTC 巴黎主题演讲,并探索 GTC 巴黎会议。
NVIDIA Cosmos 和 NVIDIA Omniverse 正在推动物理 AI 的发展。订阅 NVIDIA 新闻,及时了解最新动态,并与 Omniverse 开发者社区建立联系,观看有关领先物理 AI 进展的直播。
开始使用 Omniverse 开发者入门套件,快速开发和增强您自己的应用和服务。