模型/库/框架

使用 NVIDIA Cosmos Predict-2 构建自定义物理人工智能基础模型

构建更智能的机器人和自动驾驶汽车 (AV) 始于能够理解现实世界动态的物理 AI 模型。这些模型发挥着两个关键作用:加速合成数据生成 (SDG) ,帮助自主机器了解现实世界的物理特性和交互(包括罕见的边缘案例),以及作为基础模型,可针对专门任务进行后训练或适应不同的输出类型。

Cosmos Predict-1 正是为此而打造,能够生成逼真的物理感知型未来世界状态。

现在,全新 Cosmos Predict-2 在速度、视觉质量和自定义方面进行了重大升级。在本文中,您将了解该模型,以及如何针对特定领域的用例对其进行后期训练。

Cosmos Predict-2

Cosmos Predict-2 是一款性能出色的世界基础模型,经过架构优化,可提高速度和可扩展性,并跨用例和硬件平台提供分辨率和帧速率灵活性。有两个模型变体针对任务复杂性进行了优化:

  • Cosmos Predict-2 2B:与 Predict-1 相比,提供更快的推理速度和更低的内存占用率,非常适合原型设计、低延迟应用程序和边缘部署。
  • Cosmos Predict-2 14B:专为需要复杂场景理解、扩展时间一致性和提示精度的高保真世界建模任务而设计。

开发者可以首先使用文本转图像模型生成预览,然后对 video2world 模型进行调整,以生成一致、物理精准的视频世界状态。这加速了迭代提示和场景设计。

GIF showing robot arm pouring a beverage into a glass.
图 1。生成的视频可在对象交互期间保持物理准确性
GIF of a car driving down a street with parked vehicles and a visible Stop sign near a curve.
图 2。增强文本依从性和常识,例如在交叉路口设置 stop sign

Cosmos Predict-2 即将提供多分辨率和多帧速率选项,详情如下:

  • 分辨率:支持 704p (~ 720p) 和 480p。在不需要高分辨率时,480p 选项可提供更快的吞吐量。
  • 帧速率:10 fps 和 16 fps 现已推出,24 fps 支持即将推出,非常适合 10 Hz 模拟和 AV 训练流程。

推理和性能优化

Cosmos Predict-2 专为在各种硬件和用例中进行快速、灵活的推理而设计。

对于快速原型设计或低延迟应用程序,2B 模型变体可提供快速性能,在 NVIDIA GPU(例如 NVIDIA GB200 NVL72NVIDIA DGX B200NVIDIA RTX PRO 6000)上在 5 秒内生成图像预览。对于需要更高保真度和时间一致性的更复杂任务,14B 版本可提高质量,同时在 GB200 和 B200 系统上实现快速周转。

有关完整的设置说明,请访问 NVIDIA-cosmos/cosmos-predict2 GitHub 存储库。

用于下游基础模型的后训练 Cosmos 模型

开发者可以对 Cosmos Predict-2 进行后训练,使其专注于机器人、AVs 和工业自动化等应用。本节将详细介绍如何使用 GR00T-Dreams 蓝图作为案例研究,对机器人、AVs 和工业应用的模型进行后训练。它还详细介绍了确保最佳性能的评估方法。

按照本节中的步骤对模型进行后训练,并为采摘苹果的示例任务生成自定义合成训练数据

领域 特定于硬件的操作 示例应用
机器人 指令控制、对象操作 调整robot arm来采摘具有不同stem强度的苹果
自动驾驶汽车 多视图生成、边缘案例模拟 通过 lidar/摄像头同步模拟雨天高速公路驾驶
工业 受动作影响的工作流程 传送带机器人的预测性维护
愿景 摄像头姿态调节 来自单个图像的 3D-consistent 视频

表 1。Cosmos Predict-2 后训练用例,重点介绍机器人、自动驾驶汽车、工业自动化和视觉领域中特定于硬件的操作和示例应用

第 1 步:准备数据

收集约 100 小时的远程操作视频。使用 Data Curator 分割片段。确保数据反映您的设置(机器人模型、照明和物体类型),并且是文本和视觉配对。

对于描述,开发者可以使用任何视觉语言模型,包括 Cosmos Reason (详情请参阅第 4 步)。

第 2 步:后训练模型

使用精选的视频 – 文本对,针对您的特定任务和环境对 Cosmos Predict-2 进行后训练。使用 NVIDIA-cosmos/cosmos-predict2 GitHub 存储库中的后训练脚本。

第 3 步:生成合成场景

为模型提示“Pick up the bruised apple under low light”(弱光下捡起受伤的苹果)等文本。您还可以使用初始图像提示模型创建特定领域的“dream”视频。

第 4 步:验证物理准确性

Cosmos Reason是一个开放的、具有时空感知的推理模型,可通过文本提示解释视觉输入,执行思维链推理,并生成最佳文本决策或描述。它有助于评估生成的数据。在本示例中,它会批判生成的数据或“dreams”。例如:

  • 机器人能正确抓握苹果吗?
  • 关节角度是否在极限范围内?
  • 是否存在物体碰撞或运动伪影?
Diagram showing a workflow where user video data is curated, Cosmos Predict-2 is post-trained using scripts, evaluated, and refined through additional manual or synthetic data to specialized build robotics, vision, and AV datasets.
图 3。使用 Cosmos Predict-2 的后训练工作流

后训练、生成和验证循环可迭代提高合成数据质量和下游模型性能。

开发者还可以使用 Cosmos Transfer,根据在 NVIDIA Omniverse 中创建的结构化输入或仿真,添加不同的环境或照明条件等,从而扩展其数据集。了解有关使用 Cosmos Transfer 实现合成数据集增强的更多信息。

NVIDIA Research 如何使用 Cosmos Predict

NVIDIA Research 正在利用 Cosmos Predict-1 开发先进的视频和 3D 应用。DiffusionRenderer 方法集成到 Cosmos 中,可将高质量合成数据与现实世界的视频相结合,以提高长视频序列中的照明真实感、几何图形和材质准确性,为视频照明控制、随机化和编辑提供了一个通用框架。

A GIF showing cars driving on a dark highway, which is changed to bright light like daytime, making the training video clearer and more useful.
图 4。DiffusionRenderer 由 Cosmos Predict-1 提供支持,可将黑暗的视频转换为明亮清晰的视频,以帮助更好地训练自动驾驶机器

Difix3D+ 是一种一步法扩散模型,可增强 NeRF 和 3DGS 工作流中的 3D 重建和新颖视图合成。它与 Cosmos Predict-1 集成,可提高时间一致性、减少闪烁并锐化细节,从而解决高帧率渲染中的关键挑战。

NVIDIA Research 还基于 Cosmos Transfer 和 Cosmos Predict-1 构建了用于自动驾驶开发的合成数据生成流程 (称为 Cosmos-Drive-Dreams) 。这两种模型根据 HDMaps、LiDARdepth 和文本提示生成不同的驾驶视频,在不同的条件下实现逼真的场景,并可以从单视图扩展到多视图一致的视频。

Cosmos Predict-2 入门

Cosmos Predict-2 标志着为机器人、视觉和自主系统生成物理感知型高保真合成数据的重大飞跃。凭借更快的推理速度、可扩展的性能以及灵活的分辨率和帧速率选项,它能够适应不同的领域和硬件平台。

它与 Cosmos 系列中的其他世界基础模型 (包括用于物理 AI 推理的 Cosmos Reason用于增强的 Cosmos Transfer) 搭配使用,实现了一个完整的循环 — 后训练、生成、验证和优化。这加快了特定领域模型和更智能、更安全的物理 AI 系统的开发。

在 GitHub 上试用 Cosmos Predict-2。它包括用于运行 Hugging Face 开放模型检查点的推理和后训练脚本。有关更多信息,请访问 NVIDIA-cosmos GitHub 存储库。

Hugging Face 上关注 NVIDIA,获取有关新开放模型发布的通知。

观看 NVIDIA 创始人兼首席执行官 Jensen Huang 在 VivaTech 2025 上发表的 NVIDIA GTC 巴黎主题演讲,并探索 GTC 巴黎会议

NVIDIA Cosmos 和 NVIDIA Omniverse 正在推动物理 AI 的发展。订阅 NVIDIA 新闻,及时了解最新动态,并与 Omniverse 开发者社区建立联系,观看有关领先物理 AI 进展的直播

开始使用 Omniverse 开发者入门套件快速开发和增强您自己的应用和服务

 

标签