AI 系统如何理解可能发生的事故与物理上不可能发生的事件之间的区别?还是计划在边缘场景中进行跨人类、物体和环境的多步骤交互?这些都是物理智能的核心问题,是机器人如何操控世界、 自动驾驶汽车 如何瞬间做出决策以及虚拟智能体如何模拟现实的基础。
NVIDIA Cosmos Reason 是 物理 AI 的世界基础模型 (WFM) ,构建该模型不仅是为了观察事物,也是为了推理。它经过训练,能够理解空间、时间和物理特性,可以 批判合成数据 并构建精心策划的数据集,以训练机器人和自动驾驶汽车等具身 AI 系统,使其行动更加逼真。本文将介绍 Cosmos Reason 的开发方式、使用位置,以及如何使用公开可用的模型检查点和脚本来运行物理 AI 任务的模型。
回顾:适用于物理 AI 的 NVIDIA Cosmos 世界基础模型
Cosmos 是一个 WFM 开发平台。Cosmos WFM 是预训练的多模态模型,旨在理解世界状态并将其生成为视频,以复制物理世界来训练物理 AI 系统。
这些模型从超过 2000 万个小时的机器人和驾驶数据中学习,使他们能够预测环境随时间变化的情况,或根据新的情况调整场景。借助 NVIDIA Cosmos Predict,开发者可以根据文本、图像或视频生成未来帧。借助 NVIDIA Cosmos Transfer,他们可以重新照亮或改变视频中的环境,大规模开发多样化的物理感知训练数据。Cosmos 还提供用于整理数据、对数据进行标记化以及针对特定机器人或自主系统或下游任务后训练模型的工具。
Cosmos 获取可扩展机器人训练数据的原因
Cosmos Reason 在 NVIDIA GTC 2025 上首次亮相,现已可用于改变合成数据的生成和整理方式,以用于训练物理 AI 系统。它是一个开放的时空感知推理模型,可解释视觉输入,在提供的文本提示的上下文中分析这些输入,运行 chain-of-thought 推理来奖励响应,并生成最佳决策或描述。

Cosmos 内部原因
Cosmos Reason 使用监督式微调 (Supervised Fine-Tuning, SFT) 和强化学习构建,将多模态感知和现实世界决策联系起来:
- 物理 AI SFT :专注于现实世界的推理。使用精心策划的物理交互数据集,学习物体 affordances (例如“a pan conducts heat”) 、动作链 (多步骤计划) 和空间可行性 (例如“一个人无法穿过墙壁”) 。
- 针对具身决策的强化学习 :Cosmos Reason 中的长思维链推理能力支持在较小的训练规模下进行训练,并推广到难以进行的测试场景。可验证的 Physical AI 奖励(如“arrow-of-time”)支持在无需人工标注的情况下学习世界动态。
从常识上测试 Cosmos Reason
Cosmos Reason 擅长使用视频和文本来理解现实世界的物理情况,例如物体和人在动态环境中的交互方式。在 BridgeData V2、RoboVQA 和 Agibot 等基准测试中进行评估后,该模型表现出了强大的常识推理和情境感知能力。
物理 AI 任务的微调可将基础视觉语言模型的 性能提升 10% 以上,而强化学习又增加了 5% 的性能提升。Cosmos Reason 在关键基准测试中平均达到 65.7 分,为机器人、自动驾驶汽车和具身智能体中的 AI 系统设定了很高的标准。
仍有改进空间:对特定任务的高质量精选数据进行后训练和持续强化学习可以进一步提高 Cosmos Reason 的性能。
Common Sense | BridgeData V2 | RoboVQA | Agibot | HoloAssist | AV | RoboFail | Avg. |
56.2 | 73.5% | 86.8 | 54.2 | 60 | 67 | 62.0 | 65.7 |
如何使用 Cosmos 推理
开发者可以从 Hugging Face 下载模型检查点,并从 GitHub 获取推理脚本和后训练。
该模型以 604X480 等低分辨率接收视频输入,并提供明确开发者意图 (例如问题或说明) 的文本提示,指导模型进行推理并做出相应回应。开发者还可以使用 Prompt Upsampler 模型来改进文本提示。
Cosmos WFM(包括 Cosmos Reason )经过优化,可在 NVIDIA AI 上实现出色性能。为了运行模型,开发者可以设置 Docker 环境或在自己的环境中运行。
对于更大型的工业工作负载和运行视觉 AI 流水线,开发者可以在 NVIDIA DGX 云上使用 NVIDIA Blackwell GB200 的强大功能,并使用推理脚本在 NVIDIA Hopper H100 或 NVIDIA Ampere A100 GPU 上运行加速推理。
Cosmos WFMs 支持可扩展的 合成数据生成流程 ,有助于以比传统方法更高的效率和覆盖范围训练机器人系统。
Cosmos Reason 为 Cosmos Predict 生成多样化、逼真的提示,并使用基于文本的控件从视频中筛选高质量的合成数据。它们共同为 NVIDIA Isaac GR00T Dreams 等工作流提供支持,以大规模生成物理精准的运动数据。
Cosmos 与 NVIDIA Omniverse 集成,可实现高保真模拟,简化了从数据生成到部署的整个循环,加速机器人开发,突破现实世界数据的限制。
开始使用
从 HuggingFace 下载模型,开始试验模型检查点。
访问 GitHub 上的推理和 后训练脚本 ,根据您自己的数据进行自定义。
探索 Cosmos 文档 ,了解深度教程、实现详情和实际用例。
观看 NVIDIA 创始人兼首席执行官 Jensen Huang 的 COMPUTEX 主题演讲以及 NVIDIA GTC 台北 2025 会议。
请观看我们即将于 5 月 28 日 (星期三) 上午 11 点 (PDT) 举行的 OpenUSD Insiders 直播 ,回顾 Cosmos 原因发布以及台北国际电脑展览会 GTC 上发布的其他热门物理 AI 公告。
订阅 NVIDIA 新闻 ,并 在 Discord 和 YouTube 上关注 NVIDIA Omniverse ,随时了解最新动态。
- 访问我们的 Omniverse 开发者页面 , 获取入门所需的所有基础知识
- 访问一系列 OpenUSD 资源,包括新的自定进度学习 OpenUSD 培训课程
- 加入 Omniverse 开发者社区
开始使用 developer starter kits , 快速开发和增强您自己的应用和服务 。