随着向为自动驾驶汽车 (AV) 提供动力支持的端到端规划模型的转变,人们对基于物理性质的高质量传感器数据的需求也在不断增加。这些模型必须大致了解多模态数据集,以及传感器数据集、车辆轨迹和驾驶动作之间的关系,以帮助执行下游训练和验证任务。
通过在自动驾驶领域调整和后训练 NVIDIA Cosmos 世界基础模型 (WFMs)(Predict、Transfer 和 Reason) ,开发者可以创建世界模型,以加速端到端自动驾驶训练。这些模型用于本文中展示的合成数据生成 (SDG) ,以及闭环训练和车载推理。
在本文中,我们将介绍不同的后训练方法。有很多方法可以让 Cosmos 模型适应 AV 应用。我们讨论的模型目前均可供开发者使用。
在 Cosmos 上开发合成数据生成管道
NVIDIA Research 使用 20,000 小时的驾驶数据对 Cosmos WFMs 进行了后训练,为 AV 开发工作流程构建了一系列模型。在 CVPR 上发表的一篇论文中,研究人员详细介绍了使用 Cosmos 模型生成的数据如何提高 AV 模型训练的性能。
自动驾驶汽车专用模型
Cosmos WFM 可加速自动驾驶汽车训练的 SDG,特别是通过使用基于 Cosmos-Transfer-1-7B-Sample-AV 和 Cosmos-Transfer-1-7B-Single2Multiview-Sample_AV 构建的样本进行数据增强。Transfer 模型根据高清地图、LIDAR 深度和文本提示生成不同的驾驶视频,在不同条件下实现逼真的场景。它使用 3D 立方体、车道线、道路边界和交通元素等结构化输入,以确保精确的几何感知控制。然后,多视图模型将单视图视频扩展为多视图一致的视频。还可以对 Cosmos Transfer 进行后训练以生成多视图传感器,开发者可以申请对自己的版本进行后训练。
第三个模型是在 Cosmos Reason 等推理模型上进行后训练的视觉语言模型 (VLM) ,执行自动拒绝采样以丢弃低质量或不切实际的输出,确保生成的合成数据集具有高质量和逼真度。
合成数据流水线
结合使用时,这些模型会形成一个从文本提示和真实数据开始的工作流,并输出基于物理性质的高保真多视图视频。
多视图生成有助于解决摄像头损坏或遮挡等常见挑战。通过生成多视图视频,开发者可以将坏相机中的视频替换为好的视频。它还支持使用dashcam数据,开发者可以模仿自己的AV开发平台,将互联网视频转化为数据。
此工作流生成的合成视频数据可以缓解长尾分布问题,并增强下游任务(如 3D 车道检测、3D 物体检测和驾驶策略学习)的泛化,尤其是在极端天气和夜间条件等具有挑战性的场景中。
本周 CVPR 2025 的与会者可以在 Embodied AI 研讨会上了解有关此项目的更多信息。
开发者可以将这些数据用于自己的开发,现在 NVIDIA Physical AI 数据集上有 40,000 个 Cosmos 生成的剪辑。
将 Cosmos 集成到现有的 AV 工作流中
开源模拟器和自动驾驶汽车公司还基于自己的数据对 Cosmos 模型进行了后训练,并已开始将这些模型集成到其工具链中,从而为全球自动驾驶汽车开发者开放加速合成数据生成流程。
Cosmos Transfer
Cosmos Transfer NIM 在 GTC 巴黎大会上发布,是 Cosmos Transfer 的容器化版本,用于加速推理。开发者可以使用 NIM 微服务快速对 Cosmos Transfer 进行后期训练和部署,以加速其 SDG 工作流。
开源自动驾驶汽车模拟器 CARLA 将集成 Cosmos Transfer 以增强仿真输出,从而为 15 万名开发者社区提供基于物理性质的合成数据生成。通过集成,用户可以使用简单的提示从 CARLA 序列生成无尽的高质量视频变体。此集成处于抢先体验阶段,并将根据社区反馈继续开发。
Mcity 是一家 AV 开发和测试领域的公私合作伙伴,正在将 Cosmos Transfer 集成到其占地 32 英亩的物理测试轨道的开源数字孪生中。使用 Mcity 进行研发的开发者可以快速扩展场景,添加新的天气、光照和地形。
此外,Foretellix 和 Parallel Domain 等自动驾驶汽车工具链提供商已将 Cosmos Transfer 集成到其现有解决方案中。Voxel51 是一个视觉 AI 数据平台,提供了用于管理、可视化和优化 Cosmos Transfer 生成的数据的工具包。因此,最终客户可以轻松使用 Cosmos Transfer 的规模和可变性,而无需切换所需的工具链。
最后,自动驾驶汽车软件公司 Oxa 已将 Cosmos Transfer 集成到自己的开发工具链 Oxa Foundry 中。Cosmos Transfer 支持图像和图像序列转换,可根据特定用例进行定制,快速轻松地进行合成。这项工作包括真实道路和越野数据的不同天气 (雪、雾、雨) 和照明 (夜、黄昏、黎明) 转换。
Cosmos Predict
Cosmos Predict-2 还在 GTC 巴黎大会上宣布推出,是我们迄今为止用于未来世界状态预测的性能最佳的世界基础模型,与 Predict-1 相比,该模型在视频中具有更高的保真度、更少的幻觉,以及更好的文本、物体和运动控制。该模型很快将支持多种帧率和分辨率,并生成长达 30 秒的视频,预测接下来会发生什么,特别是在图像提示符指导下世界中的物理交互。
Cosmos Predict-2 专为定制而构建;可以使用精选数据和 NVIDIA NeMo Curator 和 Cosmos Reason 等工具,在特定环境、任务或摄像头系统上轻松地对模型进行后训练。此外,Cosmos Predict-2 基于 Cosmos-Predict-7B-Single2Multiview-Sample_AV 中的 AV 数据进行了预训练,从而加快了 AV 域的后训练速度。
自动驾驶卡车公司 Plus 使用大量真实驾驶数据对 Cosmos Predict-1 进行了后训练,以创建与卡车摄像头拍摄的实际视频保真度相匹配的多视图视频。然后,这些合成多视图视频可用于生成边缘案例,以严格测试和验证自动驾驶卡车系统。Plus 还从 Cosmos 中提炼世界知识,以提高端到端模型性能以及在新 ODD 中泛化的能力。
Oxa 还使用 Cosmos Predict 支持从车辆周围生成全面的多摄像头视角,在所有这些视角中创建时间一致的视频片段。
自动驾驶行业采用端到端 WFMs
随着AV行业采用端到端foundation models,对大量、多样化且物理属性准确的sensor data的需求变得至关重要。仅凭现实世界的数据无法扩展以满足安全和全面训练的需求,尤其是在不同的运营领域和edge-case场景中。Cosmos WFMs—Reason, Predict, 和 Transfer—让开发者能够以前所未有的可控性和可扩展性生成、扩展和定制高保真数据,从而缩小这一差距。
这些模型强效助力AV开发飞轮。Cosmos Predict 引入了行为多样性,并加速了场景扩展。Cosmos Transfer 为各种环境带来物理逼真度。通过开放访问并无缝集成到领先的仿真平台和工具链,开发者可以充分发挥端到端自主性的潜力,为更安全、更智能、更可扩展的AV部署铺平道路。
探索将在 CVPR 2025 上发表的 NVIDIA 研究论文,并观看 NVIDIA 创始人兼首席执行官 Jensen Huang 在 NVIDIA GTC 巴黎大会上的主题演讲。
通过订阅 NVIDIA 新闻并在 Discord 和 YouTube 上关注 NVIDIA Omniverse,及时了解最新信息。
- 访问我们的 Omniverse 开发者页面,获取入门所需的所有基础知识
- 访问一系列 OpenUSD 资源,包括新的 Learn OpenUSD 自定进度培训课程
- 收听即将推出的 OpenUSD 预览体验计划直播,并与 NVIDIA 开发者社区建立联系
开始使用developer starter kits,快速开发和增强您自己的应用和服务。