计算机视觉/视频分析

借助全新 NVIDIA Cosmos 世界基础模型简化端到端自动驾驶汽车开发

随着向为自动驾驶汽车 (AV) 提供动力支持的端到端规划模型的转变,人们对基于物理性质的高质量传感器数据的需求也在不断增加。这些模型必须大致了解多模态数据集,以及传感器数据集、车辆轨迹和驾驶动作之间的关系,以帮助执行下游训练和验证任务。

通过在自动驾驶领域调整和后训练 NVIDIA Cosmos 世界基础模型 (WFMs)(Predict、Transfer 和 Reason) ,开发者可以创建世界模型,以加速端到端自动驾驶训练。这些模型用于本文中展示的合成数据生成 (SDG) ,以及闭环训练和车载推理。

在本文中,我们将介绍不同的后训练方法。有很多方法可以让 Cosmos 模型适应 AV 应用。我们讨论的模型目前均可供开发者使用。

在 Cosmos 上开发合成数据生成管道

NVIDIA Research 使用 20,000 小时的驾驶数据对 Cosmos WFMs 进行了后训练,为 AV 开发工作流程构建了一系列模型。在 CVPR 上发表的一篇论文中,研究人员详细介绍了使用 Cosmos 模型生成的数据如何提高 AV 模型训练的性能。

自动驾驶汽车专用模型

Cosmos WFM 可加速自动驾驶汽车训练的 SDG,特别是通过使用基于 Cosmos-Transfer-1-7B-Sample-AV 和 Cosmos-Transfer-1-7B-Single2Multiview-Sample_AV 构建的样本进行数据增强。Transfer 模型根据高清地图、LIDAR 深度和文本提示生成不同的驾驶视频,在不同条件下实现逼真的场景。它使用 3D 立方体、车道线、道路边界和交通元素等结构化输入,以确保精确的几何感知控制。然后,多视图模型将单视图视频扩展为多视图一致的视频。还可以对 Cosmos Transfer 进行后训练以生成多视图传感器,开发者可以申请对自己的版本进行后训练。

第三个模型是在 Cosmos Reason 等推理模型上进行后训练的视觉语言模型 (VLM) ,执行自动拒绝采样以丢弃低质量或不切实际的输出,确保生成的合成数据集具有高质量和逼真度。

合成数据流水线

结合使用时,这些模型会形成一个从文本提示和真实数据开始的工作流,并输出基于物理性质的高保真多视图视频。

多视图生成有助于解决摄像头损坏或遮挡等常见挑战。通过生成多视图视频,开发者可以将坏相机中的视频替换为好的视频。它还支持使用dashcam数据,开发者可以模仿自己的AV开发平台,将互联网视频转化为数据。

视频 1。经过后训练的 Cosmos 模型可将被遮挡的摄像头视频转换为可用数据

此工作流生成的合成视频数据可以缓解长尾分布问题,并增强下游任务(如 3D 车道检测、3D 物体检测和驾驶策略学习)的泛化,尤其是在极端天气和夜间条件等具有挑战性的场景中。

本周 CVPR 2025 的与会者可以在 Embodied AI 研讨会上了解有关此项目的更多信息。

开发者可以将这些数据用于自己的开发,现在 NVIDIA Physical AI 数据集上有 40,000 个 Cosmos 生成的剪辑。

将 Cosmos 集成到现有的 AV 工作流中

开源模拟器和自动驾驶汽车公司还基于自己的数据对 Cosmos 模型进行了后训练,并已开始将这些模型集成到其工具链中,从而为全球自动驾驶汽车开发者开放加速合成数据生成流程。

Cosmos Transfer

Cosmos Transfer NIM 在 GTC 巴黎大会上发布,是 Cosmos Transfer 的容器化版本,用于加速推理。开发者可以使用 NIM 微服务快速对 Cosmos Transfer 进行后期训练和部署,以加速其 SDG 工作流。

视频 2。Cosmos Transfer 为 CARLA 中的驾驶场景添加了新的天气变化

开源自动驾驶汽车模拟器 CARLA 将集成 Cosmos Transfer 以增强仿真输出,从而为 15 万名开发者社区提供基于物理性质的合成数据生成。通过集成,用户可以使用简单的提示从 CARLA 序列生成无尽的高质量视频变体。此集成处于抢先体验阶段,并将根据社区反馈继续开发。

Mcity 是一家 AV 开发和测试领域的公私合作伙伴,正在将 Cosmos Transfer 集成到其占地 32 英亩的物理测试轨道的开源数字孪生中。使用 Mcity 进行研发的开发者可以快速扩展场景,添加新的天气、光照和地形。

图 3。Cosmos Transfer 将 Michigan 州 Ann Arbor 的 Mcity 测试设施转变为沙漠地形

此外,Foretellix 和 Parallel Domain 等自动驾驶汽车工具链提供商已将 Cosmos Transfer 集成到其现有解决方案中。Voxel51 是一个视觉 AI 数据平台,提供了用于管理、可视化和优化 Cosmos Transfer 生成的数据的工具包。因此,最终客户可以轻松使用 Cosmos Transfer 的规模和可变性,而无需切换所需的工具链。

最后,自动驾驶汽车软件公司 Oxa 已将 Cosmos Transfer 集成到自己的开发工具链 Oxa Foundry 中。Cosmos Transfer 支持图像和图像序列转换,可根据特定用例进行定制,快速轻松地进行合成。这项工作包括真实道路和越野数据的不同天气 (雪、雾、雨) 和照明 (夜、黄昏、黎明) 转换。

Cosmos Predict

Cosmos Predict-2 还在 GTC 巴黎大会上宣布推出,是我们迄今为止用于未来世界状态预测的性能最佳的世界基础模型,与 Predict-1 相比,该模型在视频中具有更高的保真度、更少的幻觉,以及更好的文本、物体和运动控制。该模型很快将支持多种帧率和分辨率,并生成长达 30 秒的视频,预测接下来会发生什么,特别是在图像提示符指导下世界中的物理交互。

Cosmos Predict-2 专为定制而构建;可以使用精选数据和 NVIDIA NeMo CuratorCosmos Reason 等工具,在特定环境、任务或摄像头系统上轻松地对模型进行后训练。此外,Cosmos Predict-2 基于 Cosmos-Predict-7B-Single2Multiview-Sample_AV 中的 AV 数据进行了预训练,从而加快了 AV 域的后训练速度。

自动驾驶卡车公司 Plus 使用大量真实驾驶数据对 Cosmos Predict-1 进行了后训练,以创建与卡车摄像头拍摄的实际视频保真度相匹配的多视图视频。然后,这些合成多视图视频可用于生成边缘案例,以严格测试和验证自动驾驶卡车系统。Plus 还从 Cosmos 中提炼世界知识,以提高端到端模型性能以及在新 ODD 中泛化的能力。

Oxa 还使用 Cosmos Predict 支持从车辆周围生成全面的多摄像头视角,在所有这些视角中创建时间一致的视频片段。

自动驾驶行业采用端到端 WFMs

随着AV行业采用端到端foundation models,对大量、多样化且物理属性准确的sensor data的需求变得至关重要。仅凭现实世界的数据无法扩展以满足安全和全面训练的需求,尤其是在不同的运营领域和edge-case场景中。Cosmos WFMs—Reason, Predict, 和 Transfer—让开发者能够以前所未有的可控性和可扩展性生成、扩展和定制高保真数据,从而缩小这一差距。

这些模型强效助力AV开发飞轮。Cosmos Predict 引入了行为多样性,并加速了场景扩展。Cosmos Transfer 为各种环境带来物理逼真度。通过开放访问并无缝集成到领先的仿真平台和工具链,开发者可以充分发挥端到端自主性的潜力,为更安全、更智能、更可扩展的AV部署铺平道路。

探索将在 CVPR 2025 上发表的 NVIDIA 研究论文并观看 NVIDIA 创始人兼首席执行官 Jensen HuangNVIDIA GTC 巴黎大会上的主题演讲

通过订阅 NVIDIA 新闻并在 DiscordYouTube 上关注 NVIDIA Omniverse及时了解最新信息

开始使用developer starter kits快速开发和增强您自己的应用和服务

标签