计算机视觉/视频分析

借助神经重建和世界基础模型提升自动驾驶汽车仿真速度

自动驾驶汽车 (AV) 堆栈正在从离散构建块的层次结构发展为基于foundation models构建的端到端架构。这种转变需要自动驾驶数据飞轮来生成合成数据和增强传感器数据集,解决覆盖差距,并最终构建验证工具链,以安全开发和部署自动驾驶汽车

在本博文中,我们重点介绍了最新的 NVIDIA API、NVIDIA Cosmos 世界基础模型 (WFMs) 和 NIM 微服务,供开发者启动数据工作流。

用于 AV 仿真的神经重建

从自动驾驶车队收集的现实世界数据是自动驾驶工作流的基础,但是,收集和注释罕见事件、物体和场景的传感器数据是不可行的。通过先进的 3D 重建技术、神经重建和渲染,开发者可以将现实世界的数据集转变为多样化的交互式模拟。

NVIDIA NuRec

NVIDIA NuRec 是一组用于神经重建和渲染的 API 和工具。它使开发者能够使用现有fleet数据来重建高保真数字孪生、模拟新事件,并从新的视角渲染传感器数据集。NuRec 的 API 和工具使开发者能够:

  1. 准备和处理用于重建的传感数据
  2. 将传感器数据重构为 3D 表示形式
  3. 执行基于 Gaussian 的渲染以连接仿真

传感器配置因车辆平台而异。在根据任意传感器数据重建数字孪生(具有不同的校准、外部元件和捕获质量)之前,传感器数据必须以标准化的方式进行格式化,以便进行数据处理。

Voxel51 是一家视觉 AI 数据平台公司,为 AI 工作负载的数据处理、可视化和格式化构建了功能强大且广泛使用的开源工具。NuRec 数据工具包、数据提取库以及 NuRec 容器将在 Voxel51 的工具链上提供,因此开发者可以提取自己的数据集,评估重建质量,并为下游仿真任务创建 3D 数字孪生。此工作流将在 CVPR 上的 Voxel 51 展位 (#1417) 演示中展示。

视频 1。在 Voxel51 中使用 NVIDIA NuRec 回放 Waymo 数据集中的真实驾驶体验

将真实世界的重建集成到模拟管道中

重建真实驾驶场景后,下一步是回放原始驾驶或模拟数字孪生的新场景。这需要一个模拟器来驱动ego-vehicle,口述场景中其他参与者的动作,并编排场景中的所有事件。

CARLA 开源自动驾驶汽车模拟器

CARLA 是全球最热门的开源仿真平台之一,拥有超过 15 万名活跃开发者,是自动驾驶汽车研发的测试平台。NVIDIA 正与 CARLA 合作,集成最新的 NuRec 渲染 API 和 Cosmos Transfer-1 世界基础模型。这使得开发者能够使用光线追踪从高斯表示中生成传感器数据,并使用 Cosmos WFM 放大多样性。

以下是一个场景示例,其中 CARLA 正在编排包括 ego-vehicle 在内的所有智能体的运动,并使用 NuRec 从 ego 点视角渲染传感器数据。通过使用 CARLA 的 APIs 和交通模型集成添加重建的场景并模拟新事件,我们可以创建有用的 corner-case 数据集。

视频 2。使用 NVIDIA NuRec 在 CARLA 中回放 3DGUT 重建的驱动器

使用 NuRec Fixer 生成新颖的视图

从新视角渲染重建的场景时,重建过程中可能存在空隙,这可能会导致失真。NuRec Fixer 是一个基于 Transformer 的模型,在 AV 数据集上进行后训练,用于修补和解决重建伪影。开发者可以在重建期间运行 Fixer,也可以在神经网络渲染期间作为后处理运行 Fixer,以修复此类伪影。Fixer 基于 CVPR 2025 上发布的 Difix3D+ 论文。借助 Fixer,来自重建场景的新颖视图合成可在开放和闭环仿真工作流中发挥作用。

视频 3。NVIDIA NuRec Fixer 可解决重建中的伪影,从而提高真实驾驶环境中传感器仿真的质量

NVIDIA 物理 AI 数据集

开发者可以使用 NVIDIA 物理 AI 数据集上提供的开源数据试用此工作流。最新发布的数据集包括使用 Cosmos 生成的 40,000 个片段,以及用于神经渲染的重建场景样本。借助新版 CARLA,开发者现在可以创作全新的轨迹,重新调整摄像头的位置,并使用这些重建数据的入门包模拟驾驶。

借助 Cosmos Transfer 实现多元化

借助 Cosmos Transfer,我们可以进一步扩展和加速数据飞轮,提高数据的真实性和多样性。为天气颗粒效应建模、实现光照变化和程序化生成 3D 内容是一项复杂的技术挑战。Cosmos WFMs(Reason、Predict 和 Transfer)已经过大规模互联网数据的训练,具有一般的理解和预测能力。Cosmos Transfer 是一种基于扩散的生成模型,开发者可以使用提示词和传感器数据作为输入,以调整模型并生成现有场景的不同变体,并且可在最新版本的 CARLA 中使用。

视频 4。右上:使用 NuRec 在 CARLA 中回放 3DGUT 重建的驱动器。左起顺时针方向下方:Cosmos Transfer 生成的重建车道变体,包括下雪、黄昏、建筑物上有常春藤的晴朗天气、带有眩光的日落。

行为:仿真中的交通模型

CARLA 开发者使用行为定向智能体模型 (例如来自 Inverted AI 的 Imagining The Road Ahead (ITRA)) ,而自动驾驶汽车开发者使用 Foretellix Foretify 数据自动化工具链 (预先与 CARLA 和 NVIDIA Cosmos 集成) ,可以在场景和行为中生成逼真的变化,并扩展行为多样性。CVPR 与会者可以在“推进数据策略以实现 AI 成功”的实战教程中试用此工作流程

视频 5。使用 Cosmos-Transfer1-7B-Sample-AV [HDMap] 模型生成传感器数据,该模型基于 Foretellix 的文本提示和物体级仿真,并采用 CARLA 的物理特性
视频 6。基于 CARLA 和 Inverted AI 的文本提示和输出,使用 Cosmos Transfer 大规模生成 AV 传感器数据

适用于自动驾驶汽车仿真的 NVIDIA Omniverse Blueprint

NVIDIA 正在将这些核心技术整合到参考工作流中,以帮助开发者构建端到端仿真管道。

即将推出的用于自动驾驶汽车仿真的 Omniverse Blueprint 将使开发者能够使用神经重建的场景增强自己的模拟器,将合成演员插入到这些场景中,对物理和动画进行建模,并使用合成渲染渲染基于物理性质的内容和 NeRF 内容。

Foretellix、MathWorks、CARLA 和 Mcity 等组织都在使用该蓝图构建工作流,以加速最终用户的 AV 开发。

这些模型和工作流程旨在帮助自动驾驶(AV)开发者社区应对严峻挑战,建立用于训练、测试和验证自动驾驶汽车的数据管道。

立即开始开发

探索将在 CVPR 2025 上发表的 NVIDIA 研究论文并观看 NVIDIA 创始人兼首席执行官 Jensen HuangNVIDIA GTC 巴黎大会上的主题演讲

通过订阅 NVIDIA 新闻并在 DiscordYouTube 上关注 NVIDIA Omniverse随时了解最新动态

开始使用developer starter kits快速开发和增强您自己的应用和服务

标签