利用合成数据聚焦远场物体，实现基于摄像头的 AV 感知

检测远场物体，如 100 米以外的车辆，是自动驾驶系统在高速公路上安全操作的基础

在这样的高速环境中，每一秒都很重要。因此，如果在以 70 英里/小时的速度行驶时，自动驾驶汽车（ AV ）的感知范围可以从 100 米增加到 200 米，那么车辆有更多的时间做出反应。

然而，对于通常部署在量产乘用车中的基于摄像头的感知系统来说，扩展这一范围尤其具有挑战性。训练用于远场物体检测的相机感知系统需要收集大量的相机数据以及地面实况（ GT ）标签，例如 3D 边界框和距离。

A rendering of an ego vehicle with cameras, with the vehicle 200 m outside the cone of perception and without a ground truth bounding box. — *图 1 。自动驾驶汽车距离其他物体越远，执行精确的基于摄像头的感知和地面实况标记就越具有挑战性。（汽车在图示中不按比例缩放。*)

对于超过 200 米的物体来说，提取这些 GT 数据变得更加困难。物体离得越远，在图像中就越小，最终只有几个像素宽。通常，像激光雷达这样的传感器与聚合和自动标记技术一起使用来提取 3D 和距离信息，但这些数据在激光雷达的工作范围之外变得稀疏和嘈杂。

Camera frame showing a highway scene, with an insert showing long-distance vehicles at lower resolution. — *图 2 :高速公路场景中具有 30 度远摄镜头的示例相机数据。插入显示了远场汽车是如何仅由几个像素表示的。*

这个NVIDIA DRIVEAV 团队需要在开发过程中解决这一确切的挑战。为此，我们在NVIDIA DRIVE Sim，利用NVIDIA Omniverse Replicator.

NVIDIA DRIVE Sim 是一款基于 Omniverse 的 AV 模拟器，包括经过高保真度传感器模拟验证的基于物理的传感器模型。有关更多详细信息，请参阅Validating NVIDIA DRIVE Sim Camera Models.

NVIDIA DRIVE Sim 能够以像素级的精度查询模拟场景中每个物体的位置，包括以任何相机分辨率放置在距离自我车辆 400 米或 500 米处的物体

当车辆位置信息与基于物理的合成相机数据相结合时，可以生成用于感知的必要的 3D 和距离 GT 标签

通过将这些合成 GT 数据添加到我们现有的真实数据集中，我们能够训练网络来检测远距离的汽车，并在 190 米至 200 米的距离内实现 33% 的 F1 成绩提高。

用于远场物体的合成 GT 数据生成

为了解决精确标记的远场数据的稀缺性，我们的目标是生成一个由近 100 K 长距离物体图像组成的合成数据集，以增强现有的真实数据集。图 3 显示了使用 Omniverse Replicator 在 NVIDIA DRIVE Sim 中生成这些数据集的过程，从选择 3D 环境到评估深度神经网络（ DNN ）性能。

Flow chart showing the steps to generate synthetic data on NVIDIA DRIVE Sim. The steps include choosing 3D environments, configuring the ego vehicle with sensors, defining scenarios and randomization, specifying a ground truth format, and finally, generating synthetic data for training, and evaluating deep neural network (DNN) performance. — *图 3 。使用 NVIDIA DRIVE Sim ，您可以不断迭代合成数据，以提高深度神经网络（ DNN ）的准确性*

在选择了解决高速公路用例的 3D 环境后，我们配置了一辆配备必要摄像头传感器的 ego 车辆。

NVIDIA DRIVE Sim 利用基于 Omniverse Replicator 框架构建的域随机化 API ，以编程方式更改 3D 资产的外观、位置和运动。通过使用ASAM OpenDRIVE绘制 API 地图时，我们将车辆和障碍物放置在 100 米至 350 米的远场距离处，并以上下文方式放置在远处。

视频 1 。您可以使用 NVIDIA DRIVE Sim 中生成的合成 GT 数据，利用 Omniverse Replicator ，训练网络感知远场物体

NVIDIA DRIVE Sim 动作系统能够模拟各种引入闭塞的具有挑战性的情况，如车道变更或近距离切入。这为现实世界中难以遇到的场景提供了关键数据

在数据生成之前的最后一步，我们利用 Omniverse Replicator 中的 GT 编写器生成必要的标签，包括三维边界框、速度、语义标签和对象 ID 。

利用合成相机数据提高相机感知性能

对于该用例，真实训练数据集由 100 多万张图像组成，其中包含 200 米以下高速公路场景中车辆的 GT 标签。如图 4 左侧所示，这些真实图像中的汽车分布在距离数据采集车辆不到 100 米的地方达到峰值。对于距离更远的物体， GT 标签稀疏，不足以增强感知。

Side-by-side heat maps showing the distribution of object distance for real world data on the left and synthetic data on the right. The left map shows a greater concentration of vehicles within 100 m in the real dataset, while the right map shows a distribution skewed toward 150 m and beyond, generated from simulation. — 图 4 。在真实世界数据集和 NVIDIA DRIVE Sim 中生成的合成数据之间，汽车距离相对于自我车辆的频率分布的比较。 ego 车辆的前部为 0 度，后部为 180 度。角度是方位值

在这种情况下，我们生成了约 92 K 的合成图像，其中约 371 K 个汽车实例和 GT 标签集中在高达 350 米的远程车辆分布上。合成数据集中的汽车分布更倾向于 150 米及更远的距离。通过将~ 92K 的合成图像添加到该真实数据集中，我们将所需的标记远场对象引入到训练分布中

在组合数据集上训练感知算法后，我们将网络与汽车分布高达 200 米的真实数据集进行了测试。通过距离提高感知性能的 KPI 显示 F1 分数提高了 33% ，这是对 190 米至 200 米汽车数据集上模型准确性的衡量

Line graph showing percentage of improvement in detection as range increases, based on number of simulated images used to train. The addition of simulated images resulted in an improved F1 score of 33% for cars located between 190 m to 200 m. — *图 5 。当使用和不使用 NVIDIA DRIVE Sim 的模拟图像训练 DNN 时，障碍物检测 DNN 的性能提高（ F1 分数）*

总结

合成数据正在推动 AV 开发的重大范式转变，解锁以前不可能的新用例。使用 NVIDIA DRIVE Sim 和 NVIDIA Omniverse Replicator ，您可以在虚拟试验场中制作新传感器的原型，评估新的地面实况类型和 AV 感知算法，并模拟罕见和不良事件，所有这些都只需现实世界所需时间和成本的一小部分。

合成数据集为 AV 感知提供的丰富可能性不断发展。要查看我们的工作流程并了解更多信息，请观看 NVIDIA GTC DRIVE 开发者日会议，How to Generate Synthetic Data with NVIDIA DRIVE Replicator.

利用合成数据聚焦远场物体，实现基于摄像头的 AV 感知

用于远场物体的合成 GT 数据生成

利用合成相机数据提高相机感知性能

总结

Tags

关于作者

利用合成数据聚焦远场物体，实现基于摄像头的 AV 感知

用于远场物体的合成 GT 数据生成

利用合成相机数据提高相机感知性能

总结

Tags

关于作者

Related posts

使用全卷积网络在 Transformer 模型中模拟注意力机制

使用 Trajeglish 帮助自动驾驶汽车学习人类驾驶行为语言

使用自监督学习重建动态驾驶场景

使用 Bi-Level 模仿学习仿真现实交通行为

掌握 LLM 技术：训练