生成式人工智能/大语言模型

Hydra MDP 的端到端按比例驱动

构建一个在复杂的物理世界中导航的自主系统极具挑战性。该系统必须感知其环境,并做出快速、明智的决定。乘客体验也非常重要,包括加速度、曲率、平顺性、道路附着力和碰撞时间。

在这篇文章中,我们将介绍Hydra-MDP,这是一个推进端到端自动驾驶领域的创新框架。Hydra-MDP 使用了一种新颖的多教师、学生教师知识提取架构,集成了来自人类和基于规则的规划者的知识,从而使模型能够学习不同的轨迹,提高了在不同驾驶环境和条件下的泛化能力。

Diagram shows the various capabilities that are available with single-modal planning and single-target learning compared to multimodal planning and multi-target learning.
图 1。端到端规划模式比较

Hydra MDP 提供了一个通用框架,展示了基于机器学习规划如何通过基于规则的规划者进行增强。这种集成确保了该模型不仅模仿人类驾驶行为,还遵守交通规则和安全标准,从而解决了传统的模仿学习限制。

Hydra MDP 的数据驱动缩放定律证明了其稳健性和适应性,通过使用具有大量数据和 GPU 小时数的预训练基础模型,展示了其可扩展性和持续改进的潜力。

NVIDIA Hydra-MDP 模型在2024 年 CVPR 的 E2E 驾驶挑战赛中获得第一名和创新奖,在 nuPlan 基准上表现优于最先进的规划者,为基于 ML 的规划系统在自动驾驶中的应用提供了一个有前景的路线图。

视频 1。端到端自动驾驶是指一种整体方法,系统从摄像头、雷达和激光雷达获取原始传感器数据,并直接输出车辆控制。

通过多目标 Hydra-distillation 加强多模式规划

Hydra MDP 的开发教会了我们几个关键的教训,这些教训塑造了它的架构和成功。Hydra MDP 结合人类和基于规则的知识提炼,创建了一个强大且通用的自动驾驶模型。

以下是我们学到的主要经验教训:

  • 接受多模式和多目标规划的复杂性
  • 拥抱多目标水合蒸馏的力量
  • 克服后处理的局限性
  • 了解环境背景的重要性
  • 通过模拟迭代优化
  • 使用有效的模型组合

接受多模态和多目标规划的复杂性

一个基本的教训是必须同时包括多模式和多目标规划。

传统的端到端自动驾驶系统往往专注于单一模式和单一目标,限制了其在现实世界中的有效性。Hydra-MDP 集成了针对多个指标量身定制的不同轨迹,包括安全性、效率和舒适性,这确保了该模型能够适应复杂的驾驶环境,而不仅仅是模仿人类驾驶员。

Diagram shows three modalities: Perception Network, Trajectory Decoder, and Multi-Target Hydra-Distillation.
图 2:Hydra MDP 架构

拥抱多目标 Hydra-distillation 的力量

多目标 Hydra-distillation,一种师生多模式框架,是我们方法中的关键策略。通过雇佣多个专业教师——包括人工和基于规则的教师——模型学会预测与各种基于模拟的指标相一致的轨迹,该技术增强了模型在不同驾驶条件下的通用性。

我们了解到,结合基于规则的规划者提供了结构化的框架,而人类教师引入了适应性和微妙的决策能力,对于驾驭不可预测的场景至关重要。

克服后处理的限制

另一个见解是依赖后处理进行轨迹选择的固有局限性。

传统的方法往往会将感知和计划分离成不同的、不可微分的步骤,从而丢失有价值的信息。Hydra-MDP 的端到端架构将感知和规划集成在一个无缝的管道中,并在整个决策过程中保持环境数据的丰富性,这种集成能够实现更知情、更准确的预测。

了解环境背景的重要性

纳入详细的环境背景对于准确规划至关重要。

Hydra MDP 的感知网络建立在 Transfuser 基线的基础上,结合了激光雷达和相机输入的功能,这种多模式融合有助于模型更好地理解并对复杂的驾驶环境做出反应。

转换器层将这些模式连接起来,确保对环境上下文进行彻底编码,并提供丰富、可操作的见解。

通过模拟迭代优化

通过离线模拟,迭代细化过程被证明是非常宝贵的。

在整个训练数据集上运行模拟生成了各种度量的真实情况模拟分数,这些数据然后被用于监督训练过程,使模型能够从广泛的模拟驾驶场景中学习。

这一步骤强调了广泛模拟在弥合理论性能和现实世界适用性之间的差距方面的重要性。

Method Image
Resolution
Backbone Pretraining NC DAC EP TTC C Score
Hydra-MDP-A 256 × 1024 ViT-L Depth anything 98.4 97.7 85.0 94.5 100 89.9
Hydra-MDP-B 512 × 2048 V2-99 DD3D 98.4 97.8 86.5 93.9 100 90.3
Hydra-MDP-C 256 × 1024256 × 1024512 × 2048 ViT-LViT-L V2-99 Depth anything
Objects365 + COCODD3D

98.7

98.2

86.5

95.0

100

91.0
表 1。Hydra-MDP 的精度与输入图像的分辨率、预训练和骨干架构有关,获胜的解决方案 Hydra-MDP-C 将它们结合在一起以提高性能。

使用模型组合的有效方法

有效的模型组合对我们的成功至关重要。

我们使用了混合编码器和 Sub-score Ensembling 等技术来结合模型的优势,这提高了 Hydra-MDP 的稳健性,并确保最终模型能够高精度处理各种驾驶场景。

嵌入技术平衡了计算效率和性能,这对实时应用至关重要。

结论

开发 Hydra-MDP 是一次创新、实验和不断学习的旅程。通过采用多模式和多目标规划,利用多目标 hydra-distillation,并通过广泛的模拟进行提炼,我们创建了一个明显优于现有最先进方法的模型。这些经验教训为 Hydra-MDP 的成功做出了贡献,并为自动驾驶的未来发展提供了宝贵的见解。

有关详细信息,请参见Hydra-MDP:端到端多模式规划 with 多目标 Hydra-Distillation。相关工作见AV Applied Research

 

 

Tags