机器人

R²D²:利用 NVIDIA 研究工作流程和模型提升灵巧机器人的适应性

如今,Robotic arms 用于组装、包装、检查等更多应用领域。但是,它们仍然经过预编程,可以执行特定的、通常是重复性的任务。为了满足大多数环境中日益增长的适应性需求, perceptive arms 需要根据实时数据做出决策和调整行为。这提高了协作环境中任务的灵活性,并通过危险感知提高安全性。

本期 NVIDIA Robotics Research and Development Digest (R2 D2 ) 探讨了 NVIDIA Research 的一些机器人灵活性、操作和抓取工作流以及 AI 模型 (如下所示) ,以及它们如何应对适应能力和数据稀缺等关键机器人挑战:

  • DextrAH-RGB通过立体 RGB 输入实现灵巧抓取的工作流程。
  • DexMimicGen :使用模仿学习 (IL) 进行双手灵巧操作的数据生成管道。在 ICRA 2025 上展示。
  • GraspGen :包含超过 5700 万次抓取的合成数据集,适用于不同的机器人和抓手。

什么是灵巧的机器人?

灵巧的机器人能够精准、高效地操控物体。机器人的灵活性涉及精细的运动控制、协调,以及通常在非结构化环境中处理各种任务的能力。机器人灵活性的关键方面包括抓握、操控、触觉敏感度、敏捷性和协调性。

机器人的灵活性在制造、医疗健康和物流等行业至关重要,可实现传统上需要类似人类精度的任务的自动化。

NVIDIA 机器人的灵活性和操控工作流程及模型

灵巧的抓取是机器人领域一项颇具挑战性的任务,需要机器人精准、快速地操控各种物体。传统方法难以处理反光物体,无法很好地泛化到新物体或动态环境。

NVIDIA Research 通过开发端到端基础模型和工作流程来应对这些挑战,从而实现跨对象和环境的稳健操作。

DextrAH-RGB,用于灵巧抓取

DextrAH-RGB 是一种工作流程,可通过立体 RGB 输入进行灵巧的手臂抓握。使用此工作流,策略完全在仿真中进行训练,并且可以在部署时泛化到新对象。DextrAH-RGB 使用 NVIDIA Isaac Lab 在不同物体的模拟中进行大规模训练。

视频 1. 在模拟中训练 DextrAH-RGB

训练流程包含两个阶段。首先,使用 强化学习 (RL) 在模拟中训练教师策略。教师是一种在几何结构动作空间中发挥作用的特权 Fabric-Guided 策略 (FGP) 。几何结构是一种矢量化低级控制形式,它将运动定义为关节位置、速度和加速信号,这些信号作为命令传输到机器人控制器。这通过确保部署时的安全性和反应性,嵌入防撞和目标深远的行为,实现了快速迭代。

“教师策略具有一个 LSTM 层,用于推理并适应世界的物理特性。这有助于整合纠正行为 (例如重新抓取和把握成功理解) ,以对当前动态做出反应。训练的第一阶段通过利用域随机化来确保鲁棒性和适应性。随着教师策略的训练,物理、视觉和微扰参数也会发生变化,从而逐渐增加环境难度。”

在训练的第二阶段,使用逼真的 平铺渲染 将教师策略提炼为基于 RGB 的学生策略。此步骤使用名为 DAgger 的模仿学习框架。学生策略从立体摄像头接收 RGB 图像,使其能够隐式推理深度和物体位置。

An image of the DextrAH-RGB training pipeline, including Stage 1: Teacher Training; Stage 2: Student Training; Stage 3: Real-World Deployment.
图 1。DextrAH-RGB 训练管线

借助 Boston Dynamics Atlas MTS 机器人实现 Simulation-to-real

NVIDIA 和 Boston Dynamics 一直在合作训练和部署 DextrAH-RGB。图 2 和视频 2 展示了由通用策略驱动的机器人系统,该系统在 Atlas 的上半身上部署了强大的零样本模拟到现实的抓取功能。

A GIF showing the teacher policy for Atlas being trained at scale using Isaac Lab.
图 2。使用 NVIDIA Isaac Lab 大规模训练 Atlas 教师政策

该系统展示了由 Atlas 的三指夹持器提供动力支持的各种抓取装置,可容纳轻量级和重型物体,并显示新出现的故障检测和重试行为。

视频 2. 波士顿动力 Atlas MTS 机器人使用 DextrAH-RGB 成功抓取工业物体

用于生成双手操作数据的 DexMimicGen

DexMimicGen 是一个双手动操作数据生成工作流,它使用少量人类演示来生成大规模轨迹数据集。其目标是让机器人能够在仿真环境中学习动作,并将其传输到现实世界,从而减少手动收集数据的繁琐任务。此工作流解决了 IL 中数据稀缺的挑战,适用于像人形机器人这样的双手动灵巧机器人。

DexMimicGen 使用基于仿真的增强来生成数据集。首先,人类演示者使用远程操作设备收集少量演示。然后,DexMimicGen 会生成模拟演示轨迹的大型数据集。例如,在最初的出版物中,研究人员使用 DexMimicGen 仅从 60 个人类演示中生成了 21K 个演示。最后,使用 IL 在生成的数据集上训练策略以执行操作任务,并将其部署到物理机器人。

An overview diagram of DexMimicGen, including four images labeled Real-World Teleoperation and Simulation Replay (top) and Real-World Deployment and Generated Trajectories (bottom) with Digital Twin Sim2Real arrows between.
图 3. DexMimicGen 工作流程

由于需要在不同任务的两个 arm 之间进行精确协调,因此 bimanual manipulation 具有挑战性。在每个 arm 中拾取不同物体等并行任务需要独立的 control policies。提起大型物体等协调任务需要 arm 来同步运动和计时。顺序任务要求子任务按特定顺序完成,例如用一只手移动盒子,用另一只手放入物体。

在数据生成过程中,DexMimicGen 使用子任务的“并行、协调和顺序”分类来满足这些不同的要求。这将异步执行策略用于独立的 ARM 子任务、协调任务的同步机制,以及顺序子任务的顺序约束。此方法可确保在数据生成期间实现精确对齐和逻辑任务执行。

A GIF showing a humanoid robot executing the can sorting task successfully using a model trained on data generated using DexMimicGen.
图 4. 使用基于 DexMimicGen 生成的数据训练的模型成功对易拉罐进行分类

在现实世界中部署时,DexMimicGen 使人形机器人能够使用通过从真实到模拟到现实的 pipeline 生成的数据,在易拉罐分类任务中实现 90% 的成功率。相比之下,仅在人类演示中进行训练时,模型的成功率为 0%。这些观察结果凸显了 DexMimicGen 在减少人类工作量方面的有效性,同时为复杂的操作任务提供了强大的机器人学习能力。

适用于多个机器人和抓手的 GraspGen 数据集

为了支持研究,GraspGen 在 Hugging Face 上提供了一个 新的模拟数据集 ,可为三个不同的 grippers 抓取 5700 万次。该数据集包括 6D gripper 转换和不同对象网格的成功标签。

An image showing icons representing proposed grasps for different objects in the dataset.
图 5。针对数据集中一系列不同对象的 Proposed grasps

这三款抓手分别是 Franka Panda 抓手、Robotiq 2F-140 工业抓手和单接触吸力抓手。GraspGen 完全在仿真中生成,展示了自动数据生成在规模和多样性上扩展数据集的优势。

An image of three grippers in the simulated GraspGen dataset showing the coordinate frame convention. Left: Robotiq 2F-140 gripper, middle: a single-contact suction gripper, right: Franka Panda gripper.
图 6。模拟 GraspGen 数据集中三个抓手的坐标框架约定:Robotiq 2F-140 抓手 (左) 、单接触吸力抓手 (中) 和 Franka Panda 抓手 (右)

总结

为了满足大多数环境中日益增长的适应性需求,robotic arms 需要根据实时数据做出决策和调整行为。本文探讨了几种机器人的灵活性、操控性、抓取工作流程和 AI 模型,以及它们如何解决适应能力和数据稀缺等关键机器人挑战。

如需了解详情,请查看以下资源:

本文是 NVIDIA Robotics Research and Development Digest (R 2 D 2 ) 的一部分,旨在让开发者更深入地了解 NVIDIA 研究 在物理 AI 和机器人应用方面的新突破。

订阅时事通讯 并在 YouTube Discord NVIDIA 开发者论坛 上关注 NVIDIA Robotics,及时了解最新信息。要开启您的机器人开发之旅,请注册免费的 NVIDIA Robotics Fundamentals 课程

致谢

感谢 Arthur Allshire、Mohak Bhardwaj、Mark Carlson、Yu-Wei Chao、Clemens Eppner、Gina Fay、Jim Fan、Dieter Fox、Ankur Handa、Zhenyu Jiang、Kevin Lin、Michael Lutter、Ajay Mandlekar、Adithyavairavan Murali、Nathan Ratliff、Fabio Ramos、Alberto Rodriguez、Ritvik Singh、Balakumar Sundaralingam、Karl Van Wyk、Weikang Wan、Wentao Yuan、Jun Yamada、Yuqi Xie、Zhenjia Xu 和 Yuke Zhu 对本文中提到的研究的贡献。

 

标签