人类的手是数百万年进化过程中最显著的成果之一。拾取各种对象并将其用作工具的能力是使我们能够塑造世界的关键区别。
对于在日常人类世界中工作的机器人来说,灵巧地与我们的工具和周围环境交互的能力至关重要。如果没有这种能力,它们将继续只在工厂或仓库等专门领域有用。
虽然已经有一段时间可以教有腿的机器人如何行走,但事实证明,有手的机器人通常更难控制。有手指的手有更多的关节,必须以特定的协调方式移动才能完成给定的任务。具有精确抓取和运动的传统机器人控制方法无法实现人类认为理所当然的那种广义精细运动控制技能。
解决这些问题的一种方法是应用深度强化学习( deep RL )技术,该技术训练神经网络来控制机器人的关节。使用深度 RL ,机器人从反复尝试中学习,并因成功完成指定任务而获得奖励。不幸的是,这项技术可能需要数百万甚至数十亿个样本来学习,这使得它几乎不可能直接应用于真正的机器人。
视频 1 。 DeXtreme :将灵巧操作从模拟转换为现实
应用模拟
进入 NVIDIA ISAAC 机器人模拟器,该模拟器使机器人能够在模拟宇宙中进行训练,该模拟宇宙的运行速度比真实世界快 10000 倍以上,但遵守物理定律。
DeXtreme 项目的 NVIDIA 研究人员使用 NVIDIA Isaac Gym ,一种 RL 训练机器人模拟器,教这只机器人手如何操纵立方体,以匹配提供的目标位置、方向或姿势。在被移植到现实世界中控制机器人之前,神经网络大脑完全在模拟中学会了这一点。
OpenAI 的研究人员此前只展示过一次类似的工作。他们的工作需要一只更加复杂和昂贵的机器人手,一个装有精确运动控制传感器的立方体,以及一个由数百台计算机组成的超级计算集群来训练。
民主化灵活性
DeXtreme 项目使用的硬件被选择为尽可能简单和廉价,以使世界各地的研究人员能够复制我们的实验。
该机器人本身是一个 Allegro Hand ,其成本仅为某些替代品成本的 1 / 10 ,有四个手指而不是五个,并且没有活动的手腕。我们可以使用三个现成的 RGB 相机来跟踪 3D 立方体,这可以根据需要轻松地重新定位,而不需要特殊的硬件。立方体是 3D 打印的,每个面上都贴着贴纸。
DeXtreme 使用 ISAAC 健身房进行训练,该健身房为强化学习提供了端到端 GPU 加速模拟环境。 NVIDIA PhysX 在 GPU 上模拟世界,在深度学习控制策略网络的训练期间,结果保留在 GPU 内存中。
因此,培训可以在单个 Omniverse OVX 服务器上进行。在这个系统上训练一个好的策略需要大约 32 小时,相当于一个机器人在现实世界中 42 年的经验。
不需要单独的 CPU 集群进行模拟,意味着以当前云租赁费率进行培训的计算成本将降低 10 – 200 倍。因为我们可以使用 ISAAC 健身房来训练模型,训练时间和成本可以大大减少。
感知和合成数据
为了让机器人知道它所持立方体的当前位置和方向,它需要一个感知系统。为了保持低成本,并在未来留下操纵其他对象的可能性, DeXtreme 使用了三个现成的摄像头和另一个可以解释立方体姿势的神经网络。
该网络使用使用 Omniverse Replicator 生成的大约 500 万帧 synthetic data 进行训练,并且没有任何真实图像。网络学习如何在现实世界中具有挑战性的情况下执行任务。为了使训练更加稳健,我们使用了一种称为域随机化的技术来改变照明和相机位置,再加上数据增强来应用随机裁剪、旋转和背景。
DeXtreme 姿态估计系统是可靠的,即使当所讨论的对象被部分遮挡而无法观看时,或者当图像具有明显的运动模糊时,也可以感知准确的姿态。
真正的机器人仍然具有挑战性
使用模拟的一个关键原因是,直接在现实世界中训练机器人面临着各种挑战。例如,机器人硬件在过度使用后容易损坏。实验迭代周期和周转时间也可能很慢。
视频 4 。快板手上冒出烟雾
在我们的实验中,我们经常发现自己在长时间使用后修复手部,例如,拧紧松动的螺钉,更换带状电缆,并在进行 10-15 次试验后让手部冷却。模拟使我们能够通过在机器人上训练避开许多这些问题,该机器人不会磨损,但也提供学习挑战性任务所需的大量数据。同时,由于模拟可以比实时运行得快得多,因此迭代周期大大提高。
在模拟训练中,最重要的挑战是弥合模拟和现实世界之间的差距。为了解决这个问题, DeXtreme 使用了模拟器中设置的物理属性的域随机化:一次在超过十万个模拟环境中按比例改变物体质量、摩擦水平和其他属性。
这些随机化的一个有趣的结果是,我们用各种不寻常的场景组合来训练 AI ,这在现实世界中执行任务时转化为鲁棒性。例如,我们在真实机器人上进行的大多数实验都是由于电路板上的连接松动导致拇指出现轻微故障。不管怎样,我们对政策从模拟转移到现实世界感到非常惊讶。
视频 5 。经过 32 个多小时的训练, DeXtreme 机器人能够重复成功地完成旋转立方体以匹配特定目标的任务
模拟到真实
机器人操纵的未来突破将使机器人应用的新浪潮超越传统工业用途。
DeXtreme 项目的核心是一个信息,即模拟可以成为训练复杂机器人系统的非常有效的工具。即使对于必须处理与机器人持续接触的物体的环境的系统也是如此。我们希望,通过使用相对低成本的硬件来演示这一点,我们可以启发其他人使用我们的模拟工具,并在这一工作的基础上再接再厉。
有关详细信息,请参阅 DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality 并访问 DeXtreme 。
有关模拟器及其如何影响项目的更多信息,请参见 How GPUs Can Democratize Deep Reinforcement Learning for Robotics Development 。您还可以下载最新版本的 NVIDIA Omniverse Isaac Sim 并了解 training your own reinforcement learning policies 。