欢迎阅读首期“NVIDIA 机器人研究与开发摘要(R²D²)”。此技术博客系列将让开发者和研究人员更深入地了解 NVIDIA 各个研究实验室在物理 AI 和机器人领域的最新研究突破。
开发强大的机器人面临着诸多重大挑战,例如:
- 数据稀缺:为 AI 模型生成多样的真实世界训练数据。
- 适应性:确保解决方案能够在各种不同类型的机器人和环境中通用,并适应动态、不可预测的场景。
- 集成性:有效地将移动能力、操作能力、控制能力和推理能力结合起来。
我们通过在自身平台上经过验证的先进研究来应对这些挑战。我们的方法将前沿研究与工程工作流相结合,并在我们的 AI 和机器人平台(包括 NVIDIA Omniverse、Cosmos、Isaac Sim 和 Isaac Lab)上进行测试。最终生成的模型、策略和数据集可作为研究人员和开发者社区的可定制参考,以适应特定的机器人开发需求。我们期待分享我们的研究成果,共同构建机器人技术的未来。
在本期 R²D² 中,您将了解以下机器人移动及全身控制的工作流及模型,以及它们如何应对机器人导航、移动和控制方面的关键挑战:
- MobilityGen:基于仿真的工作流,利用 Isaac Sim 快速生成大型合成运动数据集,用于为不同形态和环境下的机器人构建模型,以及测试机器人在新环境中的导航能力。与真实世界的数据采集相比,该工作流可降低成本并节省时间。
- COMPASS(Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis):一种用于开发跨形态移动策略的工作流,可借助 Isaac Lab 实现微调,并支持零样本从仿真到现实的部署。
- HOVER(Humanoid Versatile Controller):Isaac Lab 中用于人形机器人多种控制模式的工作流和统一全身控制通用策略。
- ReMEmbR(适用于具身机器人的检索增强内存):一种支持机器人使用 LLMs、VLMs 和 RAG(检索增强生成)进行推理并采取移动行动的工作流。
NVIDIA 机器人移动工作流
和 AI 模型
包括人形机器人、四足机器人和自主移动机器人(AMR)等在内的移动机器人,越来越多地应用于各种不同的环境中,这对强大的导航系统提出了更高的要求,需要能够支持在已绘制地图和未知的环境中安全运行,同时避开障碍物并减少停机时间。目前的导航软件在适应性方面存在困难,因为不同类型的机器人(例如,自主移动机器人与人形机器人)的算法差异很大,并且需要针对环境变化进行大量的微调,这增加了工程复杂性并限制了可扩展性。
NVIDIA 研究中心通过开发由 AI 驱动的端到端基础模型、高效的数据生成流程以及支持零样本部署的训练工作流来应对这些挑战,使机器人无需依赖昂贵的传感器即可在杂乱的空间中导航。

用于数据生成的 MobilityGen
MobilityGen 工作流借助 NVIDIA Isaac Sim,为包括人形机器人、四足机器人和轮式机器人在内的移动机器人生成合成运动数据。您可以使用这些数据来训练和测试机器人的移动模型以及感知算法,从而解决训练机器人时的数据稀缺问题。
MobilityGen 通过以下方式帮助增加数据集的多样性:
- 添加动态对象
- 添加机器人动作数据
- 结合人类演示数据
- 增强数据(例如光照条件)
MobilityGen 提供真实数据的形式包括占用地图、位姿信息、速度信息、RGB 图像、深度图像和分割图像,以及可定制的动作和渲染数据。它支持的数据采集方法包括键盘或游戏手柄远程操作,以及自动随机动作或可定制的路径规划。
通过解决数据稀缺问题,MobilityGen 增强了集成机器人堆栈的感知能力和移动基础。通过 NVIDIA 深度学习培训中心(DLI)的免费自学课程,了解更多关于 MobilityGen 的信息,以及如何使用远程操作为人形机器人 Unitree H1 生成运动和导航数据集。

用于跨形态移动策略的 COMPASS
COMPASS 是一个用于开发跨形态移动策略的工作流。它提供了一种可通用的端到端移动工作流和模型,能够在多种机器人形态下实现零样本从仿真到现实的部署。其目标是解决由于机器人专家开发和测试周期缓慢而导致的可扩展性问题。
COMPASS 将基于视觉的端到端模仿学习(IL)与 Isaac Lab 中的 X-Mobility 的残差强化学习(RL)以及策略蒸馏方法相结合,以扩展到不同的机器人平台。虽然基于模仿学习的 X-Mobility 策略是在使用 MobilityGen 生成的特定形态数据上进行预训练的,但 COMPASS 的通用策略对于不同形态的机器人可实现高出 5 倍的成功率。这使得不同的机器人能够使用统一的策略在复杂环境中高效导航。它还为用户提供了针对特定形态和环境微调策略的灵活性和便利性。

该工作流的第一阶段使用基于模仿学习的方法进行世界建模,以训练针对环境状态与行动的移动性“常识”表征。这类“常识”的具体体现包括对世界动态变化的理解、障碍物探测与规避、路径规划,以及环境感知能力等。
第二阶段使用残差强化学习,将第一阶段中基于模仿学习的策略逐步具体化为特定的专家策略。第三阶段使用每个专家策略的数据,并通过策略蒸馏将它们合并为一个跨形态模型。通过这种方式,每个专家的专业知识被融入到最终的蒸馏策略中,从而提高不同平台的适应性。
COMPASS 实现了零样本多机器人交互,展示了机器人在不同环境中的功能。它还可用于连接 loco-manipulation 控制器,以执行 loco-manipulation 相关的任务。
COMPASS 通过解决跨形态的通用性问题,增强了集成式机器人堆栈的移动性基础。
用于人形机器人全身控制的 HOVER
到目前为止,我们已经了解了使机器人能够从一个点移动到目标位置的移动策略。但对于稳健的运动来说,这还不够,我们还需要实现平衡和全身控制,以确保安全、平稳的移动。HOVER 的目标就是为此提供一个参考工作流。
传统上,人形机器人需要不同的控制模式来执行各种任务,例如用于导航的速度追踪和用于桌面操作的上半身关节追踪。HOVER 是一个在 Isaac Lab 中训练的工作流,它将这些控制模式整合为人形机器人的统一策略。对于使用本文中所提到的其他工作流的机器人,也可以使用其他控制器来替代 HOVER。
通过将复杂的人形机器人的多个运动部件集成到一个统一的神经全身控制器中,HOVER 增强了集成机器人堆栈的基控制础。HOVER(Humanoid Versatile Controller)是一种多模式策略蒸馏框架,可以将多种控制模式统一到单个策略中,实现了它们之间的无缝过渡。通过强化学习对 oracle 策略进行训练,并模仿人类运动数据,然后使用策略蒸馏流程将技能从 oracle 策略转移到通用策略。
HOVER 代码还包括一个在 Unitree H1 机器人上使用的部署代码示例,使用户能够使用机器人来复制下图中展示的运动和稳定性。


用于机器人推理的 ReMEmbR
到目前为止,我们探讨的工作流解决了数据集创建、移动策略以及人形机器人的全身控制问题。为了通过对话式智能实现完全的自主移动,我们还需要集成机器人的推理和认知能力。机器人如何记住在环境中看到的内容,并根据用户输入采取相应的行动呢?
ReMEmbR 是一种将大语言模型、视觉语言模型和检索增强生成技术相结合的工作流,使机器人能够使用长时间记忆动作,进行推理、回答问题并在大范围内执行导航操作。它可以充当具身机器人的“记忆”,有助于基于感知的问答和语义动作执行。

ReMEmbR 可用于为本文中介绍的其他工作流提供输入,将它们整合在一起,以帮助解决机器人移动性的复杂问题。我们还发布了用于评估的 NaVQA 数据集(Navigation Visual Question Answering),其中包含具有各种输出类型的空间、时间和描述性问题的示例。

通过利用大语言模型和视觉语言模型的强大功能来解决推理问题,ReMEmbR 强化了基于 AI 的集成机器人堆栈的推理和适应能力。
生态系统应用情况
人形机器人、仓库自动化和自主系统领域的领先机构正在采用 NVIDIA 的研究工作流,以加速开发,并在可扩展性和适应性方面取得突破。
- UCR(Under Control Robotics)集成了 X-Mobility,以引导其机器人 Moby 顺畅抵达目的地。事实证明,这套模块化系统能够灵活适配各类工业任务,比如数据采集、物料搬运,以及实现高风险作业的自动化操作。
- 研华科技(Advantech)、威刚科技(ADATA)和 Ubitus 合作,采用 ReMEmbR 技术,使机器人能够依据大量的观察进行推理并采取行动。
开始使用
想要了解更多信息,请探索以下资源:
MobilityGen
COMPASS
X-Mobility
HOVER
ReMEmbR 和 NaVQA 数据集
-
博客(点击链接阅读原文):
借助 ReMEmbR 利用生成式 AI 赋予机器人推理与行动能力
这篇文章是“NVIDIA 机器人研究与开发摘要(R²D²)”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最新突破。
了解 NVIDIA 研究中心的更多信息:
https://www.nvidia.cn/research/
立即注册 NVIDIA 机器人基础课程,即刻开始您的机器人技术之旅:
https://www.nvidia.com/en-us/learn/learning-path/robotics/
致谢
感谢 Abrar Anwar、Joydeep Biswas、Yan Chang、Jim Fan、Pulkit Goyal、Lionel Gulich、Tairan He、Rushane Hua、Neel Jawale、Zhenyu Jiang、Jan Kautz、H. Hawkeye King、Chenran Li、Michael Lin、Toru Lin、Changliu Liu、Wei Liu、Zhengyi Luo、Billy Okal、Stephan Pleines、Soha Pouya、Guanya Shi、Shri Sundaram、Peter Varvak、Xiaolong Wang、John Welsh、Wenli Xiao、Zhenjia Xu、Huihua Zhao 和 Yuke Zhu 为本博客中提到的研究论文做出的贡献。