机器人

使用 NVIDIA Warp 和高斯抛物线法构建机器人心理模型

本文将探讨构建物理世界的动态数字表示的光明方向,这一主题在近期研究中日益受到关注。我们引入了一种在机器人环境中构建数字孪生的方法,该机器人环境可与现实世界保持实时持续同步。这样的生可以提供丰富的状态信息,支持和增强各种下游任务。

人类可以非常轻松地从视觉中构建世界的内部模型。我们将人眼拍摄的平面图像解读为连贯的三维环境。在这个想象的空间中,我们模拟物理交互、预测结果并无缝适应。即使闭着眼睛,我们也能“看到”自己四处移动的物体。当我们重新打开它们时,我们会调节我们的想象和发生的事情之间的任何不匹配。

在机器人中复制这种动态的视觉物理推理是物理 AI 的前沿领域,并开始成为现实。我们的 Physically Embodyed Gaussians 方法的核心理念是,机器人可以从维护世界的实时内部模拟中受益。我们的目标不是仅仅依靠原始图像流或离线重建,而是构建一个持续更新的物理感知型世界模型,以实时反映现实。

为何要使用显式模拟?

从历史上看,物理世界的显式建模一直具有挑战性,因为它需要已知的 3D 模型、经过良好调整的动力学和经过良好建模的传感器,以确保仿真结果能够可靠地传输到现实世界。

如今,这一障碍正在消失。

得益于可微渲染 (尤其是高斯射技术) 方面的突破,再加上现代分割和场景理解模型,现在只需少量图像和基础物理知识即可生成模拟器。在我们的用例中,高建模准确性变得不那么重要,因为可以使用一系列真实图像观察来不断监督和纠正模拟器。

通过可微渲染实现持续视觉监督

在物理具身高斯定律中,可微渲染发挥着双重作用,即初始化和监督模拟器。

通过不断调整模拟器的状态来实现监控,直到渲染的图像与现实世界的观察结果保持一致。与运行频率约为 30 Hz 的物理引擎搭配使用时,这可创建强大的反馈回路。模拟器只需要保持 33 毫秒左右的准确性。如果发生漂移,渲染系统会快速进行校正。在实践中,由于实时校正机制可以补偿模拟中的错误,即使是未完全初始化的物理模型也能随着时间的推移保持准确性。

将高斯拼接用作渲染器,并与快速的现代 GPU 相结合,使整个过程能够实时运行。

由于预先了解了大量信息,摄像头数量减少

高斯射系统通常依靠 30 个或更多摄像头可靠地工作,这对于机器人应用来说是不容易的。

我们通过使用机器人环境中的现有知识来解决这一问题。例如:

  • 我们始终了解机器人的姿态和几何形状。
  • 我们知道机器人可能与哪些物体交互,以及这些物体是刚体还是可变形体。
  • 我们了解这个世界的基本物理特性:物体会掉落、碰撞,并且不会相互穿过。

有了这些先前的信息,我们可以超越视觉复制。我们的表征不仅以外观为基础,还以物理特性为基础,它可以在摄像头数量少得多的情况下稳定运行。

双重表征:粒子和高斯

Two images showing a robot interacting with tabletop objects.
图 1。具身高斯子的对偶表示,其中显示了由物理系统 (左) 作用的粒子,以及通过高斯飞渲染的高斯子 (右)

为了实现这一愿景,我们围绕两个关键组件构建了模拟器:

  • 粒子代表世界的物理结构。它们由快速稳定的物理引擎控制,该引擎使用扩展的基于位置的动力学 (XPBD) 技术,广泛用于实时图形和游戏。
  • 3D 高斯表示场景的视觉外观。这些物体连接到粒子上,并使用高斯射进行渲染。

粒子驱动高斯运动,而可微分渲染器的视觉错误则产生纠正力,使粒子重新对齐。这种双重系统形成了一个闭环:物理移动视觉效果,而视觉效果是正确的物理效果

这两个子系统共同维护了一个实时、视觉和物理精准的环境模型,该模型适应性强、高效且基于感知。

基于 NVIDIA Warp 和 gsplat 构建

我们的模拟器将 NVIDIA Warp 用于物理引擎和可视化工具,并将 gsplat 用于可微分渲染。

有关更多技术细节、演示和开源代码,请访问 https://embodied-gaussians.github.io/

 

 

标签