使用 NVIDIA Warp 和高斯抛物线法构建机器人心理模型

本文将探讨构建物理世界的动态数字表示的光明方向，这一主题在近期研究中日益受到关注。我们引入了一种在机器人环境中构建数字孪生的方法，该机器人环境可与现实世界保持实时持续同步。这样的生可以提供丰富的状态信息，支持和增强各种下游任务。

人类可以非常轻松地从视觉中构建世界的内部模型。我们将人眼拍摄的平面图像解读为连贯的三维环境。在这个想象的空间中，我们模拟物理交互、预测结果并无缝适应。即使闭着眼睛，我们也能“看到”自己四处移动的物体。当我们重新打开它们时，我们会调节我们的想象和发生的事情之间的任何不匹配。

在机器人中复制这种动态的视觉物理推理是物理 AI 的前沿领域，并开始成为现实。我们的 Physically Embodyed Gaussians 方法的核心理念是，机器人可以从维护世界的实时内部模拟中受益。我们的目标不是仅仅依靠原始图像流或离线重建，而是构建一个持续更新的物理感知型世界模型，以实时反映现实。

为何要使用显式模拟？

从历史上看，物理世界的显式建模一直具有挑战性，因为它需要已知的 3D 模型、经过良好调整的动力学和经过良好建模的传感器，以确保仿真结果能够可靠地传输到现实世界。

如今，这一障碍正在消失。

得益于可微渲染 (尤其是高斯射技术) 方面的突破，再加上现代分割和场景理解模型，现在只需少量图像和基础物理知识即可生成模拟器。在我们的用例中，高建模准确性变得不那么重要，因为可以使用一系列真实图像观察来不断监督和纠正模拟器。

通过可微渲染实现持续视觉监督

在物理具身高斯定律中，可微渲染发挥着双重作用，即初始化和监督模拟器。

通过不断调整模拟器的状态来实现监控，直到渲染的图像与现实世界的观察结果保持一致。与运行频率约为 30 Hz 的物理引擎搭配使用时，这可创建强大的反馈回路。模拟器只需要保持 33 毫秒左右的准确性。如果发生漂移，渲染系统会快速进行校正。在实践中，由于实时校正机制可以补偿模拟中的错误，即使是未完全初始化的物理模型也能随着时间的推移保持准确性。

将高斯拼接用作渲染器，并与快速的现代 GPU 相结合，使整个过程能够实时运行。

由于预先了解了大量信息，摄像头数量减少

高斯射系统通常依靠 30 个或更多摄像头可靠地工作，这对于机器人应用来说是不容易的。

我们通过使用机器人环境中的现有知识来解决这一问题。例如：

我们始终了解机器人的姿态和几何形状。
我们知道机器人可能与哪些物体交互，以及这些物体是刚体还是可变形体。
我们了解这个世界的基本物理特性：物体会掉落、碰撞，并且不会相互穿过。

有了这些先前的信息，我们可以超越视觉复制。我们的表征不仅以外观为基础，还以物理特性为基础，它可以在摄像头数量少得多的情况下稳定运行。

双重表征：粒子和高斯

Two images showing a robot interacting with tabletop objects. — 图 1。具身高斯子的对偶表示，其中显示了由物理系统 (左) 作用的粒子，以及通过高斯飞渲染的高斯子 (右)

为了实现这一愿景，我们围绕两个关键组件构建了模拟器：

粒子代表世界的物理结构。它们由快速稳定的物理引擎控制，该引擎使用扩展的基于位置的动力学 (XPBD) 技术，广泛用于实时图形和游戏。
3D 高斯表示场景的视觉外观。这些物体连接到粒子上，并使用高斯射进行渲染。

粒子驱动高斯运动，而可微分渲染器的视觉错误则产生纠正力，使粒子重新对齐。这种双重系统形成了一个闭环：物理移动视觉效果，而视觉效果是正确的物理效果。

这两个子系统共同维护了一个实时、视觉和物理精准的环境模型，该模型适应性强、高效且基于感知。

基于 NVIDIA Warp 和 gsplat 构建

我们的模拟器将 NVIDIA Warp 用于物理引擎和可视化工具，并将 gsplat 用于可微分渲染。

有关更多技术细节、演示和开源代码，请访问 https://embodied-gaussians.github.io/。

使用 NVIDIA Warp 和高斯抛物线法构建机器人心理模型

为何要使用显式模拟？

通过可微渲染实现持续视觉监督

由于预先了解了大量信息，摄像头数量减少

双重表征：粒子和高斯

基于 NVIDIA Warp 和 gsplat 构建

标签

关于作者

使用 NVIDIA Warp 和高斯抛物线法构建机器人心理模型

为何要使用显式模拟？

通过可微渲染实现持续视觉监督

由于预先了解了大量信息，摄像头数量减少

双重表征：粒子和高斯

基于 NVIDIA Warp 和 gsplat 构建

标签

关于作者

相关文章

借助 3DGUT 在 gsplat 中革新神经重建和渲染

NVIDIA Cosmos World 基础模型平台助力物理 AI 进步

相关文章

通过 NVIDIA Jetson AGX Thor 实现 7 倍生成式 AI 性能，解锁更快速、更智能的边缘模型

在 NVIDIA Isaac Lab 2.3 中通过全身控制和增强远程操作简化机器人学习

R²D²：NVIDIA 研究中心的三项神经学突破重塑机器人学习

借助 NVIDIA DRIVE AGX Thor 开发者套件加速智能汽车开发

适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能：统一 Arm 生态系统等