机器人必须感知和解释其 3D 环境,才能安全有效地行动。这对于非结构化或陌生空间中的自主导航、对象操作和远程操作等任务尤为重要。机器人感知的进步越来越侧重于在统一的实时工作流程中使用强大的感知模块来集成 3D 场景理解、通用物体追踪和持久空间内存。
本期 NVIDIA 机器人研发摘要 (R2D2)探讨了 NVIDIA Research 的多个感知模型和系统,这些模型和系统支持统一的机器人 3D 感知堆栈。它们可在不同的现实世界环境中实现可靠的深度估计、摄像头和物体姿态追踪以及 3D 重建:
- FoundationStereo ( CVPR 2025 最佳论文提名) :用于立体深度估计的基础模型,可在各种环境 (包括室内、室外、合成和现实世界场景) 中通用,具有零样本性能。
- PyCuVSLAM:用于 cuVSLAM 的 Python Wrapper,使 Python 用户能够实施 NVIDIA 的 CUDA 加速 SLAM 库,以实现实时摄像头姿态估计和环境映射。
- BundleSDF:用于 RGB-D 视频中 6-DoF 物体姿态追踪和密集 3D 重建的神经系统。
- FoundationPose:通用的 6D 物体姿态估计器和追踪器,用于具有最少预先信息的新物体。
- nvblox Pytorch Wrapper:nvblox 库的 Pytorch 包装器,这是一个 CUDA 加速库,用于 PyTorch 的深度摄像头 3D 重建。
3D 空间表示:机器人感知的支柱
这些项目的核心在于强调 3D 空间表示,即以机器人可以使用的形式捕获环境或物体的结构。FoundationStereo 可处理立体图像深度估计的基本任务。它引入了一个用于立体深度的基础模型,专为实现强零样本泛化而设计。

FoundationStereo 已在超过 100 万个合成立体对上进行训练。它可以在不同的环境 (包括室内、室外、合成和现实世界场景 (如图 1)) 中准确推理差异 (从而推理 3D 结构) ,而无需针对特定场景进行调整。输出由密集深度图或点云组成,它们代表场景的 3D 结构。
在环境映射方面,nvblox 和 cuVSLAM 等库会随着时间的推移构建空间表示。NVIDIA 的 nvblox 是一个 GPU 加速的 3D 重建库,可重建体素网格体素网格,并输出用于导航的 Euclidean signed distance field (ESDF) 热图。这为移动机器人实现了视觉 3D 避障,为昂贵的 3D lidar 传感器提供了经济高效的替代方案。
虽然 nvblox 擅长几何映射,但缺乏对环境的语义理解。借助 nvblox_torch,我们引入了一个 PyTorch Wrapper,它可以将 2D VLM 基础模型的语义嵌入提升到 3D。
同样,cuVSLAM 通过 Isaac ROS 为机器人提供 GPU 加速的视觉惯性 SLAM。cuVSLAM 以前仅限于 ROS 用户,现在可以通过名为 PyCuVSLAM 的新 Python API 进行访问。它简化了数据工程师和深度学习研究人员的集成。
深度和地图构建模块可创建几何支架(无论是点云、signed distance fields,还是特征网格),并在此基础上构建更高级别的感知和规划。如果没有可靠的 3D 呈现,机器人就无法准确感知、记忆或推理世界。
用于场景理解的实时 SLAM 和摄像头姿态估计
将这些项目连接在一起的一个关键方面是通过 SLAM (Simultaneous Localization and Mapping) 实现实时场景理解。cuVSLAM 是一种高效的 CUDA 加速 SLAM 系统,用于在机器人的板载 GPU 上运行的立体视觉惯性 SLAM。

对于喜欢使用 Python 的简单性和通用性的开发者来说,利用强大而高效的 Visual SLAM 系统仍然是一项艰巨的任务。借助 PyCuVSLAM,开发者可以轻松地对 cuVSLAM 进行原型设计并将其用于应用,例如从互联网级视频生成机器人训练数据集。该 API 可以从第一人称观看视频中估计自我摄像头的姿态和轨迹,从而增强端到端决策模型。此外,将 cuVSLAM 集成到 MobilityGen 等训练流程中,可以通过学习真实的 SLAM 系统错误来创建更稳健的模型。功能示例如图 2 所示。
实时 3D 映射

Nvblox_torch 是一个易于使用的 Python 接口,用于 nvblox CUDA 加速重建库,允许开发者轻松地对用于操作和导航应用的 3D 地图构建系统进行原型设计。
空间内存是机器人完成更长距离任务的核心能力。机器人通常需要推理场景的几何和语义内容,其中场景的空间范围通常大于单个摄像头图像所能捕获的空间范围。3D 地图将多个视图中的几何和语义信息聚合为场景的统一表示。利用 3D 地图的这些属性可以提供空间内存,并支持机器人学习背景下的空间推理。
Nvblox_torch 是一个 CUDA 加速的 PyTorch 工具箱,用于使用 RGB-D 摄像头进行机器人映射。该系统允许用户在 NVIDIA GPU 上将环境观察结果与场景的 3D 呈现相结合。然后,可以查询此 3D 表示形式的数量,例如障碍物距离、表面网格和占用概率 (请参见图 3) 。nvblox_torch 使用来自 PyTorch 张量的零复制输入/ 输出接口来提供超快性能。
此外,nvblox_torch 还添加了一项新功能:deep feature fusion。此功能允许用户将视觉基础模型中的图像特征融合到 3D 重建中。随后,生成的重建将同时表示场景的几何图形和语义内容。3D 中的foundation model特征正在成为基于语义的导航和语言引导操作的热门表征。此表示现在可在 nvblox_torch 库中使用。
6-DoF 物体姿态追踪和新物体的 3D 重建
以物体为中心的感知也同样重要:了解场景中的物体是什么、它们在哪里以及它们如何移动。FoundationPose 和 BundleSDF 这两个项目解决了 6-DoF 物体姿态估计和追踪的挑战,即使是机器人以前从未见过的物体也是如此。
FoundationPose 代表一种基于学习的方法:它是用于 6D 物体姿态估计和跟踪的统一基础模型,适用于基于模型和无模型的场景。这意味着同一系统可以处理已知对象 (如果有可用的 CAD 模型) 或全新对象 (仅使用少量参考图像) ,而无需重新训练,如 Video 1 中所示,机械手会抓取对象。FoundationPose 通过利用神经隐式表示来合成物体的新视图来实现这一点,有效地弥合了完整 3D 模型与仅有稀疏观察之间的差距。
它在大规模合成数据上进行训练 (借助基于 LLM 的数据生成工作流等技术) ,可以实现鲁棒性泛化;事实上,只要提供最少的信息 (模型或图像) ,它就可以在测试时即时应用于新对象。这种基础模型方法可在姿态基准测试中实现出色的准确性,优于专门方法,同时在新颖物体上保持零样本能力。

BundleSDF 采用在线优化驱动的方法来解决此问题,提供了一种近实时 (~ 10 Hz) 方法,用于从 RGB-D 视频中同时进行 6-DoF 姿态追踪和神经 3D 重建。它仅在第一帧中假设分割;之后不需要先前的 CAD 模型或类别知识。
BundleSDF 的关键是并发学习的 Neural Object Field,一种神经隐式 SDF,可在观察时捕获物体的几何图形和外观。当物体移动时,BundleSDF 会使用过去的帧不断优化姿态图,随着时间的推移优化姿态轨迹和形状估计。姿态估计与形状学习的集成可有效解决大型姿态变化、遮挡、低纹理表面和镜面反射等挑战。在交互结束时,机器人拥有一致的 3D 模型并追踪动态获取的姿态序列。
该框架概述如下图 5 所示。首先,在连续图像之间匹配特征,以获得粗略的姿态估计 (Sec. 3.1) 。一些构图帧存储在内存池中,以便日后进行优化 (Sec. 3.2) 。根据池的子集动态创建姿态图 (Sec. 3.3) ,在线优化会优化图形中的所有姿态以及当前姿态。更新后的姿势会重新存储在池中。最后,池中的所有构图帧 (在单独的线程中) 都会学习用于建模几何图形和视觉纹理的 Neural Object Field (Sec. 3.4) ,同时调整之前估计的姿势。

FoundationPose 和 BundleSDF 都强调了对象级 3D 理解在机器人开发中的重要性。能够拾取或操控任意物体的机器人必须能够感知物体的 3D 位置和方向 (姿态) ,通常还能感知其形状。这些项目展示了两条互补的路径:预训练的基础模型 ,通过学习广泛的先验来泛化到新对象;以及用于构建自定义模型的对象的在线 neural SLAM 。在实践中,这些功能甚至可以协同工作,例如,基础模型可以提供初步猜测,然后通过在线重建进行改进。统一的主题是,机器人正在转向对新物体的实时 6D 感知,而不是局限于识别一组固定的已知物品。
基础模型:跨任务的泛化和统一
更多的机器人感知系统利用基础模型,即只需极少调整即可跨任务泛化的大型神经网络。这在 FoundationStereo 和 FoundationPose 中很明显,它们分别为立体深度估计和 6D 物体姿态追踪提供了强有力的基准。
FoundationStereo 将之前于 DepthAnythingV2 的侧调整单目深度整合到立体模型框架中,无需重新训练即可增强鲁棒性和域泛化。它在各种环境中使用超过 100 万个合成立体对进行训练,在 Middlebury、KITTI 和 ETH3D 数据集等基准测试中实现了先进的零样本性能。该模型改进了成本体积编码器和解码器,增强了远程差异估计。
在图 6 (下图) 中,Side-Tuning Adapter (STA) 利用来自冻结的 DepthAnythingV2 的丰富单目先验,以及来自多级 CNN 的详细高频特征来提取一元特征。Attentive Hybrid Cost Filtering (AHCF) 将 Axial-Planar Convolution (APC) 过滤与 Disparity Transformer (DT) 模块相结合,在 4D 混合成本体积中有效聚合跨空间和差异维度的特征。根据此过滤后的成本量预测初始差异,并使用 GRU 块进行细化。每个优化阶段都会使用更新后的差异从过滤后的混合成本体积和相关体积中查找特征,从而指导下一个优化步骤,并产生最终的输出差异。

FoundationPose 是一个统一模型,用于对新物体进行单帧 6D 姿态估计和多帧姿态追踪。它通过学习物体几何图形的神经隐式表示,支持基于模型和基于图像的推理。它使用 CAD 模型或一些 RGB 引用泛化到不可见的对象。它基于大语言模型生成的大型合成数据集进行训练,包括各种任务提示和场景变体。
FoundationPose 利用对比训练和基于 Transformer 的编码器,在 YCB-Video、T-LESS 和 LM-OCC 等基准测试中的表现明显优于 CosyPose 和 StablePose 等特定任务基准。图 7 说明了 FoundationPose 的工作原理。为了减少大规模训练的人工工作量,我们使用新兴技术和资源(包括 3D 模型数据库、LLMs 和 diffusion models)创建了合成数据生成工作流(Sec. 3.1)。为了将无模型设置和基于模型的设置连接起来,我们使用 object-centric neural field(Sec. 3.2)用于新颖的视图 RGB-D 渲染和渲染与比较。对于姿态估计,我们会在物体周围均匀地初始化全局姿态,并通过 refinement network 进行优化(Sec. 3.3)。最后,我们将优化后的姿势发送到 pose selection 模块,以预测其分数,并选择具有最佳分数的姿势作为输出(Sec. 3.4)。

这些模型共同代表着朝着机器人领域统一和可重复使用的感知主干迈出的一步。通过将有关深度和物体几何图形的通用先验嵌入到实时系统中,它们可以在零样本场景中实现可靠的性能,其中机器人必须在环境中运行或在训练期间看不到物体。随着机器人向适应性更强的开放世界部署迈进,基础模型提供了在通用感知框架内支持各种任务所需的灵活性和可扩展性。
迈向集成式 3D 感知堆栈
这些项目共同指向一个统一的 3D 感知堆栈,其中深度估计、SLAM、物体追踪和重建作为紧密集成的组件运行。FoundationStereo 可提供可靠的深度;cuVSLAM 可跟踪摄像头姿态以进行实时定位和映射;而 BundleSDF 和 FoundationPose 可处理物体级理解,包括 6-DoF 追踪和形状估计,即使是未见过的物体也不例外。
通过基于 foundation models 和神经 3D 表征构建,这些系统实现了通用的实时感知,支持在复杂环境中进行导航、操作和交互。机器人的未来在于此类集成堆栈,其中感知模块共享表示和上下文,使机器人能够感知、记忆并以空间和语义感知的方式行动。
总结
本期 R2D2 探讨了立体深度估计、SLAM、物体姿态追踪和 3D 重建方面的最新进展如何融合到统一的机器人 3D 感知堆栈中。这些工具(其中许多由 foundation models 提供支持)使机器人能够实时了解环境并与之交互,即使在面对新奇物体或陌生场景时也是如此。
如需了解详情,请查看以下资源:
- FoundationStereo (CVPR 2025 – 最佳论文提名) – 网站、论文、代码和数据集。
- FoundationPose (CVPR 2024 Highlight) – 网站、论文、代码、NGC、Isaac ROS FoundationPose
- BundleSDF (CVPR 2023) – 网站、论文、代码
- PyCuVSLAM:论文、代码
- nvblox_torch – 网站、论文、代码
即将推出:
- FoundationStereo 商业版
探索在 CVPR 2025 上展示的所有 NVIDIA 研究论文,并查看研究的实际应用。
本文是我们 NVIDIA 机器人研发摘要 (R2D2)的一部分,旨在让开发者更深入地了解 NVIDIA Research 在物理 AI 和机器人应用方面的新突破。
如需了解最新动态,请订阅时事通讯,并在 YouTube、Discord 和开发者论坛上关注 NVIDIA Robotics。要开启您的机器人开发之旅,请注册免费的 NVIDIA Robotics Fundamentals 课程。
致谢
感谢 Joseph Aribido、Stan Birchfield、Valts Blukis、Alex Evans、Dieter Fox、Orazio Gallo、Jan Kautz、Alexander Millane、Thomas Müller、Jonathan Tremblay、Matthew Trepte、Stephen Tyree、Bowen Wen 和 Wei Yang 对本文中提到的研究做出的贡献。