计算机视觉/视频分析

利用 AI 和 NVIDIA RTX GPU 加速现实捕捉工作流程效率

Reality Capture 可创建高度准确、细节丰富的沉浸式环境数字表示。现场扫描和加速数据处理方面的创新以及神经辐射场(Neural Radiance Fields)和高斯拼接等新兴技术正在显著增强 Reality Capture 的功能,这些技术正在彻底改变与物理世界的交互和分析。

作为现实捕获的第一步,站点扫描使用激光雷达和摄影测量等方法生成详细的 3D 模型,同时由 NVIDIA RTX GPU 提供支持的加速处理可实现更快、更高效的数据处理。NeRFs 擅长生成逼真的 3D 场景,而高斯射板技术则提供了一种实现流畅、高效渲染的新颖方法。人工智能通过提供用于对象检测、分割和分类的高级算法来增强这些工具,从而提供更深入的见解。

本文将探讨 NVIDIA 如何走在人工智能与现实捕获集成的前沿,借助强大的 GPU、软件解决方案和尖端研究推动这些技术进步。

现实捕捉基础知识 

现实捕获过程始于对物理环境进行扫描或拍照,然后通过摄影测量或激光雷达进行处理以生成点云— 一组密集的数据点,代表精确的 3D 表面位置。通常会将点云转换为 3D 模型,以提供物理空间的详细虚拟表示。

摄影测量 

摄影测量是一种使用摄影图像提取物理物体的详细空间信息的技术,包括物体在空间中的距离、尺寸、形状和确切位置。通过从多个视角分析角度、重叠和视角,摄影测量可以创建点云,然后将点云转换为高度精细的 3D 模型。

这种方法易于使用且经济高效,尤其是与激光雷达(Lidar)相比,因为它只需要基本的摄影设备。然而,摄影测量的准确性在很大程度上取决于所捕获图像的质量和数量,并且可能难以处理某些表面,例如反射或透明表面,从而导致结果的可靠性降低。

激光雷达 

激光雷达(光线检测和测距)技术使用激光脉冲来测量距离,并通过计算光线从表面反射所需的时间来创建精确的环境 3D 模型。即使在具有挑战性的照明条件(例如低光照或黑暗)下,它也能以超高的准确性捕获大片区域的详细空间数据,并能有效绘制各种材质的地图,包括透明物体下方的植被和表面。

由于需要专业硬件,激光雷达通常比摄影测量贵,并且难以处理水或玻璃等高度反射的表面,从而可能会扭曲数据或造成间隙。此外,虽然激光雷达在几何精度方面表现出色,但与摄影测量相比,它提供的纹理信息更少,这可能会限制其在需要照片级细节的应用中的有效性。

激光点云和 3D 网格 

点云和 3D 网格是现实捕获的基本元素,可以将激光雷达或摄影测量的原始数据转换为详细、准确的虚拟模型。点云由映射精确 3D 表面位置的密集点集合组成,这些点通常会转换为 3D 网格,形成连续的、有纹理的表面,以实现更逼真的表示。

CUDA NVIDIA RTX NVIDIA Omniverse 平台显著改进这一过程。CUDA 加速处理大型数据集所需的复杂计算,RTX 实现实时光线追踪渲染,从而实现高度逼真的照明和阴影,而 NVIDIA Omniverse 提供强大的协作平台,用于实时无缝编辑和可视化 3D 网格。

选择合适的现实捕捉技术 

根据项目的具体需求,选择合适的现实捕获技术。Lidar 是获取高分辨率、细节丰富的空间数据的首选,非常适合大规模勘测、复杂站点以及精度至关重要的环境。Autodesk ReCap 和 Bentley iTwin Capture 等软件通常用于简化 Lidar 数据处理和分析。

另一方面,摄影测量法在捕获详细的颜色数据方面具有优势,特别是在建筑文档和文化遗产保护方面。配备高分辨率摄像头的无人机可以从多个角度和难以到达的区域捕获图像,从而显著增强摄影测量法,进而为大型或复杂的场地创建全面的 3D 模型。诸如 Esri Site Scan for ArcGIS 和 Pix4D 等工具广泛应用于摄影测量,提供了可靠的解决方案,可将无人机捕获的图像处理成详细的 3D 模型。

使用 CUDA 和 NVIDIA RTX 增强工作流程 

为了处理通常与现实捕获相关的大型数据集,CUDA 通过利用并行计算加速了 LiDAR 点云和摄影测量数据的处理,从而显著缩短了数据转换、可视化和分析所需的时间。这使得它对高分辨率扫描和 3D 重建项目非常有价值。

RTX 技术通过整合光线追踪来增强这些 3D 模型的可视化效果,从而提供逼真的照明、阴影和反射效果。借助 Omniverse 和 Unreal Engine 等工具,此功能对于创建沉浸式、高保真的可视化效果至关重要,尤其是在激光雷达和摄影测量工作流程中使用 RTX 驱动的渲染功能。

NeRF 和高斯拼接 

与传统摄影测量相比,NeRF 正在利用机器学习从数量大大减少的 2D 图像中生成高度精细且逼真的视图,从而改变 3D 场景合成。NeRF 可以在稀疏数据点之间进行插值,甚至从最初未捕获的角度也能创建流畅、逼真的场景。

NeRF 能够处理更少的图像,同时仍能提供出色的视觉保真度,这使其成为建筑可视化和虚拟现实环境等应用的理想选择。 NeRF Studio 等工具使开发者能够添加语义嵌入等功能,从而实现更高级的应用和更丰富的交互式体验,进一步增强 NeRF 的功能。

尽管 NeRF 效率很高,但仍然需要大量的计算资源和高质量的图像才能有效运行,这可能会限制其在实时处理或动态环境中的实用性。NVIDIA 正在通过研究项目推进 NeRF 技术,例如用于大规模模型的 NVIDIA NeRF-XL 和用于加速处理的 NVIDIA Instant-NeRF ,从而突破现实捕捉的可能性极限。

高斯拼接是一种高效技术,用于在 2.5D 空间中实时渲染 3D 表面或体积,通过在 2.5D 空间中布局 2D 拼接(小型、重叠的高斯函数),实现平衡细节和性能的流畅、连续的可视化。它在需要快速、清晰地可视化复杂 3D 点云的场景中表现出色,非常适合建筑、城市规划、增强现实和虚拟现实等应用。

图 1. 摄影测量捕捉结构的网格,但忽略了周围环境和背景 (左)。高斯拼接包括背景,为开发者提供更好的可视化效果,并可从完整上下文中受益 (右)。照片来源:Ben Stocker,Skender

虽然它提供出色的流畅度和速度,但在几何精度方面存在权衡,这可能会限制其在需要高保真度的环境中的使用。NVIDIA 借助 NVIDIA InstantSplat 等工具推进了这项技术,例如用于快速 3D 重建的 NVIDIA InstantSplat、用于实时动态场景可视化的 NVIDIA 4D-Rotor Gaussian 拼接以及用于从文本描述中生成高质量 4D 可视化效果的 NVIDIA Align Your Gaussians (AYG)。在 Omniverse 平台的支持下,这些创新技术可在大型项目和动态环境中实现高效、细致的实时可视化,为建筑可视化、施工监控和数字内容创建带来显著优势。

像 Atomic Maps 这样的 初创公司正在通过将高斯斑点集成到 Cesium 图块 中来突破界限,为地图级别的地理环境提供了一个全面的地理框架,从而增强了可视化效果。

A view zooming in from a satellite image to a 3D model of a power transformer.
图 2. Atomic Maps 将 Gaussian splats 集成到 Cesium 瓦片中,增强了地理环境和 3D 可视化

这些技术通过捕获传统摄影测量法可能缺失的复杂细节和上下文元素,实现了更准确、更身临其境的环境表示。虽然摄影测量法在精确测量和勘测方面表现出色,但 NeRF 和高斯拼接提供了出色的视觉保真度,使开发者、业主和利益相关者能够可视化具有丰富背景的项目(例如从建筑物的阳台上欣赏城市景观),并看到标准摄影测量法中经常缺失的电话线和交通标志等精细细节。这些增强的可视化功能可让人们更全面地了解项目,帮助在设计、规划和施工阶段做出更好的决策。

用于现实捕捉的 AI 

AI 通过显著改善物体识别、分割和 3D 重建流程,正在改变现实捕获方式。例如, Hover 等初创公司正在使用 AI 来生成详细的建筑物 3D 模型,从而提高结构分析和分类的准确性和效率。

NVIDIA Research 正在利用 SAL (在激光雷达中分割任何内容) 方法 推进分割,这是现实捕获的一个关键方面。该方法使用文本提示的零样本模型对激光雷达数据中的物体进行分割和分类,而无需手动监督。这简化了工作流程,实现了更灵活、更可扩展的分割。 Gauzilla 等工具通过引入空间时间间隔来进一步扩展这些功能,有助于可视化随着时间的推移发生的结构变化,并对项目开发和维护需求提供更深入的见解。

A 3D time lapse of a building being constructed, growing floor by floor.
图 3. Skender 施工现场板的 Gauzilla 延时摄影

越来越多的公司使用 AI 和自主机器人来简化现实捕获流程。 Field AI Field Foundation Models (FFMs) 使自主机器人能够在复杂的 GPS 拒绝的环境中运行,捕获高质量的现实捕获数据,这些数据可以通过开放式合作伙伴关系模型与 Naska.AI 等平台集成。然后,Naska.AI 使用这些数据自动比较激光扫描与建筑信息建模 (BIM),尽早突出关键信息,降低成本并防止进度超限,最终提高施工准确性和效率。

Screenshot of the NASKA.AI platform displaying a construction site scan, where an automated analysis has identified a discrepancy between the actual construction and the planned BIM model.
图 4. Naska.AI 平台通过将现实捕获数据与 BIM 模型进行比较,自动识别施工错误。

NVIDIA 正在利用 fVDB 进一步推进现实捕获,fVDB 可将 NeRF 和激光雷达数据实时转换为大规模的 AI 就绪型环境,非常适合城市规划、自动驾驶系统和数字孪生。NVIDIA Research 的 AI 模型 Neuralangelo 可将 2D 视频转换为具有复杂纹理的详细 3D 结构,为艺术、视频游戏和工业数字孪生领域的应用提供支持。

结束语 

借助 NVIDIA 开发工具,软件开发者能够显著加速现实捕获工作流程,并嵌入用于物体识别、分割、分类和 3D 重建的 AI 工作流。这些创新简化了流程,提高了准确性,并扩展了现实捕获的潜力。借助由 CUDA 提供支持的 NVIDIA RTX GPU 加速,企业现在可以更快、更精确地处理和可视化现实捕获数据,从而突破建筑和城市发展的极限。

探索更多适用于 AEC 行业的 NVIDIA 解决方案

致谢 

Francis Williams,NVIDIA 高级研究员 Zan Gojcic,NVIDIA 高级研究员 Michael Rubloff,Radiancefields.com 创始人兼总编辑 Jonathan Stephens,EveryPoint 首席布道者兼营销总监 Ben Stocker,Skender 高级建筑技术专家 Michal Gula,Overhead4D 首席技术官 Chantal Matar,Studio Chantal Matar 创始人 Jim Young,Atomic Maps 管理总监 Stuart Maggs,Naska.ai 首席执行官兼联合创始人

 

Tags