Robotics

NVIDIA Warp와 Gaussian Splatting을 활용한 로봇의 인지 모델 구축하기

Reading Time: 3 minutes

디지털 트윈 기술은 이제 정적인 복제를 넘어, 물리 세계의 동적인 변화를 실시간으로 포착하는 단계에 이르고 있습니다. 특히 로보틱스와 관련한 최신 연구에서도 이와 같은 기술적 진화가 중요한 화두로 떠오르고 있습니다. 본 글에서는 로봇 환경에서 실제 세계와 실시간으로 지속적으로 동기화되는 디지털 트윈을 구축하는 방식을 다룹니다. 이러한 트윈은 다양한 다운스트림 작업을 지원하고 성능을 강화하는 데 필요한 풍부한 상태 정보를 제공합니다.

인간은 시각을 통해 놀라울 만큼 쉽게 세계에 대한 내부 모델을 구축합니다. 눈에 들어온 평면적인 이미지를 기반으로 삼차원 공간을 머릿속에 구성하고, 그 안에서 물리적 상호작용을 시뮬레이션하며 결과를 예측하고 유연하게 대응합니다. 눈을 감고 있어도 물체를 움직이는 모습을 머릿속으로 그릴 수 있으며, 눈을 다시 뜨면 상상과 실제 사이의 차이를 자연스럽게 조정합니다.

이와 같은 시각적·물리적 추론을 로봇에게 구현하는 일은 피지컬 AI의 새로운 도전 영역이며, 점차 실현되고 있습니다. 이 글에서 제안하는 Physically Embodied Gaussians 접근의 핵심은, 로봇이 세계에 대한 실시간 내부 시뮬레이션을 유지함으로써 더 정밀하고 유연하게 동작할 수 있다는 점입니다. 단순한 이미지 스트림이나 오프라인 재구성에 의존하지 않고, 실시간으로 갱신되는 물리 인지형 월드 모델을 구축하는 것이 목표입니다.

왜 명시적 시뮬레이션인가

전통적으로 물리 세계를 명시적으로 모델링하는 일은 어렵고 복잡한 작업이었습니다. 정확한 3D 모델, 정밀한 물리 설정, 정교한 센서 모델링이 필요했고, 시뮬레이션 결과를 실제 환경에 안정적으로 전이시키는 것도 쉽지 않았습니다.

하지만 최근 들어 이러한 장벽은 빠르게 낮아지고 있습니다.

미분 가능 렌더링(differentiable rendering) 기술, 특히 가우시안 스플래팅(Gaussian Splatting)의 발전과 세그멘테이션 및 장면 이해 모델의 결합 덕분에, 이제는 몇 장의 이미지와 기본적인 물리 기반 정보만으로도 시뮬레이터를 생성할 수 있게 되었습니다. 이 사례에서는 모델링의 정밀도가 그리 중요하지 않습니다. 실제 이미지 스트림을 지속적으로 받아 시뮬레이터를 상시 보정하고 감독할 수 있기 때문입니다.

미분 가능 렌더링을 통한 지속적인 시각 피드백

Physically Embodied Gaussians에서는 미분 가능 렌더링이 시뮬레이터의 초기화와 지속적인 보정이라는 두 가지 역할을 수행합니다.

렌더링된 이미지가 실제 관측값과 일치할 때까지 시뮬레이터의 상태를 지속적으로 조정하며, 약 30Hz로 작동하는 물리 엔진과 함께 강력한 피드백 루프를 형성합니다. 시뮬레이터는 약 33밀리초 동안만 일치된 상태를 유지하면 되며, 오차가 발생하더라도 렌더링 시스템이 이를 빠르게 보정합니다. 이를 통해 초기값이 완전하지 않아도, 실시간으로 보정이 이루어져 시뮬레이터의 정확성을 계속 유지할 수 있습니다.

가우시안 스플래팅과 고성능 GPU를 활용하면 이 모든 과정이 실시간으로 가능해집니다.

적은 수의 카메라로도 가능한 이유

기존의 가우시안 스플래팅 시스템은 안정적인 결과를 위해 30대 이상의 카메라를 요구하는 경우가 많습니다. 하지만 로보틱스 환경에서는 이러한 요구가 비현실적입니다.

이 경우 로봇 환경에서 사용할 수 있는 사전 지식을 적극 활용해 이 문제를 해결합니다. 예를 들어,

  • 로봇의 자세와 구조는 항상 알고 있습니다.
  • 로봇이 상호작용할 수 있는 물체가 무엇인지, 그것이 강체인지 변형 가능한지 파악할 수 있습니다.
  • 물체는 떨어지고, 충돌하며, 서로를 통과하지 않는다는 등 기본적인 물리 법칙도 알고 있습니다.

이러한 사전 지식을 바탕으로 단순한 시각 재현을 넘어서, 외형뿐 아니라 물리까지 반영된 표현이 가능합니다. 이로 인해 소수의 카메라만으로도 견고한 시스템이 구축됩니다.

이중 표현: 입자와 가우시안

그림 1. Embodied Gaussians의 이중 표현 물리 시뮬레이션에 의해 작용을 받는 입자들(왼쪽)과 Gaussian Splatting을 통해 렌더링된 가우시안 표현(오른쪽)을 보여줍니다.

우리는 두 가지 핵심 구성 요소를 중심으로 시뮬레이터를 구축했습니다.

  • 입자(Particles)는 세계의 물리적 구조를 나타냅니다. 실시간 그래픽 및 게임 분야에서 널리 쓰이는 XPBD(확장 위치 기반 동역학) 기법을 사용해 빠르고 안정적으로 시뮬레이션됩니다.
  • 3D 가우시안(Gaussians)은 장면의 시각적 외형을 표현하며, 입자에 연결되어 가우시안 스플래팅으로 렌더링됩니다.

입자가 가우시안의 움직임을 주도하고, 미분 가능 렌더링에서 발생하는 시각적 오류는 입자를 다시 정렬하는 보정 작용을 만듭니다. 이렇게 물리와 시각이 서로를 실시간으로 보완하는 순환 구조가 형성됩니다.

이 시스템은 시각적 정밀도와 물리적 정확성을 동시에 유지하며, 유연하고 효율적인 실시간 환경 모델을 제공합니다.

NVIDIA Warp와 gsplat 기반 구축

NVIDIA Warp를 물리 엔진과 시각 도구로, gsplat을 미분 가능 렌더링 도구로 활용해 시뮬레이터를 구현했습니다.

기술적인 세부 정보, 데모, 오픈소스 코드는 아래 링크에서 확인하실 수 있습니다.
🔗 https://embodied-gaussians.github.io/


관련 자료

Discuss (0)

Tags