Robotics

NVIDIA Isaac GR00T N1.6의 Sim-to-Real 워크플로우를 활용한 범용 휴머노이드 역량 구축

Reading Time: 5 minutes

휴머노이드 로봇이 실질적인 효용을 갖추기 위해서는 역동적인 환경에서 인지, 계획, 전신 제어를 아우르는 사고 능력과 이동-조작(loco-manipulation) 능력이 필요합니다.

로봇이 실제 환경에 투입되기 전 복잡한 기술을 습득할 수 있도록 시뮬레이션, 제어, 학습을 하나로 통합하는 워크플로우가 필수적입니다.

본 포스팅에서는 NVIDIA Isaac GR00T N1.6을 소개하고, NVIDIA Isaac Lab의 전신 강화학습(RL), COMPASS를 통한 합성 데이터 기반 내비게이션, 그리고 NVIDIA CUDA 가속 기반의 시각적 매핑 및 슬램(SLAM)을 결합한 Sim-to-Real 워크플로우를 설명합니다.

이러한 구성 요소들은 다양한 로봇 플랫폼에서 이동-조작, 견고한 내비게이션, 그리고 주변 환경을 인식하는 지능적인 행동을 가능하게 합니다.

시각-언어-행동(VLA) 및 추론

GR00T N1.6는 1인칭 시점의 카메라 스트림, 로봇의 상태, 그리고 자연어 명령을 하나의 통합된 정책 표현으로 결합하는 멀티모달 시각-언어-행동(VLA) 모델입니다. 이 모델은 NVIDIA Cosmos Reason과 같은 월드 모델을 활용하여, 고차원의 명령을 장면 이해에 기반한 단계별 행동 계획으로 분해하고 실제 작업을 수행합니다. 이러한 아키텍처를 통해 GR00T는 엔드투엔드(end-to-end) 학습 표현으로 이동 능력과 정교한 조작 능력을 모두 실행할 수 있습니다.

GR00T N1.6은 이전 버전보다 성능을 확장하고 실제 환경에서의 적용 가능성을 높여주는 몇 가지 개선 사항을 도입했습니다.

  • 강화된 추론 및 인지 능력: 네이티브 해상도를 지원하는 Cosmos-Reason-2B VLM 변형 모델을 사용하여 로봇이 왜곡 없이 주변 환경을 명확하게 보고 더 정교하게 추론할 수 있게 되었습니다. 이러한 개선은 더 뛰어난 장면 이해와 더욱 신뢰할 수 있는 작업 분해(task decomposition) 능력으로 이어집니다.
  • 유연하고 적응력 있는 움직임: 2배 더 커진 디퓨전 트랜스포머(32개 레이어)와 상태 상대적 행동 예측(state-relative action predictions) 기술을 통해, 로봇의 위치 변화에 쉽게 적응하면서도 훨씬 부드럽고 떨림 없는 움직임을 구현합니다.
  • 향상된 이기종 로봇(Cross-embodiment) 성능: 휴머노이드, 모바일 매니퓰레이터, 양팔 로봇 등 수천 시간 분량의 새롭고 다양한 원격 제어 데이터를 학습하여 여러 로봇 형태에 걸쳐 뛰어난 일반화 성능을 보여줍니다.
    • Isaac GR00T N1.6은 시뮬레이션과 실제 환경의 데이터를 모두 포함하는 방대한 데이터셋으로 학습되었습니다. 시뮬레이션 데이터는 BEHAVIOR, RoboCasa 그리고 GR-1을 위해 개발된 맞춤형 시뮬레이션 환경의 데모들로 구성됩니다. 실제 데이터 부분은 GR-1(Fourier), G1(Unitree), 양팔 YAM 암, Agibot, 그리고 DROID 데이터셋을 포함한 여러 로봇 플랫폼에서 수집된 시연 데이터를 통합합니다. 각 데이터셋의 기여도에 대한 정량적 분석은 아래 표와 같습니다.

GR00T N1.6는 제로샷(zero-shot) 평가 및 기본 조작 프리미티브의 검증을 위한 사전 학습된 가중치를 포함하고 있습니다. 특정 로봇 본체나 작업에 모델을 배치할 때, 모델을 파인튜닝하면 더욱 효과적입니다.

CoRL에서 시연된 이 데모는 G1 휴머노이드 로봇에서 이동-조작 작업을 수행하는 GR00T N1.6의 실제 작동 모습을 보여줍니다.

동영상 1. 로봇 학습을 위한 뉴럴 시뮬레이션 기반 합성 데이터

전신 강화학습 훈련 및 Sim-to-Real 전이

시뮬레이션에서의 전신 강화학습(RL) 훈련은 GR00T N1.6이 상위 수준의 VLA 정책을 통해 조정하고 사용하는 하위 수준의 운동 지능을 제공합니다. NVIDIA Isaac Lab에서 강화학습으로 훈련된 전신 제어기는 이동, 조작, 그리고 조율된 다중 접촉 행동을 포함하여 인간과 유사하고 동적으로 안정적인 동작 프리미티브를 생성합니다.

이러한 정책들은 Isaac Lab과 Isaac Sim에서 대규모로 훈련 및 스트레스 테스트를 거친 후, 실제 피지컬 AI 휴머노이드로 제로샷 전이됩니다. 이를 통해 환경과 로봇 형태에 관계없이 견고함을 유지하면서도 작업별 파인튜닝을 최소화합니다. 이 Sim-to-Real 파이프라인 덕분에 GR00T의 상위 VLA는 안정적인 전신 제어를 전제로 할 수 있으며, 단순한 운동 안정성보다는 작업 순서 지정 및 장면 인식 의사결정과 같은 추론에 집중할 수 있습니다.

GR00T-WholeBodyControl은 GR00T N1.6 하위의 이동-조작 레이어를 제공하는 전신 제어기 역할을 수행했습니다. 이 제어기를 사용하면 고수준의 명령 이행, 중수준의 행동 구성, 그리고 저수준의 견고한 제어에 이르는 전체 스택을 하드웨어에 배치하기 전 시뮬레이션에서 검증할 수 있습니다.

합성 데이터 기반 내비게이션

전신 제어 위에 목표 지향적 내비게이션 기능을 계층화하기 위해, GR00T N1.6은 Isaac Lab 내 COMPASS에 의해 생성된 대규모 합성 데이터셋을 사용하여 포인트 투 포인트 내비게이션 학습을 위한 파인튜닝을 거칩니다. 이 설정에서 COMPASS는 내비게이션 전문가 역할을 하며, 다양한 장면과 로봇 형태에 걸친 궤적을 생성하여 GR00T를 VLA 모델에서 강력한 지점 내비게이션 정책으로 적응시킵니다.

내비게이션 정책은 시뮬레이션에서 학습되며, 관절 토크를 직접 생성하는 대신 단순한 속도 명령을 통해 전신 제어기에 전달됩니다. 이를 통해 하위 전신 강화학습 정책은 균형과 접촉을 처리하고, 내비게이션 헤드는 실제 환경에서의 장애물 회피, 경로 추적, 내비게이션과 조작 간의 전환에 집중할 수 있습니다. 실험 결과, 이 합성 데이터 전용 훈련 파이프라인은 추가적인 작업별 데이터 수집 없이도 새로운 실제 환경에 즉시 배치할 수 있는 제로샷 Sim-to-Real 전이를 달성했습니다.

COMPASS모방 학습, 잔차 강화학습, 그리고 정책 증류를 통합하여 이기종 로봇 이동 정책을 개발하는 혁신적인 워크플로우입니다. 이는 Isaac Lab을 활용한 강화학습 파인튜닝의 효과와 강력한 제로샷 Sim-to-Real 성능을 입증했습니다.

그림 2. COMPASS 워크플로우를 사용하는 GR1 로봇

이를 바탕으로, GR00T N1.6 PointNav 예제 릴리스는 COMPASS 생성 데이터를 사용하여 내비게이션 정책을 파인튜닝하고 평가하는 단계별 지침과 코드를 제공합니다. 이를 통해 실무자들은 자신의 로봇 본체와 장면에 맞게 내비게이션 스택을 재현하고 확장할 수 있습니다.

동영상 2. NVIDIA 로봇 이동성 워크플로우 및 AI 모델

시각 기반 위치 추정

시각 기반 위치 추정은 GR00T N1.6 스택이 넓은 실제 환경에서 전신 제어기 및 내비게이션 정책을 사용할 수 있게 해줍니다. 전신 강화학습이 로봇에게 견고한 이동-조작 기술을 부여하고, COMPASS 스타일의 합성 데이터가 GR00T를 지점 내비게이션에 최적화한 후에도, 명령과 웨이포인트가 실제 좌표와 일치하도록 로봇의 위치를 정확하게 추정하는 시스템이 필요합니다.

이를 위해 시각 중심의 매핑 및 위치 추정 스택은 온보드 카메라와 미리 제작된 지도를 사용하여 드리프트(오차 누적)가 적은 포즈 추정치를 유지하며, 로봇 명령이 정확한 로봇 및 객체 좌표에 기반하도록 돕습니다.

시각 매핑 및 위치 추정 스택은 NVIDIA Isaac, NVIDIA CUDA-X 라이브러리, 그리고 다음과 같은 스테레오 깊이 모델을 기반으로 구축되었습니다.

  • cuVSLAM: 실시간 시각-관성 SLAM 및 주행 거리 측정 라이브러리입니다. 오도메트리는 부드러운 차량 속도를 제공하고, SLAM 백엔드는 내비게이션을 위한 루프 폐쇄 보정이 포함된 정밀한 포즈를 생성합니다.
  • cuVGL: 시각적 글로벌 위치 추정 라이브러리로, 미리 구축된 지도 내에서 초기 포즈를 계산하여 cuVSLAM의 시작을 돕습니다.
  • FoundationStereo: 스테레오 깊이 추정을 위한 파운데이션 모델로, 다양한 환경에서 강력한 제로샷 일반화 성능을 제공합니다.
  • nvblox: 환경을 재구성하고 경로 계획을 위한 2D 점유 지도를 생성하는 효율적인 3D 인지 라이브러리입니다.

환경의 스테레오 이미지를 수집하고 cuVSLAM 랜드마크 맵, cuVGL Bag-of-Words 맵, 점유 지도를 포함한 맵을 사전 구축합니다. 주방 테이블과 같은 의미론적 위치는 점유 지도에서 식별되어 작업 계획에 사용됩니다.

런타임 시, cuVGL은 사전 구축된 지도에서 시각적으로 유사한 이미지 쌍을 검색하고 스테레오 쌍으로부터 초기 포즈를 추정합니다. 이 포즈를 사전 정보로 사용하여 cuVSLAM은 로컬 랜드마크를 사전 구축된 랜드마크 맵과 대조하여 위치를 파악합니다. 성공적으로 위치가 파악되면 cuVSLAM은 특징점을 지속적으로 추적하고 맵 기반 최적화를 수행하여 내비게이션 중에 로봇이 정확한 위치를 유지하도록 합니다.

NVIDIA는 Isaac ROS 내에서 ROS bag으로부터 지도를 만드는 오프라인 지도 생성 워크플로우와 함께 위치 추정을 위한 isaac_ros_visual_slamisaac_ros_visual_global_localization 패키지를 개발했습니다. 스테레오 카메라 드라이버, 이미지 보정 노드, 점유 지도 서버, cuVSLAM 및 cuVGL 노드를 사용하여 ROS2 내비게이션 파이프라인을 구축할 수 있습니다.

그림 3. 로봇이 사과를 집을 때의 cuVSLAM 특징점 추적 화면

시작하기

  • 다운로드 및 실험:
  • 강화학습 및 정책 학습을 위해 Isaac Lab과 Newton을 사용하고, COMPASS를 통한 합성 내비게이션 데이터 생성에 Isaac Lab 활용
  • 로봇 정책 평가를 위해 Isaac Lab – Arena 사용
  • Isaac ROS의 일부로 출시된 CUDA-X 시각 매핑 및 위치 추정 라이브러리 사용:

뉴스레터를 구독하고 LinkedInInstagramXFacebook의 NVIDIA Robotics 채널을 팔로우하여 최신 소식을 받아보세요. NVIDIA 기술 문서YouTube 채널을 탐색하고 NVIDIA Developer Robotics 포럼에 참여해 보세요. 로봇 공학 여정을 시작하려면 지금 바로 무료 NVIDIA Robotics Fundamentals 과정에 등록하세요.

피지컬 AI 시스템 개발을 위한 NVIDIA Isaac 라이브러리 및 AI 모델을 지금 바로 시작해 보세요.

NVIDIA Live at CES 시청을 통해 더 자세한 내용을 알아보세요.

Discuss (0)

Tags