Generative AI

물리적으로 시뮬레이션된 휴머노이드를 위한 통합 전신 제어

Reading Time: 4 minutes

자연스럽게 움직이고 다양한 제어 입력에 지능적으로 반응하는 인터랙티브 시뮬레이션 휴머노이드를 개발하는 것은 컴퓨터 애니메이션과 로봇 공학에서 가장 어려운 과제 중 하나입니다. NVIDIA Isaac Sim과 같은 고성능 GPU 가속 시뮬레이터와 NVIDIA Isaac Lab을 활용한 로봇 정책 훈련은 이러한 인터랙티브 휴머노이드의 훈련에 큰 진전을 가져왔습니다.

Adversarial Motion PriorsHuman2Humanoid는 시뮬레이션 로봇과 실제 로봇 모두에서 중요한 발전을 이룬 최신 사례입니다. 그러나 휴머노이드의 제어 방식을 변경하면 새로운 전문 컨트롤러를 처음부터 재교육해야 한다는 공통적인 한계가 존재합니다.

이번 포스팅에서는 모션 인페인팅 방식을 통해 전신 휴머노이드 제어를 통합하는 프레임워크인 MaskedMimic을 소개합니다. MaskedMimic은 NVIDIA의 프로젝트 GR00T의 일부로, 일반화된 휴머노이드 로봇 개발을 목표로 하고 있습니다. 이 연구는 전신 제어를 위한 고급 모션 계획 및 제어 라이브러리, 모델, 정책, 그리고 참조 워크플로우 모음인 GR00T-Control의 개발에 기여하고 있습니다.

비디오 1. 모션 인페인터 MaskedMimic 소개

작업별 제어의 한계 극복

휴머노이드 제어에 대한 기존 접근 방식은 태스크별 특화로 인해 본질적으로 많은 제약을 받습니다. 예를 들어, 경로 추종에 특화된 컨트롤러는 머리와 손의 좌표를 추적해야 하는 원격 조작 작업을 처리할 수 없습니다. 마찬가지로, 시연자의 전신 동작을 추적하도록 훈련된 컨트롤러는 일부 키포인트만 추적해야 하는 시나리오에 적응하지 못합니다.

이러한 전문화는 아래와 같은 중요한 문제를 야기합니다.

  • 제어 체계를 수정하려면 특정 보상과 관찰을 포함하는 새로운 훈련 환경을 설계해야 하고, 새로운 컨트롤러를 처음부터 훈련해야 합니다.
  • 제어 모드 간 전환이 비효율적이며 비실용적입니다.
  • 개발 및 배포 주기가 길고 많은 리소스를 소모합니다.

모션 인페인팅으로 통합된 솔루션 제공

최근 생성형 AI의 발전으로 인해 텍스트, 이미지, 심지어 애니메이션과 같은 다양한 분야에서 인페인팅 기법을 활용한 놀라운 성과가 이어지고 있습니다. 이러한 기법은 마스킹된(혹은 불완전한) 데이터를 기반으로 완전한 데이터를 재구성하는 훈련을 통해 학습된다는 점에서 강력하고 공통적인 개념을 공유합니다. MaskedMimic은 이 강력한 개념을 전신 휴머노이드 제어 작업에 적용한 사례입니다.

MaskedMimic은 다양한 유형의 부분적인 모션 설명을 수용할 수 있습니다.

  • 마스킹된 키프레임: 특정 시간대 특정 신체 부위의 위치 데이터(예: VR 원격 조작 데이터에서 머리와 손 위치 포함)
  • 장면 상호작용: 자연물을 활용한 상호작용의 명세(예: “이 의자에 앉아”)
  • 텍스트 설명: 자연어로 작성된 동작 명세(예: “오른손을 흔들어”)
  • 하이브리드 입력: 위의 모든 조합(예: 스타일을 제한하는 텍스트 조건을 결합한 경로 추종)
그림 1. 다양한 제어 체계에서 전신 모션을 생성하는 MaskedMimic

MaskedMimic의 작동 방식

MaskedMimic의 훈련은 두 단계로 진행되며, 대규모 인간 모션 데이터 세트, 텍스트 설명, 장면 정보를 활용합니다.

이 데이터는 인간의 움직임을 보여주지만, 시뮬레이션 로봇이 이를 재현하기 위한 모터 동작 데이터는 포함되어 있지 않습니다.

첫 번째 단계에서는 전신 동작을 재현하기 위한 강화 학습 에이전트를 훈련합니다. 이 모델은 로봇의 고유한 감각 수용 정보, 주변 지형, 그리고 로봇이 가까운 미래에 수행해야 할 동작을 관찰합니다. 그런 다음 이 정보를 바탕으로 시연 동작을 재구성하는 데 필요한 모터 동작을 예측합니다.

두 번째 단계에서는 온라인 교사-학생 증류 과정으로 진행됩니다. 첫 번째 단계에서 개발된 모델이 ‘전문가’로 활용되며 추가 훈련 없이 고정됩니다.

훈련 중에 휴머노이드는 무작위 모션에서 무작위 프레임으로 초기화됩니다. 전문가가 손대지 않은 미래의 데모를 관찰하는 동안 학생에게는 무작위로 마스크를 쓴 버전이 제공됩니다.

마스크는 매우 밀도가 높아서 학생 모델에 모든 프레임의 모든 관절, 텍스트, 장면 정보 등 모든 정보를 제공할 수 있습니다. 또한 매우 희박할 수도 있습니다(예: 텍스트만 제공하거나 몇 초 동안 머리의 위치만 제공).

학생 모델(MaskedMimic)은 마스킹된 모션 설명을 바탕으로 전문가의 동작을 성공적으로 예측하고, 마스킹되지 않은 원본 동작을 재구성하도록 훈련됩니다.

모션 재구성

MaskedMimic은 제어와 모션 생성을 하나의 인페인팅 문제로 정의함으로써 다양한 방식으로 활용될 수 있습니다. 예를 들어, MaskedMimic은 시뮬레이션된 가상 환경에서 사용자의 동작을 재구성할 수 있습니다.

카메라를 통해 추론된 모션에는 신체의 모든 키포인트가 포함될 수 있습니다.

비디오 2. 전신 추적

반면, 가상 현실(VR) 시스템은 일반적으로 추적 센서의 일부만 데이터를 제공합니다. 예를 들어, Oculus 또는 Apple Vision Pro와 같은 시스템은 주로 머리와 손의 좌표를 제공합니다. MaskedMimic은 이러한 제한된 데이터를 활용해 전체적인 전신 모션을 재구성합니다.

비디오 3. 불규칙한 지형에서 머리와 손의 목표 위치를 기반으로 모션 재구성하기

MaskedMimic은 VR 트래킹의 성공률과 추적 오차를 분석하며, 이를 다른 방법들과 비교합니다. 아래 표는 경험적으로 도출된 결과로, MaskedMimic이 이 작업에 최적화된 전문 컨트롤러와 비교했을 때도 뛰어난 성능을 보여줍니다. MaskedMimic은 작업별 훈련이나 미세 조정 없이도 이전의 전문화된 방법들보다 더 우수한 성과를 거두었습니다.

메서드성공률 (%)평균 추적 오류(mm)
MaskedMimic98.158.1
PULSE93.488.6
ASE37.6120.5
CALM10.1122.4
표 1. 보이지 않는 AMASS 테스트 세트에서추출한 VR 신호(머리 및 손 위치)를 추적했을 때의 성공률

인터랙티브 제어

MaskedMimic은 동일한 제어 체계를 사용하여 사용자 입력에 기반한 새로운 모션을 생성할 수 있습니다. 하나의 통합된 MaskedMimic 정책으로, 기존에 여러 개의 전문화된 컨트롤러를 훈련해야 해결할 수 있었던 다양한 작업을 처리할 수 있습니다.

예를 들어, 루트(root) 위치와 방향을 지정하면 MaskedMimic은 조이스틱 컨트롤러를 사용해 조종할 수 있습니다.

비디오 4. 조이스틱 컨트롤러로 MaskedMimic 조종하기

또한, 머리 위치와 높이를 기준으로 조건을 설정하면 MaskedMimic이 지정된 경로를 따라 움직이도록 지시할 수 있습니다.

비디오 5. 경로를 따라가도록 지시받은 MaskedMimic

MaskedMimic의 또 다른 중요한 기능은 장면 상호작용입니다. 특정 객체에 대해 MaskedMimic을 조건화하면, 객체와 자연스럽게 상호작용하도록 지시할 수 있습니다.

비디오 6. 특정 객체와 상호작용하도록 MaskedMimic 설정하기

MaskedMimic 통합 시스템의 장점

MaskedMimic은 두 가지 주요한 장점을 제공합니다.

  1. 뛰어난 성능: MaskedMimic은 다양한 제어 입력에서 기존의 작업별 컨트롤러를 능가하는 성능을 보여줍니다.
  2. 제로 샷 일반화: MaskedMimic은 별도의 훈련 체계를 통해 얻은 지식을 결합하는 능력을 보여줍니다. 이는 생성형 텍스트 및 이미지 모델이 서로 다른 정보를 조합하는 방식과 유사합니다. 예를 들어, 평평한 지형에서의 객체 상호작용만 학습했더라도, 불규칙한 지형 위에 있는 보이지 않는 객체와 상호작용하는 방법을 스스로 학습할 수 있습니다.

요약 및 향후 과제

MaskedMimic은 물리적 사실성을 유지하면서도 모션 인페인팅을 통해 다양한 제어 방식을 통합하는 데 있어 중요한 진전을 이뤘습니다. 이 연구는 아래와 같은 몇 가지 흥미로운 방향으로 확장될 수 있습니다.

  • 로봇 공학 애플리케이션: MaskedMimic의 방법론을 실제 로봇 시스템에 적용해 유니트리 H1과 같은 로봇에서 직관적인 제어를 구현할 수 있습니다.
  • 향상된 상호작용 기능: 현재 연구는 단순한 지형과 정적인 환경에서의 상호작용에 초점을 맞추고 있습니다. 다음 단계는 복잡하고 동적인 환경에서의 상호작용, 예를 들어 물체 조작이나 파쿠르와 같은 작업으로 확장될 수 있습니다.
  • 기술 최적화: MaskedMimic의 추론 속도를 최적화하면 실시간 게임이나 로봇 시스템에 배포할 수 있습니다. 또한 장애 복구 기능을 개선하면 예측하기 어려운 환경에서도 더 다양한 작업을 처리할 수 있습니다.

소스 코드와 사전 훈련된 모델을 포함한 자세한 내용은 MaskedMimic: 마스크드 모션 인페인팅을 통한 통합 물리 기반 캐릭터 제어를 확인하세요 를 확인하세요.

시작하기

NVIDIA Project GR00T는 휴머노이드 로봇 개발을 가속화하기 위한 활발한 연구 이니셔티브입니다. 휴머노이드 로봇 제조업체나 로봇 소프트웨어 및 하드웨어 공급업체라면 NVIDIA 휴머노이드 로봇 개발자 프로그램에 참여를 요청할 수 있습니다.

새로운 개발자들을 위한 온보딩 가이드와 튜토리얼을 활용하여 Isaac Lab을 시작해 보세요. 기존의 Isaac Gym에서 Isaac Lab으로의 마이그레이션도 지원됩니다. 또한, Isaac Lab 레퍼런스 아키텍처를 통해 Isaac Lab과 Isaac Sim을 활용한 엔드투엔드 로봇 학습 프로세스를 이해할 수 있습니다.

1X, Agility Robotics, The AI Institute, Berkeley Humanoid, Boston Dynamics, Field AI, Fourier, Galbot, Mentee Robotics, Skild AI, Swiss-Mile, Unitree Robotics 및 XPENG Robotics를 비롯한 선도적인 로봇 기업이 NVIDIA 플랫폼을 사용하는 방법에 대해 자세히 알아보세요.

관련 리소스

Discuss (0)

Tags