Newton: 뉴럴 다이내믹스를 활용한 로보틱스 개발 고도화

Reading Time: 6 minutes

현대의 로보틱스는 단순화된 접촉, 생략된 운동학적 루프, 미분 불가능한 모델 등을 사용하는 고전 해석 동역학(classical analytic dynamics)이 제공하는 것 이상의 것을 요구합니다. NeRD(뉴럴 로봇 다이내믹스)는 다음과 같은 방식으로 이러한 난제들을 해결합니다.

표현력이 풍부하고 미분 가능한 모델을 사용하여 장기적인 관점(long horizons)에서도 안정적인 상태를 예측합니다.
복잡하고 접촉이 많은(contact-rich) 물리 현상을 포착합니다.
다양한 과제, 환경, 컨트롤러에 걸쳐 일반화하여 sim-to-real 격차를 줄입니다.
실제 데이터에 대한 파인튜닝(Fine-tuning)이 가능합니다.

특정 과제에만 국한된 신경망 시뮬레이터와 달리, NeRD는 Newton과 같은 물리 엔진 내에서 교체 가능한 백엔드(drop-in backend) 역할을 합니다. 이를 통해 팀은 단순히 물리 솔버(physics solver)를 전환하는 것만으로 기존의 정책 학습 환경을 재사용할 수 있습니다.

로봇 중심의 신경망 모델링과 해석적 모듈을 결합한 이 하이브리드 방식은 시뮬레이션과 실제 경험을 통해 동역학 성능이 지속적으로 향상되는 로봇의 길을 열어줍니다.

NeRD란?

NeRD는 뉴럴 시뮬레이션 프레임워크입니다. NeRD 모델은 특정 동역학 모델을 학습한 구현체로서, 환경과 접촉하는 관절형 강체(예: 여러 관절을 가진 로봇)의 미래 상태를 예측할 수 있습니다.

일단 훈련된 NeRD 모델은 다음을 수행할 수 있습니다:

수백에서 수천 시뮬레이션 스텝에 걸쳐 안정적이고 정확한 예측을 제공합니다.
특정 로봇에 대해 다양한 과제, 환경, 저수준 컨트롤러에 일반화할 수 있습니다.
실제 데이터로 파인튜닝(fine-tuning)하여 sim-to-real 격차를 줄일 수 있습니다.

NeRD 모델은 어떤 시뮬레이터의 데이터로든 훈련될 수 있습니다. 일단 훈련되면, Newton과 같은 모듈식 프레임워크에 있는 해석적 솔버(analytic solver)를 간편하게 대체하여 배포할 수 있습니다. 이를 통해 사용자는 기존 정책 학습 환경을 재사용하고, 단 한 줄의 코드 전환으로 NeRD를 새로운 물리 백엔드로 활성화할 수 있습니다.

Newton에서 NeRD를 시작해보고, arXiv에서 연구 논문을 보고, NVIDIA의 프로젝트 페이지를 둘러보세요.

로봇 시뮬레이션의 미래 비전

로봇 기술이 발전함에 따라, 저희는 각 로봇이 해석적 시뮬레이션(analytical simulation)을 통해 사전 훈련된 뉴럴 다이내믹스 모델을 탑재하는 라이프사이클을 구상합니다. 이러한 뉴럴 다이내믹스 모델은 로봇이 현실 세계와 상호작용함에 따라 지속적으로 파인튜닝(fine-tuning)될 수 있으며, 이를 통해 로봇의 마모(wear-and-tear)나 환경 변화까지도 반영할 수 있게 됩니다.

로봇의 뉴럴 다이내믹스 모델은 하이브리드 시뮬레이션 시스템에 내장될 수 있습니다. 이 시스템에서는 뉴럴 다이내믹스가 로봇을 시뮬레이션하고, 장면의 다른 부분(예: 장애물)에는 해석적 동역학이 사용됩니다. 이렇게 지속적으로 개선되는 뉴럴 로봇 다이내믹스는 실제 세계의 동역학을 더 잘 복제하여, 지속적으로 업데이트되는 이 시뮬레이터 기반의 디지털 트윈 안에서 다재다능한 로봇 기술의 학습을 촉진합니다.

뉴럴 로봇 다이내믹스는 어떻게 작동하나요?

NeRD는 일반화 성능과 장기 예측 정확도를 달성하는 두 가지 핵심 혁신으로 특징지어집니다. 바로 하이브리드 예측 프레임워크와 로봇 중심 입력 매개변수화입니다.

NeRD 모델은 전통적인 시뮬레이터의 시간 적분(솔버) 부분을 대체합니다. 충돌 감지가 솔버와 분리된 Newton과 같은 프레임워크에서는, 학습된 모델과 함께 해석적 충돌 감지 기술을 결합할 수 있습니다.

이 하이브리드 프레임워크를 통해 NeRD는 중간 시뮬레이션 값(즉, 로봇 상태, 접촉 정보, 관절 공간 토크)을 활용하여 전체 시뮬레이션 상태를 기술할 수 있으며, 이는 어플리케이션(예: 과제, 장면, 컨트롤러)에 관계없이 로봇 동역학을 전개하는 데 필요한 정보를 제공합니다. 이는 로봇 상태와 특정 과제의 행동만을 입력으로 받아 훈련에 사용된 과제에 과적합(overfitting)되던 이전 접근 방식과 대조됩니다.

두 번째로, NeRD는 학습된 동역학 모델이 공간적으로 일반화될 수 있도록 로봇 중심의 입력 매개변수화를 사용합니다. 구체적으로, 그림 2(c)에서 볼 수 있듯이 로봇 상태와 접촉 관련 값들은 NeRD 모델에 입력으로 전달되기 전에 로봇의 베이스 프레임으로 변환됩니다.

이러한 로봇 중심의 상태 표현은 NeRD가 로봇의 움직임 중에 마주치는 보지 못했던 공간적 위치에서도 신뢰할 수 있는 예측을 수행하게 하여, 모델의 장기 예측 정확도를 향상시킵니다.

훈련 데이터셋과 네트워크 아키텍처

NeRD의 훈련 데이터셋은 시뮬레이터의 데이터를 사용하여 **과제에 구애받지 않는 방식(task-agnostic)**으로 생성됩니다. 각 로봇 인스턴스에 대해, 저희는 각각 100개의 타임스텝으로 구성된 10만 개의 무작위 궤적을 수집합니다. 이 궤적들은 로봇의 초기 상태, 로봇 모터의 토크 한계 내에서의 무작위 관절 토크 시퀀스, 그리고 선택적으로 무작위화된 환경 구성(그림 3)을 사용하여 생성되었습니다.

NeRD를 인과 관계 트랜스포머 아키텍처(causal transformer architecture), 구체적으로는 GPT-2 트랜스포머의 경량화된 구현체를 사용하여 모델링하며, 이 모델은 가장 최근 10 스텝의 시뮬레이션 상태를 입력으로 받습니다.

NeRD를 사용해보고 싶으시다면, GitHub에 공개된 오픈 소스 코드를 확인해 보세요.

모델이 훈련되면, 그것을 Newton과 같은 모듈식 물리 엔진에 통합합니다. 이 모델은 시뮬레이터를 위한 교체 가능한 솔버(interchangeable solver) 역할을 하며, 기존의 해석적 동역학 및 접촉 솔버를 대체합니다. 그러면 개발자들은 이 NeRD-통합 시뮬레이터를 이전과 동일한 방식으로 사용하고 기존의 정책 학습 환경을 재사용할 수 있습니다.

그림 3. ANYmal 사족보행 로봇을 위한 NeRD 모델 훈련에 사용된 데이터셋

Alt 텍스트: NeRD 모델을 훈련시키기 위해 무작위로 생성된 궤적을 사용합니다.

NeRD로 로봇을 훈련할 때의 장점은 무엇인가요?

NeRD로 로봇을 훈련하면 매우 안정적이고 정확하며 일반화 성능이 뛰어난 시뮬레이션이 가능해져, 정책 학습을 가속화하고 sim-to-real 격차를 해소함으로써 신뢰도 높은 실제 로봇 적용(real-world deployment)을 이룰 수 있습니다.

안정성과 정확성

훈련된 NeRD 모델은 이중 진자(double pendulum)와 같은 카오스 시스템의 동역학을 수백 타임스텝에 걸쳐 정확하게 예측할 수 있습니다. 또한, 단일 NeRD 모델은 다양한 접촉 구성(예: 지면의 높이와 방향을 다르게 설정하는 등)을 시뮬레이션할 수 있습니다.

그림 4는 NeRD-통합 시뮬레이터와 Featherstone 솔버를 사용하는 실제값(ground-truth) 해석적 시뮬레이터를 일대일로 비교한 결과를 보여줍니다.

NeRD-통합 시뮬레이터에서만 로봇 정책 학습하기

NeRD의 효율성과 다양한 과제, 컨트롤러, 공간에 대한 일반화 성능은 여러가지 후속 과제(downstream tasks)를 위한 대규모 로봇 정책 학습을 가능하게 합니다. ANYmal 로봇에 대한 NeRD 모델을 사전 훈련시킨 뒤, 실제값(ground-truth) 해석적 시뮬레이터에 접근하지 않고 NeRD-통합 시뮬레이터 안에서 PPO 강화 학습 알고리즘을 사용하여 앞으로 걷는 정책과 옆으로 걷는 정책을 훈련시켰습니다.

이렇게 학습된 정책들은 성능 손실을 최소화(<1000 스텝 궤적에서 누적 보상 0.1% 미만 오류)하면서 실제값 해석적 시뮬레이터로 즉시(zero-shot) 이전될 수 있습니다. 그림 5와 6은 NeRD로 훈련된 정책이 NeRD-통합 시뮬레이터와 실제값 해석적 시뮬레이터 양쪽 모두에서 실행되는 모습을 일대일로 시각화하여 보여줍니다.

제로샷 심투리얼 전이 (Zero-shot Sim-to-Real Transfer)

NeRD 모델의 정확성은 7자유도(7-DoF) Franka 로봇 팔을 통해서도 검증되었습니다. 이를 위해 저희는 오직 NeRD-통합 시뮬레이터에서만 훈련된 ‘목표 자세로 이동(go-to-pose/reach)’ 정책을 실제 로봇으로 제로샷 심투리얼 전이했습니다 (그림 7)

실제 데이터(real-world data)를 이용한 NeRD 모델 파인튜닝(Fine-tuning)

NeRD 모델이 본질적으로 가진 미분 가능성(differentiability) 덕분에 실제 데이터로부터 모델을 신속하게 미세조정할 수 있습니다. 저희는 큐브 던지기 과제에 대한 실제 데이터셋을 사용하여, 사전 훈련된 NeRD 모델을 미세조정했습니다. 그 결과, 미세조정된 NeRD 모델은 해석적 시뮬레이터에 비해 동역학 정확성을 크게 향상시켰습니다 (그림 8).

요약

NeRD(Neural Robot Dynamics)는 복잡한 관절 로봇의 동역학을 장시간에 걸쳐 정확하게 예측하기 위해 설계된 신경망 기반 로보틱스 시뮬레이션 프레임워크입니다. 단순화된 모델을 사용하며 현대 로봇의 복잡성을 다루는 데 어려움을 겪는 기존의 로봇 시뮬레이터와 달리, NeRD는 로봇별 동역학을 데이터로부터 직접 학습하여 안정적이고, 일반화 가능하며, 정밀한 시뮬레이션을 가능하게 합니다.

하나의 훈련된 NeRD 모델은 주어진 로봇에 대해 다양한 과제, 환경, 컨트롤러에 일반화할 수 있으며, 실제 데이터로 파인튜닝하여 시뮬레이션-현실 간 격차'(sim-to-reality gap)를 줄일 수 있습니다. 이는 NeRD가 로봇 시뮬레이션을 위한 매우 적응력 높고 진보된 솔루션임을 보여줍니다.

복잡한 실제 로봇의 동역학을 모델링하기 위한 효과적인 신경 시뮬레이터(neural simulator)를 개발하는 것은 활발한 연구 분야입니다. 일반화 가능하고 세밀하게 조정할 수 있는 로봇용 신경 동역학 모델을 달성하기 위해, 이 연구는 다음과 같은 여러 흥미로운 방향으로 확장될 수 있습니다.

더 복잡한 구조와 높은 자유도를 가진 로봇

더 복잡한 로봇(예: 인간형 로봇)에 대한 신경 시뮬레이터를 학습하는 것은 시뮬레이션 효율성을 크게 향상시키고, 인간형 로봇의 전신 제어기(whole-body controller) 학습과 같은 후속 응용을 가속화할 수 있습니다.

부분적으로 관측 가능한 실제 데이터로부터의 파인튜닝

실제 로봇 데이터는 센서의 한계로 인해 종종 부분적으로만 관측됩니다. 예를 들어, 접촉 지점(contact point)이 정확히 파악되지 않을 수 있습니다. 사전 학습된 NeRD 모델을 부분적으로 관측 가능한 실제 데이터로 미세 조정(fine-tuning)하는 방법을 탐구하는 것은 실제 동역학 예측의 정확도를 향상시켜, 시뮬레이션에서 실제 환경으로의 격차(sim-to-real gap)를 보다 효과적으로 줄이는 데 도움이 됩니다.

로봇 조작 시뮬레이션

지금까지 NeRD 프레임워크의 개발은 주로 보행(locomotion) 과업에 초점을 맞추어 왔습니다. 조작(manipulation) 과업의 시뮬레이션을 지원하는 것은 이 연구를 자연스럽게 확장하는 방향으로, 그 적용 범위를 한층 넓힐 수 있습니다.

NeRD와 함께 시작하세요.

NeRD 모델은 Newton에서 제공되는 시뮬레이션 모듈을 사용하여 학습됩니다. NeRD 사용 방법에 대한 지침은 GitHub의 README.md에서 확인할 수 있습니다.

먼저 GPU 가속 커널 기반 프로그램을 작성하여 시뮬레이션, 인공지능, 로보틱스, 머신러닝에 활용할 수 있는 오픈소스 확장형 물리 엔진인 Newton을 다운로드하세요.

그 다음 NeRD의 오픈소스 코드를 다운로드하고, 사용 방법을 README 파일에서 확인합니다.

Neural Robot Dynamics의 세부 내용은 arXiv에 게시된 NeRD 논문에서 자세히 알아볼 수 있습니다.

또한 곧 공개될 NeRD의 학습 및 추론 코드로, 신경 물리 기반 해석기를 사용하여 동적 로봇을 시뮬레이션할 수 있게 될 예정입니다.

9월 27일부터 10월 2일까지 서울에서 개최된 CoRL 및 Humanoids 학회에서 선보인 다양한 연구 자료도 확인해보세요.