Simulation / Modeling / Design

NVIDIA Cosmos 3로 피지컬 AI 추론·월드·액션 모델 개발하기

Reading Time: 6 minutes

피지컬 AI 시스템은 현실 세계 안에서 행동하기에 앞서 그 세계를 먼저 이해해야 합니다. 로봇과 자율주행차, 스마트 공간은 자신이 놓인 환경에서 무슨 일이 벌어지는지 파악하고, 다음에 일어날 가능성이 높은 상황을 예측하며, 특정 환경과 임바디먼트, 작업에 맞는 행동을 생성할 수 있어야 합니다.

NVIDIA Cosmos 3는 물리 추론과 월드 생성, 액션 생성을 하나의 오픈 모델에 결합한 피지컬 AI용 프런티어 파운데이션 모델입니다.

NVIDIA는 Cosmos 3 모델과 학습 스크립트, 배포 도구, 데이터셋을 오픈소스로 공개해 피지컬 AI 개발을 한층 개방적이고 재현 가능하게 만듭니다. 이 글에서는 Cosmos 3의 기본 개념을 짚고, 기술 보고서의 핵심 내용을 소개하며, 기술 워크플로를 단계별로 안내합니다. 아울러 로봇 매니퓰레이션 시스템과 자율주행차, 창고 모니터링 솔루션을 구축하는 팀이 어떻게 작업을 시작할 수 있는지도 살펴봅니다.

Cosmos 3의 새로운 점

이전 Cosmos 릴리스는 월드 생성과 물리 이해, 제어된 장면 생성을 서로 다른 모델과 워크플로로 분리해 다뤘습니다. 이번 릴리스는 두 개의 타워를 중심으로 구성한 Mixture-of-Transformers(MoT) 아키텍처로 이러한 기능을 하나로 통합합니다.

  • Reasoner 타워: 이미지와 비디오, 텍스트 같은 멀티모달 관측값을 해석하는 비전-언어 모델(VLM)입니다. 이 타워는 오토리그레시브 아키텍처를 활용해 입력을 해석하고 모션과 객체 간 상호작용, 그 밖의 물리적 맥락을 이해합니다. 어떤 생성이 이뤄지기 전에 세계를 추론하는 ‘두뇌’ 역할을 맡습니다.
  • Generator 타워: 미래의 관측값과 액션 시퀀스를 생성합니다. 이 타워는 디퓨전 기반 프로세스를 사용해 Reasoner 타워의 이해를 조건으로 삼아 물리 법칙을 반영한 비디오와 액션 출력을 만들어냅니다. Reasoner는 단독으로 호출할 수 있지만, Generator는 가이드 기반 생성을 위해 항상 두 타워를 함께 활성화합니다.

이 아키텍처 덕분에 단일 모델이 추론과 생성 작업을 모두 수행하며, 여러 모델과 추론 파이프라인 사이의 오케스트레이션이 사라져 개발 과정이 한결 단순해집니다.

적합한 모델 크기 선택

현재 두 가지 Cosmos 3 모델을 제공합니다.

  • Cosmos 3 Nano는 160억 개 파라미터를 갖춘 경량 버전으로, 효율적인 추론에 최적화돼 있습니다. NVIDIA RTX PRO 6000 GPU와 같은 워크스테이션급 컴퓨팅에서 실시간 로보틱스 추론과 피지컬 AI 애플리케이션을 구동하도록 설계했습니다.
  • Cosmos 3 Super는 640억 개 파라미터 모델로, 최고 수준의 품질과 성능을 목표로 합니다. 가장 높은 벤치마크 점수를 기록하며, NVIDIA Hopper 및 NVIDIA Blackwell GPU 기반 데이터센터 배포를 겨냥합니다. 따라서 대규모 합성 데이터 생성과 고도의 물리 추론 워크로드에 적합합니다.

지원 모달리티

Cosmos 3는 통합 아키텍처를 통해 다음과 같은 입력·출력 모달리티를 지원합니다.

입력출력활용 사례
텍스트이미지물리적으로 타당한 이미지 생성
텍스트 | 비디오비디오희소 엣지 케이스 비디오 데이터 생성을 위한 월드 모델
텍스트 | 이미지비디오예측용 월드 모델
텍스트 | 이미지 | 비디오텍스트추론용 VLM
액션 | 비디오 | 텍스트비디오액션 조건부 월드 모델
비디오 | 텍스트비디오 | 액션월드 액션 모델, 비디오 액션 모델, 비전-언어-액션 모델, 로봇 학습용 정책 모델
표 1. 다양한 애플리케이션에 대해 Cosmos 3가 지원하는 입력 및 출력 모달리티

피지컬 AI를 위한 오픈 데이터셋

Cosmos 3 릴리스와 함께 NVIDIA는 여섯 개의 합성 데이터 생성(SDG) 데이터셋을 Hugging Face에 오픈소스로 공개합니다. 이들 데이터셋은 로보틱스와 물리 시뮬레이션, 공간 추론, 인간 모션, 주행, 창고 환경을 아우르며, Cosmos 3를 비롯한 여러 모델의 사후 학습(post-training)에 활용할 수 있습니다.

Physical AI World Model Synthetic Datasets에는 다음 항목이 포함됩니다.

NVIDIA Cosmos Human Evaluation 벤치마크

NVIDIA Cosmos Human Evaluation(HUE) 프레임워크는 대표적인 도메인 작업 전반에서 Cosmos 3 Generator의 품질을 평가합니다.

최신 SOTA 비디오 생성 모델이 기존 자동화 리더보드의 한계에 다다르면서, 릴리스 간 점수 차이가 너무 좁아 의미 있는 비교가 어려워지고 있습니다. HUE는 평가의 초점을 주관적 채점에서 객관적 사실 검증으로 옮겨, 최상위 모델 사이의 세밀한 비교를 가능하게 합니다. 그 결과 빠른 반복 개발과 엄밀한 릴리스 의사결정을 모두 뒷받침하는, 한층 신뢰할 수 있는 품질 지표를 완전한 인간 평가로 확보합니다.

HUE는 원자 단위 이진 검증(atomic binary verification)으로 비디오 생성 품질을 평가합니다. 생성된 각 비디오를 의미 정합성, 물리 법칙, 기하 추론, 시각적 무결성이라는 네 가지 차원에 걸친 단일 사실 기반 예/아니오 질문으로 분해하며, 이 질문들은 로보틱스와 자율주행차, 물리 등 일곱 개 피지컬 AI 도메인을 포괄합니다. 이러한 질문은 VLM 파이프라인이 생성하고 인간 전문가가 다듬은 뒤 Hugging Face에 오픈소스로 공개합니다.

벤치마크 결과

Cosmos 3는 피지컬 AI 추론과 생성 품질, 도메인별 성능을 다루는 여러 벤치마크 스위트에서 평가를 거쳤습니다.

추론 벤치마크

Cosmos 3 Super와 Cosmos 3 Nano는 각각 32B 등급과 8B 등급의 VANTAGE-Bench에서 선두를 차지합니다.

  • VANTAGE-Bench: 창고와 교통, 스마트 공간 전반의 실제 고정 카메라 영상에서 비전-언어 모델을 평가하는 최초의 공개 벤치마크입니다.
  • Traffic Anomaly Reasoning(TAR): 교통 영상에서 이상 이벤트를 탐지하고 추론하는 새로운 리더보드이자, AI City Challenge 2026 Track 3의 공식 리더보드입니다.

Generator 벤치마크

Cosmos 3는 오픈소스 SOTA로서 현재 공개 리더보드 전반의 PAI-Bench, R-Bench Physics-IQ, RoboLab에서 선두를 지킵니다.

  • Artificial Analysis: 텍스트와 이미지, 비디오 생성 AI 모델의 순위를 매기는 벤치마킹 플랫폼입니다. Cosmos 3는 Text to Image 리더보드Image to Video(오디오 미포함) 리더보드에서 선두 오픈소스 모델로 자리합니다.
  • R-Bench: 로봇 비디오 생성에서 비디오 기반 월드 모델을 평가하는 벤치마크입니다. 구조적 일관성과 물리적 타당성, 실행 완결성 같은 세부 지표를 통해 작업 완수도와 시각 품질을 측정합니다.
  • PAI-Bench: 비디오 이해와 비디오 생성에 걸쳐 피지컬 AI를 평가하는 통합 벤치마크로, 로보틱스와 자율주행차, 물리 상식 등의 도메인을 포괄합니다.
  • Physics-IQ: 생성형 비디오 모델이 단순히 시각적 사실성에 머무르지 않고 물리 원리를 실제로 이해하는지 검증하는, 실제 영상 기반 벤치마크입니다.
  • RoboLab: 범용 작업 수행 로봇 정책을 평가하는 시뮬레이션 벤치마크입니다.

학습 레시피

Cosmos 3 릴리스의 핵심 요소 하나는 완전히 공개된 학습 레시피 모음입니다. 모델 체크포인트를 넘어, 이번 릴리스는 Cosmos 3를 새로운 도메인과 임바디먼트, 데이터셋에 맞게 조정하기 위한 코드와 구성(config), 워크플로를 제공합니다.

지도 미세 조정(SFT) 사후 학습

지도 미세 조정(Supervised Fine-Tuning, SFT)을 활용하면 개발자가 Cosmos 3 모델을 자체 데이터에 맞게 조정할 수 있습니다. 공개된 레시피에는 커스텀 비디오 데이터셋을 위한 비전 생성 사후 학습은 물론, 로보틱스와 피지컬 AI 워크플로를 겨냥한 액션 중심 레시피도 함께 들어 있습니다. 개발자는 로보틱스와 자율주행, 창고 자동화 전반의 목표 도메인에 맞춰 Cosmos 3를 커스터마이즈할 수 있습니다.

사후 학습 코드와 구성은 GitHub에서 확인할 수 있습니다.

액션 사후 학습

액션 사후 학습은 순방향 동역학(forward dynamics)과 역동역학(inverse dynamics), 정책 생성 등 액션을 인지하는 피지컬 AI 애플리케이션에 맞게 Cosmos 3를 조정합니다. 개발자는 액션이 라벨링된 데이터로 Cosmos 3를 사후 학습할 수 있습니다. 로보틱스 분야에서는 몇 가지 중요한 워크플로가 여기에 포함됩니다. 로봇 액션을 조건으로 미래 관측값을 생성하고, 관찰된 시연의 배경에 자리한 액션을 추론하며, 현재 관측값과 작업 프롬프트로부터 액션 시퀀스를 예측하는 작업입니다. 이를 통해 Cosmos 3는 월드 액션 모델링과 정책 학습을 위한 견고한 기반으로 자리합니다.

비디오 1. Cosmos 3를 사후 학습(Post-training)하는 방법을 보여주는 튜토리얼 영상

NVIDIA NIM 마이크로서비스로 배포하기

Cosmos 3 모델은 최적화된 프로덕션 배포를 위해 NVIDIA NIM 마이크로서비스로도 제공됩니다. NIM 마이크로서비스는 모델을 최적화된 추론 런타임과 함께 패키징해, 서빙 인프라를 수동으로 튜닝하지 않고도 높은 성능을 제공합니다. NIM 마이크로서비스는 사후 학습 워크플로에 적합한 GitHub의 Cosmos 3 저장소와 달리, 추론 워크플로에서 한결 손쉽게 사용할 수 있습니다.

Cosmos 3 Reasoner NIM은 오늘부터 제공되며, Cosmos 3 모델의 추론 기능을 그대로 구현합니다. Cosmos 3 모델의 완전한 생성 기능을 제공하는 Cosmos 3 Generator NIM도 곧 선보일 예정이니 많은 관심 바랍니다.

추론 가속을 위한 최적화

  • 양자화: Cosmos 3 NIM은 BF16, FP8, NVFP4 양자화 체크포인트 선택을 지원합니다. NVFP4 양자화는 모델의 수치 정밀도를 BF16에서 4비트 부동소수점으로 낮춰 최대 2배의 추론 속도 향상을 달성합니다.
  • vLLM: 연속 배칭(continuous batching), 페이지드 어텐션(paged attention), 텐서 병렬화 같은 기법으로 LLM을 효율적으로 서빙하는 오픈소스 추론 엔진입니다. Cosmos 3 Reasoner NIM 서빙 스택은 vLLM을 기반으로 구축해 기존 서빙 방식보다 높은 처리량을 제공합니다. Cosmos 3 Nano는 최고 성능을 위해 vLLM-omni 및 NVIDIA Dynamo와 곧바로 연동해 구동할 수 있습니다.
  • 효율적 비디오 샘플링(EVS): 추론 과정에서 VLM에 투입되는 비디오 토큰 수를 줄여 Cosmos Reason NIM의 속도를 높이는 기법입니다. EVS는 청크(chunk) 단위로 동작하며, 각 프레임에서 가장 고유한 청크만 남기고 나머지는 제거합니다. 규모가 작은 GPU일수록 이 기법의 효과를 더 크게 누립니다.

NIM 실행 방법

NGC에서 컨테이너를 받고 Cosmos 3 모델을 내려받으려면 NVIDIA NGC API 키가 필요합니다.

Cosmos 3 Nano Reasoner NIM을 받아 실행하려면 다음과 같이 진행합니다. Cosmos 3 Super Reasoner NIM의 경우 NIM_MODEL_SIZE=super를 지정합니다.

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

API 사용법을 비롯한 자세한 내용은 문서에서 확인할 수 있습니다.

비디오 2. Cosmos Reasoner NIM의 사용 방법을 보여주는 튜토리얼 영상

시작하기

Discuss (0)

Tags