Generative AI

NVIDIA Cosmos 월드 파운데이션 모델 플랫폼으로 물리 AI 발전

Reading Time: 9 minutes

로봇공학과 자율 주행 차량이 발전함에 따라 자율 머신이 물리적 세계를 인식하고 이해하고 복잡한 작업을 수행할 수 있도록 하는 물리 AI의 개발 가속화가 필수적인 요소가 되었습니다. 이러한 시스템의 중심에는 물리 인식 비디오를 통해 물리적 상태를 시뮬레이션하는 AI 모델인 월드 파운데이션 모델(WFM)이 있으며, 기계가 정확한 결정을 내리고 주변 환경과 원활하게 상호 작용할 수 있도록 지원합니다.

NVIDIA Cosmos는 개발자가 대규모로 물리 AI 시스템을 위한 맞춤형 월드 모델을 구축할 수 있도록 지원하는 플랫폼입니다. 데이터 큐레이션부터 트레이닝, 커스터마이징에 이르기까지 모든 개발 단계를 위한 오픈 월드 파운데이션 모델과 툴을 제공합니다.

비디오 1. NVIDIA Cosmos: 물리 AI를 위한 월드 파운데이션 모델 플랫폼

이 게시물에서는 물리 AI 개발을 가속화하는 Cosmos와 그 주요 기능에 대해 설명합니다.

NVIDIA Cosmos로 월드 모델 개발 가속화하기

물리 AI를 구축하려면 정밀한 시뮬레이션과 실제 동작을 이해하고 예측하는 능력이 필수적입니다. 이를 해결하는 핵심 도구가 바로 월드 모델인데, 이는 과거 관측과 현재 입력을 바탕으로 미래 환경을 예측하는 역할을 합니다. 월드 모델을 활용하면 제어된 환경에서 시스템을 시뮬레이션하고 훈련하며 개선할 수 있어, 물리 AI 개발에 큰 도움이 됩니다.

하지만 효과적인 월드 모델을 만들려면 방대한 데이터, 높은 계산 능력, 그리고 실제 테스트가 필요합니다. 이는 안전 위험, 물류상의 어려움, 막대한 비용 같은 문제를 유발할 수 있습니다. 이런 한계를 극복하기 위해 개발자들은 3D 시뮬레이션에서 생성한 합성 데이터를 활용해 모델을 훈련하는 경우가 많습니다. 합성 데이터는 강력한 도구지만, 생성 과정에서 많은 리소스를 소모하며, 특히 복잡한 상황이나 예외적인 사례에서는 실제 물리 법칙을 완벽하게 반영하지 못할 수도 있습니다.

엔드투엔드 NVIDIA Cosmos 플랫폼은 물리 AI 시스템을 위한 월드 모델 개발을 가속화합니다. CUDA를 기반으로 구축된 Cosmos는 최첨단 월드 파운데이션 모델, 비디오 토큰라이저, AI 가속 데이터 처리 파이프라인을 결합합니다.

개발자는 Cosmos 월드 파운데이션 모델을 fine-tuning하거나 처음부터 새로운 모델을 구축하여 월드 모델 개발을 가속화할 수 있습니다. 이 플랫폼에는 Cosmos 월드 파운데이션 모델 외에도 다음이 포함됩니다:

  • 효율적인 비디오 데이터 큐레이션을 위한 NVIDIA NeMo Curator
  • 효율적이고 컴팩트한 고충실도 비디오 토큰화를 위한 Cosmos Tokenizer
  • 로보틱스 및 자율주행 애플리케이션을 위해 사전 훈련된 Cosmos 월드 파운데이션 모델
  • 모델 트레이닝 및 최적화를 위한 NVIDIA NeMo 프레임워크
그림 1. 생성형 모델, 데이터 큐레이터, 토큰화, 프레임워크를 갖춘 월드 파운데이션 모델 개발 플랫폼인 NVIDIA Cosmos는 물리 AI 개발을 가속화합니다.

물리 AI를 위한 사전 훈련된 월드 파운데이션 모델

Cosmos 월드 파운데이션 모델은 자율주행, 로봇 공학, 합성 환경 및 기타 관련 도메인의 2천만 시간 분량의 데이터를 포함한 9,000조 개의 토큰으로 사전 훈련된 대규모 생성형 AI 모델입니다. 이러한 모델은 환경과 상호 작용에 대한 사실적인 합성 비디오를 생성하여 고급 동작을 수행하는 휴머노이드 로봇 시뮬레이션부터 엔드투엔드 자율 주행 모델 개발에 이르기까지 복잡한 시스템을 훈련할 수 있는 확장 가능한 파운데이션을 제공합니다.

Cosmos 모델은 자동 회귀와 확산이라는 두 가지 아키텍처를 사용합니다. 두 방식 모두 트랜스포머 아키텍처를 기반으로 하며, 복잡한 시간적 종속성을 처리할 때 확장성과 효율성을 극대화할 수 있도록 설계되었습니다.

자동 회귀 모델(Autoregressive Model)

Cosmos 자동 회귀 모델은 비디오 생성에 최적화되어 있으며, 입력된 텍스트와 이전 비디오 프레임을 바탕으로 다음 토큰을 예측하는 방식으로 작동합니다. 트랜스포머 디코더 아키텍처를 기반으로 하지만, 월드 모델 개발을 위해 몇 가지 중요한 개선이 적용되었습니다

  • 3D RoPE(Rotary Position Embeddings)는 공간 차원과 시간 차원을 개별적으로 인코딩하여 비디오 시퀀스를 보다 정확하게 표현할 수 있도록 합니다.
  • 크로스 어텐션 레이어는 텍스트 입력을 처리할 수 있게 하여, 생성되는 환경을 더욱 정밀하게 제어할 수 있도록 돕습니다.
  • QK 정규화(QK-normalization)는 학습 안정성을 높이는 역할을 합니다.

이 모델의 사전 훈련은 점진적으로 진행되며, 먼저 단일 입력 프레임에서 최대 17개의 미래 프레임을 예측하는 방식으로 시작한 후, 34프레임, 최종적으로는 최대 121프레임(또는 50,000개 토큰)까지 확장됩니다. 이후 텍스트 입력을 추가하여 영상 프레임과 설명을 결합하고, 고품질 데이터로 정밀하게 튜닝하여 더욱 견고한 성능을 갖추게 됩니다. 이러한 구조적인 접근 방식 덕분에, 이 모델은 텍스트 입력이 포함되든 아니든 다양한 길이와 복잡도의 비디오를 생성할 수 있습니다.

그림 2. Cosmos 자동 회귀 모델은 트랜스포머 디코더 아키텍처를 사용하며, 월드 모델 개발을 위한 주요 수정 사항은 다음과 같습니다.

확산 모델(Diffusion Model)

확산 모델은 학습 데이터를 분석하고 이를 사용자 입력에 맞춰 재구성하는 능력 덕분에, 이미지, 비디오, 오디오 생성에 널리 사용됩니다. 이를 통해 높은 품질의 현실적인 출력을 만들어낼 수 있습니다.

확산 모델은 두 가지 과정으로 작동합니다.

  • 역방향 확산 과정(Reverse Diffusion Process)
    모델이 이 노이즈를 단계별로 제거하면서 원본 데이터를 복원하는 방식으로 학습합니다.
  • 순방향 확산 과정(Forward Diffusion Process)
    학습 데이터에 여러 단계에 걸쳐 가우시안 노이즈를 점진적으로 추가해 데이터를 완전히 무작위 노이즈로 변환합니다.

모델이 충분히 학습되면, 새로운 데이터를 생성할 때 무작위 가우시안 노이즈를 샘플링한 뒤, 학습된 디노이징 과정을 거쳐 결과물을 만들어냅니다. Cosmos 확산 모델은 물리 AI 개발에 최적화된 몇 가지 핵심 기능이 추가되었습니다.

  • 3D 패치화(3D Patchification): 비디오를 작은 패치 단위로 분할하여 시공간 시퀀스를 보다 효율적으로 표현합니다.
  • 하이브리드 위치 임베딩(Hybrid Positional Embeddings): 공간과 시간 정보를 함께 처리하여 다양한 해상도와 프레임 속도의 비디오를 지원합니다.
  • 크로스 어텐션 레이어(Cross-Attention Layers): 텍스트 입력을 반영해 설명을 기반으로 비디오 생성의 정밀한 제어가 가능합니다.
  • LoRA 기반 적응형 레이어 정규화(Adaptive Layer Normalization with LoRA): 모델 크기를 36% 줄이면서도 적은 리소스로 높은 성능을 유지할 수 있도록 최적화되었습니다.
그림 3. Cosmos 확산 모델 아키텍처는 고급 비디오 압축, 유연한 위치 인코딩, 텍스트 통합을 결합하여 고품질의 물리 인식 비디오 생성을 제공합니다.

다양한 요구에 맞춘 모델 크기

개발자는 성능, 품질, 배포 환경에 따라 다음 세 가지 모델 크기 중에서 선택할 수 있습니다.

  • Nano: 실시간 저지연 추론과 엣지 배포에 최적화된 모델
  • Super: 기본 성능을 보장하는 표준 모델
  • Ultra: 최상의 품질과 디테일을 제공하며, 맞춤형 모델을 구축하는 데 적합한 모델

강점과 한계

Cosmos 월드 파운데이션 모델은 실제 환경을 정밀하게 재현하는 저해상도 합성 비디오를 생성하며, 이는 로봇 및 자율주행 시스템 학습에 필수적입니다. 예술적인 표현력은 부족하지만, 물리적 세계를 사실적으로 모사하기 때문에 정확한 객체 영속성(object permanence)과 현실적인 시나리오가 중요한 물리 AI 모델 훈련에 최적화되어 있습니다.

Cosmos 월드 파운데이션 모델의 안전한 활용을 위한 가드레일

AI 모델이 신뢰성을 갖추려면, 환각(hallucination) 완화, 유해한 출력 방지, 개인정보 보호, AI 안전 기준 준수 등이 필요합니다. Cosmos는 이러한 요소를 보장하기 위해 맞춤형 이중 단계 가드레일 시스템을 적용하며, 이는 NVIDIA의 신뢰할 수 있는 AI 원칙과도 일치합니다.

Cosmos 가드레일 시스템은 두 단계로 작동합니다.

Pre-guard (사전 보호 단계)

이 단계에서는 텍스트 프롬프트 기반의 안전 조치를 적용하며, 두 가지 레이어로 구성됩니다.

  • 키워드 차단(Keyword Blocking): 블록리스트 검사기가 프롬프트에서 안전하지 않은 키워드를 검색합니다. 어간 분석(lemmatization)을 활용해 다양한 형태의 표현을 감지하며, 비영어 단어나 철자 오류도 차단합니다.
  • Aegis 가드레일(Aegis Guardrail): NVIDIA가 fine-tuning한 Aegis AI 콘텐츠 안전 모델이 폭력, 괴롭힘, 비속어 등의 위험한 프롬프트를 탐지하고 차단합니다. 안전하지 않은 프롬프트는 비디오 생성이 중단되며, 오류 메시지가 반환됩니다.

Post-guard (사후 보호 단계)

이 단계에서는 생성된 비디오의 안전성을 검증하기 위해 다음과 같은 조치를 취합니다.

  • 비디오 콘텐츠 안전 분류기(Video Content Safety Classifier): 다중 클래스 분류기를 활용해 각 비디오 프레임을 평가하며, 하나라도 안전하지 않은 프레임이 감지되면 전체 비디오가 거부됩니다.
  • 얼굴 블러 필터(Face Blur Filter): RetinaFace 모델을 사용해 생성된 비디오 속 모든 인간 얼굴을 자동으로 흐리게 처리합니다. 이를 통해 개인정보를 보호하고, 연령, 성별, 인종에 따른 편향을 줄입니다.

또한, NVIDIA 전문가들은 10,000개 이상의 프롬프트-비디오 페어를 분석하고, 다양한 극단적 예제(adversarial examples)로 테스트하여 시스템을 지속적으로 개선하고 엣지 케이스를 해결합니다.

Cosmos 월드 파운데이션 모델의 3D 일관성과 물리 정합성 평가

Cosmos 벤치마크는 물리 AI 애플리케이션을 위해 실제 물리학을 정확하고 효율적으로 시뮬레이션하는 월드 파운데이션 모델의 능력을 평가하는데 중요한 역할을 합니다. 공개적으로 사용 가능한 비디오 생성 벤치마크는 생성된 비디오의 충실도, 시간적 일관성, 속도에 중점을 두는 반면, Cosmos 벤치마크는 새로운 차원을 추가하여 제너럴리스트 모델을 평가합니다: 3D 일관성 및 물리 정렬이라는 새로운 차원을 추가하여 물리 AI 시스템에 필요한 정확도를 기준으로 동영상을 평가합니다.

3D 일관성(3D Consistency)

Cosmos 모델은 공개 데이터 세트에서 선별된 500개의 동영상 하위 집합에서 정적 장면에 대해 3D 일관성을 테스트했습니다. 모션과 관련된 복잡성을 피하기 위해 동영상을 설명하는 텍스트 프롬프트가 생성되었습니다. 기준 생성형 모델인 VideoLDM과 비교했습니다.

사용된 평가 지표

  • 뷰 합성 일관성(View Synthesis Consistency): PSNR(Peak Signal-to-Noise Ratio), SSIM(Structural Similarity Index), LPIPS(Learned Perceptual Image Patch Similarity) 등의 지표를 활용하여 평가되며, 이는 보간된 카메라 위치에서 생성된 영상의 품질을 측정합니다.
  • 기하학적 일관성(Geometric Consistency): 에피폴라 기하학 제약을 활용하여 샘슨 오류(Sampson error)와 카메라 포즈 추정 성공률(Camera Pose Estimation Success Rate) 같은 지표로 평가됩니다.

샘슨 에러가 낮고 성공률이 높을수록 3D 정렬이 더 우수하다는 것을 나타냅니다. 마찬가지로 PSNR과 SSIM이 높고 LPIPS가 낮을수록 화질이 좋다는 것을 나타냅니다.

모델Sampson Error ↓Pose Estimation Success Rate (%) ↑PSNR ↑SSIM ↑LPIPS ↓
VideoLDM 0.8414.40%26.230.7830.135
Cosmos 1.0 Diffusion Text2World 7B0.35562.60%33.020.9390.070
Cosmos 1.0 Diffusion Video2World 7B0.47368.40%30.660.9290.085
Cosmos 1.0 Autoregressive 4B0.43335.60%32.560.9330.090
Cosmos 1.0 Autoregressive Video2World 5B0.39227.00%32.180.9310.090
Real videos (reference)0.43156.40%35.380.9620.054

표 1. 코스모스 월드 파운데이션 모델의 3D 일관성 평가와 기본 VideoLDM 모델 비교

결과

Cosmos 월드 모델은 3D 일관성 측면에서 기준 모델을 능가하며(표 1), 더 높은 기하학적 정렬 및 카메라 포즈 성공률을 보입니다. 생성된 뷰가 실제 세계의 품질과 일치하여, Cosmos 모델이 월드 시뮬레이터로서 효과적임을 확인할 수 있습니다.

물리적 정렬

물리적 정렬은 Cosmos 모델이 실제 세계의 물리 법칙, 즉 운동, 중력, 에너지 역학을 얼마나 잘 시뮬레이션하는지를 평가합니다. NVIDIA PhysXNVIDIA Isaac Sim을 활용하여 중력, 충돌, 토크, 관성 등의 특성을 테스트하기 위한 8가지 제어된 시나리오를 설계했습니다.

사용된 지표

  • 픽셀 단위 지표로는 PSNR(신호 대 잡음비)과 SSIM(구조적 유사성 지수)이 활용되었습니다. PSNR은 모델이 생성한 영상의 픽셀 값이 기준 영상과 얼마나 유사한지를 측정하며, 값이 클수록 노이즈가 적고 정확도가 높음을 의미합니다. SSIM은 생성된 영상과 실제 영상 간의 구조, 밝기, 대비 유사도를 평가하는 지표로, 값이 높을수록 시각적 품질이 뛰어납니다.
  • 특징(Feature) 단위 지표로는 DreamSim이 사용되었습니다. DreamSim은 두 영상에서 추출된 고차원 특징의 유사도를 측정하며, 개별 픽셀보다는 객체와 움직임을 중심으로 의미적(semantic) 일관성을 평가하는 데 초점을 맞추고 있습니다.
  • 객체 단위 지표로는 IoU(교차 영역 비율)가 활용되었습니다. IoU는 예측된 객체 영역과 실제 객체 영역이 얼마나 겹치는지를 측정하는 지표로, 시뮬레이션에서 특정 객체의 움직임을 추적하고 물리적 동작이 기대와 일치하는지를 검증하는 데 유용합니다.

전반적으로 PSNR, SSIM, DreamSim, IoU 값이 높을수록 물리적 정렬(Physical Alignment)이 우수함을 의미합니다.

모델ConditioningPSNR ↑SSIM ↑DreamSim ↑Avg. IoU ↑
Cosmos 1.0 Diffusion Video2World 7Bprompt + 1 frame17.340.540.840.332
Cosmos 1.0 Diffusion Video2World 7Bprompt + 9 frames21.060.690.860.592
Cosmos 1.0 Diffusion Video2World 14Bprompt + 1 frame16.810.520.840.338
Cosmos 1.0 Diffusion Video2World 14Bprompt + 9 frames20.210.640.860.598
Cosmos 1.0 Autoregressive 4B1 frame17.910.490.830.394
Cosmos 1.0 Autoregressive 4B9 frames18.130.480.860.481
Cosmos 1.0 Autoregressive Video2World 5Bprompt + 1 frame17.670.480.820.376
Cosmos 1.0 Autoregressive Video2World 5Bprompt + 9 frames18.290.480.860.481
Cosmos 1.0 Autoregressive Video2World 12B1 frame17.940.490.830.395
Cosmos 1.0 Autoregressive Video2World 12B9 frames18.220.490.870.487
Cosmos 1.0 Autoregressive Video2World 13Bprompt + 1 frame180.490.830.397
Cosmos 1.0 Autoregressive Video2World 13Bprompt + 9 frames18.260.480.870.482
표 2. Cosmos 월드 파운데이션 모델의 자동 회귀 변형이 지원하는 최대 길이인 33프레임에 걸쳐 계산된 메트릭을 사용한 물리 정렬 결과

결과

Cosmos 월드 모델은 물리 법칙을 강하게 준수하는 경향을 보이며(표 2), 특히 조건부 데이터가 증가할수록 그 성능이 더욱 향상되었습니다. 카메라 조건 데이터셋을 활용한 후속 학습을 통해 기준 모델 대비 포즈 추정 성공률이 두 배 증가하는 결과를 보였습니다. 그러나 객체의 사라짐이나 예기치 않은 등장과 같은 객체 비영속성(object impermanence) 문제, 그리고 중력을 위반하는 비현실적인 동작과 같은 비합리적 행동(implausible behaviors) 등은 여전히 개선이 필요한 부분으로 나타났습니다.

Cosmos와 NVIDIA Omniverse를 활용한 물리 AI 애플리케이션 맞춤화

  • 비디오 검색 및 이해: 공간적 및 시간적 패턴을 이해하여 비디오 태깅과 검색을 간소화하며, 학습 데이터 준비를 더욱 쉽게 만듭니다.
  • 제어 가능한 3D-실사 합성 데이터 생성: NVIDIA Omniverse를 활용하면 개발자가 3D 시나리오를 생성하고, Cosmos를 사용하여 3D 장면에 의해 정밀하게 제어된 실사 수준의 비디오를 생성하여 고도로 맞춤화된 합성 데이터셋을 만들 수 있습니다.
  • 정책 모델 개발 및 평가: 행동 조건 기반 비디오 예측을 위해 최적화된 세계 모델을 활용하면 정책 모델(상태에서 행동으로의 전략을 매핑하는 모델)을 확장 가능하고 재현 가능한 방식으로 평가할 수 있습니다. 이를 통해 장애물 탐색이나 객체 조작과 같은 작업에서 위험한 실세계 테스트나 복잡한 시뮬레이션에 대한 의존도를 줄일 수 있습니다.
  • 행동 선택을 위한 예측 기능: Cosmos는 물리적 AI 모델에 예측 기능을 제공하여 잠재적인 행동의 결과를 평가할 수 있도록 합니다.
  • 멀티버스 시뮬레이션: Cosmos와 NVIDIA Omniverse를 사용하면 여러 미래 결과를 시뮬레이션하여 AI 모델이 목표 달성을 위한 최적의 전략을 평가하고 선택할 수 있도록 돕습니다. 이를 통해 예측 유지보수나 자율적 의사 결정과 같은 애플리케이션에서 이점을 제공합니다.

제너럴리스트부터 맞춤형 전문가 모델까지

Cosmos는 월드 모델 교육에 2단계 접근 방식을 도입했습니다.

제너럴리스트 모델: Cosmos 월드 파운데이션 모델은 다양한 실제 물리 및 환경을 포괄하는 광범위한 데이터 세트로 훈련된 제너럴리스트로 구축됩니다. 이러한 개방형 모델은 자연 역학부터 로봇 상호 작용까지 광범위한 시나리오를 처리할 수 있어 모든 물리 AI 작업을 위한 견고한 파운데이션을 제공합니다.

전문가 모델: 개발자는 소규모의 타깃 데이터 세트를 사용하여 일반 모델을 fine-tuning하여 자율 주행이나 휴머노이드 로봇과 같은 특정 애플리케이션에 맞는 스페셜리스트를 만들거나 긴급 차량이 있는 야간 장면이나 고충실도 산업 로봇 환경과 같은 맞춤형 합성 시나리오를 생성할 수 있습니다. 이러한 fine-tuning 프로세스는 모델을 처음부터 훈련하는 것에 비해 필요한 데이터와 훈련 시간을 크게 줄여줍니다.

Cosmos는 효율적인 비디오 처리 파이프라인, 고성능 토큰화 및 고급 트레이닝 프레임워크를 통해 트레이닝 및 fine-tuning을 가속화하여 개발자가 물리 AI를 발전시키기 위한 운영 요구 사항과 엣지 케이스를 해결할 수 있도록 지원합니다.

NVIDIA NeMo Curator를 통한 데이터 처리 가속화

트레이닝 모델에는 선별된 고품질 데이터가 필요하며, 이는 시간과 리소스가 많이 소모됩니다. NVIDIA Cosmos에는 NVIDIA 데이터센터 GPU에 최적화된 NVIDIA NeMo Curator로 구동되는 데이터 처리 및 큐레이션 파이프라인이 포함되어 있습니다.

로봇 공학 및 AV 개발자는 NVIDIA NeMo Curator를 통해 방대한 데이터 세트를 효율적으로 처리할 수 있습니다. 예를 들어, 2,000만 시간의 비디오를 NVIDIA Hopper GPU에서는 40일 만에 처리할 수 있으며, 최적화되지 않은 CPU 파이프라인에서는 3.4년이 걸리는 것에 비해 NVIDIA Blackwell GPU에서는 14일 만에 처리할 수 있습니다.

주요 이점은 다음과 같습니다:

  • 89배 빨라진 큐레이션: 처리 시간 대폭 단축
  • 확장성: 100PB 이상의 데이터를 원활하게 처리합니다.
  • 높은 처리량: 고급 필터링, 캡션, 임베딩으로 속도 저하 없이 품질 보장
그림 4. Cosmos에는 89배 빠른 비디오 데이터 처리를 제공하는 NeMo Curator가 포함되어 있습니다.

Cosmos Tokenizer를 통한 고충실도 압축 및 재구성

데이터를 큐레이팅한 후에는 학습을 위해 데이터를 토큰화해야 합니다. 토큰화는 복잡한 데이터를 관리 가능한 단위로 분해하여 모델이 데이터를 보다 효율적으로 처리하고 학습할 수 있게 해줍니다.

Cosmos 토큰화 도구는 품질을 보존하고 비용과 복잡성을 줄이면서 빠른 압축과 시각적 재구성을 통해 이 프로세스를 간소화합니다. 자동 회귀 모델의 경우, 이산형 토큰라이저는 데이터를 시간적으로는 8배, 공간적으로는 16×16으로 압축하여 한 번에 최대 49프레임까지 처리합니다. 확산 모델의 경우 연속 토큰라이저는 시간 8배, 공간 8×8 압축을 달성하여 최대 121프레임을 처리합니다.

NVIDIA NeMo를 통한 fine-tuning

개발자는 NVIDIA NeMo 프레임워크를 사용하여 Cosmos 월드 파운데이션 모델을 fine-tuning할 수 있습니다. NeMo 프레임워크는 온프레미스 데이터 센터에서 클라우드에 이르기까지 기존 모델을 개선하거나 새로운 모델을 구축할 때 GPU 기반 시스템에서 모델 트레이닝을 가속화합니다.

NeMo 프레임워크는 다음을 통해 멀티모달 데이터를 효율적으로 로드합니다:

  • 테라바이트 크기의 데이터 세트를 압축 파일로 샤딩하여 IO 오버헤드를 줄입니다.
  • 데이터세트를 결정론적으로 저장 및 로드하여 반복을 방지하고 컴퓨팅 낭비를 최소화합니다.
  • 최적화된 통신을 사용하여 데이터를 교환할 때 네트워크 대역폭을 줄입니다.

NVIDIA Cosmos 시작하기

Cosmos 월드 파운데이션 모델은 오픈 모델이며 NGCHugging Face에서 사용할 수 있습니다. 개발자는 NVIDIA API 카탈로그에서 Cosmos 월드 파운데이션 모델을 실행할 수도 있습니다. 또한 API 카탈로그에서 텍스트 프롬프트의 정확성을 향상시키는 코스모스 툴, 향후 생성형 AI 시퀀스를 쉽게 식별할 수 있는 내장 워터마킹 시스템, 증강 현실 애플리케이션용 비디오 시퀀스를 디코딩하는 특수 모델도 사용할 수 있습니다. 자세히 알아보려면 데모를 시청하세요.

가속화된 데이터 처리 파이프라인을 위한 NeMo Curator는 관리형 서비스 및 SDK로 제공됩니다. 개발자는 지금 얼리 액세스를 신청할 수 있습니다. Cosmos 토큰라이저는 오픈 뉴럴 네트워크이며 GitHubHugging Face에서 사용할 수 있습니다.

NVIDIA Cosmos 시작하기.

관련 리소스

Discuss (0)

Tags