AI Platforms / Deployment

Alibaba Cloud PAI, 이제 NVIDIA Cosmos Reason-1 원클릭 배포 및 사용 지원

Reading Time: 5 minutes

NVIDIA는 최근 멀티모달 거대 언어 모델(MLLM) Cosmos Reason-1을 공개했습니다. 이번에 발표된 모델은 7B와 56B 두 가지 버전이며, 이 중 7B는 GitHub에 오픈소스로 제공됩니다. Cosmos Reason-1은 두 단계에 걸쳐 학습되었습니다. 첫 번째는 피지컬 AI 감독 학습(SFT), 두 번째는 피지컬 AI 강화 학습(RL)입니다. 특히 7B 모델은 Qwen2.5-VL을 기반으로, 물리 법칙과 임바디드 추론 데이터(Embodied Reasoning Data)를 활용해 사후 학습을 진행한 것이 특징입니다.

Alibaba Cloud PAI-Model Gallery는 Cosmos Reason-1-7B를 통합하여 엔터프라이즈급 배포 솔루션을 제공합니다. 이번 포스팅에서는 Alibaba Cloud PAI(Platform of AI)에서 Cosmos Reason-1-7B를 신속하게 배포하고 활용하는 방법을 소개합니다.

NVIDIA Cosmos 플랫폼  

NVIDIA Cosmos™는 최첨단 생성형 월드 파운데이션 모델(WFM), 고급 토크나이저, 가드레일, 그리고 가속화된 데이터 처리 및 큐레이션 파이프라인으로 구성된 플랫폼입니다. 이 플랫폼은 월드 모델 학습을 지원하고, 자율주행차(AV) 및 로봇피지컬 AI 개발을 가속화도록 설계되었습니다.

Cosmos는 다양한 사전 학습 멀티모달 모델 제품군을 제공하는데요. 대표적으로, 월드 생성과 사후 학습을 위한 Cosmos Predict, 제어 가능하고 사실적인 대규모 합성 데이터를 생성하는 Cosmos Transfer, 피지컬 AI 추론을 위한 Cosmos Reason, 그리고 안전하지 않은 입력을 필터링하고 일관되고 안전한 출력을 보장하는 사전·사후 가드 기능의 Cosmos Guardrail이 포함됩니다. 

NVIDIA Cosmos Reason-1은 동작, 사물 간 상호 작용, 시공간적 관계를 이해하도록 설계된 완전 맞춤형 멀티모달 AI 추론 모델입니다. 이 모델은 CoT(Chain of Thought) 추론 기법을 활용해 시각 정보를 해석하고, 주어진 프롬프트를 바탕으로 결과를 예측하며, 최적의 결정에는 보상을 부여합니다. 

이 모델은 실제 물리 법칙에 기반해 추론을 수행하며, 자연어로 명확하고 상황에 맞는 응답을 생성합니다. Cosmos Reason-1은 다른 피지컬 AI 모델을 위한 데이터 평가와 품질 필터링 구성 요소로 활용되거나, 임바디드 에이전트의 다음 행동을 추론하는 계획 모델로도 활용할 수 있습니다.

Alibaba Cloud PAI-Model Gallery에 Cosmos Reason-1-7B 통합 

PAI-Model Gallery는 Alibaba Cloud PAI의 구성 요소로, 오픈소스 AI 커뮤니티의 고품질 사전 학습 모델을 통합 제공합니다. 사용자는 별도의 코딩 없이도 이러한 모델을 학습 (fine-tuning), 압축, 평가, 배포하고 추론까지 수행할 수 있어, AI 기술을 더욱 빠르고 효율적이며 손쉽게 활용할 수 있습니다. 또한, 즉시 사용할 수 있는 API와 엔터프라이즈급 데이터 보안 기능도 함께 지원됩니다.

Cosmos Reason-1-7B가 Alibaba Cloud PAI-Model Gallery에 통합되면서 “AI+Cloud” 패러다임에 따라 사전 학습된 모델을 모듈형으로 유연하게 구성할 수 있게 되었습니다. 이를 통해 멀티모달 기술 스택의 복잡성을 줄이고, 모델 적응 비용도 대폭 절감할 수 있습니다.

기업과 개발자는 클라우드 네이티브 플랫폼상에서 원시 시각 입력부터 물리적 제약을 반영한 고급 추론 출력까지 엔드투엔드 방식으로 구현할 수 있습니다. 이를 통해 피지컬 AI의 프로토타이핑부터 생산 및 배포에 이르기까지, 전 과정을 빠르게 추진할 수 있습니다.

Alibaba Cloud PAI에서 Cosmos Reason-1-7B의 원클릭 배포

사진 출처: Alibaba Cloud

이 장에서는 Alibaba Cloud PAI에서 Cosmos Reason-1-7B 모델을 원클릭으로 배포하고, 성능을 테스트하는 과정을 소개합니다.

1. PAI‑Model Gallery 웹사이트에서 Cosmos Reason-1-7B 모델을 검색하거나, 링크를 클릭해 바로 접속합니다. (한국 기준): https://pai.console.aliyun.com/?regionId=ap-northeast-2#/quick-start/models/Cosmos-Reason1-7B/intro

사진 출처: Alibaba Cloud

2. 모델 세부 정보 페이지의 오른쪽 상단 에 있는 “배포(Deploy)” 버튼을 클릭한 후 컴퓨팅 리소스를 선택하고, 클릭 한 번으로 모델을 클라우드에 배포합니다.

A screenshot of a computer  AI-generated content may be incorrect.
사진 출처: Alibaba Cloud

3. 배포가 성공적으로 완료되면, 서비스 페이지에서 “통화 정보 보기(View call Information)”를 클릭해 엔드포인트와 토큰 정보를 확인할 수 있습니다. 모델을 어떻게 호출하는지 알고 싶다면 “사전 학습 모델(Pre-trained model)” 링크를 클릭해 모델 개요 페이지로 돌아가 자세한 호출 방법을 확인하세요.

사진 출처: Alibaba Cloud

4. 추론 서비스 사용하기: API를 통해 모델 서비스를 호출하거나 PAI 플랫폼에서 제공하는 웹 기반 UI를 통해 모델과 상호작용할 수 있습니다.

모델 성능 테스트

이 테스트는 NVIDIA Research 웹사이트의 샘플 영상을 모델 입력으로 활용했습니다. 

영상에는 한 사람이 우유를 컵에 붓고 있는 장면이 담겨 있습니다. 이에 대해 ‘이 사람이 우유를 컵에 넣은 후 가장 합리적인 다음 행동은 무엇인가?’라는 질문을 입력했습니다. 

모델의 응답은 사람의 다음 행동에 대한 다양한 가능성을 고려했다는 점을 보여줍니다. 이 모델은 우유를 붓고 난 뒤 우유병을 내려놓고 스푼으로 우유와 커피를 젓는 등의 시나리오도 고려했습니다. 분석을 거친 끝에, 모델은 “우유병을  조리대 위에 놓는 것”이 가장 논리적인 다음 단계라고 결론내렸습니다.

이 사례에서 볼 수 있듯이, 모델은 사람의 동작을 정확하게 해석하고 적절한 예측 정보를 제공했습니다. 

예측 기반 추론뿐 아니라, 동작과 물체 간 상호 작용, 시공간적 관계까지 이해하는 이 능력은 일반적으로 구현하기 어렵습니다. 특히, 이 모델은 CoT(Chain of Thought) 방식을 통해 사고의 흐름을 명확하게 출력해 줌으로써, 모델의 전체 추론 과정을 투명하게 확인할 수 있습니다.

아래는 참조용 영상, 입력 질문, 그리고 모델의 출력 결과입니다.

  • 질문: 전반적인 목표는 “에이전트가 컵에 우유를 붓는 것”입니다. 영상 속 에이전트는 이 목표를 달성하기 위한 여러 하위 작업 중 하나를 수행하고 있습니다. 현재 상황에서, 에이전트가 수행할 가능성이 가장 높은 다음 하위 작업은 무엇일까요?
  • 모델 응답: 에이전트는 현재 컵에 우유를 붓고 있습니다. 우유를 붓고 난 뒤 가장 먼저 해야 할 하위 작업은, 원하는 양만큼 부은 뒤 붓는 동작을 멈추는 것입니다. 그 다음에는 우유병을 다시 조리대 위에 놓는 단계가 이어질 수 있습니다. 이어서 병 뚜껑을 닫아 우유가 쏟아지는 것을 방지할 수도 있고, 스푼을 사용해 우유와 커피를 골고루 섞는 일도 있을 수 있습니다. 그러나 현재 에이전트가 수행 중인 행동이 ‘붓기’라는 점을 감안할 때, 붓는 동작 직후의 다음 단계는 붓기를 멈추고 병을 내려놓는 것이 가장 자연스럽습니다. 질문이 묻고 있는 것은 ‘가장 가능성 높은 다음 하위 작업’을 묻고 있으므로, 아직 붓는 행위가 진행 중이라는 상황에서 다음으로 이어질 수 있는 시나리오들을 고려해야 합니다. 예를 들어, 붓는 각도를 조정해 남은 우유를 더 붓는 행동이 있을 수도 있습니다. 하지만 전체 문맥을 고려할 때, 붓기가 완료된 후 병을 조리대 위에 다시 놓는 것이 가장 설득력 있는 다음 단계로 보입니다. 다른 가능성으로는, 붓는 동작을 멈춘 후 병을 잠시 옆에 두거나, 컵이 충분히 찼는지를 확인하는 행동도 고려해볼 수 있습니다. 그럼에도 불구하고, 에이전트는 현재 우유를 붓고 있는 중이며, 이 동작이 끝난 직후의 가장 자연스럽고 논리적인 다음 하위 작업은 우유병을 조리대에 다시 놓는 것입니다. 따라서 모델이 판단한 최종적인 답변은 “우유병을 다시 조리대에 놓는 것”입니다.

출시 예정: NVIDIA Cosmos Reason-1 도구를 기반으로 한 모델 사후 학습 모범 사례

NVIDIA는 Cosmos Reason-1 벤치마크에서 모델 훈련 및 평가와 관련된 스크립트가 포함된 Cosmos Reason-1 도구를 오픈 소스로 제공합니다.

기업과 개발자는 자체 데이터를 바탕으로 Cosmos Reason-1 모델을 맞춤형으로 제공하고, 제공된 사후 학습 스크립트(SFT + RL)를 활용하여 자체 피지컬 AI 모델을 생성할 수 있습니다.

Alibaba Cloud PAI 팀이 테스트한 Cosmos Reason-1 도구의 성능은 다음과 같습니다. 사후 학습 테스트에 따르면 Cosmos Reason-1 도구는 Qwen2.5-32B-Instruct 모델과 gsm8k 데이터셋의 조합을 기반으로 소규모 클러스터에서 오픈 소스 프레임워크에 비해 1-2배의 가속화를 달성했습니다 (배치 크기 = 2,048). PAI는 곧 Cosmos-Reason1 도구의 사후 학습 기능을 정식으로 통합할 예정입니다.

Alibaba Cloud PAI에서 NVIDIA Cosmos Reason-1-7B 모델을 시작해 보세요.

Alibaba Cloud의 한국 노드를 통해 PAI에서 Cosmos Reason-1-7B를 시작할 수 있습니다. Cosmos에 대한 더 많은 다음 자료를 참고하세요.

Discuss (0)

Tags