Generative AI

NVIDIA NeMo를 사용한 최첨단 멀티모달 생성형 AI 모델 개발

Reading Time: 4 minutes

생성형 AI는 텍스트 기반 모델에서 멀티모달 기능으로 빠르게 확장되며, 이미지 캡션 생성과 시각적 질문 응답 같은 작업을 수행해 보다 인간과 유사한 AI로 발전해 왔습니다. 이제 커뮤니티는 텍스트와 이미지를 넘어 비디오로 영역을 넓혀가며 다양한 산업에 새로운 가능성을 열고 있습니다.

비디오 AI 모델은 로봇 공학, 자동차, 소매업 등에서 혁신을 이끌고 있습니다. 예를 들어, 로봇 공학에서는 복잡하고 변동이 잦은 환경에서 자율 탐색 능력을 향상시켜 제조와 창고 관리에서 핵심적인 역할을 합니다. 자동차 산업에서는 비디오 AI가 자율주행을 촉진하고, 차량 인식과 안전, 예측 유지보수까지 강화해 효율성을 크게 높이고 있습니다.

이미지 및 비디오 파운데이션 모델을 구축하려면 개발자들은 대규모 훈련 데이터를 세심하게 선별 및 전처리하고, 결과물인 고품질 데이터를 정밀하게 토큰화한 후, 사전 훈련된 모델을 대규모로 효율적으로 훈련 또는 사용자 정의해야 합니다. 최종적으로 추론 시에는 고품질 이미지 및 비디오 생성이 필수적입니다.

멀티모달 생성형 AI를 위한 NVIDIA NeMo 발표

NVIDIA NeMo는 생성형 AI 모델을 개발, 맞춤화 및 배포하기 위한 엔드투엔드 플랫폼입니다.

NVIDIA는 NeMo를 확장해 멀티모달 모델 개발을 위한 엔드투엔드 파이프라인을 지원한다고 발표했습니다. NeMo를 통해 사용자는 고품질 시각 데이터를 손쉽게 선별하고, 고효율 토큰화 및 병렬 처리 기술로 학습과 모델 맞춤화 속도를 높이며, 추론 단계에서 고품질의 시각 데이터를 생성할 수 있습니다.

가속화된 비디오 및 이미지 데이터 선별

고품질 학습 데이터는 AI 모델이 정확한 결과를 내는 데 필수적입니다. 그러나 개발자는 데이터 처리 파이프라인을 구축하면서 확장과 데이터 관리 등 다양한 문제에 직면합니다.

NeMo Curator는 데이터 선별 과정을 간소화해 멀티모달 생성형 AI 모델을 더 쉽고 빠르게 구축할 수 있도록 지원합니다. 즉시 사용 가능한 환경을 통해 총소유비용(TCO)을 절감하고 시장 출시 시간을 단축할 수 있습니다.

조직은 시각적 작업을 수행하면서 페타바이트 규모의 데이터도 다루게 됩니다. NeMo Curator는 데이터 선별의 모든 단계에서 여러 GPU에 부하를 분산하는 오케스트레이션 파이프라인을 제공해, 네이티브 GPU 기반 방식에 비해 비디오 처리 시간을 최대 7배까지 단축합니다. 이 확장 가능한 파이프라인은 100PB 이상의 데이터를 효율적으로 처리할 수 있어 대규모 데이터 세트를 원활하게 다룰 수 있습니다.

그림 1. NVIDIA NeMo Curator의 비디오 처리 속도

NeMo Curator는 데이터 세트의 품질을 높이기 위해 고속 필터링, 캡션 생성, 임베딩 단계에 최적화된 참조 비디오 선별 모델을 제공하여 더 정확한 AI 모델 구축을 지원합니다.

예를 들어, NeMo Curator는 최적화된 캡션 모델을 활용하여 기존의 비최적화 추론 모델보다 훨씬 높은 처리량을 제공합니다.

NVIDIA Cosmos 토큰화 기술

토큰화 기술은 중복되거나 암시적인 시각 데이터를 간결하고 의미 있는 토큰으로 변환해, 대규모 생성형 모델을 효율적으로 훈련하고 제한된 컴퓨팅 자원에서도 추론을 가능하게 합니다.

하지만 현재의 개방형 비디오 및 이미지 토큰화 기술은 종종 데이터 표현이 부정확해 손실 있는 재구성, 왜곡된 이미지, 시간적으로 불안정한 비디오를 만들어내어 생성 모델의 성능을 제한합니다. 또한, 비효율적인 토큰화 과정은 인코딩 및 디코딩 속도를 늦추어 훈련 및 추론 시간을 길게 만들어 개발자 생산성과 사용자 경험에 부정적 영향을 줍니다.

NVIDIA Cosmos 토큰라이저는 다양한 이미지와 비디오 유형에 대해 높은 압축률과 최첨단 수준의 재구성 품질을 제공하여, 우수한 시각적 토큰화를 구현하는 개방형 모델입니다.

동영상 1. 이미지 및 비디오를 위한 효율적인 생성형 AI 토큰화 기술

이 토큰화 기술은 개별 잠재 코드가 있는 비전 언어 모델(VLM), 연속 잠재 임베딩이 있는 확산 모델, 다양한 화면 비율과 해상도를 지원하는 표준화된 모델 제품군을 통해 사용 편의성을 제공하여 고해상도 이미지와 동영상을 효율적으로 관리할 수 있도록 지원합니다. 이를 통해 다양한 시각적 입력 데이터를 토큰화하여 이미지 및 비디오 AI 모델을 구축할 수 있는 도구를 제공합니다.

Cosmos 토큰라이저(tokenizer) 아키텍처

Cosmos 토큰라이저는 높은 효율성과 효과적인 학습을 위해 설계된 정교한 인코더-디코더 구조를 사용합니다. 그 핵심은 시공간 정보를 공동으로 처리하는 특수 레이어인 3D 인과 컨볼루션 블록을 사용하고, 데이터의 장기 의존성(long-range dependencies)을 포착하는 인과적 시간적 주의력(causal temporal attention)을 사용합니다.

이 인과적 구조 덕분에 모델은 토큰화 시 미래 프레임을 제외하고 과거와 현재 프레임만 사용하게 되며, 이는 물리 AI나 멀티모달 LLM 같은 실제 시스템의 인과적 특성과 일치하는 데 매우 중요한 역할을 합니다.

그림 2. NVIDIA Cosmos 토큰라이저 아키텍처

입력은 3D 웨이블릿(wavelet)이라는 신호 처리 기술을 사용해 다운샘플링되며, 이는 픽셀 정보를 보다 효율적으로 표현합니다. 이후 처리된 데이터는 역 웨이블릿 변환을 통해 원래 입력으로 재구성됩니다.

이 접근 방식은 학습 효율성을 높여, 토큰화 인코더-디코더의 학습 모듈이 불필요한 픽셀 디테일 대신 의미 있는 특징에 집중할 수 있게 합니다. 이러한 기술과 독자적인 학습 레시피가 결합되면서 Cosmos 토큰라이저는 강력하고 효율적인 토큰화를 위한 최첨단 아키텍처로 자리 잡았습니다.

추론 시 Cosmos 토큰라이저는 주요 오픈 소스 토큰라이저보다 최대 12배 빠른 재구성 속도를 제공해 모델 실행 비용을 크게 절감합니다(그림 3 참조).

그림 3. 비디오 토큰라이저의 재구성 품질(왼쪽)과 런타임 성능(오른쪽)의 정량적 비교

Cosmos 토큰라이저는 다른 토큰라이저보다 더 높은 압축률을 유지하면서도 고품질 이미지와 비디오를 생성해, 이전에는 볼 수 없던 수준의 품질과 압축의 균형을 제공합니다.

그림 5. 재구성 품질 대비 연속 토큰화기 압축률 비교
그림 5. 재구성 품질 대비 개별 토큰라이저 압축률 비교

Cosmos 토큰라이저는 고도로 압축된 토큰을 기반으로 재구성함에도, 혁신적인 신경망 학습 기법과 아키텍처 덕분에 고품질의 이미지와 비디오를 생성할 수 있습니다.

그림 6. 연속 비디오 토큰라이저를 위한 재구성된 비디오 프레임

NeMo로 나만의 멀티모달 모델 구축하기


NeMo Curator를 통한 대규모 데이터 처리와 Cosmos 토큰라이저를 활용한 고품질 토큰화 및 시각적 재구성을 통해, NVIDIA NeMo 플랫폼은 최첨단 멀티모달 생성형 AI 모델 구축을 지원합니다.

대기자 명단에 등록하고 NeMo Curator가 출시되면 알림을 받으세요. 토큰라이저는 현재 /NVIDIA/cosmos-tokenizer GitHub 리포지토리와 Hugging Face에서 사용할 수 있습니다.

관련 리소스

Discuss (0)

Tags