Agentic AI / Generative AI

NVIDIA Nemotron 3 Nano Omni: 단일 오픈 모델로 멀티모달 에이전트 추론을 가속화

NVIDIA Nemotron 3 Nano Omni가 텍스트·이미지·비디오·오디오를 하나로 통합한 30B-A3B 하이브리드 MoE 오픈 모델로 멀티모달 에이전트 추론을 가속화합니다. NVFP4 양자화와 함께 최대 9.2배 실효 시스템 용량을 제공해요.

Reading Time: 8 minutes

오늘날의 에이전틱 시스템은 화면, 문서, 오디오, 비디오, 텍스트를 하나의 인식–행동 루프 안에서 함께 추론합니다. 하지만 여전히 비전·오디오·텍스트마다 별도 스택을 쓰는 분절된 모델 체인에 의존하고 있는데요, 이로 인해 추론 단계가 늘어나고 오케스트레이션 복잡도가 커지면서 추론 비용은 올라가는 한편 모달리티 간 맥락 일관성은 약화됩니다.

Nemotron 3 패밀리에 새롭게 합류한 NVIDIA Nemotron 3 Nano Omni는 통합된 멀티모달 추론을 효율성이 매우 높은 단일 오픈 모델 안에 담아냅니다. 분절된 비전·언어·오디오 스택을 대체하도록 설계되어, 에이전틱 시스템 안에서 멀티모달 인식과 맥락을 담당하는 서브 에이전트로 동작합니다. 전체 라인업은 Nemotron 3 패밀리 컬렉션에서 확인할 수 있죠.

덕분에 에이전트는 시각·오디오·텍스트 입력을 하나의 공유된 인식–행동 루프 안에서 인식하고 추론할 수 있고, 모달리티 통합이 더 매끄럽게 이뤄지는 동시에 오케스트레이션 복잡도와 추론 비용까지 함께 줄일 수 있습니다.

또한 MMlongbench-Doc, OCRBenchV2와 같은 문서 인텔리전스 리더보드에서 동급 최고 수준의 정확도를 기록할 뿐 아니라, WorldSense, DailyOmni, VoiceBench 등 비디오·오디오 이해 분야에서도 선두를 달리고 있죠.

정확도뿐만 아니라, 비디오 이해 모델을 실제 미디어 데이터와 프로덕션 작업에서 품질·비용·처리량 기준으로 평가하는 오픈 산업 벤치마크 MediaPerf에서도 NVIDIA Nemotron 3 Nano Omni는 모든 작업에서 가장 높은 처리량을 기록했고, 비디오 단위 태깅에서는 가장 낮은 추론 비용을 달성했습니다. 자세한 내용은 이 글에서 확인할 수 있죠.

30B-A3B 하이브리드 MoE(mixture of experts) 아키텍처를 기반으로 한 NVIDIA Nemotron 3 Nano Omni는 각 작업과 모달리티에 필요한 전문가만 선택적으로 활성화하므로, 대규모 환경에서도 높은 처리량과 강력한 멀티모달 성능을 동시에 제공합니다. 가중치·데이터셋·레시피가 완전히 공개되어 있어 개발자는 로컬·클라우드·엔터프라이즈 환경 어디서든 멀티모달 서브 에이전트를 손쉽게 커스터마이징하고 배포·통합할 수 있죠.

동영상 1. NVIDIA Nemotron 3 Nano Omni는 비디오·오디오·이미지·텍스트를 오픈 MoE 아키텍처 하나로 통합합니다.

동급 최고 수준의 효율성과 정확도

NVIDIA Nemotron 3 Nano Omni는 NVIDIA Ampere, NVIDIA Hopper, NVIDIA Blackwell GPU 패밀리 등 여러 GPU 아키텍처에 걸쳐 하드웨어 인식 최적화 추론을 지원하고, vLLM과 NVIDIA TensorRT-LLM 같은 주요 추론 엔진도 폭넓게 지원합니다.

또한 FP8과 NVFP4 양자화, 효율적인 비디오 샘플링, NVIDIA 최적화 커널을 지원해 예측 가능하고 지연 시간이 낮은 추론을 제공합니다. 여기에 3D 컨볼루션 기반 시공간 처리가 결합되면 워크스테이션부터 데이터센터, 클라우드 배포 환경까지 GPU 전반에서 더 적은 컴퓨트 비용으로 지속 가능한 멀티모달 인식을 구현할 수 있죠.

서브 에이전트 구동을 염두에 두고 설계된 NVIDIA Nemotron 3 Nano Omni는 더 큰 에이전트 시스템 안에서 인식, 맥락 유지, 멀티모달 이해를 책임집니다. NVIDIA Nemotron 3 Super, NVIDIA Nemotron 3 Ultra 같은 실행·플래닝 모델과도 매끄럽게 통합되므로, 에이전트 아키텍처를 모듈식으로 효율적이면서도 확장성 있게 유지할 수 있습니다.

다음에 살펴볼 벤치마크는 사용자 한 명이 여전히 반응 좋은 실시간 상호작용을 유지할 수 있는 시점, 즉 고정된 상호작용 임계값(interactivity threshold)을 기준으로 성능을 평가한 결과입니다. 단순히 동시 처리량을 최대치로 끌어올리는 대신, x축에 사용자당 처리량(tokens per second per user)을 일정하게 두고 사용자 경험을 떨어뜨리지 않으면서 시스템 전체가 어느 정도의 처리량을 견딜 수 있는지를 측정했습니다.

고정된 사용자당 상호작용 임계값에서 NVIDIA Nemotron 3 Nano Omni가 비디오 유스케이스에서 다른 오픈 옴니 모델 대비 더 효율적인 시스템 용량을 보여 주는 파레토 곡선.
그림 1. 고정된 사용자당 상호작용 임계값(tokens/sec/user)에서 각 모델이 유지할 수 있는 전체 시스템 처리량.

동일한 상호작용 임계값에서 비디오 추론을 수행할 때, NVIDIA Nemotron 3 Nano Omni는 더 높은 누적 처리량을 안정적으로 유지하는데요, 이는 다른 오픈 옴니 모델 대비 최대 약 9.2배에 달하는 실효 시스템 용량으로 이어집니다.

NVIDIA Nemotron 3 Nano Omni가 다중 문서 유스케이스에서 다른 오픈 옴니 모델 대비 더 효율적인 시스템 용량을 보여 주는 파레토 곡선.
그림 2. 다중 문서 유스케이스에서 보다 효율적인 시스템 용량을 보여 주는 파레토 곡선.

동일한 상호작용 임계값에서 다중 문서 추론을 수행할 때도, NVIDIA Nemotron 3 Nano Omni는 더 높은 누적 처리량을 유지하면서 다른 오픈 옴니 모델 대비 최대 약 7.4배의 실효 시스템 용량을 제공합니다.

이전 Nemotron Nano VL V2 모델 대비 NVIDIA Nemotron 3 Nano Omni의 정확도 향상을 업계 선도 벤치마크 전반에 걸쳐 보여 주는 차트.
그림 3. 이전 Nemotron Nano VL V2 모델에서 NVIDIA Nemotron 3 Nano Omni로 이어지면서 업계 선도 벤치마크 전반에서 멀티모달 정확도가 향상된 결과.

NVIDIA Blackwell GPU에서 NVFP4 양자화를 적용한 NVIDIA Nemotron 3 Nano Omni는 복잡한 문서, 장기적 추론, 대용량 비디오 배치를 다루는 엔터프라이즈급 워크로드에서 오픈 옴니모달 모델 중 가장 높은 처리량을 달성합니다. 덕분에 대규모 비디오·오디오 콘텐츠를 처리해야 하는 금융, 의료, 과학 연구, 미디어·엔터테인먼트, 광고 기술 플랫폼의 에이전틱 애플리케이션에 특히 잘 맞습니다.

이 같은 개선은 단순한 합성 벤치마크 결과가 아닙니다. 실제 에이전틱 워크로드에 배포했을 때 드러나는 NVIDIA Nemotron 3 Nano Omni 아키텍처의 효율성을 그대로 반영한 것이죠. 멀티모달 인식을 하나의 모델 루프로 통합하고 모달리티별로 필요한 전문가만 활성화하는 구조 덕분에, 모델의 원천 효율성을 더 많은 동시 에이전트, 더 높은 처리량, 더 낮은 작업당 비용으로 전환할 수 있고요. 그러면서도 정확도나 반응성을 희생하지 않습니다.

NVIDIA Nemotron 3 Nano Omni의 내부를 들여다보다

NVIDIA Nemotron 3 Nano Omni는 높은 처리량을 유지하면서 모달리티 간 추론을 수행하도록 설계된 경량 30B-A3B 모델입니다.

모델 설계: NVIDIA Nemotron 3 Nano Omni 아키텍처

NVIDIA Nemotron 3 Nano Omni 아키텍처는 멀티모달 인식과 추론을 단일 30B 하이브리드 MoE 모델 안으로 통합합니다. 텍스트·이미지·비디오·오디오 입력을 기본 지원하면서 에이전트 루프 전반에서 통합된 멀티모달 맥락을 유지하므로, 비전·음성·언어용 별도 모델이 필요 없게 됩니다.

텍스트·오디오·시각 입력을 단일 언어 모델로 통합한 NVIDIA Nemotron 3 Nano Omni 하이브리드 MoE 아키텍처.
그림 4. 모달리티 간 통합을 위한 NVIDIA Nemotron 3 Nano Omni 하이브리드 MoE 아키텍처.
  • 하이브리드 MoE 코어 아키텍처: 시퀀스·메모리 효율을 높이는 Mamba 레이어와 정밀 추론을 담당하는 트랜스포머 레이어를 결합했습니다. 이 설계 덕분에 메모리·컴퓨트 효율이 최대 4배 향상되면서도 더 높은 처리량을 제공하므로, 서브 에이전트 역할에 적합합니다.
  • 시공간 시각 처리와 효율적 비디오 샘플링: 비디오 프레임을 효과적으로 다루기 위해 NVIDIA Nemotron 3 Nano Omni는 3D 컨볼루션으로 프레임 간 움직임을 포착합니다. 추론 시점에 동작하는 Efficient Video Sampling(EVS) 레이어는 다수 프레임에서 나온 고밀도 시각 토큰을, LLM이 컨텍스트 창을 압도당하지 않으면서 처리할 수 있는 간결한 집합으로 압축해 줍니다.
  • 멀티모달 아키텍처
    • 텍스트: NVIDIA Nemotron 3 Nano Omni 모델은 강력한 텍스트 모델을 중앙 디코더로 활용해 파운데이션 모델의 언어 능력을 보존하고, 다음 섹션에서 자세히 다룰 텍스트 중심 모달리티 브리지를 학습시킵니다. 덕분에 멀티모달 학습 불안정성과 비용을 줄이면서도, 지속 가능한 인식 작업에서 가장 높은 효율과 정확도를 제공할 수 있죠.
    • 오디오 (NVIDIA Granary, Music Flamingo, Parakeet): 오디오 통합은 NVIDIA Parakeet 인코더와, 단순 전사를 넘어서는 특화 데이터셋을 토대로 구축되었습니다.
    • 비전 (C-RADIOv4-H와 인코더 기반 비디오 요약): 고해상도 이미지와 동적 비디오를 다루기 위해 NVIDIA Nemotron 3 Nano Omni는 계층적 압축 전략을 사용합니다.
      • C-RADIOv4-H: 이미지는 C-RADIOv4-H 파운데이션 모델로 고해상도 그대로 처리됩니다. 고해상도 디테일과 효율적인 연산을 균형 있게 조율하는 견고한 비전 인코더 역할을 하며, 전체 이미지의 특정 패치에 집중해 OCR 정밀도를 유지할 수 있죠.

학습 방법론: 모달리티 간 데이터와 학습

모달리티 간 데이터와 인스트럭션 튜닝으로 학습된 NVIDIA Nemotron 3 Nano Omni 모델은 실제 에이전트 환경을 염두에 두고 설계되었습니다. 이미지·비디오·오디오·텍스트를 아우르는 명령을 수행하면서 더 큰 에이전틱 시스템 내에서 멀티모달 인식·맥락 서브 에이전트로 동작하는데요, 모든 학습 단계는 NVIDIA NeMo Evaluator 라이브러리로 평가됩니다.

  • 어댑터·인코더 학습: 문서, 스크린샷, 오디오, 비디오를 아우르는 대규모 데이터를 활용해 엔터프라이즈 인식 작업 전반에서 강력한 일반화 능력을 확보했습니다.
  • 지도 파인튜닝(SFT): NVIDIA Megatron-LM으로 구현된 다단계 파이프라인을 통해 모달리티 커버리지를 점진적으로 확장합니다. 비전·언어·오디오 인코더에서 출발해 컨텍스트 길이를 16K → 49K → 262K로 키워 가며 통합된 모달리티 간 명령 수행 능력을 단계적으로 쌓아 올리는 방식입니다.
  • SFT 이후 강화 학습: NVIDIA NeMo GymNeMo RL을 사용해 25개 환경 구성에 걸친 다중 환경 강화 학습을 230만 회 이상의 환경 롤아웃과 함께 진행했으며, 이를 통해 멀티모달 작업과 에이전틱 워크플로에서의 견고성을 끌어올렸습니다.

설계부터 오픈: 가중치·데이터·레시피

NVIDIA Nemotron 3 Nano Omni는 투명성을 기반으로 구축되었으며, 가중치·데이터셋·학습 레시피에 대한 완전한 접근권을 제공합니다. 이러한 오픈소스 접근 방식 덕분에 개발자는 온프레미스 환경에서도 모델을 자유롭게 커스터마이징할 수 있어, 개인정보와 보안을 양보하지 않으면서도 최상의 성능을 끌어낼 수 있죠.

모델 가중치
NVIDIA Nemotron 3 Nano Omni의 전체 파라미터 체크포인트는 Hugging Face에서 받을 수 있고, NVIDIA NIM 마이크로서비스로도 곧 제공됩니다. NVIDIA Nemotron Open Model License는 기업이 데이터 통제권을 유지하면서 원하는 곳 어디에나 배포할 수 있는 유연성을 보장합니다.

엔드 투 엔드 학습·평가 레시피
NVIDIA Nemotron 3 Nano Omni의 사전 학습, 사후 학습, 평가 레시피 전체가 공개되어 있어, 사전 학습부터 정렬(alignment)까지 전 파이프라인을 한 번에 확인할 수 있죠. 개발자는 동일한 학습을 재현하거나, 도메인 특화 변형을 위해 레시피를 조정하거나, 자체 하이브리드 아키텍처 연구의 출발점으로 삼을 수 있습니다.

배포 쿡북·레시피
주요 추론 엔진별 즉시 사용 가능한 쿡북도 함께 제공되며, 각각 구성 템플릿·성능 튜닝 가이드·참조 스크립트를 담고 있습니다:

  • vLLM Cookbook: NVIDIA Nemotron 3 Nano Omni를 위한 고처리량 연속 배칭과 스트리밍.
  • SGLang Cookbook: 멀티 에이전트 도구 호출 워크로드에 최적화된 빠르고 가벼운 추론.
  • NVIDIA TensorRT LLM Cookbook: 프로덕션 등급 저지연 배포를 위해 잠재 MoE 커널까지 풀 최적화된 TensorRT LLM 엔진.
  • Dynamo 배포 레시피: 분리(disaggregated) 서빙, 지능형 라우팅, 다계층 KV 캐싱, 멀티모달 NVIDIA Nemotron 3 Nano Omni를 위한 자동 스케일링까지 지원합니다.

파인튜닝 쿡북·레시피
학습 단계별 쿡북도 모두 준비되어 있고, 각 쿡북에는 구성 템플릿·성능 튜닝 가이드·참조 스크립트가 포함되어 있어요:

  • NVIDIA Nemotron 3 Nano Omni를 활용한 엔드 투 엔드 멀티모달 문서 인텔리전스 쿡북.
  • NVIDIA NeMo Megatron-Bridge로 NVIDIA Nemotron 3 Nano Omni를 LoRA SFT 학습.
  • NVIDIA NeMo Automodel로 NVIDIA Nemotron 3 Nano Omni를 LoRA SFT 학습.
  • NeMo RL 레시피쿡북으로 NVIDIA Nemotron 3 Nano Omni의 GRPO/MPO 학습.

오픈 데이터셋
NVIDIA는 Nemotron 3 Nano와 Nemotron 3 Super를 공개하면서 텍스트 기반 에이전틱 AI를 위해 업계에서 가장 포괄적인 오픈 데이터 스택을 함께 내놨습니다. 사전 학습 토큰 10조 개 이상, 사후 학습 샘플 4,000만 개 이상, RL 환경 구성 20여 종, 그리고 전체 학습 레시피까지 모두 공개되어 있습니다.

NVIDIA Nemotron 3 Nano Omni는 이 같은 의지를 텍스트에서 멀티모달로 확장해, 텍스트·오디오·이미지·비디오 전반에 걸쳐 동일한 수준의 개방성을 제공합니다.

  • 어댑터·인코더 학습 규모: 텍스트+이미지, 텍스트+비디오, 텍스트+오디오, 텍스트+비디오+오디오 등 모달리티가 혼합된 데이터로 약 1,270억 토큰 — 단일 모달리티 데이터와 달리 실제 맥락이 살아 있는 상호작용 데이터를 그대로 반영했습니다.
  • 실제 작업을 위한 사후 학습: 텍스트+오디오, 텍스트+이미지, 텍스트+비디오, 텍스트+비디오+오디오 등 멀티모달 조합 전반에 걸쳐 큐레이션된 약 1억 2,400만 개 예시로 구성되며, 문서 추론·컴퓨터 사용·장기 워크플로를 지원하도록 설계되었습니다.
  • 에이전트 학습용 RL 환경: 25개 환경에 걸친 20개 RL 데이터셋이 시각 그라운딩, 차트·문서 이해, 비전 중심 STEM 문제, 비디오 이해, 자동 음성 인식 등 다섯 가지 신규 멀티모달 작업을 포괄, Nemotron의 RL 파이프라인을 텍스트 너머 비전·오디오까지 확장합니다.

NVIDIA NeMo Data Designer 합성 데이터 생성

NVIDIA NeMo Data Designer로 구축된 합성 데이터 생성(SDG) 파이프라인도 함께 제공되며, 복잡한 장문 문서 이해 작업에서 NVIDIA Nemotron 3 Nano Omni를 사후 학습시키는 용도로 활용됩니다. 반복적인 파이프라인 개발·학습·실패 분석을 거치면서 약 1,140만 개 합성 시각 질의응답 쌍(약 450억 토큰)을 만들어 내는 일련의 파이프라인이 구축되어, NVIDIA Nemotron 3 Nano Omni의 최종 학습 블렌드에 포함되었습니다.

반복적 SDG 방법론에 대한 심층 분석과, 무엇이 잘 작동했고 무엇이 그렇지 않았는지, 그리고 파이프라인 레시피 모음은 해당 글에서 확인할 수 있습니다. SDG 파이프라인은 데이터 디자이너 레시피로도 제공됩니다.

이미지 학습 데이터는 huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3에서 자유로운 라이선스로 공개되어 있습니다. 기반이 되는 이미지 데이터와 모델이 함께 공개되어 있으므로 개발자는 멀티모달 학습 파이프라인을 직접 들여다보고 조정·확장할 수 있죠. 과거에 비전·음성·문서 데이터 스택을 각기 따로 운영해 온 기업이라면, Omni가 이 모든 것을 하나의 프로덕션급 토대로 통합해 모달리티 전반의 에이전틱 AI 배포 장벽을 낮춰 줍니다.

NVIDIA Nemotron 3 Nano Omni 기반 클로(Claw) 에이전트

NVIDIA OpenShell 런타임과 다양한 에이전트 하니스와 결합되면, NVIDIA Nemotron 3 Nano Omni는 비디오 콘텐츠와의 상호작용 방식 자체를 바꿔 놓습니다:

  • 네이티브 비디오 이해: 전사(transcription)에 의존해 환각(hallucination)을 일으키곤 하는 기존 시스템과 달리, NVIDIA Nemotron 3 Nano Omni는 네이티브 시각-시간 파이프라인(3D 컨볼루션과 효율적 비디오 샘플링 포함)을 통해 화면에서 실제로 무엇이 일어나는지를 직접 봅니다. 덕분에 거의 즉각적이고 충실도 높은 전사·요약이 가능하고, 차트나 화면 텍스트처럼 오디오 기반 모델이 놓치기 쉬운 시각적 맥락까지 잡아낼 수 있죠.
  • 프라이버시 우선 클로 에이전트: 이 스택을 NemoClaw로 실행하면 사용자 비디오 데이터는 로컬 인프라를 절대 떠나지 않습니다. NVIDIA NemoClawNVIDIA OpenShell로 격리된 샌드박스 환경에 OpenClaw 에이전트를 설치하고 프라이버시 라우터를 함께 두므로, 민감한 녹화본은 안전하게 유지되고 멀티모달 이해에 필요한 특화 작업은 NVIDIA Nemotron 3 Nano Omni 기반 서브 에이전트가 대신 수행합니다.
  • 정밀 질의응답: 고도화된 멀티모달 추론 덕분에 사용자는 자신의 비디오에 대해 복잡하고 개방형 질문도 던질 수 있죠. 에이전트는 NVIDIA Nemotron 3 Nano Omni의 긴 컨텍스트 윈도우를 활용해, 흐름을 놓치지 않으면서도 출처가 명시된 정확한 답변을 제공합니다.

NVIDIA OpenShell 기반 NemoClaw 샌드박스에서 OpenClawHermes Agent로 NVIDIA Nemotron 3 Nano Omni를 실행하는 방법은 아래 가이드에서 자세히 확인할 수 있습니다. 로컬 배포부터 실제 비디오 추론까지 정확한 워크플로를 그대로 살펴볼 수 있죠.

NVIDIA Nemotron 3 Nano Omni 지금 바로 시작하기

NVIDIA Nemotron 3 Nano Omni는 지금 바로 사용해 보실 수 있습니다. 에이전틱 워크로드의 서브 에이전트를 구동하기 위해 설계된 효율적인 오픈 멀티모달 모델로, 아래에서 액세스할 수 있어요:

모델 아키텍처와 설계를 더 깊이 들여다보려면 NVIDIA Nemotron 3 Nano Omni 기술 보고서를 참고해 주세요.

NVIDIA Nemotron의 최신 소식을 받아 보려면 NVIDIA news를 구독하고, LinkedIn, X, Discord, YouTube에서 NVIDIA AI를 팔로우해 보세요.

시작에 필요한 자료는 Nemotron 개발자 페이지에서 확인할 수 있죠. Hugging Face에서 오픈 Nemotron 모델과 데이터셋을 살펴보고, build.nvidia.com에서 Blueprints도 함께 탐색해 보세요.

Nemotron 라이브 스트림, 튜토리얼, 그리고 NVIDIA 포럼Discord의 개발자 커뮤니티와 함께해 보세요.

Discuss (0)

Tags