에이전틱 AI는 언어 및 비전 특화 모델이 협력해 계획 수립, 추론, 정보 검색, 안전성 제어(guardrailing) 등을 수행하는 AI 생태계입니다.
개발자들이 도메인에 특화된 워크플로우를 구축하고, 실제 환경에 배포하며, 규제를 준수하기 위해서는 목적에 맞는 AI 에이전트가 필요합니다. 이를 구현하려면 파인튜닝 가능한 오픈 모델, 신뢰도 높은 데이터셋, 정확도와 연산 효율을 모두 고려한 최적화 레시피, 그리고 대규모 배포에 적합한 추론 성능이 뒷받침돼야 합니다.
이번 NVIDIA GTC DC에서는 정확도, 연산 효율, 개방성을 모두 갖춘 추론, 비전-언어, RAG, 안전성 모델을 오픈 데이터와 레시피와 함께 공개했습니다.
이 블로그에서는 새로운 Nemotron 모델을 활용해 멀티모달 에이전트, RAG 파이프라인, 안전한 AI 시스템을 구축하는 데 필요한 기능, 성능, 튜토리얼을 소개합니다.

NVIDIA Nemotron Nano 3로 에이전트의 사고 효율 높이기
NVIDIA Nemotron Nano 3는 32B 파라미터 규모의 MoE(Mixture of Experts) 모델로, 그 중 3.6B 파라미터만 활성화되는 고효율 구조입니다. 이 모델은 개발자들이 특화된 에이전틱 AI 시스템을 구축할 수 있도록 설계되었습니다.
곧 공개될 이 모델은, 유사한 크기의 밀집(dense) 모델보다 더 높은 처리량을 제공하며, 더 넓은 탐색 공간을 활용하고, 자기 성찰(self-reflection)에 강하며, 과학적 추론, 코딩, 수학, 도구 호출과 같은 다양한 벤치마크에서 더 높은 정확도를 보여줍니다. 또한 MoE 아키텍처는 연산 비용과 지연 시간도 줄여줍니다.
NVIDIA Nemotron Nano 2 VL로 멀티모달 이해와 추론 강화하기
NVIDIA Nemotron Nano 2 VL은 OCRBenchV2에서 최고 성능을 기록한 오픈 12B 멀티모달 추론 모델로, 문서 인식과 비디오 이해를 위한 용도로 설계되었습니다. 이 모델은 텍스트, 이미지, 표, 영상에 걸쳐 정보를 추출, 해석, 활용할 수 있어, AI 어시스턴트가 다양한 멀티모달 데이터를 효과적으로 다룰 수 있도록 합니다. 이를 통해 리포트 생성, 영상 큐레이션, 미디어 자산 관리용 고밀도 캡셔닝, 검색 최적화를 위한 RAG 기반 활용 등 데이터 분석, 문서 처리, 비주얼 이해 중심의 AI 에이전트 개발에 매우 유용합니다.
이 비전-언어 모델(VLM)은 Mamba-Transformer 하이브리드 아키텍처를 기반으로 하며, 시각 및 텍스트 작업 전반에 걸쳐 높은 정확도, 빠른 토큰 처리 속도, 낮은 지연 시간을 제공해 대규모 추론을 효율적으로 수행할 수 있습니다. 모델은 Nemotron VLM Dataset V2로 학습되었으며, 이미지 Q&A, OCR, 고밀도 캡셔닝, 비디오 Q&A, 다중 이미지 추론 등 다양한 과제를 포함한 1,100만 개 이상의 고품질 샘플을 기반으로 구성되어 있습니다. 데이터셋 자세히 확인하기. 속도 향상을 위해 FP8 정밀도를 적용하고, 긴 입력을 효율적으로 처리하기 위해 컨텍스트 병렬 처리(context parallelism)를 활용했습니다. 이를 통해 비디오 및 장문 문서 작업에서 더욱 높은 처리 효율과 정확도를 달성할 수 있습니다.

이 모델에는 Efficient Video Sampling(EVS) 기법이 도입되어, 영상 시퀀스에서 시간적으로 변화가 거의 없는 패치를 자동으로 식별하고 제거합니다. EVS는 불필요한 토큰을 줄이면서 핵심 의미는 그대로 유지해, 모델이 더 긴 클립을 빠르게 처리할 수 있도록 합니다.

이 모델은 FP4, FP8, BF16 정밀도로 양자화되어 있으며, vLLM 및 TRT-LLM 추론 엔진에서 지원되며 NVIDIA NIM 형식으로 제공됩니다. 개발자는 검색 및 요약을 위한 NVIDIA AI Blueprint(VSS)를 활용해 장시간 영상 분석을 수행할 수 있고, NVIDIA NeMo를 통해 멀티모달 데이터셋을 큐레이션하거나 모델을 커스터마이징해 직접 구축할 수 있습니다. 또한, 해당 기술 보고서는 Nemotron 기술을 활용한 맞춤형 최적화 모델 구축 방법에 대해서도 자세히 안내합니다.
NVIDIA Nemotron Parse 1.1로 문서 인식 성능 향상하기
NVIDIA는 문서 인식 기능을 강화하기 위해 NVIDIA Nemotron Parse 1.1도 함께 공개합니다. 이 모델은 1B 파라미터 규모의 컴팩트한 VLM 기반 문서 파서로, 입력 이미지에서 텍스트와 표를 구조화된 형태로 추출하며, 바운딩 박스와 의미 기반 클래스 정보도 함께 제공합니다. 이를 통해 검색 정확도 향상, 고품질 LLM 학습 데이터 생성, 문서 처리 파이프라인 최적화 등 다양한 후속 작업에서 높은 효율을 기대할 수 있습니다.

Nemotron Parse 1.1은 텍스트, 표, 레이아웃을 종합적으로 이해할 수 있어, 리트리버(retriever) 및 큐레이터(curator) 워크플로우에 효과적으로 활용됩니다. 이 모델의 추출 데이터셋과 구조화된 출력은 LLM과 VLM 학습 모두에 활용할 수 있으며, 추론 시 VLM의 정확도 향상에도 기여합니다.
오픈 RAG 모델로 에이전트를 현실 데이터에 연결하기
NVIDIA Nemotron RAG는 RAG 파이프라인 구축과 실시간 비즈니스 인사이트 생성을 위한 모델 제품군입니다. 이 모델은 데이터 프라이버시를 보장하고, 다양한 환경에서 사내 데이터에 안전하게 연결할 수 있으며, 엔터프라이즈급 검색 성능을 지원합니다. NVIDIA AI-Q 및 NVIDIA RAG Blueprint의 핵심 구성 요소로, 확장 가능하고 프로덕션에 바로 활용할 수 있는 기반을 제공합니다.
Nemotron RAG는 AI 에이전트가 인지하고 계획하며 실행해 복잡한 목표를 달성하는 멀티에이전트 시스템, IT 지원·HR 운영·고객 응대를 돕는 생성형 코파일럿, 기업 데이터를 활용해 자연스럽게 상호작용하는 AI 어시스턴트, 문서 요약 및 영상 하이라이트를 자동 생성하는 콘텐츠 요약 도구 등 다양한 애플리케이션 개발을 가능하게 합니다.
임베딩 모델은 ViDoRe, MTEB(멀티모달 검색), MMTEB(다국어 텍스트 검색) 등 주요 벤치마크에서 지속적으로 상위권을 기록하고 있으며, 업계 최고 수준의 RAG 파이프라인 구축에 적합합니다. 이 새로운 모델들은 현재 Hugging Face에서 사용할 수 있습니다.
Llama 3.1 Nemotron Safety Guard로 더 안전한 AI 만들기
에이전틱 AI 시스템이 자율적으로 추론하고, 검색하고, 행동할 수 있게 되면서, 예기치 않은 결과나 유해한 출력을 방지하기 위한 안전성 확보가 그 어느 때보다 중요해졌습니다. LLM은 악의적으로 활용되거나, 안전하지 않은 출력을 유도당하거나, 특히 비영어권 환경에서 문화적 뉘앙스를 놓치는 경우가 있어, 신뢰할 수 있는 콘텐츠 필터링 모델이 책임 있는 개발에 필수적입니다.
Llama 3.1 Nemotron Safety Guard 8B V3는 다국어 콘텐츠 안전성 모델로, Nemotron Safety Guard 데이터셋을 기반으로 파인튜닝되었습니다. 이 데이터셋은 23개의 지역별 안전 카테고리와 386,000개 이상의 샘플을 포함하며, 각 카테고리마다 교묘하거나 우회적인 프롬프트(adversarial/jailbreak) 예제를 포함하고 있어, 다양한 문화적 맥락을 반영합니다.
이 모델은 아랍어, 힌디어, 일본어를 포함한 9개 언어에서, 프롬프트와 응답 모두에 대해 23개 안전 카테고리 기준으로 정책 위반 또는 유해 콘텐츠를 탐지할 수 있습니다. 그림 4는 언어별 모델 성능 비교를 보여줍니다.

Llama 3.1 Nemotron Safety Guard 모델은 84.2%의 유해 콘텐츠 분류 정확도를 기록하며, 낮은 지연 시간으로도 뛰어난 성능을 보여줍니다. 이 모델의 성능은 두 가지 핵심 기술로 뒷받침됩니다: 1) LLM 기반 문화 적응 기법을 통해, 프롬프트와 응답을 각 지역의 표현 방식과 민감도에 맞게 정렬 2)일관성 필터링(consistency filtering)을 적용해, 노이즈가 많거나 의미가 맞지 않는 샘플을 제거함으로써 고품질 파인튜닝을 가능하게 함

이 모델은 가볍고 단일 GPU에서도 배포 가능하며, NVIDIA NIM 형식으로도 제공됩니다. 또한 NeMo Guardrails와 통합되어 에이전틱 AI 파이프라인에서 실시간 다국어 콘텐츠 안전성을 구현할 수 있습니다. Hugging Face 또는 build.nvidia.com에서 모델과 데이터셋을 확인하고, 보다 안전하고 글로벌 기준에 부합하는 AI 시스템 구축을 시작해 보세요.
NVIDIA NeMo로 모델을 평가하고 AI 에이전트를 최적화하세요
LLM의 성능을 신뢰성 있게 측정하기 위해, 최근 NVIDIA NeMo Evaluator SDK가 오픈 소스로 공개되었습니다. 이 SDK는 재현 가능한 벤치마킹을 지원하여, 단순 수치 이상의 현실적인 성능 검증을 가능하게 합니다.
이제 NeMo Evaluator는 ProfBench도 지원합니다. ProfBench는 에이전틱 AI의 행동 평가를 위한 벤치마크 모음으로, 다단계 추론, 도구 활용 능력 등 동적인 상호작용 워크플로우에서 모델의 성능을 측정할 수 있습니다.
이처럼 표준화된 평가 방식을 오픈소스로 제공함으로써, 개발자들은 모델의 성능을 일관된 조건에서 비교하고, 출력 결과를 검증하며, 신뢰할 수 있는 벤치마크를 구축할 수 있습니다.
또한, NeMo Agent Toolkit은 MCP 같은 업계 표준과 통합되며, Semantic Kernel, Google ADK, LangChain, CrewAI 등 다양한 프레임워크와 호환됩니다. 새롭게 추가된 Agent Optimizer 기능은 LLM 종류, 온도(temperature), 최대 토큰 수 등 주요 하이퍼파라미터를 자동으로 튜닝하여, 정확도, 팩트 기반 응답, 지연 시간, 토큰 사용량, 사용자 정의 메트릭까지 종합적으로 최적화합니다. 이를 통해 시행착오를 줄이고, 에이전트·도구·워크플로우 개발 속도를 크게 높일 수 있습니다.
GitHub 노트북에서 지금 바로 사용해 보세요.
지금 바로 Nemotron으로 AI 개발을 시작하세요
이번 블로그에서는 최신 Nemotron 모델들과 이를 통해 가능한 활용 사례 일부를 소개했습니다.
지금 바로 Hugging Face에서 Nemotron 모델과 데이터셋을 다운로드해 시작해 보세요.
Nemotron Nano 2 VL은 Baseten, Deep Infra, Fireworks, Hyperbolic, Nebius, Replicate 등 주요 추론 제공업체에서도 호스팅되고 있어, 개발에서 프로덕션까지 효율적으로 연결할 수 있습니다.
또한 build.nvidia.com과 OpenRouter에서 NVIDIA가 호스팅하는 API 엔드포인트를 직접 테스트해볼 수도 있습니다.
NVIDIA 뉴스 구독과 함께 LinkedIn, X, Discord, YouTube.에서 NVIDIA AI를 팔로우하고 NVIDIA Nemotron의 최신 소식을 놓치지 마세요.
- 여러분의 아이디어를 공유하고 기능 요청에 투표해, Nemotron의 미래를 함께 만들어보세요.
 - 다가오는 Nemotron 라이브 스트리밍도 놓치지 말고 시청하고, NVIDIA 개발자 포럼과 Discord의 Nemotron 채널을 통해 전 세계 개발자들과 소통해보세요.
 - 또한, 다양한 영상 튜토리얼과 라이브 콘텐츠를 통해 NVIDIA Nemotron을 더욱 효과적으로 활용할 수 있습니다.