NVIDIA Nemotron 3 Super 공개 — 에이전틱 추론을 위한 오픈 하이브리드 Mamba-Transformer MoE

Reading Time: 8 minutes

에이전틱 AI 시스템에는 까다로운 기술적 문제를 자율적으로 풀어낼 수 있는 깊이 있는 모델이 필요합니다. 대규모 환경에서 끊임없이 가동할 수 있는 효율성을 유지하는 한편 추론·코딩·롱컨텍스트 분석에서 두루 뛰어난 역량을 보여야 하죠.

멀티 에이전트 시스템은 일반적인 채팅 대비 최대 15배의 토큰을 생성합니다. 매 턴마다 대화 히스토리, 도구 출력, 추론 단계를 다시 보내기 때문이죠. 장시간에 걸친 작업에서는 이 “컨텍스트 폭발” 현상이 누적되면서, 에이전트가 최초의 목적에서 점점 멀어지는 골 드리프트(goal drift)가 발생하기 쉽습니다. 게다가 하위 작업 하나하나에 모두 거대한 추론 모델을 동원하는 “사고 비용(thinking tax)” 때문에, 멀티 에이전트 애플리케이션을 실용적으로 쓰기엔 너무 비싸고 느린 경우가 많습니다.

이러한 한계를 극복하기 위해 NVIDIA는 Nemotron 3 Super를 공개했습니다. 새로 출시된 Super 모델은 총 파라미터 120B, 활성 파라미터 12B 규모로, 소프트웨어 개발이나 사이버 보안 트리아징처럼 복잡한 멀티 에이전트 애플리케이션에 가장 적합한 컴퓨트 효율성과 정확도를 함께 제공합니다. 이번 모델은 지난 12월 공개된 Nemotron 3 Nano의 뒤를 잇는 라인업입니다.

Super는 하이브리드 MoE(mixture of experts) 아키텍처로 “사고 비용” 문제를 정조준하는데요. 이전 세대 Nemotron Super 대비 처리량이 5배 이상 향상됐으며, 동시에 네이티브 1M 토큰 컨텍스트 윈도를 제공해 에이전트가 일관성 있고 정확도 높은 추론을 위한 장기 기억을 갖추도록 함으로써 “컨텍스트 폭발” 문제까지 해결합니다. 가중치·데이터셋·레시피가 모두 오픈되어 있어, 개발자는 자체 인프라 위에서 모델을 손쉽게 커스터마이징·최적화·배포할 수 있습니다.

Nemotron 3 Super가 다른 점

Nemotron 3 Super는 Nano를 단순히 키운 모델이 아닙니다. 고성능 추론 모델에서 흔히 마주치는 효율-정확도 간 트레이드오프를 일부 완화해 주는 아키텍처 혁신이 함께 도입되었습니다.

Latent MoE: 토큰을 전문가(expert)에 도달하기 전에 압축하므로, 동일한 추론 비용으로 4배 많은 전문가를 호출할 수 있습니다.
멀티 토큰 예측(MTP): 한 번의 포워드 패스에서 미래 토큰 여러 개를 동시에 예측합니다. 긴 시퀀스 생성 시간을 대폭 줄여 주고, 내장형 추측 디코딩(speculative decoding)도 가능하게 합니다.
하이브리드 Mamba-Transformer 백본: 시퀀스 효율을 살리는 Mamba 레이어와 정밀 추론을 담당하는 Transformer 레이어를 한 백본에 통합해, 메모리·연산 효율을 최대 4배 끌어올리면서도 더 높은 처리량을 제공합니다.
네이티브 NVFP4 사전 학습: NVIDIA Blackwell에 최적화되어, 메모리 요구사항은 크게 낮추면서 NVIDIA B200 추론 속도를 NVIDIA H100의 FP8 대비 4배까지 끌어올리고, 정확도도 함께 유지합니다.
다환경 강화 학습(RL): NVIDIA NeMo Gym과 NVIDIA NeMo RL을 활용해 21개 환경 구성에 걸쳐 사후 학습되었으며, 120만 회가 넘는 환경 롤아웃으로 RL 학습을 진행했습니다.

이러한 강점이 결합되어, Super는 장시간 가동되는 자율 에이전트에 특히 잘 어울리는 모델로 자리잡았습니다. OpenClaw 에이전트의 두뇌 역할을 LLM이 얼마나 잘 수행하는지 측정하는 새 벤치마크 PinchBench에서 Nemotron 3 Super는 전체 테스트 스위트 평균 85.6%를 기록하며, 동급 클래스의 오픈 모델 중 최고 점수를 받았습니다.

직접 사용해 보기

Nemotron 3 Super를 직접 다뤄 보고 싶다면, 아래 튜토리얼 영상을 참고해 보세요. build.nvidia.com에서 시작해 OpenCode까지 이어지는 사용 방법을 단계별로 안내합니다.

동영상 1. Nemotron 3 Super 튜토리얼 워크스루.

아키텍처 깊이 들여다보기

하이브리드 Mamba-Transformer MoE 백본

Super는 Nano와 같은 하이브리드 철학을 이어 가되, 근본적으로 다른 규모로 확장된 모델입니다. 백본은 세 종류의 레이어를 교차로 배치하는 구조를 따릅니다.

Mamba-2 레이어가 시퀀스 처리 대부분을 담당합니다. 상태 공간 모델(SSM)은 시퀀스 길이에 대해 선형 시간 복잡도를 가지므로, 1M 토큰 컨텍스트 윈도를 이론이 아닌 실제 사용 가능한 기능으로 만들 수 있죠. 에이전트가 코드베이스 전체나 긴 대화 히스토리, 또는 검색된 문서 더미를 두루 살피며 추론해야 할 때, Mamba 레이어 덕분에 메모리 사용량이 관리 가능한 범위 안에 머무를 수 있습니다.

Transformer 어텐션 레이어는 핵심 깊이마다 교차로 배치됩니다. 순수 SSM은 정밀한 연관 회상(associative recall) — 즉 긴 문맥 속에 묻혀 있는 하나의 특정 사실을 찾아내는 작업 — 에는 약한 면이 있습니다. 어텐션 레이어가 이 능력을 보존해 주므로, Super는 상충하는 정보가 가득한 “건초 더미” 한가운데에 “바늘”이 박혀 있어도 높은 충실도로 검색해 낼 수 있습니다.

MoE 레이어는 밀집 연산의 비용 없이 유효 파라미터 수를 키워 줍니다. 토큰마다 일부 전문가만 활성화되므로 지연 시간은 낮게, 처리량은 높게 유지되는데요. 다수의 에이전트가 공유 배포 환경에서 동시에 가동될 때 특히 중요한 특성입니다.

Latent MoE

기존 MoE 아키텍처는 모델의 전체 히든 차원에서 곧장 전문가로 토큰을 라우팅합니다. 모델 규모가 커질수록 이 라우팅 계층 자체가 병목이 되어, 연산 비용이 늘어나고 실제 배포할 수 있는 전문가 수도 제한됩니다.

Super는 Latent MoE를 도입해 이 문제를 풀어냅니다. 라우팅 결정을 내리기 전에 토큰 임베딩을 압축된 저랭크(low-rank) 잠재 공간으로 투영하고, 그 작은 차원 안에서 전문가 연산을 수행한 다음 결과를 다시 전체 모델 차원으로 되돌리는 방식이죠.

실제 환경에서 이 설계가 의미하는 바는 다음과 같습니다.

같은 비용으로 더 많은 전문가. 전문가에 도달하기 전에 토큰을 압축하기 때문에, Latent MoE는 단일 전문가를 운영하는 것과 정확히 동일한 연산 비용으로 4배 많은 전문가를 호출할 수 있게 해 줍니다.

더 세밀한 전문화. 사용할 수 있는 전문가 수가 늘어나는 만큼, 모델은 고도로 특화된 라우팅을 감당할 수 있습니다. 예를 들어 Python 구문과 SQL 로직에 각각 다른 전문가를 활성화하되 꼭 필요한 순간에만 호출하는 식이죠. 이런 세밀한 전문화는 도구 호출·코드 생성·데이터 분석·대화형 추론이 단 몇 턴 안에서 모두 일어나는 에이전틱 환경에서 특히 큰 가치를 발휘합니다.

표준 MoE와 Latent MoE 트랜스포머 아키텍처를 좌우로 비교한 다이어그램. — 그림 2. 표준 MoE와 Latent MoE 아키텍처를 좌우로 비교한 다이어그램.

멀티 토큰 예측(MTP)

표준 언어 모델은 한 번에 하나의 토큰만 예측하도록 학습됩니다. 본질적으로 근시안적인 학습 목표죠. Super는 MTP 방식으로 학습되어, 각 위치마다 특화된 예측 헤드가 미래 토큰 여러 개를 동시에 예측합니다.

이 접근에는 두 가지 분명한 장점이 있습니다.

학습 단계의 추론 능력 강화. 미래 토큰 여러 개를 함께 예측하다 보면 모델이 더 긴 범위의 구조와 논리적 의존성을 자연스럽게 내면화하게 됩니다. 그럴듯해 보이는 다음 단어를 추측하는 방식에서 벗어나, 일관된 시퀀스를 미리 그려 보는 식으로 학습이 진행되는 것이죠. 그 결과 각 단계가 앞 단계에서 논리적으로 이어져야 하는 사고 사슬(chain-of-thought) 작업에서 측정 가능한 성능 향상으로 이어집니다.

추론 시점의 내장형 추측 디코딩. 한 번의 포워드 패스에서 미래 토큰 여러 개를 함께 예측하므로, MTP는 긴 시퀀스 생성 시간을 크게 단축시킵니다. MTP 헤드가 만들어 낸 초안 예측을 병렬로 검증할 수 있어, 별도의 드래프트 모델 없이도 코드·도구 호출처럼 구조화된 생성 작업에서 최대 3배의 월클럭 속도 향상을 얻을 수 있습니다.

이 두 가지 이점은 동일한 설계 결정에서 비롯됩니다. 오프셋별로 독립된 예측 헤드를 학습시키는 아키텍처와 달리, Super는 모든 MTP 헤드에 걸쳐 가중치를 공유하는 설계를 택했습니다. 덕분에 파라미터 오버헤드를 최소로 유지하면서도 학습 안정성을 함께 끌어올릴 수 있었죠. 헤드들이 오프셋별 지름길로 갈라지지 않고, 일관된 연속 시퀀스에 합의하는 방향으로 학습되기 때문입니다. 같은 가중치 공유 덕분에 더 긴 드래프트 길이에서도 추측이 일관되게 유지되며, 이는 독립 학습된 헤드가 통상적으로 성능 저하를 보이는 지점이기도 합니다.

네이티브 NVFP4 사전 학습

대부분의 양자화 모델은 풀 정밀도로 학습된 뒤 압축되는 과정을 거치므로 정확도 손실이 따라붙기 마련입니다. Super는 다른 접근을 택했습니다. 사전 학습 중 부동소수점 곱셈-누산 연산의 대부분을 NVIDIA의 4비트 부동소수점 포맷인 NVFP4로 직접 수행한 것이죠. Blackwell에 최적화된 이 포맷은 FP8 대비 메모리 요구사항을 크게 줄이고 추론 속도도 끌어올리면서, 정확도까지 함께 유지합니다.

축소 정밀도에서 네이티브로 학습한다는 것은, 모델이 첫 번째 그래디언트 업데이트부터 4비트 산술 안에서 정확하도록 학습된다는 의미입니다. 결과적으로 메모리 풋프린트가 크게 줄어든 환경에서도 수학적으로 안정적이고 정확한 모델이 만들어집니다.

Nemotron 3 Super 학습 과정

Nemotron 3 Super는 세 단계의 순차적 학습을 거칩니다. 각 단계가 이전 단계 위에 쌓이는 구조죠. 사전 학습 단계에서 광범위한 세계 지식과 언어 이해를 대규모로 확보하고, 지도 파인튜닝으로 배포 환경에서 마주칠 작업 유형 전반에 맞춰 모델의 동작 방식을 다듬은 뒤, 강화 학습으로 다양한 에이전틱 환경에서 검증 가능한 결과 기준에 따라 행동을 한 번 더 정교화합니다.

사전 학습

Super는 NVIDIA Blackwell에 최적화된 4비트 부동소수점 포맷 NVFP4를 사용해 25조 토큰으로 사전 학습되었습니다. 풀 정밀도로 학습한 뒤 사후에 양자화하는 방식이 아니라, 첫 그래디언트 업데이트부터 축소 정밀도로 네이티브 학습되는 방식이죠. 즉 추론 시점뿐 아니라 사전 학습 전 과정에서 4비트 산술의 제약 안에서 정확도를 학습합니다. 사전 학습 코퍼스는 큐레이션된 고유 토큰 10조 개로 구성되며, 추론·코딩 강화를 위한 추가 컴퓨트를 포함해 전체 학습 동안 모델이 본 토큰은 총 25조 개에 달합니다.

지도 파인튜닝

강화 학습에 앞서 Super는 약 700만 개의 SFT 샘플로 지도 파인튜닝을 거칩니다. 이 샘플들은 추론·지시 추종·코딩·안전성·다단계 에이전트 작업을 아우르는 4,000만 개 규모의 사후 학습 코퍼스에서 선별된 것입니다. 이 단계가 만들어 내는 행동적 기반 위에서 이어지는 RL이 추가 미세 조정을 진행하게 되는데요. 모델은 작업 유형별로 올바른 응답의 형식과 구조를 먼저 익히게 되고, 이어지는 RL 단계는 원시 사전 학습 체크포인트에서 최적화를 시작하는 대신 안정적인 출발점에서 시작할 수 있게 됩니다.

다환경 강화 학습

실제 에이전트의 행동 양상에 Super를 정렬시키기 위해, RL 학습 환경을 구축·확장하기 위한 NVIDIA 오픈소스 라이브러리인 NeMo Gym 위에서 다양한 환경을 활용해 강화 학습으로 사후 학습을 진행했습니다. 이 환경들은 단발성 응답의 만족도만 평가하는 것이 아니라, 모델이 일련의 행동을 수행해 내는 능력 — 즉 올바른 도구 호출을 생성하고, 동작 가능한 코드를 작성하며, 검증 가능한 기준을 충족하는 다중 단계 계획을 만들어 내는 능력 — 을 평가합니다. 이렇게 누적된 궤적이 핵심 학습 데이터가 되어 NeMo RL 오픈 라이브러리 위에서 대규모 강화 학습을 돌리는 토대를 이룹니다.

이러한 궤적 기반 강화 덕분에 Super는 다단계 워크플로 위에서 안정적으로 동작하고, 추론 드리프트를 줄이며, 에이전틱 파이프라인에서 자주 등장하는 구조화된 작업을 한층 능숙하게 처리합니다.

Nemotron 3 Super 벤치마크

Nemotron 3 Super는 주요 에이전틱 벤치마크 전반에서 선도적인 정확도를 보여 주면서도 매우 높은 처리량을 동시에 유지합니다.

Nemotron 3 Super 120B를 GPT OSS 120B 및 Qwen3 122B와 정확도·처리량 지표 전반에서 비교한 막대 차트. — 그림 3. Nemotron 3 Super와 동급 오픈 모델들의 핵심 벤치마크 정확도를 비교한 차트.

“Super + Nano” 배포 패턴

Nemotron 3 Nano는 에이전틱 워크플로 안에서 타게팅된 단일 단계를 정확도 높게 실행하는 데 매우 좋은 선택입니다. 다만 멀티 에이전트 애플리케이션이 복잡한 다단계 활동까지 확장되면, 우수한 계획과 추론을 감당할 수 있는 고용량 모델이 필요해집니다. 가령 슬라이드 10장짜리 고품질 프레젠테이션을 만들기 위해, 서로 다른 종류의 도구들 사이에서 의사결정을 내려야 하는 컴퓨터 사용 에이전트를 떠올려 보면 됩니다.

Nemotron 3 Super는 바로 이런 자리에 가장 잘 어울리는 모델입니다. 예를 들어 소프트웨어 개발 시나리오에서는, 간단한 머지 리퀘스트는 Nemotron 3 Nano에 맡기고 코드베이스에 대한 깊은 이해가 필요한 복잡한 코딩 작업은 Nemotron 3 Super가 담당하는 식으로 역할을 나눌 수 있습니다. 더 전문성이 요구되는 코딩 작업에는 자체 보유 모델을 동원하는 구성도 가능합니다.

Super의 오픈 리소스로 직접 구축하기

Nemotron 3 Super는 가중치·데이터셋·레시피가 모두 오픈된 모델입니다. 덕분에 개발자는 자체 인프라 위에서 최대한의 프라이버시·보안을 유지하면서 모델을 손쉽게 커스터마이징·최적화·배포할 수 있습니다.

모델 가중치

Nemotron 3 Super의 전체 파라미터 체크포인트는 Hugging Face와 NVIDIA NIM을 통해 제공됩니다. NVIDIA Nemotron Open Model License는 기업이 데이터 통제권을 유지하면서 원하는 곳 어디에나 배포할 수 있는 유연성을 보장해 줍니다.

엔드 투 엔드 학습·평가 레시피

이번 공개에는 사전 학습부터 정렬(alignment)까지 전체 파이프라인을 다루는 Nemotron 3 Super의 학습·평가 레시피 일체가 포함됩니다. 덕분에 개발자는 Super의 학습을 직접 재현해 보거나, 도메인 특화 변형을 위해 레시피를 조정하거나, 자체 하이브리드 아키텍처 연구의 출발점으로 활용할 수 있습니다.

배포 쿡북

주요 추론 엔진별 즉시 사용 가능한 쿡북도 함께 준비했습니다. 각 쿡북에는 구성 템플릿·성능 튜닝 가이드·참조 스크립트가 들어 있습니다.

vLLM Cookbook: Super를 위한 고처리량 연속 배칭과 스트리밍.
SGLang Cookbook: 멀티 에이전트 도구 호출 워크로드에 최적화된 빠르고 가벼운 추론.
NVIDIA TensorRT LLM Cookbook: 프로덕션 등급 저지연 배포를 위해 Latent MoE 커널까지 풀 최적화된 TensorRT LLM 엔진.

파인튜닝 쿡북

도메인 맞춤형 파인튜닝(LoRA/SFT)이나 에이전틱 추론 능력 강화(GRPO/DAPO)를 원하신다면, 아래 Nemotron 3 Super 커스터마이징 쿡북을 살펴보세요.

NVIDIA NeMo Megatron-Bridge를 사용한 Nemotron 3 Super LoRA SFT
NVIDIA NeMo Automodel을 사용한 Nemotron 3 Super LoRA SFT
NeMo RL을 사용한 Nemotron 3 Super GRPO/DAPO

오픈 데이터셋

Nemotron 3 Super는 사전 학습·사후 학습·인터랙티브 강화 학습을 아우르는 완전 오픈 엔드 투 엔드 데이터 파이프라인 위에서 구축되어, 에이전틱 AI를 위한 재현 가능한 빌딩 블록을 개발자에게 그대로 제공합니다.

사전 학습 코퍼스: 큐레이션된 토큰 10조 개를 바탕으로 총 25조 토큰을 학습했고, 여기에 추론에 집중한 토큰 100억 개와 코딩 문제 1,500만 개가 추가되었습니다. 전 구간에서 적극적인 중복 제거와 품질 필터링을 거쳐 신호 대 잡음 비율을 끌어올렸습니다.
사후 학습 데이터셋: 추론·지시 추종·코딩·안전성·다단계 에이전트 작업을 아우르는 신규 지도·정렬 샘플 4,000만 개로 구성되어 있으며, SFT·선호 데이터·RL 궤적 전반에 걸쳐 활용됩니다(이 중 약 700만 개가 SFT에 직접 사용됨).
RL 태스크·환경: 21개 환경 구성과 37개 데이터셋(이 중 약 10개가 공개됨)에 걸친 인터랙티브 RL을 제공하며, 소프트웨어 엔지니어 스타일의 에이전트 학습이나 도구 보강 검색·플래닝 같은 작업까지 포함합니다. 정적인 텍스트를 넘어 동적이고 검증 가능한 실행 워크플로 영역으로 RL을 확장했고, 학습 중 약 120만 회의 환경 롤아웃을 생성했습니다.

오픈 학습·평가 인프라

NVIDIA는 개발 기법과 도구도 함께 공개해, 연구자와 기업이 Nemotron 3 Super를 커스터마이징하거나 자체 추론 모델을 구축할 수 있는 유연성을 제공합니다. 모든 레시피는 Nemotron GitHub 저장소, NeMo Gym, NeMo RL, NVIDIA NeMo Data Designer, NVIDIA NeMo Curator, NVIDIA NeMo Evaluator와 통합되어, 데이터부터 배포까지 이어지는 완결되고 재현 가능한 파이프라인을 구성합니다.

모든 Nemotron 모델은 공개된 평가 레시피를 포함한 오픈 평가 방식으로 공개되며, 누구나 Nemotron 3 Super의 전체 평가 파이프라인을 다시 실행하고 들여다볼 수 있도록 했습니다.

지금 시작해 보세요

Nemotron 3 Super는 이미 사용 가능한 상태입니다. 주요 추론 플랫폼에서 제공되고 NVIDIA NIM으로 패키징되어, 워크스테이션부터 클라우드까지 어디에서나 실행할 수 있습니다. Perplexity의 Pro 구독이나 API로 시험해 볼 수도 있고 OpenRouter, build.nvidia.com에서도 바로 접근 가능합니다.

가중치는 Hugging Face에서 내려받을 수 있고, NVIDIA NIM으로 최적화된 인스턴스를 띄우거나 Unsloth로 파인튜닝을 진행할 수도 있습니다. 쿡북을 참고하면 몇 분 만에 실행해 볼 수 있습니다.

Super는 Baseten, Cloudflare, Coreweave, DeepInfra, Fireworks AI, FriendliAI, Google Cloud, Inference.net, Lightning AI, Modal, Nebius, Together AI에서도 만나 볼 수 있습니다.

OpenCode·OpenHands·OpenClaw 같은 플랫폼에서 시작하는 방법은 GitHub 저장소의 시작 가이드에서 확인할 수 있습니다.

전체 기술 세부 사항은 Nemotron 3 Super 기술 보고서에서 확인할 수 있습니다.

NVIDIA Nemotron의 최신 소식을 받아 보려면 NVIDIA news를 구독하고, LinkedIn, X, Discord, YouTube에서 NVIDIA AI를 팔로우해 보세요. 시작에 필요한 자료는 Nemotron 개발자 페이지에서 확인할 수 있고, Hugging Face에서 오픈 Nemotron 모델과 데이터셋을 살펴보거나 build.nvidia.com에서 Blueprints도 함께 탐색해 보세요. Nemotron 라이브 스트림, 튜토리얼, 그리고 NVIDIA 포럼과 Discord의 개발자 커뮤니티와도 함께해 보세요.

NVIDIA Nemotron 3 Super 공개 — 에이전틱 추론을 위한 오픈 하이브리드 Mamba-Transformer MoE

Nemotron 3 Super가 다른 점

직접 사용해 보기