AI Platforms / Deployment

획기적인 추론 정확도를 제공하는 NVIDIA Llama Nemotron Ultra 오픈 모델

Reading Time: 5 minutes

AI는 이제 텍스트나 이미지 생성 수준을 넘어, 정교한 추론과 문제 해결, 실제 비즈니스 환경에 유연하게 적용될 수 있는 기술로 발전하고 있습니다. 금융, 고객 서비스, 의료 등 다양한 분야에서 실질적인 가치를 창출하고 있죠.

NVIDIA가 새롭게 공개한 Llama Nemotron Ultra 추론 모델은 이제 사용 가능합니다. 이 모델은 오픈소스 모델 중에서도 지능과 코딩 관련 주요 벤치마크에서 최고 수준의 정확도를 기록했고, 연산 효율성도 크게 개선됐습니다. Hugging Face에서 모델과 가중치, 학습 데이터를 모두 제공하고 있어, 연구 보조 도구, 코딩 보조, 자동화된 워크플로우 등 다양한 AI 활용 사례에 즉시 적용할 수 있습니다.

고급 과학 코딩 및 수학 벤치마크에서 탁월한 성능을 발휘하는 NVIDIA Llama Nemotron Ultra

Llama Nemotron Ultra는 과학적 추론, 수학, 코딩 분야의 벤치마크에서 AI의 가능성을 새롭게 정의하고 있습니다. 복잡한 추론, 사람과의 자연스러운 대화, RAG(검색 기반 생성), 툴 활용에 특화되도록 후속 학습이 이뤄졌고, 지식 보조, 코파일럿, 자동화된 업무 프로세스 등 실제 기업 환경에 필요한 깊이와 유연성을 갖춘 모델입니다.

이 모델은 Meta Llama 3.1을 기반으로 상용 및 합성 데이터를 활용해 고급 학습 기법으로 정교하게 다듬어졌습니다. 특히 에이전트 중심의 워크플로우에 최적화되어 있어, 강력한 추론 능력과 함께 비용 효율적인 고성능 AI 경험을 제공합니다. NVIDIA는 추론 특화 모델 개발을 확산하기 위해, 후속 학습에 사용된 고품질 데이터셋 두 개를 오픈소스로 공개했습니다.

이 데이터셋은 고성능이면서도 비용 효율적인 모델을 빠르게 구축할 수 있는 기반을 커뮤니티에 제공합니다.실제로 이 데이터를 활용한 NVIDIA 팀은 최근 @KaggleAI 수학 올림피아드에서 경쟁력 있는 추론 벤치마크 부문 1위를 차지하며 그 효과를 입증했습니다. 해당 데이터, 기술, 통찰은 Llama Nemotron Ultra에도 그대로 적용됐으며, 이어지는 섹션에서는 이 세 가지 주요 벤치마크에 대해 자세히 살펴봅니다.

GPQA 다이아몬드 벤치마크

도표 1, 2, 3에서 확인할 수 있듯, Llama Nemotron Ultra 추론 모델은 과학적 추론 벤치마크에서 다른 오픈소스 모델들을 압도하는 성능을 보여줍니다. 이 벤치마크는 GPQA Diamond로, 생물학, 물리학, 화학 전반에 걸쳐 박사급 전문가들이 정교하게 설계한 198개의 문항으로 구성되어 있습니다.

이러한 대학원 수준의 문제들은 단순 암기나 표면적인 추론으로는 해결할 수 없으며, 다단계 추론과 깊이 있는 이해력을 요구합니다. 실제 박사 학위 소지자들도 이 고난도 문제 세트에서 평균 약 65%의 정확도를 보이는 반면, Llama Nemotron Ultra는 무려 76%의 정확도를 기록하며 과학적 추론 분야에서 오픈 모델 중 최고 성능을 입증했습니다. 이 결과는 Artificial AnalysisVellum 리더보드에서도 확인할 수 있습니다.

그림 1. 과학적 추론 평가를 위한 인공 분석 – GPQA 벤치마크에서 주요 오픈 가중치 모델의 정확도 점수
그림 2. 과학적 추론을 평가하기 위한 인위적 분석 – GPQA 벤치마크에서 주요 모델의 정확도 점수
그림 3. 과학적 추론을 평가하기 위한 Vellum – GPQA 벤치마크에서 주요 모델의 정확도 점수

LiveCodeBench 벤치마크

도표 4, 5, 6에서 볼 수 있듯, Llama Nemotron Ultra는 고급 과학 벤치마크에서 뛰어난 성능을 보인 것에 더해, 실제 코딩 역량을 평가하는 강력한 벤치마크인 LiveCodeBench에서도 눈에 띄는 성과를 기록했습니다.

LiveCodeBench는 코드 생성, 디버깅, 자동 수정, 테스트 결과 예측, 실행 등 실질적인 코딩 작업 전반을 다루는 폭넓은 평가 지표로 구성되어 있으며, 문제마다 날짜가 명시되어 있어 학습 데이터와 겹치지 않는 공정한 평가가 가능합니다.

이 벤치마크는 단순한 코드 생성이 아니라 실제 문제 해결 능력을 기준으로 평가하기 때문에, 모델의 일반화 성능을 보다 정확하게 파악할 수 있습니다. 해당 결과는 Artificial AnalysisGitHub – LiveCodeBench 리더보드에서 확인하실 수 있습니다.

그림 4. 코딩 역량을 평가하기 위한 Artificial Analysis – LiveCodeBench 벤치마크에서 주요 오픈 가중치 모델의 정확도 점수
그림 5. 코딩 역량 평가를 위한 Artificial Analysis – LiveCodeBench 벤치마크에서 주요 모델의 정확도 점수

AIME 벤치마크

Llama Nemotron Ultra는 수학적 추론 능력 평가에 자주 활용되는 AIME 벤치마크에서도 다른 오픈소스 모델을 능가하는 성능을 보였습니다.
실시간 LLM 리더보드도 함께 확인해보세요.

그림 6. 수학 능력을 평가하기 위한 Vellum – AIME 벤치마크에서 주요 모델의 정확도 점수

오픈 데이터셋 및 도구

Llama Nemotron의 가장 중요한 기여 중 하나는 바로 ‘오픈 디자인 철학’입니다. NVIDIA는 모델 자체뿐 아니라, 이 모델의 추론 성능을 끌어올린 핵심 데이터셋 두 개도 함께 공개했으며, 현재 Hugging Face 데이터셋 상위권에 오를 만큼 큰 주목을 받고 있습니다.

OpenCodeReasoning 데이터셋은 대표적인 경쟁 프로그래밍 플랫폼에서 수집된 2만8천 개의 고유 질문을 기반으로, 73만 개 이상의 Python 예제를 포함하고 있습니다. 지도 학습(SFT)을 위해 설계된 이 데이터셋은 기업 개발자들이 고도화된 추론 능력을 자신들의 모델에 적용할 수 있도록 도와줍니다. OpenCodeReasoning을 활용하면 AI 시스템의 문제 해결 역량을 강화해, 보다 견고하고 지능적인 코딩 솔루션을 구축할 수 있습니다.

Llama-Nemotron-Post-Training 데이터셋은 Llama, Nemotron 시리즈, Qwen 시리즈, DeepSeek-R1 등 공개된 오픈 모델을 활용해 합성한 데이터셋입니다. 수학, 코딩, 일반 추론, 지시 따르기 등 핵심 추론 과제를 중심으로 성능을 높이도록 설계되었으며, 복잡한 다단계 지시를 더 잘 이해하고 처리할 수 있는 AI 모델을 만드는 데 매우 유용합니다.

이처럼 NVIDIA는 두 데이터셋을 Hugging Face에 무료로 공개함으로써, 추론 중심 AI 모델의 학습을 누구나 접근할 수 있도록 했습니다. 이제 스타트업, 연구기관, 기업 모두 NVIDIA 내부 팀이 사용한 동일한 리소스를 활용해, 자율적으로 추론하고 계획하며 행동하는 ‘에이전틱 AI‘의 확산을 앞당길 수 있게 되었습니다.

엔터프라이즈급 기능: 속도, 정확성, 유연성

Llama Nemotron Ultra는 상업적 활용이 가능한 모델로, 다양한 에이전트형 AI 사례에 바로 적용할 수 있습니다. 예를 들어 코딩 보조 도구, 고객 응대 챗봇, 자율 연구 에이전트, 업무 지향형 어시스턴트 등에서 활용할 수 있죠. 과학적 추론과 코딩 분야 벤치마크에서 입증된 강력한 성능 덕분에, 높은 정확성과 유연성, 복잡한 문제 해결 역량이 요구되는 실제 환경에 적합한 기반 모델로 자리매김하고 있습니다.

Llama Nemotron Ultra는 오픈소스 추론 모델 중에서도 최고 수준의 정확도와 탁월한 처리량(throughput)을 동시에 제공합니다. 이 처리 효율성은 곧 운영 비용 절감으로 이어지며, 실제 비즈니스에서 큰 이점을 줍니다. 또한 Neural Architecture Search(NAS) 기법을 활용해 메모리 사용량을 크게 줄이면서도 성능은 그대로 유지했기 때문에, 데이터센터 환경에서도 더 적은 GPU로 더 큰 작업량을 처리할 수 있습니다. 덕분에 기업은 인프라 효율을 극대화하면서 고성능 AI 서비스를 안정적으로 운영할 수 있습니다.

그림 7. Llama Nemotron Ultra는 뛰어난 정확도와 놀라운 처리량을 모두 제공합니다.

이후 Llama Nemotron Ultra는 감독 학습 기반의 파인튜닝과 강화 학습(RL)을 포함한 정교한 후속 학습 과정을 거치며, 추론과 비추론 과제 모두에 탁월한 성능을 발휘할 수 있도록 역량이 강화되었습니다. 특히 이 모델은 ‘추론 기능 On/Off’를 지원해, 필요한 상황에서만 기능을 활성화할 수 있으므로 단순 작업이나 비에이전트형 업무에서는 리소스를 효율적으로 사용할 수 있습니다.

시작하기

NVIDIA는 Llama Nemotron Ultra를 고처리량·저지연 추론을 위한 NVIDIA NIM 추론 마이크로서비스로 패키징했습니다. NVIDIA NIM은 업계 표준 API를 기반으로 온프레미스 환경은 물론 클라우드에서도 손쉽고 확장성 있는 AI 추론을 제공합니다.

관련 리소스

Discuss (0)

Tags