하드웨어, 소프트웨어, 모델의 공동 설계는 최고의 AI 팩토리의 처리량을 극대화하고 토큰 비용을 낮추는 핵심 요소입니다. 능 측정은 단순히 칩의 이론적 최대 사양을 확인하는 차원을 훨씬 넘어섭니다. 실제 환경에서의 토큰 출력량을 파악하기 위해서는 엄격한 AI 추론 성능 벤치마크가 필수적이며, 이는 곧 AI 팩토리의 수익으로 직결됩니다.
업계 표준 벤치마크인 MLPerf Inference v6.0의 최신 결과에 따르면, NVIDIA Blackwell Ultra GPU 기반 시스템이 가장 광범위한 모델 아키텍처와 사용 사례에서 최고의 처리량을 기록했습니다. 이로써 2018년부터 누적된 NVIDIA의 MLPerf 학습 및 추론 부문 우승 기록은 총 291회에 달하며, 이는 다른 모든 참여사의 기록을 합친 것보다 9배나 많은 수치입니다.
이번 라운드에서는 총 14개의 파트너사가 대거 참여하며 NVIDIA 파트너 생태계의 압도적인 저력을 보여주었습니다. 이는 단일 플랫폼으로서는 역대 최대 규모의 참여입니다. ASUS, Cisco, CoreWeave, Dell Technologies, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb Technology, Quanta Cloud Technology (QCT), Red Hat, Supermicro, 그리고 Lambda는 NVIDIA 플랫폼을 통해 다시 한번 탁월한 성능을 입증해 냈습니다.

본 게시물에서는 최신 벤치마크 업데이트 내용과 NVIDIA 플랫폼이 달성한 업계 최고 수준의 성능, 그리고 이를 가능케 한 풀스택 엔지니어링에 대해 자세히 살펴봅니다.
새로운 벤치마크, 새로운 성능 기록
MLPerf Inference 벤치마크 제품군은 업계 커뮤니티가 중시하는 모델, 양식(Modalities), 사용 사례 및 배포 시나리오를 반영하기 위해 정기적으로 업데이트됩니다. 이번 라운드에서 새롭게 추가된 모든 모델과 시나리오에 대해 결과를 제출한 플랫폼은 NVIDIA가 유일하며, 모든 항목에서 최고의 성능을 기록했습니다.
이번 MLPerf Inference 라운드에는 다음과 같은 새로운 테스트들이 추가되었습니다:
- DeepSeek-R1 Interactive: MLPerf Inference v5.1에서 추가된 희소 혼합 전문가(MoE) 아키텍처 기반의 DeepSeek-R1 추론형 LLM에 이어, MLCommons는 새로운 Interactive 시나리오를 추가했습니다. 이는 기존 Server 시나리오 대비 최소 토큰 생성 속도는 5배 빠르고, 첫 토큰 생성 시간(TTFT)은 1.3배 단축된 기준을 적용하여 높은 상호작용이 필요한 배포 환경을 반영합니다.
- Qwen3-VL-235B-A22B: 총 2,350억 개의 파라미터를 가진 시각-언어 모델(VLM)입니다. MLPerf Inference 스위트에 도입된 최초의 멀티모달 모델로, Offline과 Server 두 가지 시나리오에서 테스트되었습니다.
- GPT-OSS-120B: OpenAI가 개발한 1,200억 개의 파라미터를 가진 MoE 기반 추론형 LLM입니다. 이 벤치마크는 Offline, Server, Interactive 세 가지 시나리오를 포함합니다.
- WAN-2.2-T2V-A14B: 140억 개의 파라미터를 가진 텍스트-비디오(Text-to-Video) 생성형 AI 모델입니다. 단일 비디오 생성 요청 처리 대기 시간을 측정하는 Single-stream과 배치 처리 환경에서의 초당 샘플 처리 수를 측정하는 Offline 시나리오가 테스트되었습니다.
- DLRMv3: 기존 DLRM-DCNv2 테스트를 대체하는 생성형 추천 시스템 벤치마크입니다. 트랜스포머 기반 아키텍처를 사용하여 이전 벤치마크보다 모델 크기와 연산 집약도가 증가했으며, Offline과 Server 시나리오를 테스트합니다.
| 벤치마크 | DeepSeek-R1 | GPT-OSS-120B | Qwen3-VL | Wan 2.2 | DLRMv3 |
|---|---|---|---|---|---|
| 오프라인 | 2,494,310 토큰/초* | 1,046,150 토큰/초 | 79 샘플/초 | 0.059 샘플/초 | 104,637 샘플/초 |
| 서버 | 1,555,110 토큰/초* | 1,096,770 토큰/초 | 68 쿼리/초 | 21초**(단일 스트림) | 99,997 쿼리/초 |
| Interactive | 250,634 토큰/초 | 677,199 토큰/초 | *** | *** | *** |
*MLPerf Inference v6.0에서 새로 추가된 시나리오가 아닙니다
**Wan 2.2는 서버 시나리오 대신 단일 스트림 시나리오를 사용하며 요청 처리의 종단간 지연 시간을 측정합니다. 낮을수록 좋습니다.
***MLPerf Inference v6.0에서 테스트되지 않았습니다
MLPerf Inference v6.0, Closed Division. 결과는 2026년 4월 1일 www.mlcommons.org에서 가져왔습니다. NVIDIA 플랫폼 결과 항목: 6.0-0039, 6.0-0073, 6.0-0075, 6.0-0076, 6.0-0078, 6.0-0081, 6.0-0094. MLPerf 명칭과 로고는 미국 및 기타 국가에서 MLCommons Association의 등록 및 미등록 상표입니다. 모든 권리 보유. 무단 사용 엄금. 자세한 내용은 www.mlcommons.org를 참조하세요.

NVIDIA TensorRT-LLM 소프트웨어 업데이트로 동일한 Blackwell Ultra GPU에서 최대 2.7배 성능 향상 실현
NVIDIA는 기존 플랫폼에서 제공되는 토큰 처리량을 높이기 위해 소프트웨어 스택의 성능을 지속적으로 최적화하고 있습니다. 이를 통해 토큰 생산 비용을 절감할 수 있으며, AI 팩토리 운영자는 동일한 인프라 점유 면적 내에서 더 많은 사용자에게 서비스를 제공하고 더 높은 수익을 창출할 수 있습니다.
또한, 향상된 성능은 향후 등장할 차세대 AI 모델을 구동하거나, 더 높은 토큰 생성 속도 및 긴 컨텍스트(Long Context)가 요구되는 까다로운 시나리오에서 기존 모델을 서비스할 수 있는 여유 성능(Headroom)을 제공합니다. 이러한 지속적인 개선 덕분에 수년 전 출시된 NVIDIA GPU도 클라우드 환경에서 높은 가동률을 유지하며 현역으로 활발히 사용될 수 있습니다.
이번 라운드에서 작년에 출시된 NVIDIA GB300 NVL72는 DeepSeek-R1 벤치마크의 서버 시나리오에서 불과 6개월 전의 첫 제출 당시보다 최대 2.7배 높은 토큰 처리량을 기록했습니다. 이는 동일한 GB300 NVL72 기반 인프라와 전력 소모량 내에서 2.7배 더 많은 토큰을 생성할 수 있음을 의미하며, 결과적으로 토큰당 제조 원가를 60% 이상 절감합니다. NVIDIA의 파트너사인 Nebius가 달성한 이러한 성능 향상은 NVIDIA 플랫폼의 핵심 장점을 잘 보여줍니다. 즉, 고객과 파트너가 NVIDIA 소프트웨어 스택 위에서 독자적으로 최적화하고 혁신할 수 있는 개방적이고 확장된 생태계를 갖추고 있다는 점입니다.
1MLPerf Inference v5.1 및 v6.0, Closed Division(폐쇄형 부문). 결과 데이터는 2026년 4월 1일 www.mlcommons.org에서 추출되었습니다. NVIDIA 플랫폼의 결과는 다음 항목을 참조했습니다: 5.1-0072, 6.0-0081. MLPerf 명칭과 로고는 미국 및 기타 국가에서 MLCommons Association의 등록 또는 미등록 상표입니다. 모든 권리는 해당 기관에 있으며, 무단 사용을 엄격히 금지합니다. 자세한 정보는 www.mlcommons.org를 확인하시기 바랍니다.
DeepSeek-R1의 Server 및 Offline 시나리오 성능 향상은 다음과 같은 여러 소프트웨어 개선 사항을 통해 이루어졌습니다:
- 더 빠른 커널(Kernels): 고성능 커널의 조합과 커널 퓨전(Kernel Fusion)을 통한 커널 수 최적화를 포함합니다.
- 최적화된 Attention 데이터 병렬화: 서로 다른 랭크(Ranks) 간의 컨텍스트 요청 균형을 개선하여 엔드-투-엔드(End-to-End) 성능을 대폭 향상시켰습니다.
새롭게 추가된 고난도의 DeepSeek-R1 Interactive 시나리오를 지원하기 위해 오픈 소스인 NVIDIA TensorRT-LLM 추론 서버 소프트웨어와 NVIDIA Dynamo 분산 추론 프레임워크의 최신 기능들이 사용되었습니다. 주요 기능은 다음과 같습니다:
- 분산 서비스(Disaggregated serving): Dynamo의 이 기능은 추론의 각 단계(Prefill 및 Decode)를 분리하고 개별적으로 최적화하여 전체 처리량을 극대화합니다.
- Wide Expert Parallel (WideEP): 상호작용이 중요한 시나리오에서 MoE 모델의 실행 시간은 전문가 가중치(Expert weight)를 로드하는 속도에 따라 제한됩니다. 전문가를 NVL72 노드 내의 여러 GPU에 분산(Sharding) 배치함으로써 이 병목 현상을 줄이고 전체 성능을 개선했습니다.
- Multi-Token Prediction (MTP): 높은 상호작용 수준에서는 배치 사이즈가 작아져 성능이 가중치의 메모리 로드 속도에 좌우되므로 연산 성능이 저하될 수 있습니다. 이때 남는 연산 자원을 활용해 추가 토큰(이 구현에서는 최대 3개)을 병렬로 예측 및 검증함으로써 높은 상호작용 환경에서의 처리량을 높였습니다.
- KV-aware 라우팅: Dynamo의 이 기능은 각 워커(Worker)의 연산 비용을 평가하여 추론 요청을 효율적으로 분산합니다.
NVIDIA는 작년 MLPerf Inference에 이 벤치마크가 처음 등장했을 때 DeepSeek-R1 결과를 제출한 최초이자 유일한 플랫폼이었습니다. 이번 라운드에서 NVIDIA는 기존 DeepSeek-R1 시나리오의 성능을 높였을 뿐만 아니라, 새롭게 추가된 Interactive 시나리오에서도 다시 한번 유일하게 결과를 제출했습니다.
또한, 출시된 지 거의 2년이 지난 초대형 고밀도 LLM인 Llama 3.1 405B에서도 GB300 NVL72의 성능은 Server 시나리오 기준 1.5배 향상되었습니다.
| 벤치마크 | GB300 NVL72 v5.1 | GB300 NVL72 v6.0 | 성능 향상 |
|---|---|---|---|
| DeepSeek-R1 (서버) | 2,907 토큰/초/GPU | 8,064 토큰/초/GPU | 2.77배 |
| DeepSeek-R1 (오프라인) | 5,842 토큰/초/GPU | 9,821 토큰/초/GPU | 1.68배 |
| Llama 3.1 405B (서버) | 170 토큰/초/GPU | 259 토큰/초/GPU | 1.52배 |
| Llama 3.1 405B (오프라인) | 224 토큰/초/GPU | 271 토큰/초/GPU | 1.21배 |
MLPerf Inference v5.1 및 v6.0, Closed Division. 결과는 2026년 4월 1일 www.mlcommons.org에서 가져왔습니다. NVIDIA 플랫폼 결과 항목: 5.1-0072, 6.0-0017, 6.0-0078, 6.0-0082. 칩당 성능은 총 처리량을 보고된 칩 수로 나눈 값이며, MLPerf Inference의 주요 지표가 아닙니다. MLPerf 명칭과 로고는 미국 및 기타 국가에서 MLCommons Association의 등록 및 미등록 상표입니다. 모든 권리 보유. 무단 사용 엄금. 자세한 내용은 www.mlcommons.org를 참조하세요.
또한, 새롭게 추가된 멀티모달, 비디오 생성 및 추천 벤치마크에 대한 NVIDIA의 제출 결과는 NVIDIA 플랫폼에 최적화된 오픈 소스 소프트웨어 프레임워크를 통해 달성되었습니다. Qwen3-VL 시각-언어 모델 제출에는 vLLM 오픈 소스 프레임워크가 사용되었으며, 이는 커뮤니티가 NVIDIA Blackwell Ultra와 같은 최신 GPU에서 이미지 집약적인 추론 워크로드를 가속화하기 위해 얼마나 빠르게 고급 멀티모달 최적화 기능을 구축하고 있는지 보여줍니다. WAN-2.2 텍스트-비디오 제출에는 NVIDIA GPU에서 디퓨전 기반 비디오 생성 파이프라인을 가속화하는 TensorRT-LLM VisualGen이 사용되었습니다.
DLRMv3의 경우, 고성능 트랜스포머 기반 추천 추론을 위한 NVIDIA recsys-example과 GPU 가속 임베딩 테이블 조회를 위한 NV Embedding Cache라는 두 가지 오픈 소스 프로젝트를 기반으로 결과가 산출되었습니다. 두 프로젝트 모두 더 높은 성능을 요구하는 이번 생성형 추천 벤치마크에서 기록적인 처리량을 달성하는 데 핵심적인 역할을 했습니다.
이러한 결과가 증명하듯, NVIDIA는 광범위하고 지속적인 엔지니어링을 통해 기존 하드웨어상에서 기존 모델의 성능을 끊임없이 향상시키고 있습니다. 동시에 NVIDIA는 모델 제작사 및 오픈 소스 추론 프레임워크와 긴밀히 협력하여 최신 모델이 출시되는 당일에 NVIDIA 플랫폼에서 즉시 구동될 수 있도록 보장하고 있습니다.
NVIDIA Quantum-X800 InfiniBand 플랫폼 기반 대규모 추론으로 초당 수백만 토큰 달성
NVIDIA는 NVIDIA Quantum-X800 InfiniBand 스케일아웃 네트워킹으로 연결된 4대의 GB300 NVL72 시스템을 사용하여 오프라인 및 서버 시나리오의 DeepSeek-R1 모델에서 새로운 처리량 기록을 수립했습니다.
| DeepSeek-R1 | 4x GB300 NVL72 (토큰/초) |
|---|---|
| 오프라인 | 2,494,310 |
| 서버 | 1,555,110 |
MLPerf Inference v6.0, Closed Division. 결과는 2026년 4월 1일 www.mlcommons.org에서 가져왔습니다. NVIDIA 플랫폼 결과 항목: 6.0-0076. MLPerf 명칭과 로고는 미국 및 기타 국가에서 MLCommons Association의 등록 및 미등록 상표입니다. 모든 권리 보유. 무단 사용 엄금. 자세한 내용은 www.mlcommons.org를 참조하세요.
288개의 Blackwell Ultra GPU를 탑재한 이번 제출은 MLPerf Inference 벤치마크 역사상 가장 큰 규모였으며, 초당 수백만 토큰을 처리하는 새로운 시스템 수준 처리량 기록을 세웠습니다.
MLPerf Endpoints 전망
실질적인 추론 처리량을 구현하기 위해서는 수많은 칩, 시스템 아키텍처, 데이터 센터 설계, 그리고 소프트웨어 전반에 걸친 극한의 통합 설계(Extreme co-design)가 필요합니다. 최신 MLPerf Inference v6.0 결과는 NVIDIA가 업계 표준 벤치마크를 통해 거대 LLM부터 고급 시각-언어 모델, 생성형 추천 시스템 등에 이르기까지 가장 광범위한 워크로드에서 타의 추종을 불허하는 추론 처리량을 제공하고 있음을 보여줍니다.
AI 추론 워크로드는 모델 크기가 커지고 컨텍스트 길이가 길어짐에 따라 계속해서 빠르게 진화하고 있습니다. 특히 에이전틱 AI(Agentic AI)가 더욱 보편화되면서, 초고속 토큰 생성 속도를 요구하는 프리미엄 사용 사례들이 새롭게 등장하고 있습니다.
NVIDIA는 MLCommons 컨소시엄의 일원으로서 MLPerf Endpoints 벤치마크의 정의를 주도하기 위해 노력해 왔습니다. MLPerf Endpoints는 칩 수준의 벤치마크만으로는 드러낼 수 없는 핵심 성능 지표들을 포착하여, 실제 API 트래픽 하에서 배포된 서비스들이 어떻게 작동하는지에 대한 엄격하고 검증 가능한 청사진을 커뮤니티에 제공할 것입니다. 동시에 MLPerf 벤치마크의 특징인 엄격함과 결과의 무결성 또한 유지할 것입니다.
학습, 추론 및 고성능 컴퓨팅(HPC) 전반에 걸친 NVIDIA 플랫폼의 최신 성능을 더 자세히 알아보시려면, 당사의 딥러닝 제품 성능 페이지를 확인해 주시기 바랍니다.
감사의 말
NVIDIA의 MLPerf Inference v6.0 결과는 사내의 수많은 유능한 엔지니어들이 쏟은 노력의 결실입니다. 이번 성과가 가능하도록 기여한 다음 개인들의 공로에 감사를 표합니다:
Vedaanta Agarwalla, Tomar Bar-on, Nitin Sai Bommi, John Angel Calderon Espinoza, Bin Chai, Viraat Chandra, Alice Cheng, Jerry Chen, Xiaoming Chen, Jesus Corbal San Adrian, Ashutosh Dhar, Kefeng Duan, Yubo Gao, Anerudhan Gopal, Wookje Han, Max Hu, Kyle Huang, Kris Hung, Rashid Kaleem, Khubaib Khubaib, Zihao Kong, Tin-Yin Lai, Tao Li, Forrest Lin, Wanqian Li, Alex Liu, Mingyuan Ma, Baorun Mu, Jintao Peng, Yuxian Qiu, Junyi Qiu, Xiaowei Shi, Qidong Su, Olivia Stoner, Jacob Subag, Jiayu Sun, Tong Tong, Harshil Vagadia, Shobhit Verma, Shang Wang, June Yang, Tailing Yuan, Ben Zhang, Zhanda Zhu, 그리고 이러한 결과가 나올 수 있도록 힘써준 NVIDIA 전역의 수많은 동료 여러분께 감사의 마음을 전합니다.