SemiAnalysis가 최근 발표한 InferenceMAX™ v1은 추론 하드웨어 성능을 평가하기 위한 포괄적인 방법론을 제공하는 새로운 오픈 소스 이니셔티브입니다. 공개된 결과는 NVIDIA GPU가 모든 워크로드에서 가장 높은 추론 성능을 제공한다는 것을 보여줍니다.
NVIDIA Blackwell은 Hopper 세대 대비 15배의 성능 향상을 입증하며, 15배의 수익 창출 기회를 열었습니다 (그림 1). 이러한 업계 최고의 성능과 수익성은 NVFP4 저정밀도 포맷의 네이티브 지원, 5세대 NVIDIA NVLink 및 NVLink 스위치, 그리고 NVIDIA TensorRT-LLM, 그리고 NVIDIA Dynamo 추론 프레임워크를 포함하는 고도의 하드웨어-소프트웨어 공동 설계 덕분입니다.
이제 InferenceMAX v1이 오픈 소스로 공개됨에 따라, AI 커뮤니티는 NVIDIA의 업계 최고 성능을 직접 재현할 수 있게 되었습니다. 이에 보다 다양한 고객, 파트너, 그리고 더 넓은 생태계가 이 레시피를 사용하여 다양한 AI 추론 시나리오에서 NVIDIA Blackwell의 다재다능함과 성능 리더십을 검증해 볼 수 있게 되었습니다.
SemiAnalysis의 이 제3자의 독립적인 평가는 대규모 AI 배포 시 NVIDIA 추론 플랫폼이 제공하는 세계적 수준의 성능을 보여주는 또 하나의 사례입니다.

InferenceMAX v1 자세히 알아보기
InferenceMAX v1의 핵심적인 차별점은 지속적이고 자동화된 테스트입니다. 벤치마크 스윕(sweep)을 통한 지속적 통합(CI) 결과는 매일 공개되며, 이 테스트는 최신 소프트웨어 릴리스의 성능 향상을 포착하기 위해 SGLang, TensorRT-LLM, vLLM 등 여러 추론 프레임워크에서 실행됩니다.
벤치마크는 단일 노드 및 다중 노드 Expert Parallelism(EP) 구성을 모두 포괄하여, 결과가 실제 운영 환경에서 사용되는 다양한 배포 시나리오를 반영하도록 보장합니다. 표 1은 테스트된 모델, 정밀도, 입력 시퀀스 길이(ISL) 및 출력 시퀀스 길이(OSL)에 대한 추가 세부 정보를 제공합니다. 실제 배포 환경의 동적인 특성을 반영하기 위해 가변적인 시퀀스 길이(ISL/OSL 조합의 80-100%)가 사용됩니다.
Model | Type | Parameters | Precisions | Chat (ISL/OSL) | Summarization (ISL/OSL) | Deep Reasoning (ISL/OSL) |
DeepSeek-R1 | MoE | 671B (37B active) | FP8, NVFP4 | 1K/1K | 8K/1K | 1K/8K |
gpt-oss-120b | MoE | 117B (5.1B active) | FP8, MXFP4 | 1K/1K | 8K/1K | 1K/8K |
Llama 3.3 70B | Dense | 70B | FP8, NVFP4 | 1K/1K | 8K/1K | 1K/8K |
InferenceMAX v1은 추론 작업, 문서 처리 및 요약, 채팅 시나리오와 같은 사례들을 포괄하며, 지연 시간, 처리량, 배치 크기, 다양한 입출력 비율 등 여러 차원에 걸친 데이터를 제공합니다.
InferenceMAX v1에서 NVIDIA Blackwell은 어떤 성능을 보이는가?
InferenceMAX v1 벤치마크 데이터는 NVIDIA Hopper HGX H200에서 NVIDIA Blackwell DGX B200과 NVIDIA GB200 NVL72 플랫폼으로의 세대적 도약이 효율성과 비용 효율성을 극적으로 향상시켰음을 명확히 보여줍니다. Blackwell은 네이티브 FP4 가속을 지원하는 5세대 Tensor Cores와 1,800 GB/s의 NVLink 대역폭을 탑재하고 있으며, 최신 HBM3e 메모리를 사용합니다.
이를 통해 와트당 컴퓨팅 성능과 메모리 대역폭이 엄청나게 증가하며, Hopper 대비 훨씬 뛰어난 에너지 효율성과 극적으로 낮은 백만 토큰당 비용을 모두 제공합니다.
이번 포스트에서는 이러한 결과의 기반이 된 뛰어난 혁신 기술들을 심층적으로 살펴보고, Blackwell 아키텍처가 어떻게 그처럼 놀라운 성능을 제공하는지 분석합니다.
시간이 지남에 따라 성능 향상을 가져오는 지속적인 소프트웨어 최적화
꾸준한 NVIDIA 하드웨어 혁신과 더불어, NVIDIA는 지속적인 소프트웨어 최적화를 통해 끊임없는 성능 향상을 주도합니다. gpt-oss-120b 모델 초기 출시 당시, TensorRT-LLM 기반 Blackwell B200의 성능은 견고했지만 초기 GPU당 처리량이 현재 최고치보다 상당히 낮아 개선의 여지가 있었습니다. 단기간에 NVIDIA 엔지니어링팀과 더 넓은 커뮤니티는 오픈 소스 LLM을 위한 TensorRT-LLM 스택을 최적화하기 위해 광범위하게 협력했으며, 그 결과 훨씬 더 나은 성능을 이끌어냈습니다 (그림 2).

그림 2의 B200 InferenceMAX v1 구성은 8월 5일 gpt-oss 출시 이후 이룬 진전을 보여주며, 파레토 프론티어(Pareto frontier)의 모든 지점에서 처리량이 향상되었습니다. 사용자당 약 100 TPS에서 B200은 모델 출시 당시보다 InferenceMAX v1에서 거의 2배 더 높은 처리량을 달성합니다.
10월 9일 기준으로 보면, 최신 버전의 TensorRT-LLM은 EP 및 DEP(데이터 및 전문가 병렬 처리) 매핑과 같은 강력한 새로운 기능을 도입하여, 출시일 대비 사용자당 100 TPS에서 최대 처리량을 5배까지 향상시켰습니다. 이는 GPU당 최대 처리량이 약 6K에서 30K로 증가한 것입니다. 이를 달성하는 한 가지 방법은 InferenceMAX v1 벤치마크에서 사용된 것보다 더 높은 동시성(concurrency)을 활용하는 것인데, InferenceMAX는 현재 4에서 64까지의 동시성만 테스트하기 때문입니다.
또한, DEP와 같은 병렬 처리 구성은 gpt-oss-120b의 어텐션(Attention) 및 MoE 레이어를 여러 GPU에 분산함으로써 높은 처리량을 달성합니다. 이러한 신속한 all-to-all 통신은 기존의 PCIe 병목 현상을 피하게 해주는 NVLink 및 NVLink Switch의 1,800 GB/s 양방향 대역폭 덕분에 가능합니다. 그 결과로 얻어지는 높은 동시성 덕분에, 시스템은 다수의 동시 추론 요청을 최고 속도로 처리하고 모든 사용자를 위해 하드웨어를 완전히 활용할 수 있습니다 (그림 3).

예를 들어, 전체 DEP2 방식에서는 각 요청에 대한 어텐션(attention)이 하나의 GPU에서 처리되는(KV 캐시는 해당 GPU에 로컬화됨) 반면, MoE 레이어의 전문가(expert) 토큰은 두 개의 GPU(GPU당 64개 전문가)에 걸쳐 동적으로 라우팅 및 처리됩니다. NVLink Switch 패브릭은 이 전문가 토큰들이 최소한의 지연으로 분산 및 집계되도록 보장하며, GPU 간의 즉각적이고 직접적인 교환을 지원합니다.
또 다른 중요한 성과는 새롭게 출시된 gpt-oss-120b-Eagle3-v2 모델을 사용하여 gpt-oss-120b에 대한 추측 디코딩(speculative decoding)을 활성화한 것입니다. EAGLE 기반 추측 디코딩을 통해, 사용자당 100 TPS에서의 GPU당 처리량은 공개된 InferenceMAX v1 결과 대비 3배 증가하여 초당 10K 토큰에서 30K 토큰으로 늘어났습니다. 이는 대규모 추론을 훨씬 더 비용 효율적이고 반응성 높게 만듭니다.
실제로 이러한 소프트웨어 개선 사항을 반영하면, 모델 출시 후 두 달 만에 사용자당 100 TPS에서의 백만 토큰당 비용은 출시 당시 0.11달러에서 현재 0.02달러로 5배 감소했습니다 (그림 4). API 서비스 제공업체에게 이는 더 큰 수익으로 이어지는데, 대규모 모델 추론 서비스 제공이 더 빠르고 저렴해지기 때문입니다. 사용자당 400 TPS라는 초고도의 상호작용 환경에서도 백만 토큰당 비용은 0.12달러로 비교적 낮게 유지되며, 이는 더 복잡한 멀티 에이전트 사용 사례의 실현 가능성을 높여줍니다.
오픈 이노베이션과 결합된 이러한 계층적 소프트웨어 향상은 대규모 생성형 AI를 위해 하드웨어와 소프트웨어의 경계를 모두 허물려는 NVIDIA의 의지를 명확히 보여줍니다.

NVIDIA Blackwell, NVFP4로 고효율 Llama 3.3 70B 추론 지원
Blackwell B200은 Llama 3.3 70B와 같은 밀집(dense) AI 모델에 대해 InferenceMAX v1 벤치마크에서 새로운 성능 표준을 제시합니다. 이러한 모델들은 많은 파라미터 수와 추론 시 모든 파라미터가 동시에 활용된다는 점 때문에 상당한 컴퓨팅 리소스를 필요로 합니다. Blackwell은 Llama 3.3 70B 1K/1K 벤치마크에서 사용자당 50 TPS로 초당 10,000개의 토큰을 처리하며, 이는 Hopper H200 대비 4배 이상 높은 GPU당 처리량입니다 (그림 5).
이는 NVFP4와 같은 Blackwell의 아키텍처 혁신이 밀집 및 희소(sparse) 워크로드 모두에서 리더십을 지원하며, 모델의 복잡성에 관계없이 더 빠른 추론과 더 뛰어난 반응성의 사용자 경험을 가능하게 한다는 것을 보여줍니다.
이 프론티어 전반에 걸쳐 성능과 총소유비용(TCO)을 매핑함으로써, InferenceMAX v1은 NVIDIA Blackwell 플랫폼이 단 하나의 최적 지점뿐만 아니라, 전체 운영 요구 범위에 걸쳐 선도적임을 보여줍니다.

AI 비용 효율성의 새로운 표준, Blackwell GB200 NVL72
InferenceMAX v1 데이터에 따르면, GB200 NVL72는 DeepSeek-R1 추론 모델에서 이전 세대 H200 대비 훨씬 더 나은 총소유비용(TCO)을 제공합니다 (그림 6).

사용자당 초당 토큰 수로 측정되는 모든 상호작용 수준에 걸쳐, GB200 NVL72는 H200 대비 일관되게 훨씬 낮은 백만 토큰당 비용을 제공합니다. 예를 들어, 초당 약 75 토큰의 상호작용 수준에서 H200의 비용은 백만 토큰당 1.56달러입니다. 반면 GB200 NVL72는 이 비용을 0.10달러 남짓으로 낮추는데, 이는 무려 15배의 비용 절감 효과입니다. GB200의 비용 곡선은 더 오랫동안 훨씬 완만하게 유지되므로, 비용이 눈에 띄게 증가하기 전까지 사용자당 100 TPS를 초과하는 서비스를 제공할 수 있습니다.
대규모 AI 배포 환경에서 이러한 성능이 갖는 의미는 매우 큽니다. 즉, GB200 NVL72를 활용하는 AI 팩토리는 운영 비용을 높이거나 처리량을 희생하지 않고도 더 나은 상호작용 목표치에서 훨씬 더 많은 사용자에게 서비스를 제공할 수 있습니다.
전반적으로 상호작용 요구 수준과 동시 사용자 수가 증가함에 따라, GB200 NVL72는 비교된 모든 아키텍처 중에서 백만 토큰당 가장 낮은 비용을 유지하므로, 대규모 환경에서 사용자 기반과 수익을 모두 극대화할 수 있는 이상적인 솔루션입니다.
분리형 서빙(Disaggregated serving): GB200 NVL72, Dynamo, TensorRT-LLM으로 MoE 모델의 최대 성능을 구현하는 방법
SemiAnalysis의 검증된 벤치마크(그림 1 및 6)에 따르면, GB200 NVL72, Dynamo, TensorRT-LLM의 조합은 이전 세대 Hopper 기반 시스템을 능가하는 성능을 보입니다. 이 조합은 광범위한 SLA 제약 조건 하에서 DeepSeek-R1과 같은 MoE 모델의 처리량을 극적으로 향상시킵니다.
GB200 NVL72 스케일업(scale-up) 설계는 고속 NVLink를 통해 72개의 GPU를 연결하여, GPU 간 통신을 위한 최대 130TB/s의 대역폭을 갖춘 단일의 긴밀하게 통합된 도메인을 형성합니다. 이러한 고대역폭, 저지연 인터커넥트는 MoE 모델에 매우 중요하며, InfiniBand와 같은 기존 노드 간 링크에서 발생하는 병목 현상 없이 전문가(expert) 간의 원활한 통신을 가능하게 합니다.
이와 병행하여, Dynamo의 분리형 추론은 프리필(prefill) 단계와 디코딩(decode) 단계를 서로 다른 GB200 NVL72 노드에 분산하여 효율성을 한층 더 높입니다. 이러한 분리는 각 단계를 서로 다른 GPU 수와 구성으로 독립적으로 최적화할 수 있기 때문에 매우 중요합니다. 이제 메모리 중심의 디코딩 단계는 컴퓨팅 중심의 프리필 단계를 지연시키지 않으면서 전문가 실행을 위해 넓은 EP(wide EP)를 활용할 수 있습니다.
마지막으로, TensorRT-LLM은 EP에서 GPU가 제대로 활용되지 않는 위험을 완화합니다. 대규모 wide EP 배포 환경에서는 드물게 활성화되는 전문가를 호스팅하는 일부 GPU가 유휴 상태로 남아있는 것이 일반적입니다. 이는 컴퓨팅 리소스의 비효율적인 사용으로 이어집니다. 이 문제를 해결하기 위해, TensorRT-LLM의 wide EP 구현은 전문가 부하를 지능적으로 모니터링하고 자주 사용되는 전문가를 여러 GPU에 분산시킵니다. 또한 워크로드 균형을 더 잘 맞추기 위해 인기 있는 전문가를 복제할 수도 있습니다. 이를 통해 효율적인 GPU 사용과 성능을 보장합니다.
이처럼 GB200 NVL72, Dynamo, TensorRT-LLM은 함께 작동하여 MoE 모델의 잠재력을 최대한 발휘시키는 추론 최적화 스택을 구성합니다.
NVIDIA, SGLang 및 vLLM과 협력해 커널 및 최적화 공동 개발
오픈 소스 Dynamo 와 TensorRT-LLM 프레임워크의 발전을 넘어, NVIDIA는 새로운 Blackwell 커널과 최적화를 공동 개발하기 위해 SGLang 및 vLLM 오픈 소스 프로젝트와 파트너십을 맺었습니다. FlashInfer를 통해 제공되는 이러한 기여에는 Attention Prefill & Decode, Communication, GEMM, MNNVL, MLA, MoE를 위한 향상되거나 새롭게 도입된 커널이 포함됩니다.
런타임 수준에서는 지난 몇 달 동안 이 LLM 프레임워크들에 추가적인 최적화가 적용되었습니다. SGLang에는 MTP(다중 토큰 예측) 지원과 DeepSeek-R1 모델을 위한 분리(disaggregation) 기능이 추가되었습니다. vLLM에는 호스트 오버헤드를 줄이고 처리량을 개선하기 위한 비동기 스케줄링 중첩(overlap async scheduling) 기능과 자동 그래프 융합(automatic graph fusions)이 구현되었습니다. 또한, gpt-oss, Llama 3.3 및 일반 아키텍처에 대한 성능 및 기능 개선 사항도 vLLM에 통합되었습니다.
NVIDIA는 고급 하드웨어, 소프트웨어 최적화, 오픈 소스 협력을 통해 널리 사용되는 오픈 소스 추론 프레임워크 전반에서 Blackwell의 완전한 성능과 효율성을 구현합니다.
NVIDIA Blackwell 시작하기
SemiAnalysis InferenceMAX v1 벤치마킹 스위트가 출시되면서, 추론 성능 측정을 위한 오픈 소스 기반의 지속적으로 업데이트되는 프레임워크가 도입되었습니다. InferenceMAX v1을 통해 NVIDIA Blackwell 제품군은 확실한 리더로 부상했으며, B200과 GB200 NVL72는 이전 Hopper 세대 대비 최대 15배의 성능 향상을 입증하고 AI 팩토리에 최대 15배의 수익 기회를 제공합니다.
이러한 결과는 NVFP4 정밀도, NVLink 5 인터커넥트, TensorRT-LLM, Dynamo를 포함한 NVIDIA Blackwell의 아키텍처 혁신이 광범위한 워크로드와 오픈 소스 추론 프레임워크 전반에서 유효함을 입증합니다. NVIDIA 플랫폼이 계속 발전함에 따라, 지속적인 소프트웨어 개선은 훨씬 더 큰 가치를 창출합니다.
더 자세히 알아보고 최신 NVIDIA 성능 데이터를 확인해 보세요.
벤치마크를 직접 탐색하거나 재현해 보려면, 전체 컨테이너 및 구성 세트가 제공되는 SemiAnalysis InferenceMAX GitHub 리포지토리를 방문하세요.