AI 모델이 점점 더 똑똑해짐에 따라, 사용자들이 AI를 활용하는 업무의 범위도 비약적으로 넓어지고 있습니다. 일반 소비자부터 기업에 이르기까지 AI와의 상호작용이 빈번해지면서 생성해야 할 토큰의 양도 함께 급증하는데요. 이러한 토큰 서비스를 최소한의 비용으로 제공하기 위해, AI 플랫폼은 와트당 토큰 처리량을 극대화해야 합니다.
NVIDIA는 GPU, CPU, 네트워킹, 소프트웨어, 전력 공급 및 냉각 시스템 전반에 걸친 극한의 공동 설계를 통해 와트당 토큰 처리량을 지속적으로 높이고 있으며, 이를 통해 100만 토큰당 비용을 절감하고 있습니다.
또한, NVIDIA는 기존 플랫폼에서도 더 높은 성능을 끌어낼 수 있도록 소프트웨어 스택을 꾸준히 고도화하고 있습니다. 이는 클라우드 서비스 제공업체(CSP), GPU 클라우드, 모델 개발사, 기업 등이 이미 구축한 대규모 NVIDIA GPU 인프라의 가치를 높여주며, 해당 인프라를 더 오랫동안 효율적으로 가동할 수 있게 합니다.
본 포스팅에서는 최신 추론 소프트웨어 스택이 NVIDIA Blackwell 아키텍처에서 어떻게 작동하는지, 그리고 이 소프트웨어의 모든 기능을 활용했을 때 최신 오픈소스 MoE(Mixture-of-Experts) 추론 모델인 DeepSeek-R1의 성능이 얼마나 비약적으로 향상되는지 다양한 시나리오를 통해 살펴보겠습니다.
최신 NVIDIA TensorRT-LLM 소프트웨어를 통한 추론 성능 강화
랙 규모(Rack-scale) 플랫폼인 NVIDIA GB200 NVL72는 5세대 NVIDIA NVLink 인터커넥트와 NVLink 스위치 칩을 통해 72개의 NVIDIA Blackwell GPU를 하나로 연결합니다. 이를 통해 랙 내 모든 칩 간에 초당 1,800GB(1,800 GB/s)의 양방향 대역폭을 제공합니다. 이렇게 거대한 스케일업(Scale-up) 도메인은 토큰 생성 시 전문가(Expert) 간의 빈번한 데이터 교환이 필수적인 ‘희소 MoE(Sparse MoE)’ 아키텍처 기반 모델에 최적화되어 있습니다.
또한 Blackwell 아키텍처는 NVFP4 데이터 포맷을 위한 하드웨어 가속 기능을 탑재하고 있습니다. NVIDIA가 설계한 이 4비트 부동 소수점 포맷은 기존의 다른 FP4 포맷보다 데이터 정밀도를 더 효과적으로 유지합니다. 여기에 더해, 프리필 작업과 디코딩 작업을 서로 다른 GPU 그룹에서 분리하여 수행하는 분산 서빙 최적화 기술은 NVL72 아키텍처와 NVLink 스위치 기술의 이점을 극대화합니다.
이러한 아키텍처 혁신을 통해 NVIDIA GB200 NVL72는 최신 오픈 모델에서 업계 최고 수준의 성능을 구현합니다. 특히 6,710억 개의 파라미터를 보유하고 토큰당 370억 개의 파라미터를 활성화하는 거대 모델인 DeepSeek-R1에서도 압도적인 성능을 보여줍니다.

NVIDIA GB200 NVL72는 이전에 이미 1K/1K 및 8K/1K 입출력 시퀀스 길이 모두에서 ‘처리량 대비 상호작용성(Throughput/Interactivity)’ 곡선 전반에 걸쳐 DeepSeek-R1 모델에 대한 업계 최고 수준의 GPU당 처리량을 입증한 바 있습니다.

LLM 추론 최적화를 위한 오픈 소스 라이브러리인 NVIDIA TensorRT-LLM의 최신 업데이트는 동일한 플랫폼상에서 비약적인 성능 향상을 이끌어냈습니다. 실제로 지난 3개월 동안 각 Blackwell GPU의 처리량은 최대 2.8배까지 증가했습니다.
이러한 성과를 가능하게 한 주요 최적화 기술은 다음과 같습니다.
- NVIDIA PDL(Programmatic Dependent Launch) 활용 확대: 커널 실행 지연 시간(Kernel launch latency)을 단축하여, 다양한 상호작용 수준(Interactivity levels) 전반에서 처리량을 개선했습니다.
- 저수준 커널 최적화(Low-level kernel optimizations): NVIDIA Blackwell 텐서 코어(Tensor Core)를 더욱 효율적으로 활용할 수 있도록 다수의 저수준 커널을 최적화했습니다.
- All-to-all 통신 프리미티브 최적화: 수신 측의 추가 중간 버퍼를 제거하여 칩 간 통신 효율을 높인 새로운 구현 방식을 적용했습니다.
TensorRT-LLM은 고수준의 Python LLM API를 제공합니다. 또한 PyTorch 네이티브 아키텍처를 채택하고 있어, 개발자가 런타임을 직접 테스트하거나 기능을 확장하기에 용이합니다. 이러한 모든 최적화 기능은 현재 최신 버전의 TensorRT-LLM에서 바로 사용할 수 있습니다.
MTP와 NVFP4를 통한 NVIDIA HGX B200 성능 가속
5세대 NVLink 인터커넥트와 NVLink 스위치로 연결된 8개의 Blackwell GPU로 구성된 NVIDIA HGX B200 플랫폼 역시, 공랭식(Air-cooled) 환경에서 독보적인 DeepSeek-R1 추론 성능을 발휘합니다.
특히 HGX B200에서 DeepSeek-R1의 추론 성능을 극대화하는 두 가지 핵심 기술이 있습니다. 첫 번째는 MTP(Multi-Token Prediction, 다중 토큰 예측)의 활용입니다. MTP는 테스트된 세 가지 입출력 시퀀스 조합 모두에서 상호작용 수준 전반에 걸쳐 처리량을 유의미하게 향상시킵니다.

두 번째 핵심 기술은 NVFP4의 활용입니다. Blackwell GPU가 제공하는 압도적인 연산 능력을 활용하여, 데이터 정밀도를 유지하면서도 성능을 극대화했습니다.

NVFP4는 TensorRT-LLM 및 NVIDIA TensorRT Model Optimizer를 포함한 NVIDIA의 풀 소프트웨어 스택을 통해 활성화되며, 이를 통해 높은 성능과 모델 정밀도 유지를 동시에 보장합니다. 이는 동일한 상호작용 수준에서 다시 한번 비약적인 처리량 향상을 이끌어내며, 결과적으로 기존 HGX B200 플랫폼에서도 훨씬 더 높은 수준의 상호작용 성능을 구현할 수 있게 합니다.

NVIDIA Blackwell 플랫폼의 모든 기능을 활용함으로써, LLM 서비스는 더 많은 사용자에게 대응할 수 있을 뿐만 아니라 개별 사용자에게도 훨씬 더 향상된 경험을 제공할 수 있습니다.
지속적인 성능 향상의 실현
NVIDIA는 끊임없는 최적화를 통해 전체 기술 스택에 걸쳐 더 높은 성능을 지속적으로 제공하고 있습니다. 매년 새로운 제품을 출시하는 것은 물론, 기존 제품에서도 더 높은 성능과 가치를 창출할 수 있도록 워크로드 최적화를 지속함으로써 모든 범위의 AI 모델에서 토큰 처리량을 극대화하고 있습니다.
NVIDIA Blackwell 아키텍처는 업계 최고 수준의 추론 성능을 제공합니다. 여기에 TensorRT-LLM의 최신 소프트웨어 혁신이 더해지면서, NVIDIA는 고객과 파트너, 그리고 AI 생태계 전반에 또 한 번의 획기적인 추론 성능 향상을 선사하고 있습니다.
NVIDIA 풀스택 플랫폼이 제공하는 업계 선도적인 성능에 대해 자세히 알아보려면 NVIDIA 데이터 센터 딥러닝 제품 성능 페이지를 방문하세요.