Data Center / Cloud

DFlash 추론 가속 디코딩으로 NVIDIA Blackwell에서 최대 15배 추론 성능 향상하기

Reading Time: 5 minutes

AI 시스템이 단일 대화형 상호작용에서 조율된 멀티 에이전트 워크플로우로 진화함에 따라 저지연 추론의 중요성이 더욱 커지고 있습니다. 자동회귀형 LLM은 토큰을 순차적으로 생성하기 때문에 지연 시간에 민감한 서비스 환경에서 GPU 활용도를 떨어뜨리고 처리량을 제한할 수 있습니다.

추측성 디코딩은 가벼운 모델을 사용해 미래의 토큰을 먼저 초안으로 작성하고, 더 큰 타겟 모델이 이를 병렬로 검증하는 방식으로 이러한 병목 현상을 완화합니다. DFlash는 추측성 디코딩을 위해 설계된 오픈소스 경량 블록 확산 모델로, 블록 확산 드래프터를 통해 이 접근 방식을 확장합니다. 이 드래프터는 단 한 번의 순방향 패스로 후보 토큰 블록 전체를 생성하여 순차적인 초안 작성 과정을 블록 병렬 GPU 작업으로 전환하는 한편, 검증 과정을 통해 타겟 모델의 출력 품질을 그대로 유지합니다.

DFlash는 동일한 상호작용 수준에서 NVIDIA Blackwell 기반 gpt-oss-120b의 추론 성능을 최대 15배까지 향상시킵니다. 또한 동일한 동시성 조건에서 최신 EAGLE-3 추측성 디코딩과 비교했을 때, Llama 3.1 8B의 상호작용 성능을 두 배 가까이 끌어올립니다.

DFlash는 연구 단계에서 개발자 워크플로우로도 빠르게 전환되고 있습니다. 연구 팀은 NVIDIA Blackwell 및 NVIDIA Hopper GPU용 레시피와 함께 20개의 DFlash 체크포인트를 Hugging Face에 공개했습니다.

본 포스트에서는 TensorRT-LLM을 사용하는 NVIDIA Blackwell Ultra 시스템에서 실행된 DFlash의 지연 시간과 처리량 관계를 나타내는 파레토 곡선을 공유합니다. 이와 더불어 SGLang 및 vLLM을 포함한 NVIDIA GPU 추론 스택 전반에서 DFlash를 더욱 폭넓게 활용할 수 있게 되는 과정도 함께 살펴봅니다.

DFlash는 NVIDIA Blackwell에서 어떻게 동일한 인터랙티비티로 더 높은 처리량을 달성하는가?

그림 1은 SPEED-Bench 코딩 데이터셋을 사용하여 8대의 NVIDIA DGX B300 시스템에서 TensorRT-LLM으로 DFlash를 적용한 gpt-oss-120b의 지연 시간-처리량 파레토 곡선입니다. 파레토 곡선 전반에 걸쳐 DFlash는 자기회귀 디코딩 대비 프로덕션 수준의 지연 시간 목표에서 더 높은 처리량을 제공합니다. 이 구성은 시스템의 8개 NVIDIA Blackwell GPU 전체에 걸쳐 gpt-oss-120b를 서빙하여, 코드 생성 같은 에이전트 활용 사례에서 높은 인터랙티비티 목표를 달성하는 데 필요한 GPU 메모리, 연산, 상호 연결 대역폭을 확보합니다.

사용자당 500~600토큰/초의 높은 인터랙티비티 범위에서 DFlash는 자기회귀 디코딩 대비 NVIDIA Blackwell의 처리량을 15배 이상 향상시키며, EAGLE-3 추론 가속 디코딩보다 1.5배 높습니다. 배치 크기 1의 가장 낮은 동시 접속자 수 지점에서 DFlash는 Blackwell의 인터랙티비티를 두 배 이상 향상시킵니다.

다양한 동시 접속자 수에 걸친 파레토 곡선을 살펴보는 것이 중요한 이유는, 서빙 팀이 일반적으로 목표 인터랙티비티 수준에 맞춰 최적화하기 때문입니다. 인터랙티브 코딩, 추론, 에이전트 워크로드는 동시 접속자 수를 늘리면서도 사용자당 엄격한 토큰 지연 시간을 유지해야 하는 경우가 많습니다. DFlash는 추론 가속 디코딩 경로에 병렬성을 추가하여 이 트레이드오프를 개선합니다. 블록 디퓨전 드래프터가 여러 후보 토큰을 한 번에 생성하고, 목표 모델이 이를 병렬로 검증합니다.

NVIDIA Blackwell에서 이 병렬성은 특히 가치가 있습니다. 디코딩 병목 구간에서 LLM 추론은 순수 연산보다 메모리 이동과 순차적인 토큰 생성의 특성에 의해 제한되는 경우가 많습니다. DFlash는 이 작업의 일부를 병렬 블록 드래프팅과 검증으로 전환하여, 동일한 인터랙티비티 목표를 유지하면서 시스템이 사용 가능한 연산 자원을 더 많이 활용할 수 있게 합니다.

각 NVIDIA Blackwell Ultra GPU는 10TB/s의 고대역폭 칩 간 상호 연결로 연결된 두 개의 레티클 크기 다이를 결합하여, 160개의 SM과 640개의 5세대 텐서 코어(Tensor Core)를 갖춘 통합 연산 도메인을 형성합니다. DFlash는 Blackwell의 15 PFLOPS 고밀도 NVFP4 연산에 더 많은 병렬 작업을 노출시키기 때문에 이 아키텍처에 매우 적합하며, 동일한 인터랙티비티 속도에서 최대 15배 더 많은 사용자를 동시에 서빙합니다.

DFlash는 서로 다른 데이터셋에서도 EAGLE-3 추론 가속 디코딩 대비 인터랙티비티 속도 향상을 보여줍니다. 성능 향상은 소형 모델에도 적용되며, Speed-Bench 다국어 데이터셋에서 Llama 3.1 8B의 경우 DFlash가 EAGLE-3 대비 성능을 거의 두 배로 향상시킵니다.

동일 사용자 동시 접속자 수에서의 속도 향상
 gpt-oss-120bLlama 3.1 8B Instruct 
데이터셋EAGLE-3DFlash EAGLE-3DFlash 
코딩1.8x2.6x2.3x3.0x
RAG1.7x2.3x2.4x3.1x
추론1.8x2.3x2.5x2.8x
작문1.5x1.8x2.3x2.7x
다국어1.8x2.6x1.4x2.4x
요약1.6x2.0x2.3x2.6x
평균1.7x2.3x2.2x2.8x
표 1. DFlash는 gpt-oss-120b와 Llama 3.1 8B Instruct에서 다양한 Speed-Bench 데이터셋에 걸쳐 동일한 사용자 동시 접속자 수에서 EAGLE-3보다 높은 인터랙티비티 속도 향상을 제공합니다.

NVIDIA 에코시스템, 애플리케이션 리팩터링 없이 개발자에게 DFlash 제공

UC San Diego 연구팀은 2026년 2월 NVIDIA Blackwell 기반의 더 빠르고 효율적인 LLM 추론에 관한 지속적인 연구의 일환으로 논문 DFlash: Block Diffusion for Flash Speculative Decoding을 공개하였습니다. 네이티브 CUDA 지원을 갖춘 PyTorch로 구축된 DFlash는 블록 디퓨전 추론 가속 디코딩을 통해 디코딩 성능을 향상시킵니다. NVIDIA와 오픈소스 추론 커뮤니티는 SGLang과 vLLM 모두에서 강력한 프레임워크 지원을 보장하기 위해 협력하여, 개발자들이 원하는 서빙 스택에서 추론 배포에 DFlash를 도입할 수 있는 명확한 경로를 제공하고 있습니다.

논문 공개 이후 연구팀은 Qwen, Kimi K2.6, Llama, Gemma, gpt-oss를 포함한 모델 패밀리를 다루는 Blackwell 및 Hopper 레시피와 함께 Hugging Face에 20개의 DFlash 모델 체크포인트를 공개하였습니다. 레시피에는 SGLang, vLLM 등 인기 있는 추론 프레임워크 지원이 포함되어 있습니다.

vLLM에서는 개발자가 설정 변경만으로 EAGLE-3를 DFlash 체크포인트로 교체할 수 있으며, 코드 변경은 필요하지 않습니다. 통합은 오픈소스 Speculators 라이브러리를 통해 이루어지며, NVIDIA GPU의 vLLM 추론 경로 내에서 DFlash 드래프터를 목표 모델의 히든 스테이트(hidden state)에 연결합니다. 단일 Blackwell Ultra GPU에서 Gemma 4 31B로 이 경로를 실행하면, 자기회귀 디코딩 대비 동일한 동시 접속자 수에서 최대 5.8배 높은 처리량을 달성합니다(표 2).

SGLang의 경우, EAGLE에서 DFlash로 마이그레이션하려면 추론 가속 디코딩 알고리즘을 DFlash로 업데이트하고 일치하는 DFlash 초안 모델 체크포인트를 제공하기만 하면 됩니다. 단일 Blackwell GPU에서 Qwen3 8B로 이 경로를 실행하면, 자기회귀 디코딩 대비 동일한 동시 접속자 수에서 최대 5.1배의 처리량을 달성합니다(표 3).

NVIDIA GPU에서의 이러한 광범위한 초기 모델 및 프레임워크 지원은 팀들이 기존에 사용하던 프레임워크를 통해 애플리케이션 리팩터링 없이 새로운 최적화를 신속하게 평가하고 배포할 수 있게 하기 때문에 중요합니다.

동시 접속자 수 1에서의 속도 향상 — Gemma-4 31B / vLLM / NVIDIA DGX B300 1대
작업DFlash 대 자기회귀
Math5005.8x
GSM8K5.3x
HumanEval5.6x
MBPP4.4x
MT-Bench3.0x
표 2. DFlash는 단일 NVIDIA Blackwell Ultra GPU에서 vLLM을 사용하여 Gemma 4 31B의 자기회귀 디코딩 대비 처리량을 향상시키며, 수학, 코딩, 채팅 벤치마크에서 최대 5.8배의 속도 향상을 달성합니다.
동시 접속자 수 1에서의 속도 향상 — Qwen3 8B / SGLang / B200 1대
작업DFlash 대 자기회귀
Math5005.1x
HumanEval4.2x
표 3. DFlash는 단일 NVIDIA B200 GPU에서 SGLang을 사용하여 Qwen3-8B의 자기회귀 디코딩 대비 처리량을 향상시키며, Math500에서 최대 5.1배, HumanEval에서 4.2배의 속도 향상을 달성합니다.

DFlash 추론 가속 디코딩은 어떻게 작동하는가?

추론 가속 디코딩은 초안 생성과 검증의 두 단계로 구성됩니다. 더 작은 초안 모델이 미래 토큰을 제안하면, 목표 모델이 해당 토큰을 병렬로 검증하고 가장 긴 유효 접두사(prefix)를 수락합니다. 초안이 올바른 경우, 시스템은 하나의 목표 모델 검증 패스로 여러 토큰을 생성합니다.

전통적인 추론 가속 디코딩 방식은 자기회귀 초안 모델을 자주 사용합니다. 이러한 드래프터는 여전히 토큰을 순차적으로 생성하므로, 추론 가속 토큰 수가 늘어날수록 드래프팅 비용이 증가합니다. 이는 이 방식이 처리량을 얼마나 향상시킬 수 있는지를 제한합니다.

DFlash는 자기회귀 드래프터를 경량 블록 디퓨전 드래프터로 대체합니다. 토큰을 하나씩 생성하는 대신, DFlash 드래프터는 단일 순전파로 마스킹된 미래 토큰의 블록 전체를 예측합니다.

DFlash는 세 가지 핵심 기술을 결합합니다.

  • 블록 디퓨전 드래프팅: 드래프터가 여러 미래 토큰을 병렬로 예측합니다.
  • 목표 히든 스테이트 컨디셔닝: 드래프터가 목표 모델에서 추출된 컨텍스트 특성을 활용합니다.
  • KV 인젝션(KV injection): 목표 컨텍스트 특성이 초안 모델의 레이어 전반에 걸쳐 키-값(key-value) 프로젝션에 주입되어, 높은 수락률 유지에 기여합니다.

이 설계는 드래프터를 빠르고 효과적으로 만듭니다. 목표 모델이 여전히 검증을 수행하므로, DFlash는 생성을 가속화하면서도 목표 모델의 출력 분포를 보존합니다.

DFlash로 추론 성능 향상 시작하기

연구 커뮤니티는 NVIDIA GPU에서 새로운 추론 최적화 기법을 지속적으로 개발하고 있으며, DFlash는 NVIDIA 생태계가 이러한 아이디어를 개발자들에게 얼마나 빠르게 제공할 수 있는지 보여주는 훌륭한 사례입니다.

지금 바로 시작해 보세요. DFlash는 현재 오픈 모델 체크포인트를 통해 NVIDIA GPU에서 사용할 수 있으며, SGLang과 vLLM 및 TensorRT-LLM에서도 지원됩니다.

Discuss (0)

Tags