数据中心/云端

NVIDIA Blackwell 实现世界纪录的 DeepSeek-R1 推理性能

NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能 。 搭载 8 个 NVIDIA Blackwell GPU 的单个 NVIDIA DGX 系统 ,在具有 671 亿个参数的先进大型 DeepSeek-R1 模型上,每个用户每秒可实现超过 250 个 token,或每秒超过 30,000 个 token 的最大吞吐量。得益于 NVIDIA 开放生态系统的推理开发者工具的改进 (现已针对 NVIDIA Blackwell 架构进行优化) ,这些性能频谱两端的快速性能提升得以实现。

随着 NVIDIA 平台不断突破最新 NVIDIA Blackwell Ultra GPUNVIDIA Blackwell GPU 的推理极限,这些性能记录将会得到改善。

Bar chart showing NVIDIA B200 GPUs in an NVL8 configuration, running TensorRT-LLM software, deliver the highest published tokens per second per user on the full DeepSeek-R1 671B model.
图 1。NVIDIA B200 GPU 采用 NVL8 配置,运行 TensorRT-LLM 软件,在完整的 DeepSeek-R1 671B 模型上为每位用户提供最高的每秒已发布 token 数

单个 DGX B200 8-GPU 系统和单个 DGX H200 8 GPU 系统 | 在内部版本的 TensorRT-LLM 上运行 B200 和 H200 的 3 月和 2 月数字 | 3 月,输入 1,024 个令牌,输出 2,048 个令牌,2 月和 1 月,输入 1,024 个令牌,输出 1,024 个令牌 | 并发 1 | B200 FP4,H100 和 H200 FP8 精度。

Bar chart showing that NVIDIA has increased throughput on the DeepSeek-R1 671B model by about 36x since January 2025, translating into about a 32x improvement in cost per token.
图 2。自 2025 年 1 月以来,通过硬件和软件的结合,NVIDIA 将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍,转化为每个令牌的成本提高了约 32 倍

标准化为 8-GPU 系统的最大吞吐量 | 单个 DGX B200 8 GPU 系统、单个 DGX H200 8 GPU 系统、两个 DGX H100 8 GPU 系统标准化 | TensorRT-LLM 内部版本 | 3 月,输入 1,024 个令牌,输出 2,048 个令牌,2 月和 1 月,输入 1,024 个令牌,输出 1,024 个令牌 | 并发性 MAX | B200 FP4,H200/H100 FP8 精度。

NVIDIA 推理生态系统是世界上最大的。它使开发者能够根据其部署需求构建量身定制的解决方案,无论他们的目标是最大限度地提升用户体验还是最大限度地提高效率。它包括直接来自 NVIDIA 的开源工具,以及利用最新的 NVIDIA 架构和软件进展的社区。

Blackwell 的这些进步包括:使用第五代 Tensor Core (采用 FP4 加速) 时,AI 计算性能提升高达 5 倍;使用第五代 NVLink 和 NVLink Switch 时, NVIDIA NVLink 带宽是上一代的 2 倍;以及可扩展到更大的 NVLink 域。无论是单芯片还是数据中心规模的性能提升,都是 DeepSeek-R1 等先进 LLM 高吞吐量、低延迟推理的关键推动因素。

加速计算需要的不仅仅是强大的硬件基础设施。需要经过优化且快速发展的软件堆栈,以便为当今要求严苛的工作负载提供最佳工作负载性能,并随时为新出现的更具挑战性的工作负载提供服务。NVIDIA 不断优化技术堆栈的每一层(芯片、系统、库、算法等),以提供出色的工作负载性能。

本文概述了为充分利用 NVIDIA Blackwell 平台而对 NVIDIA 推理生态系统进行的多项更新,包括 NVIDIA TensorRT-LLM NVIDIA TensorRT TensorRT 模型优化器 CUTLASS NVIDIA cuDNN 热门 AI 框架,包括 PyTorch JAX ,以及 TensorFlow 。此外,我们还分享了在 NVIDIA DGX B200 系统上测量的新性能和准确性数据,该系统配备 8 个 Blackwell GPU,并使用两个 NVLink Switch 芯片进行连接。

TensorRT 生态系统:针对 NVIDIA Blackwell 优化的完整推理堆栈

NVIDIA TensorRT 生态系统旨在支持开发者在 NVIDIA GPU 上优化其生产推理部署。它包含多个库,支持 AI 模型的准备、加速和部署,所有这些模型现在都可以在最新的 NVIDIA Blackwell 架构上运行。 这表明,与上一代 NVIDIA Hopper 架构相比,性能持续大幅提升。

TensorRT Model Optimizer 是优化推理速度的第一步。它提供了最先进的模型优化技术,包括量化、蒸馏、剪枝、稀疏和猜测解码,可提高模型在推理过程中的效率。最新的 TensorRT Model Optimizer 0.25 版本支持用于 后训练量化 (PTQ)量化感知训练 (QAT) 的 Blackwell FP4,优化了整体推理计算吞吐量,并减少了下游推理框架的内存使用量。

模型经过优化后,高性能推理框架对于高效运行模型至关重要。TensorRT-LLM 为开发者提供了一个工具箱,可实现实时、经济、高效的 LLM 推理。最新的 TensorRT-LLM 0.17 版本增加了对 Blackwell 的支持,并为 Blackwell 指令、内存层次结构和 FP4 提供了量身定制的优化。

TensorRT-LLM 采用 PyTorch 架构,通过强大而灵活的内核为常见的 LLM 推理操作和高级运行时功能 (例如 in-flight batching、KV cache 内存管理和 speculative decoding) 提供峰值性能。

热门深度学习框架 PyTorch、JAX 和 TensorFlow 也已更新,支持在 Blackwell 上进行推理和训练。其他 LLM 服务框架 (如 vLLM 和 Ollama) 现在可以在 Blackwell GPU 上使用。在不久的将来,我们还将为其他应用提供支持。

Blackwell with TensorRT 推理性能

与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合,可实现显著的推理性能提升。这种性能提升得益于显著提高的计算性能、内存带宽和经过优化的软件堆栈,从而实现出色的交付性能。

在热门社区模型 (包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B) 上,运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台的推理吞吐量已超过 DGX H200 平台的 3 倍。

Bar chart showing comparisons for Llama 3.3 70B and Llama 3.1 405B, all showing much greater inference performance for B200 (FP4) compared to H200 (FP8).
图 3。与运行 FP8 的上一代 GPU 相比,使用搭载 NVIDIA Blackwell GPU 和 FP4 的 NVIDIA HGX B200 实现 Llama 3.1 70B、Llama 3.1 405B 和 DeepSeek-R1 的推理吞吐量 (tokens/sec) 加速

初步规格。可能会发生变化。TensorRT Model Optimizer v0.23.0。TensorRT-LLM v0.17.0。最大批量大小 2048,使用 TensorRT-LLM Inflight Batching 的实际批量大小动态。H200 FP16/BF16 GEMM + FP8 KV cache。B200 FP4 GEMM + FP8 KV cache。吞吐量提升。Llama 3.3 70B:ISL 2048,OSL 128。Llama 3.1 405B:ISL 2048,OSL 128。DeepSeek-R1:ISL 1024,OSL 1024。

在量化模型以利用低精度计算的优势时,确保尽可能减少精度损失对于生产部署至关重要。对于 DeepSeek-R1,与 FP8 基准相比,TensorRT Model Optimizer FP4 训练后量化(PTQ)可将各种数据集的准确性损失降至最低,如表 1 所示。

MMLU GSM8K AIME 2024 GPQA 钻石级 数学 – 500
DeepSeek R1-FP8 90.8% 96.3% 80.0% 69.7% 95.4%
DeepSeek R1-FP4 90.7% 96.1% 80.0% 69.2% 94.2%
表 1。适用于 FP8/FP4 DeepSeek-R1 模型 PTQ 的 MMLU/GSM8K/AIME24/GPQA/MATH-500 精度

表 2 提供了在热门的 Llama 3.1 405B 和 Llama 3.3 70B 上使用基准 BF16 精度和 FP4 量化得出的准确性结果。

MMLU 基准 GSM8K 基准
Llama 3.1 405B-BF16 86.5% 96.3%
Llama 3.1 405B-FP4 86.1% 96.1%
Llama 3.3 70B-BF16 82.5% 95.3%
Llama 3.3 70B-FP4 80.5% 92.6%
表 2。适用于 BF16/FP4 Llama 模型 PTQ 的 MMLU 和 GSM8K 精度

在低精度 (例如 FP4) 中部署时,可以应用 QAT 来恢复准确性,前提是可以使用微调数据集。为说明 QAT 的价值,使用 TensorRT Model Optimizer 通过 QAT 量化到 FP4 的 NVIDIA Nemotron 4 15B 和 Nemotron 4 340B 模型与 BF16 基准相比实现了无损 FP4 量化 (表 3)。

Nemotron 4 15B Base Nemotron 4 340B 基础模组
BF16 (基准) 64.2% 81.1%
采用 PTQ 的 FP4 61.0% 80.8%
采用 QAT 的 FP4 64.5% 81.4%
表 3. FP4 PTQ 和 QAT 的 vMMLU 5-shot 精度与 BF16 基准的比较。Model Optimizer QAT 实现了 Nemotron 4 15B 和 Nemotron 4 340B 的无损量化

使用 TensorRT 和 TensorRT Model Optimizer 以及 FP4 提高 Blackwell 的图像生成效率

以前,TensorRT 和 TensorRT Model Optimizer 使用量化为 8 位数据格式 (包括 INT8 和 FP8) 的扩散模型来实现高性能图像生成。

现在,NVIDIA Blackwell 和 FP4 精度可为 AI 图像生成提供更出色的性能。这些优势还延伸到希望在搭载 NVIDIA GeForce RTX 50 系列 GPU 的 AI PC 上本地生成图像的用户。

Black Forest Labs 的 Flux.1 模型系列 是先进的文本转图像模型,具有出色的提示依从性和生成复杂场景的能力。开发者现在可以从 Black Forest Lab 的 Hugging Face 集合中下载 FP4 Flux 模型 ,并直接使用 TensorRT 进行部署

这些量化模型由 Black Forest Labs 使用 TensorRT Model Optimizer FP4 工作流程和 recipes 生成。为说明在 Blackwell 上生成 FP4 图像的优势,与 FP16 相比,FP4 中的 Flux.1-dev 模型 可将吞吐量 (每秒生成的图像数) 提升高达 3x,同时将 VRAM 占用率压缩高达 5.2x 并保持图像质量 (Table 4)。

Diagram showing 3x Flux. 1-dev image throughput leaps with GeForce RTX 5090 with FP4 achieving 2.9x greater throughput than FP16 low-VRAM and 1.7x greater throughput than FP8.
图 4。与其他精度相比,Flux.1-dev 的 GeForce RTX 5090 FP4 图像吞吐量为 30 步

只有 Flux.1-dev 中的 Transformer 主干被量化为 FP4,其他部分仍为 BF16 格式。

TensorRT DemoDiffusion 中的 low-VRAM 模式根据需要加载 FLUX.1-dev 中使用的 T5、CLIP、VAE 和 FLUX Transformer,并在完成后将其卸载。这使得 FLUX 的峰值内存使用量保持在这四个单独模型的最大大小范围内,但由于在推理期间必须加载和卸载每个模型,因此延迟会增加。

显存占用率 (GB) VRAM 使用压缩
FP16 (基准) 51.4 1x
FP16 低显存 23.3 2.2 倍
FP8 26.3 1.9 倍
FP8 低显存 19.9 2.6 倍
FP4 19.5 2.6 倍
FP4 低显存 9.9 5.2 倍
表 4。Blackwell FP4 VRAM 的使用情况和与不同精度格式相比的节省情况

图 5 展示了使用 FP4 量化的 Flux 模型生成的图像,突出显示了在给定提示下,图像质量和内容如何与 BF16 基准保持一致。此外,表 5 使用 1,000 张图像对 FP4 图像质量、相关性和吸引力进行了定量评估。

顶部图像的输入提示:“两颗巨大的恒星在广的空间中起舞,它们的强大引力将它们拉近了距离。当一颗恒星缩成黑洞时,它会释放出一束丽的能量,在宇宙背景下营造出耀眼的闪光效果。旋转的气体和尘埃云围绕着这个奇观,暗示着其中包含的不可思议的力量。”

底部图像的输入提示:“图像的中心位于纯色背景上,有一个逼真的球体,上面有动物柔软、蓬松的皮毛。皮毛在柔和逼真的运动中生辉,皮毛投射的阴影营造出引人入胜的视觉效果。渲染器具有高质量的 Octane 外观。”

Four images in a grid pattern. The top two are of a colossal star and a planet in space. The bottom two are of a sphere with soft, fluffy white fur on a white background with a shadow leaning the left.
图 5。Blackwell FP4 在 RTX 5090 上实现了 Flux.1-dev 模型的 3 倍推理性能,VRAM 减少一半,质量可比。
图像奖励 CLIP-IQA CLIPScore 评分
BF16 战斗机 1.118 0.927 30.15
FP4 PTQ 1.096 0.923 29.86
FP4 QAT 1.119 0.928 29.92
Table 5. Quantitative evaluation of FP4 image quality using Image Reward , CLIP-IQA , and CLIPScore (higher the better)

Flux.1-dev 模型,30 步长,1K 图像。TensorRT Model Optimizer v0.23.0 FP4 recipe。于 2025 年 1 月 24 日在 NVIDIA H100 GPU 上进行模拟。该模拟在数学上与 RTX 5090 上的 TensorRT 内核级别相同。RTX 5090 上的实际得分可能会略有不同。

TensorRT 10.8 更新现在可以在更高端的 GeForce RTX 50 系列 GPU 上运行具有峰值 FP4 性能的 Flux.1-Dev 和 Flux.1-Schnell 模型 。在 –low-vram 模式下,您甚至可以在有限的内存配置 (例如 GeForce RTX 5070) 上运行这些模型。此外, TensorRT 还支持运行由 Black Forest Labs 提供的 Depth 和 Canny Flux ControlNets 。您现在可以使用 TensorRT demo/Diffusion 进行试用

使用 cuDNN 的 Blackwell 优化深度学习基元

自 2014 年推出以来,NVIDIA cuDNN 一直是加速 GPU 深度学习工作负载的基础。通过提供核心深度学习基元的高度优化实现,它使 PyTorch、TensorFlow 和 JAX 等框架能够提供最先进的性能。通过与这些框架无缝集成,并在不同的 GPU 架构中优化性能,cuDNN 已成为为从训练到推理的端到端深度学习工作负载提供支持的性能引擎。

随着 cuDNN 9.7 的发布,我们将在数据中心和 GeForce 产品线中扩展对 NVIDIA Blackwell 架构的支持。在将 cuDNN 运算迁移到最新的 Blackwell Tensor Cores 时,开发者有望获得显著的性能提升。该库提供经过优化的通用矩阵乘法 (GEMM) APIs,可利用 Blackwell 的高级功能实现块扩展 FP8 和 FP4 运算,从而抽象出低级优化的复杂性,以便开发者专注于创新。

cuDNN 可显著提升 FP8 闪存注意力运算的性能,利用 FP8 内核实现高达 50% 的前向传播加速和 84% 的反向传播加速。该库还通过 Blackwell 架构上的高级融合功能提供高度优化的 GEMM 运算。展望未来,cuDNN 将继续扩大其融合支持,以进一步提升深度学习工作负载的性能。

Diagram shows FP8 Flash Attention performance speedups on Blackwell B200 over Hopper H100 (head dimension = 128, causal mask = off, batch size = 1). Results are presented across various sequence lengths (4k to 64k) and number of heads (8 & 16).
图 6。NVIDIA Blackwell B200 与 NVIDIA Hopper H100 之间的 FP8 Flash Attention 加速比较

使用 CUTLASS 制作高性能 Blackwell 内核

自 2017 年首次推出以来, CUTLASS 一直在帮助研究人员和开发者在 NVIDIA GPU 上实现高性能 CUDA 核函数。通过为开发者提供全面的工具来设计针对 NVIDIA Tensor Cores 的自定义操作 (例如 GEMMs 和 Convolutions) ,它对于硬件感知算法的开发至关重要,为 FlashAttention 等突破性成果提供了支持,并使自己成为 GPU 加速计算的基石。

随着 CUTLASS 3.8 的发布,我们将扩展对 NVIDIA Blackwell 架构的支持,使开发者能够利用支持所有新数据类型的新一代 Tensor Core。这包括新的窄精度 MX 格式和 NVIDIA 自己的 FP4,使开发者能够利用加速计算方面的最新创新来优化自定义算法和生产工作负载。图 7 显示,对于 Tensor Core 运算,我们能够实现高达 98% 的相对峰值性能。

Diagram showing performance comparisons between FP16, BF16, TF32, INT8, FP8, and FP4 for CUTLASS Blackwell GEMMs.
图 7。不同 NVIDIA Blackwell Tensor Core 可实现的相对峰值性能

在 B200 系统上执行了基准测试。M=K=16384,N=17290。

CUTLASS 为 Blackwell 带来了分组 GEMM 和混合输入 GEMM 运算等热门功能。分组 GEMM 提供了一种更高效的并行执行多个专家计算的方法,有助于加速 MoE 模型。混合输入 GEMM 可为量化内核提供支持,在模型权重主导 GPU 显存消耗的情况下,量化内核可以降低 LLM 的 GPU 显存需求。

Blackwell 支持 OpenAI Triton

OpenAI Triton 编译器现在还支持 Blackwell,使开发者和研究人员能够通过基于 Python 的编译器利用最新的 Blackwell 架构功能。OpenAI Triton 现在可以利用 Blackwell 架构中的最新架构创新,并在多个关键用例中实现近乎优化的性能。如需了解详情,请参阅 基于 NVIDIA Blackwell 的 OpenAI Triton 提升 AI 性能和可编程性 由 NVIDIA 和 OpenAI 共同撰写。

总结

NVIDIA Blackwell 架构融合了许多有助于加速生成式 AI 推理的突破性功能,包括采用 FP4 Tensor Cores 的第二代 Transformer Engine 和 采用 NVLink Switch 的第五代 NVLink 。NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能。搭载 8 个 NVIDIA Blackwell GPUs 的单个 NVIDIA DGX 系统,在具有 671 亿个参数的先进大型 DeepSeek-R1 模型上,每个用户每秒可实现超过 250 个 tokens,或每秒超过 30,000 个 tokens 的最大吞吐量。

丰富的库套件现已针对 NVIDIA Blackwell 进行优化,使开发者能够显著提高当今 AI 模型和未来不断变化的环境的推理性能。详细了解 NVIDIA AI 推理平台,并随时了解最新的 AI 推理性能更新。

致谢

如果没有 Matthew Nicely、Nick Comly、Gunjan Mehta、Rajeev Rao、Dave Michael、Yiheng Zhang、Brian Nguyen、Asfiya Baig、Akhil Goel、Paulius Micikevicius、June Yang、Alex Settle、Kai Xu、Zhiyu Cheng 和 Chenjie Luo 等许多人的杰出贡献,这项工作就不可能实现。

 

 

标签