数据中心/云端

NVIDIA Blackwell 在 MLPerf Training v5.0 中实现高达 2.6 倍的性能提升

创建先进的大语言模型 (LLM) 的过程始于预训练过程。预训练最先进的模型具有很高的计算要求,因为热门的开放权重模型具有数百亿到数千亿个参数,并使用数万亿个令牌进行训练。模型智能随着模型参数数量和训练数据集大小的增加而增长,训练模型所需的计算量也在增加,因此需要更高性能的训练集群来解锁更智能、更强大的模型,同时控制训练时间。

预训练模型后,可以对其进行后训练,以进一步增强其功能。例如,企业可以使用自己的专有数据集定制预训练模型,以提高该组织特定用例的知识水平和响应准确性。其他后训练技术可用于增加支持的上下文长度,以及增强具有推理能力的模型。总体而言,虽然单个模型的后训练计算密集程度可能比现在的预训练模型低,但随着研究人员寻找提高模型能力的新方法,以及许多组织可以自定义模型,后训练模型的计算密集程度也在快速增长。

MLPerf Training v5.0 是长期运行的 MLPerf Training 系列基准测试的最新版本,用于测量平台将模型训练到预定质量值的速度。该基准测试套件目前由七个基准测试组成,涵盖多个领域:LLM 预训练、LLM 微调、文本生成图像、推荐系统、图神经网络、自然语言处理和物体检测。

在最新一轮 MLPerf 训练中,NVIDIA 平台在所有七个基准测试中提供了最快的训练时间。

基准测试 训练时间 (分钟)
LLM 预训练 ( Llama 3.1 405B) 20.8
LLM 微调 ( Llama 2 70B-LoRA) 0.56
文本转图像 ( Stable Diffusion v2) 1.04
Graph Neural Network (R-GAT) 0.84
Recommender (DLRM-DCNv2) 0.7
自然语言处理 (BERT) 0.3
Object Detection (RetinaNet) 1.4
表 1。NVIDIA 平台在 MLPerf Training v5.0 中的大规模性能结果

MLPerf Training v5.0 结果于 2025 年 6 月 4 日从 www.mlcommons.org 的以下条目中检索到:5.0-0010 (NVIDIA) 、5.0 – 0074 (NVIDIA) 、5.0 – 0076 (NVIDIA) 、5.0 – 0077 (NVIDIA) 、5.0 – 0087 (SuperMicro) 。MLPerf 名称和徽标均为 MLCommons 协会在美国和其他国家 地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommons.org

本轮也标志着首批使用 NVIDIA GB200 NVL72 机架级扩展系统的 MLPerf 训练提交,NVIDIA 以及许多 NVIDIA 合作伙伴都取得了出色的结果。本文将详细介绍这些结果及其实现方式。

NVIDIA Blackwell 为 LLM 预训练提供巨大助力

上一代 NVIDIA Hopper 架构相比,NVIDIA Blackwell 采用了许多架构创新。这些进步包括显著提高每个 GPU 的计算性能,以及第五代 NVLink 和 NVLink Switch 等技术,这些技术增加了 GPU 之间的带宽,并显著扩展了 NVLink 域的大小,使模型开发者能够更快地训练模型。

这些突破包括新的第二代 Transformer 引擎、更快、更宽的 NVIDIA NVLink 互连以及更高带宽和更大容量的 HBM3e 显存。这些架构功能通过 NVIDIA 软件堆栈中的许多创新激活,在使用 512 个 GPU 运行 Llama 3.1 405B 基准测试时,与 Hopper 相比,GB200 NVL72 的训练速度提高了 2.2 倍。借助 Llama 3.1 405B 预训练基准,GB200 NVL72 可实现高达 1960 TFLOPS 的训练吞吐量。

基准测试 # GPUs Hopper Blackwell Blackwell Speedup
Llama 3.1 405B 512 269.12 min. 121.09 min. 2.2x

 

GB200 NVL72 系统配备 72 个 Blackwell GPU,通过 GPU 和 GB200 NVL72 机架中的 NVLink Switch 芯片上的 NVLink 连接在单个 NVLink 域上。NVIDIA 和合作伙伴提交的 GB200 NVL72 使用针对 GB200 NVL72 系统拓扑优化的模型并行映射,以更大限度地提高训练吞吐量。

Blackwell 在主流 AI 数据格式方面的峰值计算性能也远高于 Hopper。为了利用这种更高的计算性能,NVIDIA cuBLAS 库 (具有关键的线性代数运算,包括通用矩阵乘法 (GEMM)) 已针对 Blackwell 架构进行优化,并针对 GB200 NVL72 进行了额外调优。

另一个重要的优化是使用 CUDA 图形在每个 GPU 上处理 LLM 的完整向前 – 向后图形,而不是每个 Transformer 层使用一个图形。这允许跨 Transformer 层重复使用 GPU 显存,从而显著减少与使用 CUDA 图形相关的显存占用。它还有助于更大限度地减少执行期间的主机 CPU 用度,这是在驱动超快的 Blackwell GPU 时的关键优化。随着训练跨数千个 GPU 进行扩展,以及每个 GPU 执行的工作量减少,通过 CUDA Graphs 消除主机用度也显著提高了 LLM 的可扩展性。

接下来,为了提高 GB200 NVL72 上的 GPU 利用率,NVIDIA 在本轮提交的结果中重点介绍了 GEMM 和 GPU 到 GPU 通信操作的优化重叠执行。其中包括使用 CUDA 流优先级功能,在通信核函数与数学核函数同时运行时提高调度器级别的通信核函数的优先级;以及使用基于复制引擎的实现来减少散点和全聚函数 (用于张量并行 (TP)) ,以在数学运算处于关键路径时尽可能减少 TP 集合的 SM 要求。这些优化可通过 NVIDIA 软件堆栈 (包括 NeMo、Megatron-Core、Transformer 引擎和 cuBLAS 库) 获得。

GB200 NVL72 系统的 NVLink 域大小是上一代 Hopper 架构的 9 倍。为了优化性能并提供出色的可扩展性,NVIDIA 在 Megatron-Core 训练库中实施了一项功能,允许对并行映射进行灵活排序。特别是,除了 Megatron-Core 支持的现有 Tensor Parallel-Context Parallel-Data Parallel-Pipeline Parallel (TP-CP-DP-PP) 映射之外,现在还支持 TP-CP-PP-DP (或“DP-Last”) 。在以本次提交所用的比例 ( 512 至 2496 个 GPU) 运行 Llama 3.1 405B 基准测试时,这对于基于 GB200 NVL72 的系统是最佳选择。

最后,本轮提交的作品在向后传递中使用了增强的 Flash Attention 内核,该内核可更仔细地管理 GPU 寄存器使用情况,以最大限度地减少寄存器溢出。从 v9.9.0 开始,您可以直接通过 cuDNN 获得优化。由于双向上下文并行,注意力执行被分成两个 GPU,每个 GPU 可处理多达 4096 个序列。借助此优化,使用因果掩码和序列长度为 4096 的注意力反向核函数可将速度提高 1.3 倍。

Blackwell 加速 LLM 微调

许多组织会自定义现有的预训练模型,为特定任务或应用领域提供高准确性。MLPerf Training v5.0 加入了 LLM 微调基准测试,该基准测试将低秩自适应 (LoRA) 技术应用于 Llama 2 70B。更快的模型微调使组织能够更快速地部署针对其特定用例定制的模型,从而缩短部署时间。

与上一轮中使用搭载 8 个 NVIDIA H100 Tensor Core GPU 的 NVIDIA DGX H100 系统提交的 NVIDIA 测试结果相比,8 个 Blackwell GPU 作为 GB200 NVL72 系统的一部分运行,可将训练时间缩短 2.5 倍。

基准测试 # GPUs Hopper Blackwell Blackwell Speedup
Llama 2 70B LoRA 8 27.93 min. 11.14 min. 2.51x
表 3。在 Llama 2 70B LoRA 微调基准测试中,Blackwell 在 8 GPU 规模下将每个 GPU 的性能提升了 2.5 倍

 

相较于 Hopper,每个 Blackwell GPU 的计算性能可大幅提升速度,此外,Blackwell 更大的内存容量还可让整个 Llama 2 70B 模型适应单个 GPU。这有助于减少模型并行通信的数量,进而提高每个 GPU 的吞吐量。

NVIDIA 提交作品中的 SwiGLU 输入也以 FP8 格式而不是较大的 BF16 格式存储,这进一步减少了内存占用。该优化与上述更大的显存容量相结合,可完全通过数据并行进行训练,从而避免所有模型并行通信用度。

此提交作品还受益于作为 cuDNN 一部分的增强型均方根层归一化 (RMSNorm) 内核。RMSNorm 是最新 LLM 中使用的关键运算,可随着模型的增长提高稳定性。

最后,在结果提交后,NVIDIA 实施了额外的优化,提高了 Hopper 和 Blackwell GPU 的性能。这些优化均计划在 NVIDIA NeMo Framework 25.07 版本中进行。

Llama 2 70B LoRA # GPUs June 2025
Unverified Result
加速与验证结果对比
NVIDIA H200 8 21.84 min. 10%
Blackwell (GB200 NVL72) 8 10.34 min. 8%
表 4。在 Llama 2 70B LoRA 微调基准测试中,Blackwell 在 8 GPU 规模下将每个 GPU 的性能提升了 2.5 倍

 

Blackwell 增强文本转图像预训练

在 Stable Diffusion v2 预训练基准测试中,与上一轮使用 H100 Tensor Core GPU 提交的 NVIDIA 结果相比,GB200 NVL72 的每个 GPU 性能提高了 2.6 倍,并创下了新的大规模性能记录。

基准测试 # GPUs Hopper Blackwell Blackwell Speedup
Stable Diffusion v2 8 33.97 min. 12.86 min. 2.64x
表 5。Blackwell 为每个 GPU 提供的性能是 Hopper 的 2.6 倍

 

这些出色结果的背后是几项关键优化。

首先是经过改进的 Apex GroupNorm 内核,可减少内存占用并提高性能。接下来,NVIDIA 在本轮提交的结果中,通过在 Apex DistributedAdam 内核中管线化 reduce-scatter 和 AllReduce 操作,改进了数据并行通信。最后,通过增加分布式优化器组大小以在 NVLink 域中使用 72 个 GPU,NVIDIA 本轮提交的结果在 72 个 GPU 规模的提交以及 512 个 GPU 的最大规模下实现了更高的性能。

Blackwell 加速图形神经网络训练性能

在基于 R-GAT 的 R – GAT 训练测试中,与使用 H100 Tensor Core GPU 的 NVIDIA 提交相比,使用 GB200 NVL72 的 NVIDIA 提交的每个 GPU 性能提高了 2.2 倍。

基准测试 # GPUs Hopper Blackwell Blackwell Speedup
GNN 8 11.18 min. 4.97 min. 2.25x
表 6。与 Hopper 相比,Blackwell 在 GNN 基准测试中将每个 GPU 的性能提高了 2.25 倍

 

这些结果是通过许多优化实现的,包括扩展 CUDA 图形的范围以包括优化器,从而降低 CPU 开销。

我们还融合了几个受延迟限制的小型复制操作,这些操作是通过 Triton 内核为 CUDA 图形设置数据缓冲区所需的,从而显著减少启动复制操作的开销。

要点

随着 AI 模型从训练和后训练过渡到部署,这些性能提升可以缩短解决问题的时间,并最终实现价值。更高的性能可以支持训练更大、更复杂的基础模型,为更强大的推理模型奠定基础。

要在 NVIDIA MLPerf v5.0 提交的 Llama 2 70B LoRA 微调和 Llama 405B 预训练中重现这些结果,请参阅为 LLM 基准测试重现 NVIDIA MLPerf v5.0 训练分数。提交库还包含 README 文件,用于重现所有基准测试的分数。例如,请参阅 Llama 2 70B LoRA 微调基准和 Llama 3.1 405B 基准测试。

标签