数据中心/云端

NVIDIA Blackwell 在 MLPerf 训练 v4.1 中将 LLM 训练性能提高一倍

随着模型规模的扩大以及使用更多数据进行训练,它们的能力也随之提升,实用性也随之提升。为了快速训练这些模型,需要在数据中心规模上提供更高的性能。NVIDIA Blackwell 平台在 2024 年 GTC 大会上推出,现已全面投产,集成了七类芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平台在每个 GPU 的性能方面实现了巨大飞跃,旨在支持创建更大规模的 AI 集群,从而推动下一代 LLM 的开发。

在最新一轮的 MLPerf 训练 (一套 AI 训练基准测试) 中,NVIDIA 使用 Blackwell 平台首次提交了基准测试预览类别的测试结果。这些结果表明,在每个 MLPerf 训练基准测试中,与基于 Hopper 的提交相比,每个加速器的提升幅度很大。亮点包括 GPT-3 预训练的每个 GPU 性能提升 2 倍,以及 Llama 2 70B 低等级适应 (LoRA) 微调的 2.2 倍。NVIDIA 还在本轮的每项 MLPerf 训练基准测试中提交了在 Blackwell 上运行的结果,与 Hopper 相比,全面实现了坚实的提升。

提交的每个系统均包含 8 个 Blackwell GPU,运行时热设计功耗(TDP)为 1,000W,并使用第五代 NVLink 和最新的 NVLink Switch 进行连接。这些节点使用 NVIDIA ConnectX-7 SuperNIC NVIDIA Quantum-2 InfiniBand 交换机进行连接。展望未来,GB200 NVL72 具有更多的计算能力、扩展的 NVLink 域、更高的内存带宽和容量,并与 NVIDIA Grace CPU 紧密集成。与 HGX B200 相比,GB200 NVL72 预计可提供更高的每个 GPU 性能,并通过 ConnectX-8 SuperNIC 和新的 Quantum-X800 交换机实现高效扩展。

在本文中,我们将更深入地了解这些出色的结果。

增强 Blackwell 的软件堆栈 

每一代新平台,NVIDIA 都会广泛地共同设计硬件和软件,使开发者能够实现出色的工作负载性能。Blackwell GPU 架构在 Tensor Core 计算吞吐量和内存带宽方面实现了巨大的飞跃。NVIDIA 软件堆栈的许多方面都得到了增强,以便在本轮 MLPerf 训练中利用 Blackwell 显著改进的功能,包括:

  • 优化的 GEMMs、卷积和多头注意力 :我们开发了新的内核,旨在高效利用 Blackwell GPU 架构中更快、更高效的 Tensor Cores。
  • 更高效的计算和通信重叠 :架构和软件增强功能允许在多 GPU 执行期间更好地利用可用的 GPU 资源。
  • 提高内存带宽利用率 :作为 cuDNN 库的一部分,我们开发了新软件,该软件利用了 Hopper 架构中首次引入的 Tensor Memory Accelerator(TMA)功能,提高了 HBM 带宽在包括 normalizations 在内的多项操作中的利用率。
  • 性能更强的并行映射 :Blackwell GPU 引入更大的 HBM 容量,可实现语言模型的并行映射,从而更高效地利用硬件资源。

此外,为了提高 Hopper 的性能,我们增强了 cuBLAS ,支持更灵活的平铺选项并改进了数据局部性。 cuDNN 中的优化的 Blackwell 多头注意力核和卷积核利用了 cuDNN Runtime Fusion Engines。 NVIDIA Transformer Engine 库有助于通过上述优化组合实现语言模型的优化性能。

Blackwell 架构中的许多创新、上述优化以及此处未介绍的软件堆栈的许多其他增强功能相结合,有助于实现全面出色的性能提升。改进后的翻译内容中,修正了标点符号,保持了原文的语义和结构。由于没有出现 Names、LLM 模型和公式,因此无需进行替换

Blackwell 为 LLM 预训练带来了巨大的飞跃

MLPerf 训练套件包含基于 OpenAI 开发的 GPT-3 模型的 LLM 预训练基准测试。此测试旨在展示最先进的基础模型训练性能。在第四次提交的作品中,Blackwell 得出的每个 GPU 的性能是 Hopper 的两倍。另外,与基于 NVIDIA Ampere 架构的 HGX A100(未经 MLCommons 验证)收集的结果相比,每个 GPU 的性能提高了约 12 倍。

On the left is an enumeration of some of the key hardware and software advances that helped enable the performance gains demonstrated in the NVIDIA Blackwell submissions, and on the right is a chart showing performance improvements baselined to HGX A100, getting to a total of 12x more perf with HGX B200.
图 1、NVIDIA 全栈技术的进步显著提升了 MLPerf Training LLM 预训练基准测试的性能。 MLPerf Training,已关闭。 HGX H100(2023 年 6 月)、HGX H100(2024 年 11 月)和 HGX B200 结果(由 MLCommons Association 验证)。 HGX A100 结果未经 MLCommons 验证。 从 3.0-2069(512 H100 GPU)、4.1-0060(512 H100 GPU)和 4.1-0082(64 个 Blackwell GPU)条目中获取验证结果,并按 GPU 进行标准化。性能/GPU 不是 MLPerf 训练的主要指标。MLPerf 名称和徽标均为 MLCommons 协会在美国和其他国家/地区的注册商标和非注册商标。保留所有权利。严禁未经授权使用。详情请参见 www.mlcommons.org。

此外,由于 HGX B200 中每个 Blackwell GPU 的 HBM3e 显存更大、带宽更高,因此仅使用 64 个 GPU 即可运行 GPT-3 基准测试,而不会影响每个 GPU 的性能。与此同时,要使用 HGX H100 实现每个 GPU 的最佳性能,需要 256 个 GPU(32 台 HGX H100 服务器)的提交规模。更高的每个 GPU 计算吞吐量与更大、更快速的高带宽显存相结合,使 GPT-3 175B 基准测试能够在更少的 GPU 上运行,同时实现出色的每个 GPU 性能。

Blackwell 加速 LLM 微调 

随着功能齐全的大型社区 LLMs(例如 Meta 的 Llama 家族模型)的出现,企业可以使用大量功能强大的预训练模型。这些模型可以通过微调来提高特定任务的性能。MLPerf Training 最近添加了一项 LLM 微调基准测试,该基准测试对 Llama 2 70B 模型应用低等级自适应(LoRA)–一种参数高效微调(PEFT)。

A slide showing that Blackwell delivered 2.2x more performance per GPU on Llama 2 70B fine-tuning, 2x faster on GPT-3 175B, and ran all benchmarks.
图 2、与 Hopper 相比,NVIDIA Blackwell 在 LLM 基准测试中将每个 GPU 的性能提高了一倍,并在所有 MLPerf Training v4.1 基准测试中实现了显著的性能提升。 Llama 2 70B LoRA 微调的性能比较基于 DGX B200 8-GPU 提交(条目 4.1-0080,预览类别)与使用 8-GPU HGX H100 的提交(条目 4.1-0050,可用类别)的比较。GPT-3 175B 的比较是基于 256 个 H100 GPU 提交(条目 4.1-0057,可用类别)的每个 GPU 的标准化性能与 64 个 Blackwell GPU 提交(条目 4.1-0082,预览类别)的每个 GPU 的标准化性能的比较。结果由 MLCommons Association 验证。MLPerf 名称和徽标是 MLCommons 协会在美国和其他国家的注册商标和非注册商标。所有权利保留。未经授权严禁使用。更多信息请参阅 www.mlcommons.org

在 LLM 微调基准测试中,与 HGX H100 服务器相比,单个 HGX B200 服务器的性能提升了 2.2 倍。这意味着,组织可以使用 Blackwell 比 Hopper 更快地自定义 LLM,从而缩短部署时间并最终实现价值。

Blackwell 在每个基准测试中提交的结果 

NVIDIA 在每个基准测试中都使用 Blackwell 提交了结果,实现了全面的显著性能提升。

基准测试 Blackwell 每 GPU 性能提升 最新 H100 性能对比
LLM LoRA 微调 2.2 倍
LLM 预训练 2.0 倍
图神经网络 2.0 倍
文本转图像 1.7 倍
推荐系统 1.6 倍
物体检测 1.6 倍
自然语言处理 1.4 倍
表 1. 与 Hopper 相比,Blackwell 的性能提升 (每个 GPU 标准化) MLPerf Training v4.1 已关闭。结果于 2024 年 11 月 13 日检索自以下条目:4.1-0048、4.1-0049、4.1-0050、4.1-0051、4.1-0052、4.1-0078、4.1-0079、4.1-0080、4.1-0081、4.1-0082 通过比较每个 GPU 的标准化性能计算加速 每个 GPU 的性能并不是 MLPerf 训练的主要指标 。MLPerf 名称和徽标是 MLCommons 协会在美国和其他国家/地区的注册商标和未注册商标。保留所有权利。未经授权,严禁使用。详情请参见 www.mlcommons.org。

Hopper 继续提供卓越性能 

NVIDIA Hopper 架构在 MLPerf Training v4.1 中的可用解决方案中继续提供最高性能,无论是在标准化的每个加速器还是在规模上都是如此。例如,在 GPT-3 175B 基准测试中,自 MLPerf Training v3.0 基准测试中首次提交 Hopper(其结果于 2023 年 6 月发布)以来,每个加速器的 Hopper 性能提高了 1.3 倍。

除了改善每个 GPU 的交付性能外,NVIDIA 还显著提高了扩展效率,使用 11,616 个 H100GPU 实现 GPT-3 175B 提交,从而继续保持整体性能和提交规模的基准记录。

NVIDIA 还使用 HGX H200 平台提交了结果。NVIDIA H200 Tensor Core GPU 采用与 NVIDIA H100 Tensor Core GPU 相同的 Hopper 架构,配备 HBM3e 内存,提供 1.8 倍的内存容量和 1.4 倍的内存带宽。在 Llama 2 70B 低等级适应性(LoRA)基准测试中,使用 H200 的 NVIDIA 8-GPU 提交的性能比 H100 提高了约 16%。

要点 

与 Hopper 平台相比,NVIDIA Blackwell 平台实现了显著的性能飞跃,尤其是对于 LLM 预训练和 LLM 微调,这些 MLPerf 训练结果证明了这一点。另外,自推出以来,Hopper 通过软件优化进一步提高了性能,继续为每个 GPU 和大规模提供出色性能。在未来的 MLPerf 训练回合中,我们期待更大规模地提交 Blackwell,以及提交使用机架级 GB200 NVL72 系统的结果。

 

标签