随着模型规模的扩大以及使用更多数据进行训练,它们的能力也随之提升,实用性也随之提升。为了快速训练这些模型,需要在数据中心规模上提供更高的性能。NVIDIA Blackwell 平台在 2024 年 GTC 大会上推出,现已全面投产,集成了七类芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平台在每个 GPU 的性能方面实现了巨大飞跃,旨在支持创建更大规模的 AI 集群,从而推动下一代 LLM 的开发。
在最新一轮的 MLPerf 训练 (一套 AI 训练基准测试) 中,NVIDIA 使用 Blackwell 平台首次提交了基准测试预览类别的测试结果。这些结果表明,在每个 MLPerf 训练基准测试中,与基于 Hopper 的提交相比,每个加速器的提升幅度很大。亮点包括 GPT-3 预训练的每个 GPU 性能提升 2 倍,以及 Llama 2 70B 低等级适应 (LoRA) 微调的 2.2 倍。NVIDIA 还在本轮的每项 MLPerf 训练基准测试中提交了在 Blackwell 上运行的结果,与 Hopper 相比,全面实现了坚实的提升。
提交的每个系统均包含 8 个 Blackwell GPU,运行时热设计功耗(TDP)为 1,000W,并使用第五代 NVLink 和最新的 NVLink Switch 进行连接。这些节点使用 NVIDIA ConnectX-7 SuperNIC 和 NVIDIA Quantum-2 InfiniBand 交换机进行连接。展望未来,GB200 NVL72 具有更多的计算能力、扩展的 NVLink 域、更高的内存带宽和容量,并与 NVIDIA Grace CPU 紧密集成。与 HGX B200 相比,GB200 NVL72 预计可提供更高的每个 GPU 性能,并通过 ConnectX-8 SuperNIC 和新的 Quantum-X800 交换机实现高效扩展。
在本文中,我们将更深入地了解这些出色的结果。
增强 Blackwell 的软件堆栈
每一代新平台,NVIDIA 都会广泛地共同设计硬件和软件,使开发者能够实现出色的工作负载性能。Blackwell GPU 架构在 Tensor Core 计算吞吐量和内存带宽方面实现了巨大的飞跃。NVIDIA 软件堆栈的许多方面都得到了增强,以便在本轮 MLPerf 训练中利用 Blackwell 显著改进的功能,包括:
- 优化的 GEMMs、卷积和多头注意力 :我们开发了新的内核,旨在高效利用 Blackwell GPU 架构中更快、更高效的 Tensor Cores。
- 更高效的计算和通信重叠 :架构和软件增强功能允许在多 GPU 执行期间更好地利用可用的 GPU 资源。
- 提高内存带宽利用率 :作为 cuDNN 库的一部分,我们开发了新软件,该软件利用了 Hopper 架构中首次引入的 Tensor Memory Accelerator(TMA)功能,提高了 HBM 带宽在包括 normalizations 在内的多项操作中的利用率。
- 性能更强的并行映射 :Blackwell GPU 引入更大的 HBM 容量,可实现语言模型的并行映射,从而更高效地利用硬件资源。
此外,为了提高 Hopper 的性能,我们增强了 cuBLAS ,支持更灵活的平铺选项并改进了数据局部性。 cuDNN 中的优化的 Blackwell 多头注意力核和卷积核利用了 cuDNN Runtime Fusion Engines。 NVIDIA Transformer Engine 库有助于通过上述优化组合实现语言模型的优化性能。
Blackwell 架构中的许多创新、上述优化以及此处未介绍的软件堆栈的许多其他增强功能相结合,有助于实现全面出色的性能提升。改进后的翻译内容中,修正了标点符号,保持了原文的语义和结构。由于没有出现 Names、LLM 模型和公式,因此无需进行替换
Blackwell 为 LLM 预训练带来了巨大的飞跃
MLPerf 训练套件包含基于 OpenAI 开发的 GPT-3 模型的 LLM 预训练基准测试。此测试旨在展示最先进的基础模型训练性能。在第四次提交的作品中,Blackwell 得出的每个 GPU 的性能是 Hopper 的两倍。另外,与基于 NVIDIA Ampere 架构的 HGX A100(未经 MLCommons 验证)收集的结果相比,每个 GPU 的性能提高了约 12 倍。
此外,由于 HGX B200 中每个 Blackwell GPU 的 HBM3e 显存更大、带宽更高,因此仅使用 64 个 GPU 即可运行 GPT-3 基准测试,而不会影响每个 GPU 的性能。与此同时,要使用 HGX H100 实现每个 GPU 的最佳性能,需要 256 个 GPU(32 台 HGX H100 服务器)的提交规模。更高的每个 GPU 计算吞吐量与更大、更快速的高带宽显存相结合,使 GPT-3 175B 基准测试能够在更少的 GPU 上运行,同时实现出色的每个 GPU 性能。
Blackwell 加速 LLM 微调
随着功能齐全的大型社区 LLMs(例如 Meta 的 Llama 家族模型)的出现,企业可以使用大量功能强大的预训练模型。这些模型可以通过微调来提高特定任务的性能。MLPerf Training 最近添加了一项 LLM 微调基准测试,该基准测试对 Llama 2 70B 模型应用低等级自适应(LoRA)–一种参数高效微调(PEFT)。
在 LLM 微调基准测试中,与 HGX H100 服务器相比,单个 HGX B200 服务器的性能提升了 2.2 倍。这意味着,组织可以使用 Blackwell 比 Hopper 更快地自定义 LLM,从而缩短部署时间并最终实现价值。
Blackwell 在每个基准测试中提交的结果
NVIDIA 在每个基准测试中都使用 Blackwell 提交了结果,实现了全面的显著性能提升。
基准测试 | Blackwell 每 GPU 性能提升 与 最新 H100 性能对比 |
LLM LoRA 微调 | 2.2 倍 |
LLM 预训练 | 2.0 倍 |
图神经网络 | 2.0 倍 |
文本转图像 | 1.7 倍 |
推荐系统 | 1.6 倍 |
物体检测 | 1.6 倍 |
自然语言处理 | 1.4 倍 |
Hopper 继续提供卓越性能
NVIDIA Hopper 架构在 MLPerf Training v4.1 中的可用解决方案中继续提供最高性能,无论是在标准化的每个加速器还是在规模上都是如此。例如,在 GPT-3 175B 基准测试中,自 MLPerf Training v3.0 基准测试中首次提交 Hopper(其结果于 2023 年 6 月发布)以来,每个加速器的 Hopper 性能提高了 1.3 倍。
除了改善每个 GPU 的交付性能外,NVIDIA 还显著提高了扩展效率,使用 11,616 个 H100GPU 实现 GPT-3 175B 提交,从而继续保持整体性能和提交规模的基准记录。
NVIDIA 还使用 HGX H200 平台提交了结果。NVIDIA H200 Tensor Core GPU 采用与 NVIDIA H100 Tensor Core GPU 相同的 Hopper 架构,配备 HBM3e 内存,提供 1.8 倍的内存容量和 1.4 倍的内存带宽。在 Llama 2 70B 低等级适应性(LoRA)基准测试中,使用 H200 的 NVIDIA 8-GPU 提交的性能比 H100 提高了约 16%。
要点
与 Hopper 平台相比,NVIDIA Blackwell 平台实现了显著的性能飞跃,尤其是对于 LLM 预训练和 LLM 微调,这些 MLPerf 训练结果证明了这一点。另外,自推出以来,Hopper 通过软件优化进一步提高了性能,继续为每个 GPU 和大规模提供出色性能。在未来的 MLPerf 训练回合中,我们期待更大规模地提交 Blackwell,以及提交使用机架级 GB200 NVL72 系统的结果。