数据中心/云端

NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录

大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、高效的加速库和高度优化的推理引擎。

MLPerf Inference v4.1 是广受认可的热门 MLPerf Inference 基准测试的最新版本,由 MLCommons 联盟开发。该基准测试包括许多热门 AI 模型,涵盖从 LLM 和生成式 AI 到推荐系统和计算机视觉的各种用例。这些基准测试会定期更新,以确保市场相关性。

在这一轮中,NVIDIA 凭借整个 NVIDIA 技术堆栈的创新提交了许多出色的结果。亮点包括:

本文将对这些结果进行详细介绍。

NVIDIA Blackwell 在首次亮相 MLPerf Inference 时大放异彩

NVIDIA Blackwell 架构在 NVIDIA GTC 2024 上推出,是一种新型 AI 超级芯片。它由 2080 亿个晶体管精心制作而成,并采用专为 NVIDIA 定制的 TSMC 4NP 工艺,是迄今为止最大的 GPU。Blackwell 架构还采用新的第二代 Transformer 引擎,该引擎将新的 Blackwell Tensor Core 技术与 TensorRT-LLM 创新相结合,可实现快速准确的 FP4 AI 推理。

A photo of a GB200 compute node, with chips, cooling, among other components.
图 1.NVIDIA Blackwell 计算节点

在这一轮 MLPerf 推理中,NVIDIA 使用 Blackwell 提交了首批结果。在 Llama 2 70B LLM 基准测试中,Blackwell 提供的每个 GPU 的令牌数每秒比 H100 GPU 高 4 倍。

MLPerf Inference v4.1 Llama 2 70B 服务器
令牌/秒
离线
令牌/秒
1 块 NVIDIA B200 GPU 10756 11264
每个 GPU 的性能提升 4 倍 3.7 倍
表 1. 在 MLPerf Llama 2 70B 基准测试中,与 NVIDIA Hopper 相比,每个 GPU 的性能提升。通过将提交的 8 个 GPU 结果除以 8 获得每个 GPU 的 NVIDIA H100 吞吐量。

MLPerf Inference v4.1 已关闭,数据中心。检索自 2024 年 8 月 28 日 www.mlperf.org 的结果。Blackwell 结果在单个 GPU 上测量,并检索自条目 4.1-0074 的 Closed,Preview 类别。H100 结果来自条目 4.1-0043(位于 8 个 H100 系统的 Closed,Available 类别),并除以每个 GPU 比较的 GPU 数量。每个 GPU 吞吐量不是 MLPerf Inference 的主要指标。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册和未注册商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommons.org

此提交作品广泛使用了 Blackwell FP4 Transformer 引擎。此提交作品也在封闭分区中进行,这意味着推理结果在不修改模型的情况下提供了这一性能,同时仍然满足基准的高精度要求。FP4 量化使用 NVIDIA TensorRT Model Optimizer 库执行,该库融合了先进的模型优化技术,无需重新训练模型。

NVIDIA H200 Tensor Core GPU 可在每項基準測試中提供出色的性能。

NVIDIA H200 GPU 使用业界最快的 AI 显存 HBM3e 升级了 NVIDIA Hopper 架构。与 H100 相比,这将显存容量增加了 1.8 倍,显存带宽增加了 1.4 倍,使内存敏感型用例受益。

在这一轮中,NVIDIA 针对每个工作负载使用八个 H200 GPU 提交了结果,并在可用类别中提交了结果。

基准测试 GPU 服务器 离线
Llama 2 70B 8 H200
(1000 瓦)
32790 令牌/秒 34864 个令牌/秒
Mixtral 8x7B









8 H200
(700 瓦)
57177 令牌/秒 59022 令牌/秒
GPT-J 19243 令牌/秒 20086 令牌/秒
Stable Diffusion XL 16.78 条查询/秒 17.42 个样本/秒
DLRM v2 99% 585208 条查询/秒 637342
样本/秒
DLRM v2 99.9% 370083 条查询/秒 390953
样本/秒
ResNet-50 v1.5 632229 条查询/秒 756960
样本/秒
BERT 99% 57609 条查询/秒 73310 个样本/s
BERT 99.9% 51212 条查询/秒 63950 个样本/秒
RetinaNet 13604 条查询/秒 14439 个样本/秒
3D U-Net 不属于基准测试 54.71 个样本/秒
表 2. 使用 NVIDIA H200 GPU 的 NVIDIA MLPerf Inference v4.1 数据中心结果。Llama 2 70B 结果基于配置为 1000W 的 NVIDIA H200,所有其他结果均使用 700W 的 NVIDIA H200。

MLPerf Inference v4.1 已关闭,数据中心。检索结果的网址为 www.mlperf.org,日期为 2024 年 8 月 28 日。所有结果均使用 8 个 GPU 并检索自以下条目:4.1-0046、4.1-0048、4.1-0050。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。保留所有权利。未经授权的使用严格禁止。有关更多信息,请参阅 www.mlcommons.org

以下小节描述了在多个基准测试中所实现的改进。

Llama 2 70B

Llama 2 70B 基准测试是在上一轮测试中首次推出,并继续代表热门的 70B 级密集 LLM。

NVIDIA 还将继续增强 TensorRT-LLM 软件,通过现有 GPU 为用户提供更多的 LLM 推理性能。仅通过软件改进,与上一轮的预览提交相比,Llama 2 70B 在 H200 上的性能提升高达 14%。

MLPerf Llama 2 自 v4.0 以来改进了 70B 服务器 离线
H200 (700 W) 1.14 倍 1.12 倍
H100 (700 W) 1.05 倍 1.12 倍
表 3. 与上一轮相比,Hopper GPU 在 Llama 2 70B 基准测试中的改进。

MLPerf Inference v4.0 和 v4.1 已关闭,数据中心。检索结果的网址为 www.mlperf.org,日期为 2024 年 8 月 28 日。所有结果均使用八个 GPU 并检索自以下条目:4.0-0062、4.0-0070、4.1-0043、4.1-0048、4.1-0050。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。所有权利保留。未经授权的使用严格禁止。有关更多信息,请参阅 www.mlcommons.org

这轮的主要改进包括 XQA 内核优化以及其他层融合。

此外,NVIDIA 还提交了使用 H200 GPU(使用定制散热解决方案)并将热设计功耗(TDP)提高到 1,000 瓦的 Llama 2 70B 结果。与配置为 700 瓦 TDP 的 H200 相比,在 Llama 2 70B 基准测试中,性能最高可提升 12%。

在这一轮中,NVIDIA 还使用运行 Triton Inference Server 的 H200 GPU 提交了 Llama 2 70B 结果,提供与 bare metal 提交相似的性能。在服务器场景中,配备 Triton Inference Server 的 H200 甚至在没有 Triton Inference Server的情况下优于 H200。

MLPerf Llama 2 70B 基准测试 服务器 离线
配备 Triton 推理服务器的 8 H200 30128 31059
8 不使用 Triton 推理服务器的 H200 29228 31303
表 4. 使用和不使用 Triton 推理服务器的 8 个 H200 GPU 的性能。

MLPerf Inference v4.1 关闭,数据中心。检索结果的网址为 www.mlperf.org,日期为 2024 年 8 月 28 日。所有结果均使用八个 GPU 并检索自以下条目:4.1-0048、4.1-0050。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。保留所有权利。未经授权使用严禁。有关更多信息,请参阅 www.mlcommons.org

这表明,在使用 Triton 推理服务器时,希望部署热门模型的组织不需要以性能交换功能。

最后,NVIDIA 使用单个 H200 GPU 提交了 Llama 2 70B 公开分区结果,展示了更广泛的模型级优化可能带来的性能提升。

首先,对模型应用深度剪枝和宽度剪枝,通过智能删除对整体模型输出不太重要的层和中间维度,大幅减少模型中的参数总数。

然后,为了恢复准确性,我们使用 MLPerf OpenORCA 开发数据集对模型执行了微调。最终剪枝模型具有 32 层和 14,336 MLP 中间维度,与原始模型的 80 层和 28,672 中间维度相比,这是一个显著的缩减。

虽然模型精度略低于 99% 的值,但模型明显较小,可实现更高的吞吐量(离线),达到 11,189 token/s,或几乎是封闭分区吞吐量的 3 倍。

MLPerf Inference v4.1,Data Center,Open Division。结果源自条目 4.1-0089。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。所有权利保留。未经授权使用严禁。有关更多信息,请参阅 www.mlcommons.org

Mixtral 8x7B

在这一轮中,基于 Mistral AI 开发的 Mixtral 8x7B 模型添加了新的 LLM 工作负载。Mixtral 8x7B 采用由 8 名专家组成的稀疏专家混合(MoE)架构,总参数为 46.7 亿,每个令牌使用 2 名专家和 12.9 亿个参数。

NVIDIA 使用 H100 和 H200 GPU,运行 TensorRT-LLM 软件,并广泛使用 FP8 精度,提交了 Mixtral 8x7B 结果。

MLPerf Mixtral 8x7B 基准测试 服务器
令牌/秒
离线
令牌/秒
8 H200 57177 59022
8 块 H100 50796 52416
H200 优势 1.13 倍 1.13 倍
表 5. H100 和 H200 在 MLPerf Mixtral 8x7B 基准测试中的性能和提升。

MLPerf Inference v4.1 关闭,数据中心。检索结果的网址为 www.mlperf.org,日期为 2024 年 8 月 28 日。所有结果均使用 8 个 GPU 并检索自以下条目:4.1-0043、4.1-0048。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommons.org

只有使用 NVIDIA GPU 的系统提交了 Mixtral 8x7B 的结果。随着工作负载添加到 MLPerf 基准套件,NVIDIA 继续提交出色的结果,这表明 NVIDIA 平台为庞大且不断扩展的 AI 模型领域提供高性能和出色的通用性。

Stable Diffusion XL

这轮,H200 性能得到提升,每秒生成两张图像,与上一轮相比,Stable Diffusion XL 的性能提升了 27%。这代表了基准测试的新纪录

MLPerf Stable Diffusion XL improvements since v4.0 服务器 离线
8 H200 (700 W) 1.22 倍 1.27 倍
8 H100 (700 W) 1.17 倍 1.25 倍
表 6. 与 NVIDIA H100 和 H200 GPU 上的 v4.0 相比,MLPerf Inference v4.1 中的 Stable Diffusion XL 性能提升。

MLPerf Inference v4.0 和 v4.1 已关闭,数据中心。结果检索自 www.mlperf.org,日期为 2024 年 8 月 28 日。所有结果均使用八个 GPU 并检索自以下条目:4.0-0062、4.0-0070、4.1-0043、4.1-0048。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册和未注册商标。保留所有权利。未经授权的使用严格禁止。有关更多信息,请参阅 www.mlcommons.org

这些提升主要归功于 NVIDIA 软件堆栈的几项关键优化,包括

  • UNet FP8 支持:通过使用 TensorRT 模型优化器,NVIDIA 本次提交的结果在满足精度要求的同时使用了 FP8 精度。这在 Hopper GPU 上的全面性能提升中占据了最大部分。
  • NVIDIA 提交的 VAE INT8 支持:与上一轮中使用的 FP32 相比,本轮结果能够量化某些层的 INT8 和其他层的 FP16。这将 VAE 性能提高了 70%,转化为大约 4% 的端到端加速。

变分自编码器 (VAE) 批量分割:SDXL 流程的 VAE 部分需要非常大的内存占用空间。通过采用批量分割,NVIDIA 本次提交的数据能够将批量大小从 8 增加到 64,从而提高性能。

Diagram showing how a text prompt flows through the Stable Diffusion XL model to generate an output image.
图 2.Stable Diffusion XL 模型架构

此外,NVIDIA 还在开放除法提交中提交了 SDXL 结果,该结果将这些优化与潜在一致性模型(Latent Consistency Model,LCM)相结合,将 H200 上的封闭除法离线吞吐量提高了近 5 倍,达到 11 个样本/秒。这展示了通过对扩散模型进行更广泛的模型级优化而进一步提升的性能。

Jetson AGX Orin 上的生成式 AI 的巨大飞跃

Jetson AGX Orin 提供边缘生成式 AI 高的 AI 计算性能、大容量统一显存和综合软件。

通过广泛的软件优化,NVIDIA Jetson AGX Orin 64 GB 为边缘的生成式 AI 模型实现了巨大飞跃,在 GPT-J 6B 参数 LLM 基准测试中,吞吐量提高了 6.2 倍,延迟提高了 2.4 倍。边缘的生成式 AI 模型可以将图像和视频等传感器数据转换为具有强大上下文感知能力的实时可行见解。

Jetson AGX Orin 由 NVIDIA 软件堆栈提供支持,具有独特的市场定位,是运行 transformer 模型(例如 GPT-J、视觉 transformer 和 Stable Diffusion at the Edge)的领先平台。开发者可以利用 Jetson 生成式 AI 实验室Jetson 平台服务等其他平台服务,提供出色的解决方案。

GPT-J (边缘) 单流延迟 (毫秒) 离线令牌/秒
Jetson AGX Orin 64 GB v4.1 4176 64.47
Jetson AGX Orin 64 GB v4.0 10132 10.35
表 7. GPT-J LLM 在 MLPerf 推理中的性能;Edge (v4.0 和 v4.1) 上的 Jetson AGX Orin

MLPerf Inference v4.0 和 v4.1 已关闭,Edge。结果检索自 2024 年 8 月 28 日 www.mlperf.org上的结果。所有结果均使用八个 GPU 并检索自以下条目:4.0-0072、4.1-0051。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。所有权利保留。未经授权的使用严格禁止。有关更多信息,请参阅 www.mlcommons.org

通过对 TensorRT-LLM 进行多次软件优化(包括使用动态批处理以及应用 INT4 激活感知权重量化(AWQ)),这种性能提升成为可能。AWQ 在更高精度的 FP16 中保留 1% 的“显著权重”,并将剩余权重量化为 4 位整数(INT4)精度。这种技术显著减少了内存占用,支持一次处理更大的批量,从而大幅提高了推理吞吐量。

NVIDIA 也提交了在 Open Division 中运行在 Jetson AGX Orin 上的要求严苛的 Llama 2 70B 模型的结果,展示了更广泛的模型优化技术的可能性。提交的模型与 H200 提交中的 16B 深度和宽度剪枝模型相同。本次提交中还使用了 INT4 AWQ(用于 Jetson AGX Orin 的 GPT-J 提交中的封闭部分)。模型参数剪枝和 INT4 量化相结合,大大缩小了 Llama 2 70B 模型的模型权重内存占用空间,仅约 8 GB。

结束语

在其首次提交的作品中,NVIDIA Blackwell 提供了出色的性能,相较于在 Llama 2 70B 上使用 H100,性能提升高达 4 倍。此外,在可用的解决方案中,Hopper GPU 在所有工作负载中提供了更高的多 GPU 生成式 AI 性能和每个加速器的最高性能,并继续从持续的软件优化中受益。NVIDIA Triton 推理服务器这一轮也取得了出色的成绩,提供了与裸机提交作品相似的性能。对于边缘和嵌入式 AI,Jetson AGX Orin 和丰富的 NVIDIA 软件堆栈支持运行 GPT-J 6B 等适用模型,仅在一轮中性能就提升高达 6.2 倍。

NVIDIA 在整个技术栈中继续快速创新,从大型 AI 工厂到紧凑、低功耗的边缘设备,为当前和未来的模型提供出色的推理性能。

致谢

许多 NVIDIA 员工的努力取得了这些出色的成果。我们要感谢 Chen-Han Yu、Kai Xu、Justin Xin、Asma Kuriparambil Thekkumpate、Linnan Wang、Wei-Ming Chen、Kaiyu Xie、Shobhit Verma、Viraat Chandra 等人的不懈努力。

 

Tags