在不断增长的模型大小、实时延迟要求以及最近的 AI 推理的推动下, 大语言模型 (LLM) 推理的计算需求正在快速增长。与此同时,随着 AI 采用率的增长, AI 工厂 能否为尽可能多的用户提供服务,同时保持良好的每位用户体验,是更大限度地提高其价值的关键。要在最新模型上实现高推理吞吐量和低推理延迟,需要在涵盖芯片、网络系统和软件的整个技术堆栈中表现出色。
MLPerf Inference v5.0 是长期运行的基准套件中的最新版本,可测量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不断更新新的模型和场景,以确保它仍然是衡量 AI 计算平台推理性能的有用工具。
本轮测试新增三个新的基准测试:
- Llama 3.1 405B:具有 405 亿参数的密集 LLM。在服务器场景中,基准测试将第一个令牌 (TTFT) 的延迟要求设置为 6 秒,将每个输出令牌 (TPOT) 的时间设置为 175 毫秒。
- Llama 2 70B Interactive:拥有 70 亿参数的密集 LLM。此工作负载基于 MLPerf Inference v4.0 中首次引入的相同 Llama 2 70B 模型,但具有更严格的延迟限制,即 450 毫秒 TTFT 和 40 毫秒 TPOT (每位用户每秒 25 个令牌)。
- 关系图注意力网络 (R-GAT) :图神经网络 (GNN) 基准测试。GNN 应用于各个领域,包括社交网络分析、药物研发、欺诈检测和分子化学。
这些新基准测试加入了涵盖各种模型和用例的众多返回基准测试:ResNet-50、RetinaNet、3D U-Net、DLRMv2、GPT-J、Stable Diffusion XL、Llama 2 70B 和 Mixtral 8x7B。
NVIDIA 提交了数据中心类别中每个基准测试的结果,提供了全面的出色性能,包括新添加的 Llama 3.1 405B、Llama 2 70B Interactive 和 GNN 测试的新性能结果。本轮,NVIDIA 还提交了许多关于 Blackwell 架构的结果 NVIDIA GB200 NVL72 以及 NVIDIA DGX B200 比上一代产品大幅提升了速度 NVIDIA Hopper 架构 。Hopper 推出三年后,在软件增强的推动下,继续全面提供出色性能,从而不断提升该 GPU 系列的性能。
在本文中,我们将详细了解性能结果,并详细介绍实现这些结果的全栈创新。
Blackwell 为 MLPerf 设定了新的性能标准
在 NVIDIA GTC 2024 上推出的 NVIDIA Blackwell 架构 现已全面投产,主要云服务提供商和众多服务器制造商均可提供。Blackwell 集成了许多架构创新,包括第二代 Transformer Engine、第五代 NVLink 、FP4 和 FP6 精度等,可显著提高训练和推理性能。
Blackwell 平台具有多种不同的系统外形规格,可满足各种数据中心部署要求。NVIDIA 提交的结果使用了 GB200 NVL72 和 DGX B200,前者是一个机架级系统,配备 36 个 Grace CPU 和 72 个 Blackwell GPU,通过 NVLink 和 NVSwitch 完全连接在一起。
此外,在本轮中,Blackwell 提交的 Llama 3.1 405B、Llama 2 70B Interactive、Llama 2 70B 和 Mixtral 8x7B 使用了具有 FP4 Tensor Cores 的第二代 Transformer Engine、用于高效模型执行的 NVIDIA TensorRT-LLM 软件 以及用于 FP4 量化的 TensorRT Model Optimizer 。这些技术的结合使得 FP4 精度的使用成为可能,在满足基准精度要求的同时,Blackwell 的峰值吞吐量是 FP8 的两倍。
在 Llama 3.1 405B 基准测试中,与 NVIDIA H200 Tensor Core 八-GPU 系统相比,GB200 NVL72 的单 GPU 性能提升高达 3.4 倍。

MLPerf Training v5.0 结果于 2025 年 4 月 2 日检索自 http://www.mlcommons.org ,来自以下条目:5.0-0058、5.0-0060。每个 GPU 的性能不是 MLPerf Inference v5.0 的主要指标,而是通过报告的吞吐量除以加速器数量得出的。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org。
在系统层面,GB200 NVL72 通过结合更高的每个 GPU 性能以及系统中 9 倍以上的 GPU,将性能提升高达 30 倍,所有 GPU 都连接在单个 NVLink 域上,使用 NVLink 和 NVLink Switch。

MLPerf Training v5.0 结果于 2025 年 4 月 2 日检索自 http://www.mlcommons.org ,来自以下条目:5.0-0058、5.0-0060。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org。
此外,NVIDIA 在 GB200 NVL72 上运行 MLPerf Inference v4.1 中的 Llama 2 70B 基准测试,达到每秒 869,203 个令牌的未经验证的结果。
在 Llama 2 70B Interactive 基准测试中,与使用 8 个 H200 GPU 的 NVIDIA 提交相比,8 个 GPU 的 B200 系统的吞吐量提高了 3.1 倍。

MLPerf Inference v5.0,封闭,数据中心。结果于 2025 年 4 月 2 日从 www.mlcommons.org 检索到。以下条目的结果:5.0-0056、5.0-0060。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org 。
在 Llama 2 70B、Mixtral 8x7B 和 Stable Diffusion XL 上,B200 也实现了显著的加速。
基准测试 | 8x Blackwell GPUServer | Offline | 8 块 H200 GPU 服务器 | 离线 | Blackwell 加速 服务器 | 离线 |
Llama 2 70B Token/sec | 98443 | 98858 | 33072 | 34988 | 3 倍 | 2.8 倍 |
Mixtral 8x7B Tokens/sec | 126845 | 128148 | 61802 | 62630 | 2.1 倍 | 2.1 倍 |
Stable Diffusion XLSamples/sec | Queries/sec | 28.44 | 30.38 | 18.30 | 18.99% | 1.6 倍 | 1.6 倍 |
MLPerf Inference v5.0,封闭,数据中心。结果于 2025 年 4 月 2 日从 www.mlcommons.org 检索到。以下条目的结果:5.0-0056、5.0-0060。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org 。
Hopper 继续提供出色的 GPU 性能
Hopper 平台于 2022 年 3 月首次推出,继续在 MLPerf Inference v5.0 中的每个基准测试中提供出色的推理性能,包括新添加的 Llama 3.1 405B 和 Llama 2 70B Interactive 基准测试。
随着云服务提供商和企业寻求更大限度地延长其加速基础设施投资的使用寿命,平台支持新 AI 模型和用例的能力至关重要。同时,AI 工厂的推理吞吐量直接取决于其推理吞吐量–通过使用新软件在同一基础设施上提高给定模型的吞吐量,token 生成成本可以降低,AI 收入生成潜力可以增加。
在 Llama 2 70B 基准测试中,软件优化驱动的 NVIDIA H100 Tensor Core GPU 吞吐量在去年增加了 1.5 倍。这些优化包括 GEMM 和注意力核函数优化、高级核函数融合、 分块预填充 等。此外, TensorRT-LLM 中的 pipeline 并行性改进 发挥了重要作用,有助于提高 Llama 2 在 H100 上的吞吐量。
Hopper 架构具有 NVLink Switch,允许每个 GPU 以全带宽与任何其他 GPU 通信,而不管通信的 GPU 数量如何。这为开发者提供了选择最佳并行映射的灵活性,以最大限度地提高给定延迟限制的吞吐量。NVLink Switch 通信可以在细粒度级别与 GEMM 计算进一步重叠,有助于提高 H200 NVL8 上的 Llama 3.1 405B 吞吐量。
这些持续优化的结果是,Hopper 在 MLPerf 最新且最具挑战性的工作负载 Llama 3.1 405B 和 Llama 2 70B Interactive 上实现了出色性能。
NVIDIA 平台也是提交 Mixtral 8x7B 基准测试结果的唯一平台,该基准测试使用 mixture-of-experts (MoE) 模型架构,Hopper 性能比上一轮测试有所提高。此外,GPT-J 基准测试的性能再次提升,自首次引入基准测试以来,Hopper 的性能累计提升至离线场景的 2.9 倍,服务器场景的 3.8 倍。
总结
NVIDIA Hopper 平台在最新一轮的 MLPerf 训练和 MLPerf Inference 测试中均表现出色。Hopper 三年后仍然是行业领先的平台,通过持续的全栈优化,它继续提高现有 AI 用例的性能,并支持新的 AI 用例,从而提供更长的使用寿命。
NVIDIA Blackwell 为性能和能效设定了新标准,这是 AI 工厂收入和盈利能力的关键驱动因素。通过在现有工作负载上实现巨大的性能提升,并在要求更高的场景 (包括最新的推理模型) 中实现更大的收益,Blackwell 正在推动下一波 AI 创新浪潮。
此外,NVIDIA 正在使用在 Hopper 和 Blackwell GPU 上运行的 Dynamo 扩展 AI 推理。
致谢
许多 NVIDIA 员工的努力取得了这些出色的成果。我们要感谢 Kefeng Duan、Shengliang Xu、Yilin Zhang、Robert Overman、Shobhit Verma、Viraat Chandra、Zihao Kong、Tin-Yin Lai 和 Alice Cheng 等人的不懈努力。
使用 NVIDIA MLPerf v4.1 代码和 TensorRT-LLM 0.18.0.dev 获得的结果。未经验证的 MLPerf v4.1 推理已离线关闭 Llama 2 70B。结果未经 MLCommons Association 验证。未经验证的结果未通过 MLPerf 审核,并且可能使用与 MLPerf 规范不一致的测量方法和/或工作负载实现来验证结果。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的注册商标和未注册商标。保留所有权利。严禁未经授权使用。详情请参见 www.mlcommons.org 。