AI 平台/部署

借助 NVIDIA DGX 云基准测试衡量和提高 AI 工作负载性能

随着 AI 功能的进步,了解硬件和软件基础架构选择对工作负载性能的影响对于技术验证和业务规划都至关重要。组织需要一种更好的方法来评估现实世界中的端到端 AI 工作负载性能和总拥有成本,而不仅仅是比较原始 FLOPs 或每个 GPU 的每小时成本。实现出色的 AI 性能需要的不仅仅是强大的 GPU。它需要一个经过充分优化的平台,包括基础架构、软件框架和应用级增强功能。

在评估 AI 性能时,请提出以下关键问题:您的实现是否正确,或者是否存在与参考架构相比减慢您速度的错误?集群的最佳规模是什么?选择哪些软件框架可以缩短上市时间?传统的芯片级指标不足以完成这项任务,导致投资未得到充分利用,并且错过了效率提升。衡量 AI 工作负载和基础设施的性能至关重要。

本文将介绍 NVIDIA DGX 云基准测试,这是一套工具,用于评估跨 AI 工作负载和平台的训练和推理性能,其中包括基础设施软件、云平台和应用配置,而不仅仅是 GPU。本文详细介绍了 DGX 云基准测试的功能和应用,展示了训练时间和训练成本方面的改进结果。

借助 DGX Cloud Benchmarking,NVIDIA 旨在提供一种衡量平台性能的标准化和客观方法,类似于 NVIDIA 在自己的硬件和基础设施上提供客观且相关性能的方法。

TCO 优化的基准测试要求

经过广泛的测试,我们团队收集的数据表明,与 GPU 数量、数据精度和框架相关的时间和成本模式是一致的。组织可以利用这些数据来探索权衡取舍,并加快其决策和 AI 开发时间。

GPU 数量

在 AI 训练集群中扩展 GPU 数量可以显著减少总训练时间,而不一定会增加成本。虽然增加更多 GPU 可以更快地完成 AI 工作,但团队应探索扩展与项目成本和相关权衡之间的关系。

例如,在训练 Llama 3 70B 时,您可以将训练 1 万亿个 token 的时间缩短 97% (115.4 天 → 3.8 天),而成本仅增加 2.6%。

Chart comparing ideal linear scaling to observed scaling for Llama 3.1 70B training across different GPU counts. The observed scaling line closely follows the ideal linear scaling line, demonstrating efficient parallelization.
图 1。在 Llama 3.1 70B 训练中观察到的近线性扩展意味着可以在更短的时间内完成工作,同时将成本增加降至最低

GPU 数量的增加为工作负载并行化提供了灵活性,从而实现更快的迭代周期和更快的假设验证。更大规模的训练可以加快整个 AI 开发时间线和开发者速度。当一个组织可以获得额外的 GPU 时,他们可能可以在更短的时间内完成训练工作,而不会按比例增加总成本。更快地完成训练工作还意味着可以更快地投入市场,以便部署经过训练的模型,为您的组织创造价值。

虽然在实践中很少能实现完美的线性扩展,但经过充分优化的 AI 工作负载可能非常接近。在 GPU 数量增加的情况下,与完美线性度的细微偏差通常是由于通信开销增加造成的。通过战略性地扩展 GPU 数量,团队可以根据项目目标、可用资源和优先级进行优化。

使用 NVIDIA DGX 云基准测试性能 Explorer,用户可以确定理想的 GPU 数量,从而最大限度地减少总训练时间和成本。其目标是针对给定的工作负载确定正确数量的 GPU,从而在项目和团队中最大限度地提高吞吐量并最大限度地减少支出。

精度

使用 FP8 精度代替 BF16 可以显著提高 AI 模型训练的吞吐量和成本效益。在训练中使用 FP8 精度可以加快模型时间到解决方案(time to solution)。由于数学或通信吞吐量更高且内存带宽要求较低,这降低了训练模型的总成本。FP8 精度还可以在更少的 GPU 上训练更大的模型。

将 AI 工作负载迁移到您的平台支持的最低精度类型可以节省大量成本。图 2 显示,在 NVIDIA Hopper 架构 的 GPU 上,FP8 可实现比 BF16 更高的吞吐量(tokens/秒)。

Graph showing total cost to train and total time to train 1 trillion tokens, comparing FP8 and BF16 precisions, visually demonstrating the quantifiable savings achieved with FP8.
图 2。FP8 与 BF16 训练的比较,如 NVIDIA DGX Cloud Benchmarking Performance Explorer 所示

然而,使用 FP8 进行训练会带来一些挑战,例如动态范围变窄。这些可能会导致不稳定或差异。为了应对这些挑战,需要使用专门的技术来识别可以使用 FP8 执行的运算——为 BF16 和 FP8 之间的转换提供按张量或子块扩展——以保持数值稳定性。此外,Hopper 和 Blackwell 架构中的 Transformer Engine 等功能可以帮助开发者在每层有选择地使用 FP8,仅在不会对准确性产生不利影响的地方使用降低的精度。

除了训练工作期间的吞吐量之外,在 FP8 中训练模型还可以进一步降低推理成本,因为模型可以直接部署用于 FP8 推理。不过,在 BF16 中训练的模型稍后可以使用量化感知训练(QAT)或训练后量化(PTQ)将其量化为 FP8/INT8,从而实现类似的推理性能优势。

DGX 云基准测试方法提供调优最佳实践,可借助 FP8 精度和示例基准结果更大限度地提高所交付的平台性能,以供比较。

框架

选择合适的 AI 框架可以显著提高训练速度并降低成本,即使模型和硬件配置相同。由于以下方面的差异,框架的选择会影响性能:

  • 工作负载基础设施指纹:框架如何与底层基础设施交互
  • 通信模式:节点之间的数据交换效率
  • 持续优化努力:框架开发者通过更新不断提高性能

为了更大限度地提高性能,选择符合不断发展的 AI 生态系统并从持续优化中受益的框架至关重要。随着时间的推移,框架优化可以显著提高平台的整体性能,并提高整体 TCO。

如图 3 所示,采用新版 NVIDIA NeMo 框架可以显著提高训练吞吐量。例如,在 2024 年,NeMo 软件优化使整体平台性能提高了 25%,并且由于深度硬件和软件协同设计,用户可以按比例节省成本。

A bar chart showing the reduction in total training time and cost across different versions of the NeMo Framework. The graph demonstrates a steady improvement in performance over time, with each new version of the framework offering faster training times compared to previous versions.
图 3。通过持续的软件优化,NVIDIA NeMo 框架的性能随着时间的推移而提升

NVIDIA 为优化框架配置提供专家指导。NVIDIA Performance Architects 可以直接与团队合作,对 DGX Cloud 基础架构上的工作负载进行基准测试,分析结果,并针对特定工作负载提出量身定制的调整建议。 联系我们,开始合作。

生态系统协作和未来展望

通过利用 DGX 云基准测试方法,NVIDIA 可以描述真实用户工作负载,确保优化以实际场景为基础。在初始基础架构验证之后,持续的性能评估可确保所提供的吞吐量与理论规格非常匹配。这些性能方案的早期采用者包括领先的云提供商 AWS、Google Cloud、Microsoft Azure 和 Oracle Cloud,以及 NVIDIA 云合作伙伴 CoreWeave、Crusoe 和 Nebius。

DGX 云基准测试旨在与快速发展的 AI 行业一起发展。定期更新包括新模型、新兴硬件平台和创新的软件优化。这种持续演进可确保用户始终能够获得最相关和最新的性能见解,这对于技术以前所未有的速度进步的行业至关重要。

开始使用

借助 DGX 云基准测试,组织可以依靠标准化的客观指标来评估 AI 平台的效率。无论您是负责规划下一个项目的 AI 开发团队,还是寻求验证基础架构性能的 IT 团队,DGX 云基准测试都能为您提供所需的工具,帮助您实现峰值 AI 性能。

探索 DGX 云基准测试 ,了解您的平台特征。 开始使用 LLM 基准测试集合 ,量化精度、集群规模等方面的权衡。与我们一起参加 NVIDIA GTC 2025 ,讨论基准测试并探索 DGX 云基准测试。

 

 

标签