数据中心/云端

借助 NVIDIA Nemo 框架,在远程数据中心网络中加速 LLM 训练

多数据中心训练对 AI 工厂至关重要,因为预训练扩展会推动更大模型的创建,导致对计算性能的需求超过单个设施的能力。通过将工作负载分配到多个数据中心,组织可以克服功耗、散热和空间方面的限制,以更高的效率训练更大、更准确的模型。

最新版本的 NVIDIA NeMo Framework 25.02 NVIDIA Megatron-Core 0.11.0 多数据中心大语言模型 (LLM) 训练带来了新功能。此次更新使用户能够将训练扩展到单个数据中心的物理和操作限制之外,通过利用多个站点的组合功能,实现前所未有的效率和性能。

在本文中,我们将介绍 NeMo Framework 和 Megatron-Core 如何通过以下关键进展彻底改变多数据中心训练:

  • 跨站点高效 :通过在地理位置分散的数据中心中的数千个 NVIDIA GPU 上有效分配训练,实现 96% 的扩展效率。
  • 高级通信策略 :使用分层编排和梯度同步克服数据中心间延迟。
  • 现实世界的成功 :通过高效训练具有 340B 参数的 LLM 来验证这些创新,为新一代 AI 超级计算铺平道路。

为什么多数据中心训练很困难

训练万亿参数模型不仅需要增加更多 GPU,还需要克服影响成本和性能的关键基础设施挑战。在跨多个数据中心管理计算时,开发者必须应对高跨地区延迟 (通常为 20 毫秒或更多) ,这可能会在大规模 LLM 训练期间的梯度更新和模型同步期间引入性能瓶颈。解决这些问题可实现分布式 LLM 训练架构,从而提高性能、更大限度地提高硬件和能效、减少基础设施压力,并使 AI 项目能够跨地理区域扩展,而不会出现集中资源瓶颈。

主要挑战包括:

  • 高延迟和带宽限制 :数据中心之间的通信可能缓慢且受到限制,从而降低训练效率。
  • 同步 :保持分布式数据中心的一致性需要复杂的协议和技术。
  • 流量管理:最大限度地减少长距网络的数据流对于保持低延迟和高吞吐量至关重要。

实现高效的 Multi-data center 训练

为了克服多数据中心 LLM 训练的挑战, NeMo Framework 25.02 Megatron-Core 0.11.0 引入了四项关键创新:

  • 自适应资源 orchestration
  • 分层 AllReduce ( HAR)
  • 分布式 Optimizer 架构
  • 数据中心间 Chunked 通信

这些功能可优化跨地理位置分离的站点的通信、编排和计算效率,确保对全球超大型 AI 模型进行可扩展的高性能训练。

自适应资源 orchestration

自适应资源编排是一种分布式训练策略,可利用集群内和集群间各种 GPU 之间的延迟和带宽层次结构。它可以选择能够抵御通信延迟和带宽限制的并行方法并确定其优先级,非常适合跨数据中心开发部署。在这些设置中,模型并行技术(例如 tensor、context 和 expert 并行)需要频繁的高带宽同步,而这并不适合数据中心之间的高延迟环境。相反,数据并行和 pipeline 并行技术受到青睐,因为:

  • 延迟容忍度 :数据并行的批量梯度聚合可适应数据中心间通信中固有的较大延迟。
  • 带宽效率 :数据并行中的分层缩减模式整合了跨数据中心流量,显著降低了带宽需求。
  • 硬件不可知论 :这两种方法都通过标准化的 sharding 来消除站点之间的硬件差异。

通过将并行技术的选择与网络的限制保持一致,自适应资源编排可将每个 GPU 的数据中心间带宽需求降低到数据中心内部需求的大约 1/N,与传统的平面方法相比,实现了显著的效率提升。

分层全局归约

HAR 包含三个步骤来同步梯度:

  1. 在每个组或数据中心内 ReduceScatter,
  2. 跨数据中心的 AllReduce。
  3. AllGather 在每个数据中心内。

此方法通过首先优化数据中心间通信,确保高吞吐量和低延迟,最大限度地减少长距网络的流量。 图 1 说明了 HAR 的工作原理。

Animation showing how AllReduce works, then how Hierarchical AllReduce (HAR) works, starting with ReduceScatter within each local data center, then an AllReduce across data centers, and finally an AllGather within each local data center. HAR minimizes traffic over long-haul networks by first optimizing inter-data center communication, ensuring high throughput and low latency.
图 1。HAR 解释说

分布式 Optimizer 架构

部分数据并行分布式优化器通过在每个数据中心内进行局部权重更新和梯度降低来提高效率,然后跨站点进行单一同步梯度降低,从而消除冗余优化器状态重复,同时最大限度地减少跨数据中心通信。通过在数据中心内 (而非全局) 对优化器状态进行分片,并在站点之间复制优化器实例,该架构可在减少数据中心间流量的同时大规模保持内存效率。

数据中心间 Chunked 通信

通过将通信拆分成块并将这些块与计算重叠,数据中心间的通信可能会被隐藏在数据中心内部的运营中。此技术可确保即使在大规模训练中,训练过程也保持高效,从而对站点之间的延迟具有很高的容忍度。

NVIDIA Nemotron-4 340B 多数据中心训练

最近,我们有机会对 Nemotron-4 340B 进行大规模训练。为确定基准,我们使用配备 3,072 个 NVIDIA GPU 的单个数据中心对 LLM 进行了训练。

接下来,在相距约 1000 公里的两个数据中心对模型进行训练,以展示这些新功能的有效性。如 表 1 所示,该设置在 3072 个 GPU 规模 (每个数据中心配备 1500 个 GPU) 下实现了超过 96% 的基准吞吐量,并且数据中心间和数据中心内的独立通信相互重叠,以更大限度地提高效率。通过利用 NeMo Framework 和 Megatron-Core 的功能,训练过程实现了非凡的效率和可扩展性,为 LLM 开发树立了新的标准。

指标 单数据中心 (ORD) 多数据中心 (ORD+ IAD)
GPU 总数 3072 个 GPU 3072 个 GPU (ORD 1536 个,IAD 1536 个)
GPU 节点 375 个节点 (每个节点 8 个 GPU) 375 个节点 (每个节点 8 个 GPU)
数据中心位置 Oracle Cloud Infrastructure (OCI) – 伊利诺伊州芝加哥市 (ORD) OCI – 伊利诺伊州芝加哥市 (ORD) 和弗吉尼亚州 Ashburn 市 (IAD)
数据中心之间的距离 不适用 约 1000 千米
测量的往返延迟 不适用 21 毫秒
扩展效率 基准 ( 100%) 与单站点基准相比,超过 96%
模型 FLOPS 利用率 (MFU) 51% 49%
训练模型 Nemotron-4 340B Nemotron-4 340B
表 1。Nemotron-4 340B 的基准与多数据中心训练的比较

跨多个设施释放超级计算的潜力

多数据中心训练正在成为 AI 工厂中的一种变革性方法,为分布在多栋建筑甚至多个地区的分布式系统奠定了基础。通过集成先进的网络和同步技术,这种方法可以协调不同设施中的大量 GPU,确保复杂的训练任务能够同时无缝运行。

NVIDIA GPU 数据中心平台 (包括 低延迟网络解决方案 和 AI 软件堆栈) 可实现出色的并行性。这个全栈平台为超级计算机铺平了道路,最终可以跨多个数据中心利用超过 500,000 个 GPU。该架构不仅可以扩展计算能力,还可以通过动态平衡多个站点的工作负载来提高可靠性和灵活性,从而减少瓶颈并优化能效。

立即开始使用

Megatron-Core 内置了跨多个数据中心训练 LLM 的支持,并与 NVIDIA NeMo 框架深度集成 。 NVIDIA NeMo 框架是一个端到端平台,用于随时随地开发自定义生成式 AI,包括大语言模型 (LLM) 、视觉语言模型 (VLM) 、检索模型、视频模型和语音 AI 。它采用了用于大规模 LLM 训练的 Megatron-Core,并提供了一套更广泛的工具,用于构建先进的自定义生成式 AI、多模态和语音 AI 代理系统。如需了解详情,请参阅 NVIDIA NeMo 框架文档 GitHub 示例资源库

 

标签