AI 平台/部署

如何利用跨规模网络将分布式数据中心连接成大型 AI 工厂

AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。尽管数据中心的功能正在迅速扩展,但其基础设施受限于基本的物理条件,无法直接影响算法和模型的发展。电力供应、散热能力以及空间限制,制约了 AI 工厂 的物理扩展。为了持续发展,我们建设了新的数据中心,而远程互联技术则成为整合这些资源的关键,使得多个数据中心能够协同处理单一训练任务或细分的推理工作负载。

传统上,当通过远程互连以太网将数据中心与基于“现成”商用芯片构建的系统连接时,首要目标是确保数据能够准确送达目的地。由于传输距离较长,延迟可能较高,导致网络拥塞的概率显著增加,且其影响可能十分严重。

为缓解这一挑战并防止丢包,现成的以太网供应商开发了相应的解决方案,采用具有深度数据包缓冲能力的交换机来应对大量网络流量。这类深度缓冲交换机虽适用于远程服务提供商和电信公司,却给人工智能应用带来了新的问题。

特别是,带有深度缓冲区的交换机本身就会带来更高的延迟。此外,当缓冲区开始积满时,必须进行“排空”处理。对于AI工作负载而言,这一过程的发生具有不可预测性,容易引发显著的抖动或数据传输波动。这种技术带来的高延迟和行为不确定性,会影响训练和分解式推理的性能,因为这些任务本质上是同步的,依赖网络提供稳定且可预期的传输表现。

本文介绍了NVIDIA Spectrum-XGS以太网技术如何通过跨网络扩展实现数据中心互联,并提供满足人工智能应用所需的高性能支持。

什么是跨扩展网络?

跨网络扩展是一种新型的AI计算互联架构,可被视为一个独立的新维度,与现有的纵向扩展和横向扩展方式相互正交。通过采用支持跨扩展网络的Spectrum-XGS以太网,分布在不同规模和地理距离上的多个数据中心能够被整合为一个统一的大型AI工厂。该网络首次实现了在地理上分散的数据中心之间,提供大规模单作业AI训练与推理所需的高性能连接。

A diagram featuring several data centers connected together by scale-up, scale-out, and scale-across networking.
图 1。AI 所需的三种网络类型是纵向扩展、横向扩展和横向扩展

NVIDIA Spectrum-XGS 以太网如何实现跨网络扩展?

NVIDIA Spectrum-XGS 以太网是 NVIDIA Spectrum-X 以太网 平台的一项新技术。它采用与 Spectrum-X 以太网交换机和 ConnectX-8 SuperNIC 相同的硬件组合,并沿用支持数据中心内横向扩展连接的软件架构与库堆栈。

借助 Spectrum-XGS 以太网,AI 工厂之间的连接距离可超过 500 米,甚至能够实现校园内不同建筑之间的互联,或延伸至数十乃至数百英里的跨城市、跨州乃至跨国连接。为了支持这种广域扩展的连接需求,负责保障高效带宽与性能隔离的算法也必须持续演进。

距离感知算法在跨网络扩展中的作用是什么?

远距离传输数据面临的主要挑战之一是延迟增加,即使数据以光的形式在光纤中传播也是如此。光信号在玻璃纤维中的传输速度约为每米5纳秒,因此传输1公里需要5微秒。尽管这些数值看似微小,但在GPU之间的通信中,每一微秒都至关重要。

Spectrum-XGS 以太网采用了基于遥测的改进型拥塞控制与自适应路由算法,并针对通信设备间距离进行了优化。在每次连接建立时,网络会记录数据中心内两台设备是否已相互连接。

这有助于交换机确定动态路由负载均衡的最佳策略,并指导 SuperNIC 调整注入速率以实现拥塞控制。在网络层面,Spectrum-XGS 以太网因此能够高效处理全部通信流量,同时避免引入额外延迟。

Spectrum-XGS 以太网技术在跨网络扩展方面具有多项显著优势,包括:

  • 集成、统一的网络架构: Spectrum-X 以太网横向扩展和 Spectrum – XGS 以太网横向扩展均基于相同的硬件、软件和库。这为工作负载管理和网络操作带来了一种统一的方法,这是现有以太网无法实现的。
  • 基于遥测的端到端拥塞控制: 统一架构还支持全局网络可视化。借助来自数据中心内外网络的全面遥测数据,无需深度缓冲区切换即可处理基于遥测的拥塞管理。
  • 智能、自动调节负载均衡: Spectrum-X 以太网 AI 网络架构具有距离感知和 NVIDIA 集合通信库 (NCCL)-感知功能,能够解释和补偿可能因站点而异的网络流量模式,并动态调整值和限制,以确保实现出色性能。
  • 更大限度地降低跨扩展工作负载的延迟: 经过调整的 Spectrum-XGS 以太网可提供可预测的结果。这使网络能够解释和补偿远距离传输的数据流,减少任何进一步的延迟损失,而不会因深度缓冲区而带来任何抖动风险。
  • 弹性跨扩展容量: 由于相同的硬件可用于横向扩展和横向扩展,因此可以重新分配网络资源以支持数据中心内或数据中心间的流量。现成的浅缓冲区以太网交换机无法重新用于远程连接。

NVIDIA Spectrum-XGS 以太网有哪些性能优势?

为展示 NVIDIA Spectrum-XGS 以太网对跨站点扩展性能的影响,NVIDIA 工程师在相距 10 公里的多个站点之间运行了 NCCL 基元测试,并将其结果与商用现成以太网进行了对比。如图 2 所示,测试结果十分显著:

A graph comparing NCCL all-reduce performance between Spectrum-XGS Ethernet and off-the-shelf Ethernet showing message sizes from 128 KB to 16 GB. The graph shows up to 1.9x better performance using Spectrum-XGS Ethernet.
图 2。与现有以太网相比,NVIDIA Spectrum-XGS 以太网可将性能提升高达 1.9 倍

NVIDIA Spectrum-XGS 以太网可在现有以太网基础上提供高达 1.9 倍的 NCCL 全归约带宽。在较大的消息尺寸下,性能提升尤为显著,而这正是 AI 训练工作负载中的典型场景。NCCL 性能的提升有助于缩短 AI 应用的作业完成时间。

跨网络扩展如何提高 AI 工厂的投资回报率?

NVIDIA Spectrum-XGS 以太网增强了 AI 基础设施的灵活性。该技术使数据中心能够在任意距离下实现高效通信,且不牺牲性能,从而构建出可在横向扩展架构与网络扩展之间共享的通用平台。基于 Spectrum-XGS 以太网的数据中心能够无缝整合,无论地理位置远近,均可协同工作,形成统一的整体。

基于 Spectrum-XGS 构建的以太网数据中心能够无缝整合,无论相距多远,均可作为统一系统运行。这使得关键任务型 AI 基础设施可以高效汇聚资源,持续为高级 AI 工作负载提供支持与价值。

如需深入了解支持 NVIDIA Spectrum-X 以太网的技术创新,敬请参阅 NVIDIA Spectrum-X 网络平台架构

标签