数据中心/云端

NVIDIA Spectrum-X 加速大规模 AI 工作负载优化

在当今迅速发展的技术格局中,保持领先地位不仅仅是一个目标——这是一个必要条件。创新浪潮,尤其是 AI 领域的创新,正在推动整个技术堆栈的巨大变革。

见证深刻变革的一个领域是以太网(Ethernet)网络,这是数字通信的基石,数十年来一直是企业和数据中心环境的基础。

如今,每个数据中心都在加速,以支持现代 AI 工作负载,从而增加了对支持这些工作负载的基础设施的需求。许多企业已经非常熟悉 Ethernet,将其作为可信网络标准。然而,他们缺乏一种解决方案来充分支持使用 Ethernet 协议的 AI 工作负载的特性。

NVIDIA 的创新愿望通常是出于对理解和响应客户不断变化的需求的深刻承诺,确保我们的解决方案不仅满足而且可以预测并超过预期。

进入 NVIDIA Spectrum-X 时代,NVIDIA Spectrum-X 是全球首款高性能以太网结构,旨在实现不仅仅是增量的改进。它们代表着重大飞跃,确保以太网在数据呈指数级增长的时代仍然是一种可靠的、面向未来的技术。

从概念到实现的性能

由于 AI 工作负载需要不断增加的数据吞吐量和零尾延迟,因此必须重塑传统的以太网以满足严格的要求。必须大规模利用、部署和验证 Remote Direct Memory Access (RDMA) 协议的进步、平衡大型网络流量以及更好的拥塞控制方法等方面的考虑因素。

虽然以太网已经被用于大规模超大规模云和数据中心,但实际上它只能支持单个服务器或小型工作负载。传统以太网本质上是一种有损网络,在扩展AI等分布式计算工作负载时,会带来重大挑战。

为了解决传统以太网的这些缺点,我们开始开发新技术和功能,将NVIDIA以太网产品转变为高性能计算结构,能够支持加速计算的严格要求。

NVIDIA Spectrum-X 代表了传统以太网的重大进步,它被专门设计为一种端到端架构,用于优化 AI 工作负载。它使用 NVIDIA BlueField-3 SuperNIC 端点与 NVIDIA Spectrum-4 交换机协同工作,并特别增强了数据中心环境中的 GPU 到 GPU 通信(也称为东西向网络流量)。

以下是我们不同的做法:

  • 基于遥测的拥塞控制
  • 无损网络
  • 动态负载均衡

基于遥测的拥塞控制

通过将高频遥测探针与流量测量相结合,Spectrum-X拥塞控制可确保工作负载得到保护,并确保网络提供性能隔离。这意味着各种类型的AI工作负载可以同时在共享基础设施上运行,而不会对性能产生负面影响。

无损网络

Spectrum-X 可将网络配置为实现无损条件,从而确保不丢弃数据包并最大限度地降低尾端延迟。尾端延迟是指一组并行任务中速度最慢的任务所经历的延迟,最后决定操作的整体完成时间。

动态负载均衡

Spectrum-X 使用细粒度自适应路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。自适应路由通过在整个网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或流路由的陷阱,而无需深度缓冲区和避震器。

由于负载均衡意味着数据包可以乱序地到达目的地,因此 NVIDIA BlueField-3 SuperNIC 可确保重新排序数据包,并将其放置在主机内存中,从而使应用程序无法察觉重新排序。

Spectrum-X 首次搭载 Israel-1 超级计算机

2023 年 6 月,NVIDIA Spectrum-X 首次亮相 Israel-1 超级计算机。Israel-1 展示了一种新型以太网,可将网络性能提升 1.6 倍,展示其处理大规模 AI 的能力。

自 Spectrum-X 创建以来,NVIDIA 团队(包括一些世界知名的网络专家)一直在对应用程序进行全天候测试和基准测试,他们不断优化 Spectrum-X,以在各种规模下实现绝对最低的运行时间。

生态系统实现可持续发展

Israel-1 带来的性能提升让我们的原始设备制造商 (OEM) 和解决方案提供商兴奋不已。这也让我们的大型云客户大吃一惊。这迅速促使我们的全球合作伙伴与我们合作,将 Spectrum-X 集成到他们的数据中心解决方案中。

这标志着我们的合作伙伴开始广泛采用 Spectrum-X,他们认识到 Spectrum-X 针对 AI 工作负载优化网络的优势,并将其纳入其产品系列。

客户对 Spectrum-X 的性能赞不绝口

Spectrum-X 能够优化大规模 AI 工作负载并提高数据中心的性能,因此吸引了早期客户。通过与我们的 OEM 密切合作,多家顶级云服务提供商率先部署了 Spectrum-X,认识到它在增强其 AI 基础设施的同时显著降低总体 TCO 的潜力。

近期的示例包括:

  • 采用 NVIDIA 技术的戴尔 AI 工厂:将戴尔的计算、存储、软件和服务与 NVIDIA 先进的 AI 基础架构相结合。
  • HPE 推出的 NVIDIA AI 计算:旨在加速生成式 AI 工业革命。

NVIDIA 在部署大规模集成系统(包括用于自身开发和研究的系统)方面拥有成熟的经验,我们发布这些参考架构,以帮助我们的合作伙伴和客户采用加速计算。

我们还通过 NVIDIA 基础设施服务 (NVIS) 提供出色的基础设施服务。凭借 2560 个经过全面测试和互联的 GPU/天的安装率,使用 NVIS 的客户可以在几天内快速启动和运行,从硬件购买到训练 LLM 的整个流程。

结束语

Spectrum-X 的发展历程还处于起步阶段。随着我们的发展,NVIDIA 继续借助 Spectrum-X 进行创新,在构建 AI 工厂、生成式 AI 云和企业 AI 数据中心方面发挥着关键作用。Spectrum-X 平台树立了标准,提供了无与伦比的性能和效率。

有关 NVIDIA Spectrum-X 的更多信息,请下载 NVIDIA Spectrum-X 网络平台架构:首个旨在加速 AI 工作负载的以太网网络白皮书。

 

Tags