Uncategorized

对 NVIDIA Spectrum-X 进行 AI 网络性能基准测试,现已可从 Supermicro 获取

NVIDIA Spectrum-X 网络平台作为超大规模云基础设施中的 AI 量身打造的领先网络平台,NVIDIA 正在迅速获得吸引力。Spectrum-X 网络技术帮助企业客户加速生成式 AI 工作负载。NVIDIA 宣布,该平台在 2023 年 11 月新闻稿 以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超级计算机的更新。

NVIDIA 现在宣布 Supermicro 已作为 Spectrum-X 平台的 OEM 合作伙伴加入。Spectrum-X 将纳入 Supermicro GPU 超级服务器,提供 4U、5U 和 8U 外形尺寸,并将支持 NVIDIA GPU 在 NVIDIA HGX H100,NVIDIA H100 和 NVIDIA L40S PCIe 外形规格。

 

这些 Supermicro 系统通过提供出色的网络性能、确保多租户性能隔离和提高能效,显著缩短了基于 Transformer 的大型生成式 AI 模型的训练和推理时间。这些进步是在遵守以太网网络标准并利用 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 SuperNIC

NVIDIA 期待与 Supermicro 合作,为我们的联合 AI 云和超大规模基础设施客户带来更高的价值。

NVIDIA Spectrum-X 性能基准测试

随着 NVIDIA Israel-1 数据中心的持续开发,我们执行了各种基准测试,这些测试突出了 Spectrum-X 的性能优势。初步结果非常好,详情如下。

基本网络运行状况 (RDMA)

第一个基准测试展示了系统的基本网络运行状况。AI 工作负载围绕使用 GPU 构建,需要 GPU (及其板载显存)与将服务器连接到网络的网卡之间进行高带宽、低延迟的通信。

RDMA 对分是表明网络已为 AI 做好准备的关键指标,Spectrum-X 在此类别中表现出色。与传统以太网相比,它提供的有效带宽提高了 4 倍,延迟降低了 4 倍。传统以太网包括 RDMA 以及拥塞通知和流量控制等优化。

Two bar charts in green, light gray, and dark gray showing relationship between RDMA bisection and Traditional Ethernet and NVIDIA Spectrum-X.
图 1、RDMA 对分交叉可扩展单元。与传统以太网相比, NVIDIA Spectrum-X 可实现高达 4.6 倍的带宽和低达 4.5 倍的延迟

AI 集合性能

除了 RDMA 性能之外,NVIDIA 还基于 NVIDIA 集合通信库(NCCL)测试了 AI 基元的性能。跨多个系统运行的 AI 工作负载利用 NCCL 操作(例如 all-to-all 和 all-reduce)更新单个 GPU 中的模型参数,并确保横向扩展训练和推理的同步。

借助 Spectrum-X,@NCCL 运算相比传统以太网有显著提升。在多个工作负载同时通过网络进行通信的杂 AI 云场景中,它们还展示了一致且可预测的性能。

事实上,Spectrum-X 在无噪点和无噪点场景中均表现出稳定的高性能。相比之下,传统以太网在不同运行场景中的性能差异高达 20%。

Two bar graphs in green, light gray, and dark gray showing relationship between NCCL all-reduce isolation and traditional Ethernet and NVIDIA Spectrum-X.
图 2、适用于 NCCL all-to-all 或 all-reduce 隔离的 AI 云性能。Spectrum-X 提供噪声隔离,确保与无噪点场景几乎相同的性能

大型语言模型性能

虽然 RDMA 对分和 AI 集合操作很重要,但最重要的结果是在应用程序级别。Spectrum-X 是否会加速大型语言模型 (LLM) 训练工作负载?事实上,它确实如此。对于两者 NVIDIA NeMo Spectrum-X 可显著提升性能,缩短分步迭代时间,同时缩短训练时间和获得见解的时间。

Two bar charts in green, light gray, and dark gray showing relationship between AI cloud isolation time and traditional Ethernet and NVIDIA Spectrum-X.
图 3、AI 云工作负载性能隔离。Spectrum-X 加速迭代时间,用于训练最常见的 AI 模型

网络恢复能力

Spectrum-X 通过网络优化加速 AI,但同样重要的是,要考虑网络的弹性。AI 工作负载紧密合,需要所有节点的高有效带宽才能获得最佳性能。

当网络链路或交换机发生故障时,AI 训练可能会受到严重影响。必须迅速重新路由网络通信,否则很大比例的 GPU 基础设施将闲置,这会耗费时间和资金,并且可能需要从先前的检查点重启作业。

借助 Spectrum-X 路由机制,流量会从中断链路转移,并高效地分配到正常链路,从而将性能降低降至最低。相比之下,传统以太网容易因网络问题而受到严重且不成比例的减速,从而导致 GPU 基础设施效率低下。

Graphic of AI Cloud Network (left) and bar graphs (right) showing AI network performance of NVIDIA Spectrum-X and traditional Ethernet.
图 4、弹性的自适应路由性能。Spectrum-X 使用重新路由重新平衡 NCCL 流并避免故障路径

总结

正如这些初始基准测试所示,Spectrum-X 代表了使用以太网构建多租户、超大规模 AI 云的突破性方法。此解决方案使组织能够提高 AI 云的性能和能效,同时实现更高的可预见性和一致性。这反过来会加速 TTM 并增强竞争优势。

了解详情

想要了解更多信息?请通过线下或线上方式与我们联系,亲身或以虚拟身份参加 NVIDIA GTC 2024,体验 NVIDIA 网络平台套件。与行业杰出人士、开发者、研究人员和商业战略家联系,帮助塑造 AI 和加速计算的未来发展。AI 大会将发布关于 NVIDIA 网络进展的激动人心的公告、演示和教育会议。

 

推荐您查看这些内容:网络会议

 

Tags