对 NVIDIA Spectrum-X 进行 AI 网络性能基准测试，现已可从 Supermicro 获取

NVIDIA Spectrum-X 网络平台作为超大规模云基础设施中的 AI 量身打造的领先网络平台，NVIDIA 正在迅速获得吸引力。Spectrum-X 网络技术帮助企业客户加速生成式 AI 工作负载。NVIDIA 宣布，该平台在 2023 年 11 月新闻稿以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超级计算机的更新。

NVIDIA 现在宣布 Supermicro 已作为 Spectrum-X 平台的 OEM 合作伙伴加入。Spectrum-X 将纳入 Supermicro GPU 超级服务器，提供 4U、5U 和 8U 外形尺寸，并将支持 NVIDIA GPU 在 NVIDIA HGX H100，NVIDIA H100 和 NVIDIA L40S PCIe 外形规格。

这些 Supermicro 系统通过提供出色的网络性能、确保多租户性能隔离和提高能效，显著缩短了基于 Transformer 的大型生成式 AI 模型的训练和推理时间。这些进步是在遵守以太网网络标准并利用 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 SuperNIC。

NVIDIA 期待与 Supermicro 合作，为我们的联合 AI 云和超大规模基础设施客户带来更高的价值。

NVIDIA Spectrum-X 性能基准测试

随着 NVIDIA Israel-1 数据中心的持续开发，我们执行了各种基准测试，这些测试突出了 Spectrum-X 的性能优势。初步结果非常好，详情如下。

基本网络运行状况 (RDMA)

第一个基准测试展示了系统的基本网络运行状况。AI 工作负载围绕使用 GPU 构建，需要 GPU (及其板载显存)与将服务器连接到网络的网卡之间进行高带宽、低延迟的通信。

RDMA 对分是表明网络已为 AI 做好准备的关键指标，Spectrum-X 在此类别中表现出色。与传统以太网相比，它提供的有效带宽提高了 4 倍，延迟降低了 4 倍。传统以太网包括 RDMA 以及拥塞通知和流量控制等优化。

Two bar charts in green, light gray, and dark gray showing relationship between RDMA bisection and Traditional Ethernet and NVIDIA Spectrum-X. — 图 1、*RDMA 对分交叉可扩展单元。与传统以太网相比， NVIDIA Spectrum-X 可实现高达 4.6 倍的带宽和低达 4.5 倍的延迟*

AI 集合性能

除了 RDMA 性能之外，NVIDIA 还基于 NVIDIA 集合通信库(NCCL)测试了 AI 基元的性能。跨多个系统运行的 AI 工作负载利用 NCCL 操作(例如 all-to-all 和 all-reduce)更新单个 GPU 中的模型参数，并确保横向扩展训练和推理的同步。

借助 Spectrum-X，@NCCL 运算相比传统以太网有显著提升。在多个工作负载同时通过网络进行通信的杂 AI 云场景中，它们还展示了一致且可预测的性能。

事实上，Spectrum-X 在无噪点和无噪点场景中均表现出稳定的高性能。相比之下，传统以太网在不同运行场景中的性能差异高达 20%。

Two bar graphs in green, light gray, and dark gray showing relationship between NCCL all-reduce isolation and traditional Ethernet and NVIDIA Spectrum-X. — 图 2、*适用于 NCCL all-to-all 或 all-reduce 隔离的 AI 云性能。Spectrum-X 提供噪声隔离，确保与无噪点场景几乎相同的性能*

大型语言模型性能

虽然 RDMA 对分和 AI 集合操作很重要，但最重要的结果是在应用程序级别。Spectrum-X 是否会加速大型语言模型 (LLM) 训练工作负载？事实上，它确实如此。对于两者 NVIDIA NeMo Spectrum-X 可显著提升性能，缩短分步迭代时间，同时缩短训练时间和获得见解的时间。

Two bar charts in green, light gray, and dark gray showing relationship between AI cloud isolation time and traditional Ethernet and NVIDIA Spectrum-X. — 图 3、*AI 云工作负载性能隔离。Spectrum-X 加速迭代时间，用于训练最常见的 AI 模型*

网络恢复能力

Spectrum-X 通过网络优化加速 AI，但同样重要的是，要考虑网络的弹性。AI 工作负载紧密合，需要所有节点的高有效带宽才能获得最佳性能。

当网络链路或交换机发生故障时，AI 训练可能会受到严重影响。必须迅速重新路由网络通信，否则很大比例的 GPU 基础设施将闲置，这会耗费时间和资金，并且可能需要从先前的检查点重启作业。

借助 Spectrum-X 路由机制，流量会从中断链路转移，并高效地分配到正常链路，从而将性能降低降至最低。相比之下，传统以太网容易因网络问题而受到严重且不成比例的减速，从而导致 GPU 基础设施效率低下。

Graphic of AI Cloud Network (left) and bar graphs (right) showing AI network performance of NVIDIA Spectrum-X and traditional Ethernet. — 图 4、*弹性的自适应路由性能。Spectrum-X 使用重新路由重新平衡 NCCL 流并避免故障路径*

总结

正如这些初始基准测试所示，Spectrum-X 代表了使用以太网构建多租户、超大规模 AI 云的突破性方法。此解决方案使组织能够提高 AI 云的性能和能效，同时实现更高的可预见性和一致性。这反过来会加速 TTM 并增强竞争优势。

了解详情

想要了解更多信息？请通过线下或线上方式与我们联系，亲身或以虚拟身份参加 NVIDIA GTC 2024，体验 NVIDIA 网络平台套件。与行业杰出人士、开发者、研究人员和商业战略家联系，帮助塑造 AI 和加速计算的未来发展。AI 大会将发布关于 NVIDIA 网络进展的激动人心的公告、演示和教育会议。

推荐您查看这些内容：网络会议。

适用于 AI 的网络最佳实践：来自云服务提供商的观点– 面板【S62447】
为 AI 应用打造合适的存储– 面板【S62476】
借助 InfiniBand 进入创新前沿【S62293】
通过优化的以太网 AI 网络实现企业生成式 AI【S62521】
通过卸载到 BlueField DPU 加速 HPC 和 AI 应用：策略和优势【S61956】
与专家交流：为 AI 时代选择合适的网络：网络定义数据中心【CWE61202】

对 NVIDIA Spectrum-X 进行 AI 网络性能基准测试，现已可从 Supermicro 获取

NVIDIA Spectrum-X 性能基准测试

基本网络运行状况 (RDMA)

AI 集合性能

大型语言模型性能

网络恢复能力

总结

了解详情

Tags

关于作者

对 NVIDIA Spectrum-X 进行 AI 网络性能基准测试，现已可从 Supermicro 获取

NVIDIA Spectrum-X 性能基准测试

基本网络运行状况 (RDMA)

AI 集合性能

大型语言模型性能

网络恢复能力

总结

了解详情

Tags

关于作者

Related posts

借助 NVIDIA Aerial CUDA 加速 RAN，增强 5G/6G 的 DU 性能和工作负载整合

借助加速以太网网络和网络存储扩展企业 RAG

简化 Cumulus Linux 迁移

借助 NVIDIA FLARE 2.4，在几分钟内将机器学习转变为联邦学习

借助 NVIDIA FLARE 实现可扩展联邦学习，提升 LLM 性能