3 月 19 日下午 2 点,锁定 NVIDIA AI 网络中文专场。立即注册观看
数据中心/云端

NVIDIA Spectrum-X 网络平台和合作伙伴提升 AI 存储性能达48%

AI 工厂依靠的不仅仅是计算网。当然,连接 GPU 的东西向网络对于 AI 应用的性能至关重要,而连接高速存储阵列的存储网也不容忽视。存储性能在运行 AI 业务过程中的多个阶段中发挥着关键作用, 包括训练过程中的Checkpoint操作、 推理过程中的检索增强生成 (RAG) 等。

为了满足这些需求,NVIDIA 和存储生态合作伙伴正在将 NVIDIA Spectrum-X 网络平台 扩展到数据存储网,从而带来更高的性能和更快的实现AI的时间。由于 Spectrum-X 动态路由技术能够缓解网络中的流量冲突并增加有效带宽,从而使存储性能远高于 RoCE v2,RoCE v2是大多数数据中心用于 AI 计算网和存储网的以太网网络协议。

Spectrum-X 将读取带宽加速了高达 48%,写入带宽加速了高达 41%。带宽的增加可以更快地完成 AI 工作流中与存储相关的操作,从而缩短训练业务的完成时间,并降低推理过程中的Token分配延迟。

Spectrum-X 的主要存储合作伙伴

随着 AI 工作负载的规模和复杂性不断增加,存储解决方案也必须不断发展,以跟上现代 AI 工厂的需求。 DDN  VAST Data 和 WEKA 等领先的存储供应商正与 NVIDIA 合作,利用Spectrum-X 集成和优化其解决方案,为 AI 存储网带来先进的功能。

Spectrum-X 对 Israel-1 超级计算机的大规模影响

NVIDIA 已经搭建了生成式 AI 超级计算机 – Israel-1,用于对各种AI网络解决方案进行预测试和验证以优化 Spectrum-X 性能和简化网络部署。这使 Israel-1 成为测试 Spectrum-X 如何影响存储工作负载的良好平台,展示了网络在现实的超级计算机运行状态下对存储性能的影响。

为了了解 Spectrum-X 对存储网络的影响,Israel-1 团队测量了 从NVIDIA HGX  GPU 服务器客户端访问存储时的读写带宽。该测试 (Flexible I/O Tester 基准测试) 在将网络配置为标准 RoCE v2 网络的情况下执行一次,然后在启用 Spectrum-X 的动态路由和拥塞控制后重新运行。

这些测试使用了不同数量的 GPU 服务器作为客户端运行,覆盖了从 40 个 GPU 到 800 个 GPU 。在所有的测试中,Spectrum-X 都表现得更好。读带宽提升幅度在 20%到 48%之间,写带宽提升幅度在 9%到 41%之间,这些结果与 DDN  VAST 和 WEKA 等生态合作伙伴测到的加速性能一致。

存储网络性能对于 AI 性能至关重要

要想知道 Spectrum-X 为何会带来如此大的影响,需要先了解存储在 AI 业务中的重要性。AI 性能不仅仅受 大语言模型 (LLM) 每一步完成时间的影响,还与许多其他因素有关。例如,由于模型训练通常需要几天、几周或几个月才能完成,因此设置Checkpoint或保存部分训练模型的中间结果到存储非常重要,通常需要每隔几个小时操作一次。这意味着,万一系统出现问题,训练进度不会丢失。

对于具有数十亿至数万亿参数的模型,这些Checkpoint的状态变得越来越大,现在最大型 LLM模型会生成高达数 TB 的数据,保存数据或恢复数据会产生多条“大象流”,这些突发的大象流,可能会淹没交换机的缓冲和链路,所以网络必须保证为训练工作负载提供最佳利用率。

检索增强生成(RAG) 是另一个存储网可以影响工作负载性能的例子,借助 RAG,LLM 与不断增长的知识库相结合,为模型添加特定领域的上下文,从而提供更快的响应时间,而无需额外的模型训练或微调。RAG 的工作原理是获取额外的内容或知识,并将其嵌入到向量数据库中,从而使其成为可搜索到的知识库。

输入推理提示时,系统会解析(嵌入)提示并搜索数据库,检索到的内容会向提示添加上下文,以帮助 LLM 制定最佳答案。向量数据库是多维的,可能非常庞大,尤其是由图像和视频组成的知识库。

这些数据库通过存储网连接到推理节点,网络必须确保快速通信以尽可能降低延迟。对于多租户生成式 AI 工厂而言,这一点变得尤为重要,因为这些工厂每秒要处理大量的查询。

存储中动态路由和拥塞控制的应用

Spectrum-X 平台引入了 InfiniBand网络上的的关键创新技术,例如 RoCE Adaptive Routing(动态路由) 和 RoCE Congestion Control(拥塞控制)。NVIDIA通过采用这些创新技术并将其与存储网相结合,提高了存储工作负载的性能和网络利用率。

动态路由

为了消除大象流之间的碰撞并减轻Checkpoint过程中产生的网络流量,动态路由可以对于网络上的流进行逐包的动态负载平衡,Spectrum-4 以太网交换机根据实时拥塞状况来选择拥塞最低的路径。由于数据包被喷洒到整个网络中,到达目的地时它们可能会出现乱序,在传统的以太网下,这将需要重新传输许多数据包。

借助 Spectrum-X,接收端主机里的 SuperNIC 或数据处理器 (DPU) 知道数据包的正确顺序,可以在主机内存中按序放置数据包,从而使动态路由对应用程序透明。这可提高网络利用率,为Checkpoint、数据获取等实现更高的有效带宽以及提供可预测、一致的结果。

拥塞控制

Checkpoints 和其它存储操作通常会导致 Incast 拥塞,也称为多对一拥塞。当多个客户端尝试向单个存储节点写入数据时,就会出现这种情况。Spectrum-X 引入了一种基于遥测的拥塞控制技术,使用交换机中硬件遥测技术来通知 SuperNIC 或 DPU,以降低发送端的数据注入速率 (即 RDMA 写和读)。从而防止出现拥塞热点,这些热点可能会反向传播,导致相邻作业或进程受到拥塞的不公平影响。

增强弹性

由于 AI 工厂通常由大量交换机、线缆和收发器组成,任何链路中断都可能导致网络性能的大幅下降,因此网络弹性对于维护基础设施的健康至关重要。Spectrum-X 全局动态路由可在链路中断时实现优化、快速的重新收敛,从而充分利用存储网。

NVIDIA 全栈集成 

除了 Spectrum-X 为存储网带来的创新之外,NVIDIA 还提供并推荐使用多种 SDK、库和软件产品,以加速存储到 GPU 数据通路,其中包括但不限于以下内容:

  • NVIDIA Air一款基于云的网络仿真工具 ,用于对交换机、SuperNIC 和存储进行建模,可加速 Day 0、Day 1 和 Day 2对于存储网的操作。
  • NVIDIA Cumulus Linux基于自动化部署和 API 构建的网络操作系统 ,可确保大规模网络的平稳运营和管理。
  • NVIDIA DOCA面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存储、安全等方面提供出色的可编程性和性能。
  • NVIDIA NetQ一款网络验证工具集 ,集成了交换机遥测技术,可提供网络的实时可见性。
  • NVIDIA GPUDirect Storage一项在存储和 GPU 显存之间建立直接数据路径的技术 ,可提高数据传输效率。

开始使用 Spectrum-X

随着模型越来越大,数据走向更多的多模态,存储将一直是生成式 AI 训练和操作的关键要素。有关更多信息,请参阅 NVIDIA 白皮书《优化 AI 存储网:NVIDIA Spectrum-X 加速 AI 存储网络》。您还可以从 NVIDIA 合作伙伴生态系统中了解更多信息:

  • DDN 博客文章:借助 DDN 和 NVIDIA Spectrum-X 加速 AI 存储网络
  • DDN 白皮书:借助 DDN 的数据智能平台和 NVIDIA Spectrum-X 加速 AI 存储网络
  • VAST 博客文章:NVIDIA Spectrum-X 和 VAST 数据平台:开创 AI 基础架构的未来
  • VAST 白皮书:NVIDIA Spectrum-X Technology 适用于 AI 存储矩阵和 VAST Data Platform
  • WEKA 博客文章:WEKA 如何使用 NVIDIA Spectrum-X 重新定义 AI 和 HPC 工作负载的网络

请查看 NVIDIA GTC 2025 上的 Storage Innovations for AI Workloads 会议,在这个激动人心的领域了解更多新闻。

标签