数据中心/云端

NVIDIA SuperNIC 驱动新一代 AI 网络发展

在生成式 AI 时代,加速网络对于为大规模分布式 AI 工作负载构建高性能计算结构至关重要。NVIDIA 在该领域继续保持领先地位,提供先进的以太网和 InfiniBand 解决方案,可最大限度地提高 AI 工厂和云数据中心的性能和效率。

这些解决方案的核心是 NVIDIA SuperNIC,一种经过优化的新型网络加速器,可为超大规模 AI 工作负载提供支持。这些 SuperNIC 是 NVIDIA Spectrum-X 以太网和 Quantum-X800 InfiniBand 网络平台的关键组件,旨在提供前所未有的可扩展性和性能。

NVIDIA SuperNIC 产品组合中的最新成员 ConnectX-8 SuperNIC 与 BlueField-3 SuperNIC 一起,共同推动加速的大规模 AI 计算结构的新一轮创新浪潮。ConnectX-8 SuperNIC 的总数据吞吐量为 800 Gb/s,可提供所需的速度、稳健性和可扩展性,为万亿参数 AI 模型提供动力支持,并与 NVIDIA 交换机无缝集成,以实现最佳性能。本文将探讨 NVIDIA SuperNIC 的独特属性及其在推进现代 AI 基础设施发展方面的关键作用。

利用 RoCE 处理 AI 工作负载 

对于 AI 模型训练来说,在数据中心的 GPU 之间高速移动庞大的数据集至关重要,以缩短训练时间并加快 AI 解决方案的上市时间。

NVIDIA SuperNIC 具有出色的硬件内部 RoCE 加速和 GPUDirect RDMA,速度高达 800 Gb/s,可绕过 CPU 在 GPU 之间实现直接数据移动,从而应对这些挑战。

这种直接通信路径可最大限度地减少 CPU 开销并降低延迟,从而在 GPU 内存之间实现更快、更高效的数据传输。实际上,此功能可实现更高的并行性,跨多个节点扩展 AI 工作负载,而不会出现基于 CPU 的传统数据传输通常引入的瓶颈。

使用 Spectrum-X RoCE 自适应路由增强人工智能性能

NVIDIA SuperNIC 提供的直接数据放置(DDP)支持是 Spectrum-X 中提升 AI 网络性能的关键功能之一。

随着生成式 AI 工作负载跨数千个节点扩展,等价多路径(ECMP)等传统 IP 路由协议难以处理 AI 模型生成的大规模、持续的数据流(称为 大象流 )。这些流可能会使网络资源不堪重负,并导致拥塞,从而降低整体网络性能。

Spectrum-X RoCE 动态路由动态调整流量在可用网络路径中的分配方式,确保高带宽流以最佳方式路由,以防止网络拥塞。该方法利用 NVIDIA Spectrum-4 以太网交换机的功能,该交换机可在多个路径上均匀喷洒数据包,以平衡负载,避免传统静态路由机制造成的瓶颈。

然而,使用数据包喷洒时,出现了乱序数据包交付的挑战。

NVIDIA SuperNIC 通过在数据包到达接收端时将其直接按顺序放入缓冲区来解决这一问题,确保按照正确的顺序接收数据。这使得 NVIDIA 交换机和 SuperNIC 之间实现了紧密的协调,实现了高效、高速的 AI 工作负载通信,确保大规模 AI 模型能够继续处理数据,而不会中断或降低性能。

解决 AI 网络拥塞问题 

由于 AI 工作负载具有突发性质,因此极易受到拥塞的影响。AI 模型训练(尤其是在多个 GPU 同步和共享数据的集合操作期间)产生的频繁且短命的流量峰值,需要高级拥塞管理来保持网络性能。传统的拥塞控制方法(例如基于 TCP 的流量控制)不足以满足 AI 独特的流量模式。

为了解决这一问题,Spectrum-X 采用了先进的拥塞控制机制,这些机制与 Spectrum-4 交换机的实时遥测功能紧密集成。这种集成使 SuperNIC 能够根据当前的网络利用率主动调整数据传输速率,从而在出现问题之前防止拥塞。

通过使用带内高频遥测数据,SuperNIC 可以以微秒级精度作出反应,确保即使在高流量条件下也能优化网络带宽并尽可能降低延迟。

使用增强的可编程 I/O 加速 AI 网络

随着 AI 工作负载日益复杂,网络基础设施不仅必须在速度上不断发展,还需要在适应性方面进步,以支持数千个节点之间的各种通信模式。

NVIDIA SuperNIC 处于这项创新的前沿,提供增强的可编程 I/O 功能,这些功能对于现代 AI 数据中心环境至关重要。这些 SuperNIC 具有加速数据包处理管线,能够以线速运行,吞吐量高达 800 Gb/s。

通过将数据包处理任务从 CPU 卸载到 SuperNIC,此管道可显著降低网络延迟并提高整体系统效率。管道的可编程性由 NVIDIA DOCA 软件框架提供支持,为网络专业人员提供了大规模构建和优化网络的灵活性。

NVIDIA SuperNIC 采用数据路径加速器(DPA),可增强可编程性。DPA 是一种高度并行的 I/O 处理器,配备 16 个超线程核心,专为处理 I/O 密集型工作负载而设计。它可以通过 DOCA 针对设备仿真、拥塞控制和流量管理等各种低代码应用程序轻松进行编程。这种可编程性使组织能够根据其 AI 工作负载的特定需求定制网络基础设施,确保数据在保持峰值性能的同时跨网络高效流动。

保护 AI 网络连接 

保护 AI 模型对于保护敏感数据和知识产权免遭潜在的漏洞和对抗性攻击至关重要。当您的组织构建 AI 工厂和云数据中心时,您需要有效的安全解决方案来解决可能损害模型性能和可信度的漏洞,最终保护竞争优势和用户隐私。

传统的网络加密方法通常难以扩展到 100 Gb/s 以上,从而使关键数据处于危险之中。相比之下,NVIDIA SuperNIC 可提供加速网络和在线加密加速,速度高达 800 Gb/s,确保数据在传输过程中保持加密状态,同时实现峰值 AI 性能。

NVIDIA SuperNIC 为 IPsec、TLS 和可扩展的 PSP 加密操作提供硬件加速支持,为保护人工智能网络环境提供成熟的解决方案。

PSP 由 Google 开发,并为开源社区做出了贡献。PSP 从一开始就采用无状态设计,非常适合支持超大规模数据中心环境的需求。该架构允许独立处理每个请求,从而增强在分布式系统中管理加密操作的可扩展性和弹性。

结束语 

在生成式 AI 的动态格局中,NVIDIA SuperNIC 作为 NVIDIA Spectrum-X 和 Quantum-X800 网络平台不可或缺的一部分,为网络的变革时代奠定了基础。

NVIDIA SuperNIC 具有超快的数据吞吐量、智能拥塞管理、强大的安全功能和可编程 I/O 等出色功能,正在彻底改变 AI 工作负载的交付方式。通过无缝集成尖端技术和出色的性能,NVIDIA SuperNIC 助力组织机构充分发挥其 AI 计划的潜力,以前所未有的规模推动创新。

有关 NVIDIA SuperNIC 的更多信息,请参阅以下资源:

 

标签