数据中心/云端

借助加速网络实现数据中心现代化

 

加速网络将 CPU、GPU、DPU(数据处理单元)或 SuperNIC 组合成加速计算结构,专门设计用于优化网络工作负载。它使用专用硬件来卸载要求严苛的任务,以增强服务器功能。随着 AI 和其他新工作负载的复杂性和规模不断增加,对加速网络的需求变得至关重要。

数据中心作为计算的新单元,随着网络服务对CPU压力的增加,现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性,并配备加速器和卸载功能,这些是充分发挥人工智能技术潜力和推动创新的关键。

本文将探讨加速网络技术在数据中心中的优势和实施策略,并重点介绍其在提升性能、可扩展性和效率方面的作用。

加速您的网络

网络加速需要优化网络的各个方面,包括处理器、网络接口卡 (NIC)、交换机、线缆、光学和网络加速软件。利用无损网络、远程直接内存访问 (RDMA)、动态路由、拥塞控制、性能隔离和网络计算,将帮助组织充分发挥现代应用程序(包括 AI)的潜力。

通过合理控制数据注入速率,可以显著提高共享网络的效率。在处理大规模数据流时,配备自适应路由算法的以太网交换机能够动态平衡整个网络中的数据负载,避免拥塞并降低延迟。交换机的多路径和数据包喷洒技术可以进一步提升网络效率,确保数据及时到达,并最大程度减少瓶颈。这些技术有助于防止交换机与网络接口卡(NIC)或数据处理单元(DPU)之间的数据冲突,而流量隔离技术则通过防止一个数据流对其他数据流产生负面影响,确保数据的及时交付。

另一种优化技术是部署 SuperNIC 和 DPU。SuperNIC 是一种适用于 AI 云数据中心的网络加速器,可在 GPU 服务器之间提供可靠、无缝的连接。DPU 是一种迅速出现的处理器类别,可实现增强、加速的网络。在 SuperNIC 和 DPU 的帮助下,可以从主机处理器中卸载工作负载,以加速通信,从而使数据中心能够应对不断增长的数据移动需求。

要实现加速网络,请考虑以下技术。

加速服务

工作负载经历了重大的范式转变,过渡到去中心化,通过容器和微分段分割工作负载。这导致服务器之间的网络带宽(东西向流量)大幅增加。

AI 工作负载是一个分布式计算问题,需要使用多个互联服务器或节点。这会给网络和 CPU 带来巨大压力。工作负载去中心化需要重新检查网络基础设施,以添加加速器,从而使 CPU 和 GPU 摆脱处理网络、存储和安全服务的负担。这使得 CPU 能够专注于应用程序工作负载。加速可确保这些节点之间的高速、低延迟数据传输,并实现高效的工作负载分配和更快的模型训练。

网络抽象

向高度虚拟化数据中心和云模型的转变正在给传统网络带来压力。传统数据中心网络的设计并不是为了支持当今虚拟化工作负载的动态特性。网络抽象(包括网络叠加)可以在物理网络之上运行多个独立的独立虚拟化网络层。这些对于提供灵活性、扩展性和加速至关重要。但是,如果实施不当,它们可能会阻碍网络流量。

网络优化

收集和处理的大量数据已将工作负载推向以数据为中心的时代。大型数据集的可用性与机器学习和生成式 AI 等技术进步相结合,增加了对更多数据的需求,以满足学习算法的需求。这种数据爆炸式增长的一个结果是需要移动、处理、检索和存储大型数据集。

无损网络可以保证准确的数据传输,而不会造成任何损失或损坏,对于移动、处理、检索和存储这些大型数据集至关重要。RDMA 技术通过在不涉及 CPU 的情况下实现内存位置之间的直接数据传输来提高网络性能。无损网络和 RDMA 的结合可以优化数据传输效率,减少 CPU 和 GPU 空闲时间,从而实现高效的数据移动,以满足现代应用程序的需求。

端到端堆栈优化

现代工作负载具有独特的网络流量模式。传统工作负载生成的流量模式具有多流、小数据包和低方差。现代应用程序的流量涉及大数据包、少流和高方差,包括 Elephant 流和流量模式的频繁变化。

自适应路由算法用于在整个网络中动态平衡数据,从而为这些新的流量模式防止拥塞和高延迟。显式拥塞通知 (ECN) 等拥塞控制机制还可确保高效的数据流并最大限度地减少性能下降。为此,必须使用优化的端到端堆栈构建网络,以加速新的流量模式。

网络计算

现代工作负载处理大型数据集时,需要对高度并行化的算法进行超快速处理,这使得计算需求更加复杂。随着计算需求的增加,网络计算通过提供基于硬件的集合通信运算加速,有效地将集合运算从CPU卸载到网络。这一功能显著提高了分布式AI模型训练的性能,减少了通信开销,并加速了模型收敛。它消除了在端点之间多次发送数据的需求,从而提高了网络性能。

网络加速可降低 CPU 利用率,为 CPU 处理应用程序工作负载留出更多容量。它还可以减少抖动以改善数据流,并提供更高的整体吞吐量,从而更快地处理更多数据。

总结

网络加速技术不断发展,并变得更加专业。最新的演进将解决 AI 工作负载问题,这些工作负载需要一致、可预测的性能以及能够运行多租户环境的计算和能效。

要深入了解如何利用加速网络构建更高效的高性能网络,请阅读这两份白皮书:NVIDIA Spectrum-X 网络平台架构AI 时代的网络:网络定义数据中心。此外,您还可以参考这份电子书:借助加速网络实现数据中心现代化

 

Tags