数据中心/云端/边缘

借助 NVIDIA DOCA 2.5 提供高效、高性能的 AI 云

 

作为面向数据中心基础设施开发者的全面软件框架, NVIDIA DOCA 已被领先的 AI、云、企业和 ISV 创新者采用。DOCA 2.5 的发布标志着其发布的第三个周年。此外,由于代码库的稳定性和可靠性,以及多项网络和平台升级,DOCA 2.5 是首个面向 AI 云部署的 NVIDIA BlueField-3 长期支持 (LTS) 版本。

DOCA 2.5 与 NVIDIA 交换机、BlueField DPU 和 SuperNIC 一起,是为支持要求严苛的 AI 工作负载而共同设计的平台的重要元素。作为 NVIDIA 全栈架构的一部分, NVIDIA 的网络组件可提供出色的应用程序性能以及安全性和数据中心效率。当与 NVIDIA 计算平台和软件工具一起部署时,它们可以提供更多的优势和协同作用。

以下是 NVIDIA 的一些新网络产品,以及 DOCA 2.5 如何成为 AI 基础架构不可或缺的一部分。

AI 基础架构的支柱

现在,人们普遍认识到,高性能网络是高效 AI 基础设施的支柱。为了实现最佳 AI 性能,必须对其生成式 AI 和基础模型的能力、实现和部署给予重要考虑。

现代 AI 工作负载具有独特的属性和巨大的计算需求,因此需要专用的网络基础设施才能以峰值效率运行。为了引领 AI 和加速计算领域的发展,我们创建了 NVIDIA Spectrum-X 以太网网络平台,以满足这一需求,并提高 AI 云的有效性和性能。

NVIDIA 的 Spectrum-4 以太网交换机和 BlueField-3 SuperNIC 构成了 Spectrum-X 平台的基础,也是我们用于人工智能的加速计算结构的基础。BlueField – 3 SuperNIC 为各行各业提供了众多技术优势。当部署在我们的旗舰 AI 系统中时,BlueField – 3 SuperNIC 不仅可以提高性能,还可以为租户作业提供确定性和隔离性的性能。

Pictures of an NVIDIA Spectrum-4 Switch and NVIDIA BlueField-3 DPU.
图 1. NVIDIA Spectrum-X 和 BlueField-3 硬件

NVIDIA 协同

Spectrum-X 平台结合了共同设计的一流硬件,可提供无与伦比的性能协同和出色的客户体验。BlueField-3 SuperNIC 是该设计不可或缺的一部分,可将在基于 GPU 的服务器集群上运行的 AI 系统的以太网网络提升到新的高度。

相比之下,传统的网络接口卡缺乏 AI 工作负载所需的功能。BlueField SuperNIC 可确保高效、快速地交付有效执行基于云的 AI 工作负载所需的流程。

当与 NVIDIA GPU 结合使用时,这种技术组合(适用于大多数企业级服务器)可为 AI 云计算创建优化的解决方案,从而提供无与伦比的效率、性能和灵活性。

经过整个 NVIDIA 硬件和软件堆栈的验证,Spectrum-X 和 NVIDIA GPU 为 AI 云创建了真正无与伦比的以太网解决方案。凭借如此广泛的集成水平,微调的机会为真正独特的解决方案提供了类似自定义级别的修改,专用于交付精度工作负载。

作为全栈的组成部分,DOCA 是 AI 难题的关键部分,将计算、网络、存储和安全联系在一起。

Diagram includes SONic, Cumulus, NetQ, DOCA Services, NVIDIA Air, SAI/SPSDK, DOCA, and Magnum IO.
图 2. NVIDIA 硬件和软件堆栈

适用于 AI 云和数据中心基础设施的新功能

DOCA 有助于实现当今最先进的 GPU 加速 AI 工作负载。对于包含 GPU 和 NVIDIA BlueField-3 DPU 或 BlueField – 3 SuperNIC 的系统,开发者还有更多优势。

  BlueField-3 DPU BlueField-3 SuperNIC  
任务 >云基础设施处理器
>卸载、加速和隔离数据中心基础设施
>已针对 GPU 级系统中的 N-S 进行优化
>适用于 AI 计算的加速网络
>出色的 RoCE 网络
>已针对 GPU 级系统中的 E-W 进行优化
 
共享功能 >VPC 网络加速
>网络加密加速
>可编程网络流水线
>精确计时
>平台安全性
 
独特功能 > 强大的计算能力
> 安全的零信任管理
> 数据存储加速
>弹性基础设施配置
>每个系统 1-2 个 DPU
>强大的网络
>AI 网络功能集
>全栈 NVIDIA AI 优化
>节能高效的半高设计
>每个系统最多 8 个 SuperNIC
 
表 1. NVIDIA BlueField-3 DPU 和 SuperNIC 对比

具体来说,DOCA 利用了众多由 NVIDIA 主导的开发、集成和测试计划,这些计划支持并优化了全系列 AI 应用程序框架。 NVIDIA 技术的融合推动了数据中心创新和快速 AI 应用程序部署。

DOCA 2.5 于 2023 年 12 月发布,提供了多项增强功能,可提升数据中心内的性能。虚拟功能的数量和“东西向”网络流量都在不断增加。作为回应,使用 DOCA 和 BlueField-3 SuperNIC 对于优化网络并将其功能建立为现代 AI 基础设施的支柱至关重要。

Diagram shows an application layer (including networking, security, and storage), DOCA services (including Orchestration, Telemetry, and Firefly), libraries (including Crypto, App Shield, and Rivermax), and drivers (including UCX, UCC, and RDMA).
图 4.DOCA 2.5 架构

DOCA-PCC 现已推出

在多租户AI云环境中,同时运行多个AI作业可能会导致网络拥塞。

DOCA PCC 库(现称为 GA)提供了一个高级编程接口,使合作伙伴能够实施自定义的拥塞控制 (CC) 算法。该库使用 NVIDIA BlueField-3 SuperNIC 加速进行 CC 管理,并提供 API 来抽象硬件复杂性以简化编程。合作伙伴可以专注于 CC 算法的功能,并通过 BlueField 硬件加速快速实施该算法。

DOCA PCC 还为您提供了开发优化解决方案的灵活性,以处理集群中的拥塞。定制的拥塞控制对于 AI 工作流至关重要,可实现性能隔离,提高公平性,并防止在无损网络上丢弃数据包。

NVIDIA Spectrum-X 是一款突破性的以太网网络解决方案,用于构建多租户、超大规模 AI 云。它使用 DOCA PCC 实现拥塞控制。

DOCA Flow:用于云部署的新功能和增强功能

DOCA Flow 是用于开发 DOCA 服务的基本编程工具。DOCA 2.5 增加了对 NVIDIA OVS-DOCA 开发的额外支持,这是一种创新的高性能虚拟交换机,适用于 NVIDIA NIC 和 DPU 以及 NVIDIA DOCA HBN 服务。

借助 NVIDIA DOCA Flow,您可以定义和控制网络流量,实施网络策略,并以编程方式管理网络资源。它提供网络虚拟化、遥测、负载均衡、安全强制和流量监控。

这些功能有助于处理低延迟的高数据包工作负载、节省 CPU 资源并降低功耗。从根本上讲,DOCA Flow 是云网络中多个用例的关键推动因素。DOCA Flow 用于开发自定义软件定义网络 (SDN),是 CSP 设计未来网络的关键构建块。

DOCA 服务

以下是在 DOCA 2.5 版本中升级的 DOCA 服务示例:

  • 基于主机的网络
  • DOCA Firefly
  • 存储 SNAPv4

基于主机的网络

DOCA 2.5 中升级的基于主机的网络 (HBN) 是一项 DOCA 服务,使网络架构师能够完全基于 L3 协议设计网络,从而实现在网络服务器上运行的路由。就 BlueField 而言,HBN 解决方案将一组网络功能打包在容器内,打包为在 DPU 上运行的服务 Pod.

DOCA HBN 使网络架构师能够创建无控制器虚拟私有云 (VPC).这是部署裸机即服务 (BMAaS) 基础设施的 CSP、电信公司和企业客户的理想选择。

与传统的网络解决方案相比,DOCA HBN 为您带来了许多好处。除了提高部署的可扩展性和效率外,DOCA HBN 还提供增强的安全选项、简化的底层网络结构,并降低了 OPEX.如果与第三方交换机制造商结合使用,DOCA HBN 会将多个 ToR 交换机功能转移到 BlueField-3 DPU 或 SuperNIC,从而降低第三方许可成本。

如需详细了解新的 HBN 功能,包括对 RoCE、Routing 和 ACL 增强功能的支持,请参阅 DOCA 2.5 版本说明.

DOCA Firefly

此功能提供基于精确时间协议 (PTP) 的时间同步服务,这些服务使用 NVIDIA DPU 和 SuperNIC 的硬件加速。

行业特定的 PTP 用例包括以下内容:

  • 电信:基于网络的时间同步对于 5G 移动部署至关重要。
  • 媒体与娱乐:
    • 视频、音频和元数据传输的 QoS
    • 满足严格的直播质量要求
  • 数据中心:时间分布
  • 金融服务:
    • 高频交易 (HFT)
    • 符合 MiniFID II 要求(必填)

作为 DOCA 2.5 的新成员,DOCA Firefly 现在包含行业特定的配置文件,以改善用户体验并简化部署。配置文件目前包括媒体和电信,配置为包含行业特定的功能和性能参数。

存储 SNAPv4

BlueField-3 上的 DOCA SNAPv4 服务添加了内联 AES-XTS,这是一种默认加密算法,用于保护存储设备上静态数据的机密性。SNAP 现在加速硬件中的 AES – XTS 加密,从而优化和改进加密过程,同时受益于减少的 CPU 开销。

virtio-blk 的 SNAPv4 服务现可提供无需强制按序的恢复/热升级/LM.这项新功能改进了对恢复、热升级和实时迁移功能的支持,意味着无需再使用强制按序流量进行操作。对于处于真实环境中的客户而言,这相当于一个更实用的工具,因此典型客户(例如 CSP)现在可以为执行重要存储任务的最终用户提供更高的正常运行时间和不间断的性能。

更多更新

有关以下更新和功能列表的更多信息,请参阅 DOCA 2.5 版本说明

  • 设备认证
  • DPA 用户应用程序签名和身份验证[测试版]
  • DPU 固件 TPM[测试版]
  • DPU 升级工具
  • 新的资格认证、认证和管理功能

结束语

现代 AI 工作负载需要复杂的网络解决方案,才能以峰值效率有效运行。如今,全球各地的组织在尝试将 AI 嵌入其现有的运营和技术基础设施时,也面临着类似的重大挑战。

为了满足这一需求, NVIDIA 作为 AI 和加速计算领域的领导者,创建了一个优化的网络平台,以提高 AI 云计算的性能。该平台有效性的核心是通过各种 NVIDIA 品牌硬件和软件解决方案采用的互补技术实现的协同作用。

在其全栈架构中, NVIDIA 实施了一些设计考虑因素,以确保提高各种平台之间的运营效率。当与 NVIDIA GPU 相结合时,Spectrum-X (由 NVIDIA 以太网交换机和 BlueField SuperNIC 组成的解决方案)为 AI 云创建了真正出色的以太网平台。借助最新版本的 NVIDIA DOCA SDK, NVIDIA 取得了更多进展,进一步支持当今最先进的 GPU 加速 AI 工作负载。

要利用 DOCA 提供的所有优势开启您的开发之旅,请下载 NVIDIA DOCA。如需了解更多信息,请参阅以下资源:

 

Tags