数据中心/云端

借助 NVIDIA DOCA 2.7 增强 AI 云数据中心和 NVIDIA Spectrum-X

我们通过 NVIDIA DOCA 加速框架,为开发者提供了丰富的库、驱动和 API,以创建高性能应用程序和服务,支持 NVIDIA BlueField 数据处理器 (DPU) 和 SuperNIC。DOCA 2.7 是一个功能丰富的全面版本,进一步扩展了 DOCA 软件框架的范围和价值,提供了多个新的库、一站式应用和功能齐全的服务。

DOCA 2.7 扩展了 BlueField DPU 在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面的能力。该版本还进一步增强了 AI 云数据中心,并通过 NVIDIA Spectrum-X 网络平台,为 AI 工作负载提供了卓越的性能。

本文中详细介绍的版本亮点包括:

  • 支持使用 BlueField-3 SuperNIC 的 Spectrum-X RA 1.0.1
  • DOCA PCC、DOCA Flow 和 OVS DOCA 增强功能
  • 更新的 AI 云流量加密 – IPsec GA、PSP 支持 (测试版)
  • 新的 DOCA 库
  • 增强功能:DOCA 服务
  • 新增了 DOCA 管理服务 (DMS) 功能。

搭载 BlueField-3 SuperNIC 的 NVIDIA Spectrum-X RA 1.0.1

DOCA 2.7 为以太网 AI 云部署启用 NVIDIA Spectrum-X 1.0.1 (SPC-X 1.0.1) 参考架构。此架构经过严格测试,并优化了 BlueField SuperNIC 和 Spectrum SN5600 交换机的功能,用于加速和管理 AI 集群中的 E-W 以太网流量。

适用于 BlueField-3 SuperNIC 的 DOCA 2.7 的新功能包括:

  • 使用自适应路由和 DOCA 可编程拥塞控制 (PCC) 的无损 RoCE
  • DOCA-PCC 针对在 SPC-X 1.0.1 上运行的 AI 工作负载进行了优化
  • BlueField SuperNIC 默认为 NIC 模式

它目前用于 NVIDIA Israel-1 超级计算机,多个 AI 云 CSP 正在更广泛地采用。

DOCA-PCC

我们提供了 DOCA PCC 库,该库提供了高级编程接口,允许您实现自己的自定义拥塞控制 (CC) 算法。该库利用 NVIDIA BlueField-3 SuperNIC 的加速功能来管理 CC,并提供了简化硬件复杂性的 API,从而使您能够专注于 CC 算法的功能实现。

DOCA PCC 还提供了开发最佳解决方案的灵活性,以处理和避免集群中的网络拥塞。每个网络都不同,并非所有网络都可以使用标准的现有拥塞控制解决方案。定制的拥塞控制对于 AI 工作流程至关重要,能够实现性能隔离、提高公平性和持续的低延迟,同时防止在无损网络上丢弃数据包。

DOCA 2.7 提供了一系列旨在优化拥塞控制的功能。这些功能有助于监控网络性能、诊断问题和收集遥测数据。例如,在发生拥塞相关事件时,可以使用 Notification Point (NP) 可编程性触发警报或操作。DOCA 2.7 还支持多个探针数据包、用于监控的数据包以及通过遥测增强网络可见性。

尽管这些功能不仅限于拥塞控制,但它们有助于诊断拥塞相关问题并改善整体网络运行状况。此外,通过监控 Spectrum 交换机获得的其他遥测信息,例如端口速度容量降低了端口超额认购的可能性。跟踪网卡 (端点) 端口的传输/接收 (Tx/Rx) 字节能够揭示拥塞模式的详细信息。

VirtIO-net 设备

DOCA 2.7 现在支持高达 2K 的功能 VirtIO-net 设备,适用于 Bluefield-3 DPU.这非常适合需要许多低容量和低使用率活动设备 (例如,需要访问网页的多个端点) 的情况。使用公共云/私有云的 CSP 和组织可以使用此功能来帮助扩展多租户环境。

DOCA Flow

DOCA Flow 提供了基础模组,可以简化软件定义网络和软件定义安全网络应用程序的开发,从而将这些功能卸载、加速和隔离到 BlueField-3 DPU。作为用于卸载和加速网络转向管线的转向库,DOCA Flow 实现了 SDN 服务的快速管道可编程性。

DOCA 2.7 新增的 DOCA Flow 功能包括:

  • DOCA 连接跟踪 (CT),可提高管道性能、效率和灵活性
  • 用于调试的 DOCA Flow 管道可视化 (Alpha)
  • LPM 管道增强,支持基于 VLAN 的流量

作为 DOCA 开发的核心,对 DOCA Flow 的变更专注于提高功能性能和用户体验,借助 DOCA-FLOW 应用实现更大规模和更好的性能,并为 DOCA-FLOW 开发者提供调试和性能工具。

OVS DOCA

OVS DOCA 是一款针对 NVIDIA 网络服务高度优化的虚拟交换机。这是一种非常高效的设计,可使用 NVIDIA NIC 或 DPU 提升新一代性能和扩展性。OVS DOCA 基于 Open vSwitch,提供相同的北向 API、OpenFlow、CLI 和数据接口,确保提供 OVS 的嵌入式替代方案。

OVS DOCA 能够更快地实现 NVIDIA 未来的创新网络功能。作为具有可用源代码的可定制服务,OVS DOCA 为 HBN 和其他适用于以太网交换的 NVIDIA 服务提供支持。

DOCA 2.7 包含多项增强功能,可进一步优化 OVS-DOCA.例如,DOCA 使您能够统一多个端口的 representor,从而提供更好的资源利用率和扩展性。这意味着通过统一 representor,可以更高效地管理更多端口,从而减少开销并简化配置。反过来,处理多个端口的单个 representor 有助于实现更好的可扩展性。这在大规模部署中至关重要。

此外,包含 Hairpin 卸载功能可优化同一主机上虚拟机 (VM) 或容器之间的流量流。这消除了将流量从外部路由到物理主机的需求,降低了延迟,并促进了更快的数据交换,从而最终提高整体系统性能

DOCA 2.7 的另一项新功能名为 Slow Path Metering,可监控和控制非加速流量。这提高了安全性和资源优化,并为管理员提供了细粒度控制,以便为特定类型的流量设置策略,从而定制网络行为。

基于 DOCA 主机的网络

HBN 是一项 DOCA 服务,使网络架构师能够完全基于 L3 协议设计网络。这使得通过将 DPU 用作 BGP 路由器,路由能够在网络的服务器端运行 (而不是在交换机上)。HBN 支持的 BGP 的 EVPN 扩展将 L3 底层网络扩展到具有 Overlay L2 和 L3 隔离网络的多租户环境。

HBN 解决方案将一组网络功能打包在一个容器内,而容器本身则打包为在 DPU 上运行的服务 Pod.这对裸机 CSP、电信公司和企业客户非常有益。

DOCA 2.7 中新增的 HBN 功能包括:

  • 单端口 BlueField-3 SuperNIC 支持
  • 为本地 VRF 路由泄漏提供 GA 级支持
  • 用于对称 EVPN 路由泄露的 EVPN 下游 VNI (DVNI)
  • 使用 VRF-Lite 的第 3 层 VLAN 子接口
  • BF 上行链路上的网络到网络发夹路由支持
  • 对 L2 VXLAN 上的有状态 ACL 的 GA 级支持
  • 面向主机接口上对 VLAN 主干的初始支持

此更新通过单端口 BlueField SuperNIC 启用 GPU E/W 结构用例,带来了一些直接优势。

DOCA 2.7 功能不仅提高了隔离租户的共享服务和互联网访问的可扩展性和效率,而且还使 BlueField DPU 能够用作 EVPN 叠加网关。这为多租户云提供了外部连接。

零复制的 DOCA SNAP 静态加密

我们在 DOCA SNAP BlueField-3 上的 v4 服务中添加了内联 AES-XTS 卸载功能。AES-XTS 是一种事实上的加密算法,用于保护存储设备上静态数据的机密性。现在,SNAP 可以加速硬件中的 AES-XTS 加密,从而优化和改进加密过程,同时降低 CPU 开销。

静态数据的 SNAP 加密基于 AES-XTS,现已提供给 SPDK API 和 SNAP RPC,可实现零复制,这意味着无需在内存中进行额外复制,即可对存储的数据进行加密和解密。典型的客户包括寻求使用新一代 DDR、LPDDR、GDDR 和 HBM 内存接口来提升受保护性能的客户。

DOCA 2.7 新增的 DOCA SNAP 功能包括:

  • 支持 BlueField-3 和 SNAP v4 服务
  • 使用 SPDK API 的每个命名空间的不同加密密钥
  • 支持 NVMe-oF RDMA/RoCE
  • 与其他标准和非标准协议集成,作为旁路

DOCA Firefly

DOCA Firefly 服务利用 NVIDIA DPU 的硬件加速提供精确的时间同步服务。DOCA Firefly 现在包括行业特定的配置文件,以改善用户体验并简化部署。除了现有的媒体配置文件,DOCA 2.7 现在还提供电信配置文件,包括行业特定的功能和自定义的性能参数。

这项服务已为电信、媒体和娱乐以及 FSI 等众多行业的客户所采用。目前,它用于推动 MSG-Sphere 的严格计时要求。

AI 云流量加密和解密

DOCA 2.7 包含对 DOCA IPsec (现为 GA) 的修订以及 DOCA PSP 的引入。

DOCA 在 BlueField DPU 上运行,可以多种方式用于改进 IPsec 过程,同时加速网络流量的加密和解密。此版本的新成员 DOCA Flow 现在支持所有 IPsec 模式和选项,同时提供 IPsec 协议的全面加速。

其他功能包括:

  • IPsec GA
  • 多线程支持
  • 提高插入率
  • 删除 DOCA IPsec 库并将其功能合并到 DOCA Flow 的 API 更新

PSP 是 Google 发布的一种新的网络安全协议。此版本是第一个支持 PSP 的版本 (在技术预览中),通过 DOCA Flow 和在线 PSP 封装以及硬件中的加密/解密全面加速 PSP 协议。与 IPsec 相比,PSP 特别适合在大规模 AI 云中使用。

这些功能的示例用例包括:

  • 北南 AI 云网络加密
  • 东西向 AI 云 GPU 到 GPU 流量
  • 非 AI 云节点到节点加密

DOCA UROM 和 DOCA DevEmu

新的 DOCA UROM 库和服务支持卸载高性能计算 (HPC) 和 AI 工作负载。具体来说,HPC 计算由主机执行,同时 HPC 通信得到加速并卸载到 BlueField DPU.这有助于优化 CPU 利用率,为 AI 训练和推理以及 HPC 应用程序提供性能提升。

DOCA 设备仿真库 (DOCA DevEmu) 使您能够在 BlueField DPU 上模拟自定义设备,并通过 PCI 从主机连接到它。这提供了一些优势,其中最重要的优势是可以访问与卸载或加速相关的其他功能,但无需主机应用程序直接使用 DOCA API。

适用于 DPU 的 DOCA 通信通道

DOCA Comm Channel 在不受信任的主机客户端应用程序和 BlueField 软件服务之间提供增强的硬件隔离通信。它支持创新的安全和存储卸载服务。

DOCA 管理服务

DOCA 2.7 新增的 DOCA 管理服务是一项 DOCA 服务,可使用标准配置接口 (API/CLI) 简化 BlueField 的启动后配置和配置。

主要优势:

  • 为所有工具提供相同的 API,无需了解所有工具及其不同的语法。
  • 无需深入了解低级硬件详细信息,即可配置 NVIDIA 网卡。
  • 使用行业标准配置接口 (CLI 和 API) 和数据模型 (例如 gRPC/gNMI 和 OpenConfig),以确保更好的互操作性和易于集成。
  • 借助专为无缝集成外部自动化系统和工具而设计的强大 API,简化 DPU 管理任务的自动化。

欲了解 DOCA 平台的其他升级详情,请参阅 DOCA 2.7 版本说明

总结

NVIDIA DOCA 框架支持在 BlueField 网络平台上利用行业标准 API 快速创建和管理应用程序和服务。借助 DOCA,开发者可以利用 NVIDIA BlueField DPU 和 SuperNIC 的强大功能,实现突破性的网络、安全和存储性能。

DOCA 2.7 中的新功能通过增强 BlueField DPU 和 SuperNIC 在 AI 云数据中心中提供的功能和优势来扩展其更广泛的价值。最近的增强功能不仅有助于为 AI 工作负载提供卓越的性能,而且还增加了扩展的安全和网络功能。这些改进相结合,为开发者提供了一个强大的平台。DOCA 2.7 还通过 BlueField-3 SuperNIC 支持 NVIDIA Spectrum-X 参考架构。

立即下载 NVIDIA DOCA,并充分利用 DOCA 提供的所有优势,开启您的开发之旅。如需了解更多信息,请查看以下资源:

Tags