NVIDIA DOCA 通过为开发者提供全面的软件框架来利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。它的 API、库和工具生态系统可简化数据中心基础设施的开发,实现工作负载卸载、加速和隔离,以支持现代、高效的数据中心。
如今,许多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并为快速开发和部署创新解决方案提供了标准化平台。这种方法可缩短上市时间、降低成本,并使合作伙伴能够在使用 NVIDIA 硬件加速的同时专注于自身的核心优势。
DOCA 培育的开放生态系统促进了协作和互操作性,创造了各种互补解决方案。合作伙伴可以探索 AI 驱动的网络、高级安全性和高性能存储等新兴市场,将自己定位在数据中心创新前沿。
DOCA 2.9 的最新版本标志着 AI 计算结构和云计算基础设施的重大进步。这次全面更新引入了许多新功能和改进,有助于改变高性能计算和网络格局。
利用增强的东西向计算结构优化人工智能网络
DOCA 2.9 版本的亮点包括改进的拥塞控制和新的遥测库,这对于优化数据中心内的网络流量至关重要,从而提供更好的性能、效率、可见性和控制。
支持 Spectrum-X 1.2 参考架构
Spectrum-X (SPC-X) 1.2 参考架构针对东西向以太网 AI 云环境进行了多项增强。该更新支持大规模横向扩展能力,可在单个网络中容纳多达 128,000 个 GPU。该架构使用 NVIDIA BlueField-3 SuperNIC 和 NVIDIA Spectrum-4 交换机的强大组合,连接到 NVIDIA DGX H100 和 NVIDIA HGX H100 平台,为 AI 工作负载提供出色的性能和效率。
DOCA 2.9 还改进了遥测能力和 Spectrum-X 的拥塞控制算法。这有助于更精细、更实时地监控网络性能,并改进拓扑检测,这对于大规模和远程优化 AI 工作负载至关重要。
DOCA 拥塞控制
DOCA 2.9 提升了高性能计算和 AI 工作负载的拥塞控制算法,即 NVIDIA 网络拥塞控制 (NVNCC)。
NVNCC Gen2 和 InfiniBand 拥塞控制 IBCC 的全面推出标志着一个重要的里程碑。IBCC 专门针对 InfiniBand 上的人工智能工作负载进行了优化,而 NVNCC 通过改进的拓扑检测功能增强了 Spectrum-X 拥塞控制算法,现在支持长距离的 RoCE。
DOCA 遥测库
作为此版本的新成员,DOCA 遥测库引入了高频采样功能,推进了人工智能驱动环境的网络监控。此更新可实现低于 100 微秒的计数器读数间隔,与之前的 0.5-1 秒频率相比,实现了巨大飞跃。
主要功能包括用于指定计数器、时间间隔和频率的新 API,以及对多个性能计数器(例如 RX/TX 字节、端口、拥塞通知和 PCIe 延迟)的支持。这些增强功能可满足关键用例的需求,例如用于集群范围异常检测的高频遥测(HFT)和用于应用程序分析的本地性能分析。
北-南云计算基础设施正在增强连接性和安全性
DOCA 2.9 中的南北向改进侧重于增强云资源与外部网络之间的连接性。
DOCA Flow
DOCA 2.9 为 DOCA Flow 引入了一项令人兴奋的新功能:‘tune’性能分析工具。目前处于 alpha 阶段,此工具已无缝集成到 DOCA-Flow 交付包中,为用户提供有关其网络流配置的深入见解。
`tune`工具可直观呈现已配置的流水线,使用户能够清楚地了解其流结构。这项可视化功能使管理员和开发者能够快速识别和优化流配置。
OVS-DOCA
OVS-DOCA 现已正式推出,带来了本地镜像功能,并在 NVIDIA BlueField DPU 软件定义网络方面向前迈出了一步。此长期支持(LTS)版本为用户提供了传统 OVS 解决方案的稳定、高性能替代方案,使用 DPDK 或内核数据路径为现代网络环境提供更高的效率和扩展功能。
通用版本引入了一些关键的增强功能,可提升 DOCA 的功能,包括通过 DOCA Flow API 大幅提升连接追踪(CT)功能的性能。用户每秒连接数(CPS)有望提升 100%,每秒数据包数(PPS)有望提升高达 50%。最多可支持三个 NIC,可实现更灵活、更强大的网络配置,从而增强可扩展性和吞吐量。
基于 DOCA 主机的网络 2.4
DOCA 基于主机的网络 (HBN) 不断发展,版本 2.4 为裸机即服务环境的无控制器 VPC 网络带来了许多增强功能。DOCA HBN 2.4 以 BGP EVPN 为基础,引入了令人印象深刻的可扩展性改进,支持高达 8,000 个 VTEP 和 80,000 个 Type-5 路由。
最新版本通过内核 Next-Hop 组和 OVS-DOCA 故障转移增强了 ECMP 路由,提高了网络弹性和性能。其中一个关键的新增功能是 Overlay 网关的有状态 SNAT+PAT,使私有租户 IP 能够通过共享公共 IP 地址访问外部网络。
DOCA FireFly
增强型 DOCA Firefly 服务通过硬件加速为 NVIDIA 数据处理单元(DPU)带来先进的时间同步功能。此更新引入了两项显著特性:同步以太网(SyncE)支持和数据传输服务(DTS)集成。
SyncE 可在网络设备之间实现高精度频率同步,对于电信网络(尤其是移动基础设施)至关重要。DTS 支持支持通过遥测通道传输 PTP 信息,从而实现持续的网络时间服务监控。
NVIDIA Rivermax SDK
Rivermax SDK 获得了一些增强功能,这些功能侧重于降低延迟、最大限度地降低 CPU 占用率,以及最大限度地提高数据密集型应用的带宽和 GPU 利用率。一个关键的补充是支持 Internet Protocol Media Experience (IPMX),这是专业视听环境中 AV over IP 的新兴开放标准。
在 Rivermax 的支持下,DOCA 2.9 还支持 NVIDIA Holoscan for Media;一个专为媒体和娱乐行业定制的认证平台。该功能优化了未压缩和压缩视频流的处理,简化了用于高性能媒体处理的 I/O 操作。
NVIDIA DOCA App Shield
DOCA App Shield 库的增强功能提高了其在主机监控和威胁检测方面的能力。主要增强包括预先生成的操作系统配置文件,使各种操作系统的设置过程更加简化。
对于 Linux 环境,App Shield 现在提供高级容器监控功能,使安全团队能够密切关注容器化工作负载。该服务已得到扩展,可列出网络连接,并提供有关每个进程的网络连接详细信息,从而更深入地了解潜在的安全威胁。
DOCA SNAP 虚拟化
DOCA SNAP virtio-fs 的测试版是一项利用 NVIDIA BlueField-3 DPU 的强大功能的安全加速文件系统存储服务。此解决方案使用内置的 virtio-fs 驱动程序向主机公开本地文件系统语义,同时直接在 DPU 上运行远程文件系统存储逻辑。
该版本还引入了 SNAP Virtio-fs 的测试版,作为公共 NGC 服务容器提供。它通过集成到 BlueField-3 内核中的 NFS Linux 内核文件系统启用。开发者可以基于 SPDK FSDEV 创建自定义文件系统堆栈,从而实现灵活性和性能优化。
此解决方案可在 AI 计算服务器中实现云规模分布式文件系统存储,提供具有隔离和策略执行功能的安全环境,同时加速性能并卸载虚拟机管理程序任务。
开放虚拟网络裸机租户隔离
DOCA 2.9 包括一项新的编排服务,增强软件定义网络(SDN)环境中的租户隔离。Open Virtual Network(OVN)裸机租户隔离功能保护多租户环境中的南北流量,确保 AI 工作负载保持安全和独立,即使在密集计算集群中也是如此。
此服务基于上游 OVN 构建,提供用于租户隔离的简化、健壮的 API,以及用于在 BlueField DPUs 上轻松部署的 Ansible 手册。关键创新在于卸载和加速基于 SDN 的租户 BlueField DPUs,通过隔离特定进程来提高速度和效率。这种中央组织允许使用 API 调用轻松更改隔离设置,从而更好地控制网络管理。这使得它非常适合希望使用 SDN 创建多租户云的 AI 云和工厂。
设备管理和开发工具
DOCA 2.9 简化了大规模部署所需的大型语言模型设备管理流程。此版本还为开发者提供了新的优化和分析工具,可帮助他们更好地了解应用程序和数据路径性能。
DOCA 管理服务 (DMS)
DOCA 管理服务(DMS)也升级为通用状态,为管理 BlueField DPUs 和 SuperNICs 提供增强功能。此更新引入了通过单个 API 端点管理多台设备的能力,从而简化了在复杂的多设备环境中的操作。
一项关键改进是在节点重启期间支持配置“持久性”,从而确保设备设置在系统重启期间保持不变。这种改进还伴随着新的批量导入/导出功能,用于设备配置的高效管理,特别是在大规模部署中。
DOCA 数据路径加速器
数据路径加速器(DPA)工具包的增强功能为开发者提供了更强大的性能优化和分析工具。其中一项突出功能是将 DPA 性能计数器与新的 Nsight 工具相集成,从而更深入地了解应用程序性能。
DOCA-DPA-Comms 库是一个重要的补充,目前处于测试阶段。该库简化了基于 DPA 的数据路径的实现,为开发者提供了更高级别的抽象化。它可用于 BlueField-3 DPUs 和即将推出的 NVIDIA ConnectX-8 SuperNIC,确保 NVIDIA 高级网络硬件产品组合的广泛兼容性。
用于简化部署和支持的平台和 DOCA 软件包
改善用户体验是 DOCA 发展的核心。本次发布包括许多旨在简化和改进部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它迎合了需要 RDMA over Converged Ethernet 功能的环境。
NVIDIA 还针对 BlueField-3 推出了 PLDM 固件更新。该测试版支持使用标准 PLDM over MCTP over PCIe 实现无缝固件更新,使服务器在激活之前能够正常运行。这一零信任功能支持 NIC 和 DPU 模式,并且无需 DPU-BMC 1GbE 连接。
此外,此版本标志着 MLNX_OFED 的最终长期支持(LTS)独立版本,该版本现已作为主机配置文件‘DOCA-OFED’提供。
从用于 InfiniBand 和以太网解决方案的 MLNX_OFED 驱动和工具套件过渡到 DOCA-OFED,可实现集成在 DOCA 框架内的统一、可扩展和可编程网络堆栈。详细了解 MLNX_OFED 向 DOCA-OFED 过渡 。
了解详情
NVIDIA DOCA 2.9 标志着 AI 计算结构和云计算基础设施的显著进步。 下载 NVIDIA DOCA 开始您的开发之旅,享受 DOCA 提供的所有优势。