数据中心/云端

使用 DPU 加速的 Kubernetes 服务代理增强 AI 工厂

随着 AI 借助代理式 AI 向规划、研究和推理发展,工作流变得越来越复杂。为了高效部署代理式 AI 应用,AI 云需要软件定义、硬件加速的应用交付控制器 (ADC) 。这实现了动态负载均衡、强大的安全性、云原生多租户和丰富的可观测性。适用于 Kubernetes 的 F5 BIG-IP ADC 由 NVIDIA BlueField-3 数据处理器 (DPU) 提供支持,可简化 Kubernetes 应用交付和代理式 AI 的部署,同时凭借运营效率和最佳功耗降低总体拥有成本。

自 2022 年推出 OpenAI 的 ChatGPT 以来,AI 发展迅速。最初,AI 专注于使用 GPU 进行模型训练,以处理大型数据集并优化性能。如今,研究重点已扩展到分布式推理,包括大语言模型 (LLM) 回答查询、通过检索增强生成 (RAG) 集成企业数据,以及开发 DeepSeek R1 等推理模型。

现在,代理式 AI 将生成式 AI 提升到了一个新的水平。与 LLM 回答问题时采用的单步方法不同,代理式 AI 通过规划和推理来解决复杂问题。作为代理式 AI 的示例,下面 NVIDIA 的数字人蓝图工作流整合了十几个容器化的 NVIDIA 推理微服务 ( NIM) ,包括 LLM、向量数据库、RAG、语音识别和虚拟形象渲染。这些组件协同工作,创建了一个连贯一致的代理式工作流。

A diagram of an agentic AI workflow, showing interconnections between 20 different system components
图 1。代理式 AI 工作流

代理式工作流程 (规划、推理、测试时间缩放和长思考) 更为复杂。由于他们在数据中心内或跨多个数据中心使用许多组件和数据存储,因此在单个节点上实施代理式 AI 变得不切实际。代理式 AI 推理需要由加速计算、网络和存储组成的分布式和分解式多节点基础设施,以处理代理式 AI 系统组件之间的持续数据移动。

BlueField-3 DPU 是优化 AI 云和 AI 工厂中 AI 数据移动的关键。BlueField 是一个加速网络平台,将高性能、可编程的加速引擎与节能高效的 Arm 计算核心相结合。这种组合可为互联组件之间的代理式 AI 数据流编程提供性能、效率和灵活性。

为了简化 AI 工厂的部署和运营,NVIDIA 为主权 AI 云运营商 (也称为 NVIDIA 云合作伙伴 (NCP)) 开发了一个参考架构。BlueField 是此参考架构的关键组件,因为它可以高效处理 GPU 集群的南北向网络 (包括集群间流量和存储访问) 。

A diagram of NVIDIA Cloud Partners reference architecture. It showcases an accelerated compute infrastructure stack and per-tenant infrastructure. BlueField-3 is a key element for enabling the north-south ethernet fabric.
图 2。NCP 参考架构

隆重推出适用于 Kubernetes 的 F5 BIG-IP Next

优化的数据中心基础设施对于 AI 云和 AI 工厂至关重要,高性能、高效的应用交付控制器 (ADC) 也是如此。适用于 Kubernetes (BINK) ADC 的 F5 BIG-IP Next 为 AI 工厂提供动态负载均衡、强大的安全性、云原生多租户和丰富的可观测性。BINK 通过 BlueField-3 加速,可为 AI 云实现高性能云原生网络和大规模零信任安全性,从而简化代理式 AI 部署和运营。

Kubernetes 可轻松实现云原生应用的可扩展性和监控,但通常会带来复杂性。在 Kubernetes 中部署微服务涉及许多元素,例如入口和出口控制器、微分段、网络策略管理、身份管理、API 策略和服务网格,这些元素使得数据流难以与应用保持一致。代理式 AI 部署非常复杂,因为它依赖于在不同环境中部署的多个微服务。此外,AI 云还面临着对 GPU 资源进行精细划分的挑战,同时还能有效地跟踪每位客户的使用情况。

NCP 和主权 AI 云提供商需要云原生多租户来跨多个客户高效利用 GPU 资源,而不是为每个客户过度配置这些资源。通过 BlueField-3 加速的 BINK 可以学习流量并将流量路由到 Kubernetes 命名空间,从而提供真正的云原生负载均衡。

Two blocks show GPU clusters with and without BIG-IP Next for Kubernetes.The block on the left without BIG-IP Next for Kubernetes shows underutilized resources. The block on the right with BIG-IP Next for Kubernetes shows maximum utilization of resources.
图 3。使用 Kubernetes 命名空间的多租户

通过 BlueField-3 加速的 BINK 还通过将数据路径从主机 CPU 服务器分流到 DPU 上节能高效的 Arm 核心来提高能效,同时提高吞吐量。就每瓦吞吐量而言,这意味着网络能效要高得多。

软银集团的经验

软银集团运营着全球 20 台大型超级计算机中的两台,并开发了日本著名的 LLM — — Sarashina。为了将其云原生数据中心从训练扩展到提供可扩展的 AI 推理服务,软银需要企业级租户隔离和安全性。它必须高效利用所有可用的计算资源,同时更大限度地降低功耗并保持高网络性能。

软银集团在 NVIDIA H100 GPU 集群上测试了 BINK。概念验证 (PoC) 用于测量在两个独立的 Kubernetes 命名空间上运行的应用程序的网络性能。每个租户命名空间的网络流量完全隔离。

在 POC 期间,软银集团以 75 Gbps 的速度生成 100 个并发 HTTP GET 请求,每秒生成 18000 个请求。接下来,SoftBank 将使用 BlueField-3 加速的 BINK 的运行效率与在主机 CPU 上运行的开源 Nginx 进行了比较。结果令人印象深刻。

Two graphs comparing performance. On the left, SoftBank’s BINK, accelerated by NVIDIA BlueField-3 DPU, handles 100 concurrent HTTP GET requests at 75 Gbps and 18,000 requests/sec, significantly surpassing open source Nginx running on a host CPU.
图 4。搭载 NVIDIA BlueField-3 的 BINK 性能优于开源 Nginx。
  • CPU 卸载:使用 BlueField-3 加速的 BINK 可在不消耗任何 CPU 核心的情况下实现 77 Gbps 的吞吐量。
  • 延迟:使用由 BlueField 提供支持的 BINK 时,HTTP GET 响应 ( L7 请求的第一个字节所需的时间) 降低了 11 倍。
Two graphs comparing performance On the left, SoftBank’s BINK, accelerated by NVIDIA BlueField-3 DPU, handles 100 concurrent HTTP GET requests at 75 Gbps and 18,000 requests/sec, significantly surpassing open source Nginx running on a host CPU.
图 4。搭载 NVIDIA BlueField-3 的 BINK 的性能优于开源 Nginx。
  • CPU 利用率:与 Nginx 主机软件相比,使用 BlueField 的 BINK 的 CPU 利用率降低了 99%。
  • 网络能效 (以每瓦吞吐量衡量) :与使用开源 Nginx 时的 0.3 Gbps/ 瓦相比,BlueField 加速的能效提高了 190 倍 ( 57 Gbps/ 瓦) 。

此 PoC 展示了如何使用由 BlueField-3 加速的 F5 应用交付控制器高效管理通往 AI 云的南北向流量。

总结

AI 云和 AI 工厂需要专为高性能、高能效、云原生多租户和安全性而构建的云原生数据中心。NVIDIA 与 F5 的合作可实现出色的性能、安全性和效率。软银集团令人印象深刻的 PoC 结果证实,使用 DPU 卸载和加速应用程序交付可增强 AI 工厂,以满足现代 AI 工作负载的极端需求。

有关 SoftBank 的 PoC 和 F5 BIG-IP Next 在支持 BlueField-3 加速的 Kubernetes 上的功能的更多信息,请参阅详细的 NVIDIA GTC 演示。

在今年的 RSA 大会上,F5 和 NVIDIA 宣布全面推出由 BlueField-3 提供支持的 BIG-IP for Kubernetes (BINK) ,以解决 AI 云的主要 Kubernetes 网络和安全挑战。有关演示或 PoC 咨询,请联系您的 F5 或 NVIDIA 销售代表。

 

标签