网络安全/欺诈检测

转变电信网络以管理和优化 AI 工作负载

今年年初,5G 全球连接数量接近 20 亿,预计到 2028 年将达到 77 亿。虽然 5G 带来了更快的速度、更高的容量和更低的延迟,特别是在视频和数据流量方面,但网络运营商创造新收入的初步承诺仍然未能实现。

大多数移动应用程序现在都已路由到云端。与此同时,基于传统设计的无线接入网(RAN)和数据包核心解决方案随着软件增强和更高效的硬件不断改进。这些运行传统语音、数据和视频工作负载的单一用途系统并没有显著增加电信公司的每个用户的平均收入。相反,这些系统主要支持连接,并被视为运营支出,从而降低了投资回报。然而,这种方法即将改变。

ChatGPT 和 快速大语言模型(LLM) 创新让我们初步了解了一种需要加速计算的新型应用,这就需要不同类型的多用途网络来优化 AI 和生成式 AI 工作负载。最初,AI 网络部署侧重于繁重的训练工作负载,这些工作负载是集中式的,并且需要大型数据中心。早期的 LLM 推理也主要是集中式的,并与训练工作紧密结合,从而导致从边缘到云的更多相同的流量运动。

视觉语言模型(VLMs)和小语言模型(SLMs),以及大型语言模型(LLMs)推理效率的提高,非常适合分散在网络中的分布式架构,从而使生成式 AI 模型更接近数据。随着生成式 AI 向代理 AI 和多模态 AI 的演进,推理将需要与网络端点更紧密地保持一致,因为企业需要数据定位、安全性和有保证的服务质量(QoS)。当今的电信网络已经满足了这些要求。

本文解释了对 AI 原生网络基础设施的需求,并介绍了满足电信网络中 AI 工作负载需求的重要意义和机遇。

平衡 AI 推理流量与传统工作负载

从面向大型语言模型(LLM)训练的集中式计算架构转向面向生成式人工智能的高度分布式推理方法,将对未来的网络产生深远影响。随着小型语言模型(SLM)、视觉语言模型(VLM)和大型语言模型(LLM)推理流量的增加,网络中数据流的请求也会增加。终端设备将演变为截取某些请求,但会受到设备端计算、内存和功耗的限制。

与传统应用一样,将所有网络流量发送到云端存在问题,因为生成式 AI 模型携带数据以生成独特的实时响应。将预期的消费者和企业推理请求数量与网络上的内部模型相加会导致数据管道繁忙。

需要动态路由以提高吞吐量和延迟的多模态请求案例不断涌现。影响数据移动的其他要求包括用户隐私、主权和安全性,包括通过数据包核心和 UPF 允许的数据。

对于电信公司来说,这是一个绝佳的机会,因为他们的无线网络和计算集群高度分散,并且可在许多地理位置使用。如果电信公司能够平衡关键的传统工作负载和新的 AI 推理流量,那么应用程序就会产生收入。这种方法已开始在大型语言模型(LLM)训练中发挥作用,而生成式 AI 推理在逻辑上是电信公司应该关注的下一个盈利机会领域。

支持敏捷推理服务 

NVIDIA 和 AI 生态系统致力于打造更轻便、更敏捷的推理服务。这些服务构建为可在任何地方运行的容器,并且可以进行负载均衡、调度和以多种方式组合。可部署容器使生成式 AI 模型更接近数据,并利用 检索增强生成 (RAG)。随着 SLM、VLM 和多模型模型的创建以及代理工作流的普及,这一点将变得越来越重要。

网络几乎可以在任何地方支持 AI 容器。AI 代理和较小的模型将导致一种新型 LLM(或基于模型的路由),其中模型权重和网络见解用于确定在何处以及如何将网络流量负载平衡到这些模型,以防止阻塞和超额认购。

当前的网络(尤其是边缘网络)并非专为这种 AI 流量的自适应路由而构建。

Diagram showing the effect of AI training and inference on telecom networks from private or public clouds through data centers to the network and far edge.
图 1. AI 训练和推理对电信网络的影响从私有云或公有云通过数据中心扩展到网络和远边缘

AI 原生网络基础设施 

如今,电信网络通常对网络的每个部分使用单一用途和硬件优化的解决方案。分布式单元(DU)和集中式单元(CU)各有一个盒,防火墙有一个盒,用户面功能(UPF)有一个盒,以此类推。连接这些单元的网络交换机和网络结构在大多数情况下都未进行优化。

使用软件定义的工作负载是解决这一问题的第一步。如果每个应用程序都可以软件定义,那么应用程序可以在经过优化的容器中运行,并且可以在任何位置加载。

生成式 AI 格局和 LLM 的出现需要以全堆栈加速计算平台为基础。这种 AI 原生网络基础设施可以扩展,并被许多行业标准应用充分利用。理论上,相同的基础设施可以托管任何软件定义的应用,并根据需求动态共享,以创建未来的 AI 原生、可编程和多用途网络,包括:

  1. 低功耗、高性能、高能效的 CPU(通常基于 ARM),适用于串行、虚拟化和基于租户的应用。
  2. 适用于并行、向量和基于矩阵的应用程序(通常为 GPU)的高功率加速器。
  3. 低功耗流量加速器,用于处理中断驱动和数据包整形用例(通常为 DPU)。

几乎任何软件定义的应用程序都可以通过跨 CPU、GPU 和 DPU 的强大软件框架进行优化。

第二步是确保网络路由和网络结构的优化。在数据管道内部需要额外的网络安全和优化,而不是传统的计算架构。网络结构必须具有可编程性,以实时适应 AI 或非 AI 工作负载,无论是支持 AI 集群中的东西向流量,还是通往防火墙或存储设备的流量。这种网络结构必须能够适应 LLM 推理请求的路由和负载均衡。

许多这类工作已经在进行中,许多关键的独立软件供应商(ISV)、防火墙供应商、数据包核心提供商和其他生态系统成员正在采用软件定义的方法来满足电信客户的需求。

更高的性能和新的创收机会 

AI 推理正以极快的速度发展。电信公司必须满足 AI 流量的新需求,以及更大限度地提高计算基础设施利用率和增加收入的需求。

通过为每项任务使用最佳工具,电信公司可以显著提高每瓦性能,同时不损害可编程性和多用例支持。同时在同一 RAN 基础设施上运行软件定义的传统工作负载和新的人工智能工作负载,可以释放新的收入机会。

希望通过基础设施获利的电信公司可以采取以下任意步骤:

  1. 使用低功耗 CPU 和功能强大的 DPU 增强网络结构的各个部分或全部网络结构。这与人工智能无关,并且遵循亚太地区云服务提供商和大型电信公司成功部署的参考架构。
  2. 选择边缘位置,并为其提供支持 AI 的加速计算基础设施。这不是一项大投资,使电信公司能够锁定目标客户和使用准备好获得 AI 驱动解决方案的用例。这些将受益于 5G/6G 就绪,并且现在可以用于 AI。
  3. 使用来自内部团队和客户用例的数据,在数据中心为内部和外部用例构建基于加速计算的集群。

总结 

随着 LLM 驱动的应用和 AI 工作负载以前所未有的速度加速,电信公司需要重新思考管理 AI 流量的网络。NVIDIA 正在与软件提供商和合作伙伴合作,在整个电信生态系统中映射 AI 工作负载,迁移到软件定义模型,并优化加速计算架构。NVIDIA 还与电信公司密切合作,分享全球进展、协作开展创新项目,并欢迎新的合作伙伴加入这一旅程。

了解 NVIDIA 企业参考架构 ,包括人工智能优化的网络。

标签