数据中心/云端

AI-RAN 上线,为电信公司带来新的 AI 机遇

AI 正在以新的方式改变行业、企业和消费者体验。生成式 AI 模型正在转向推理, 代理 AI 正在实现新的成果导向型工作流,而 物理 AI 则使摄像头、机器人、无人机和汽车等终端能够实时做出决策并进行交互。

所有这些用例的共同点是,需要普遍、可靠、安全和超快的连接。

电信网络必须为这种新型 AI 流量做好准备,此类流量可以直接通过前向回传无线接入网,也可以从公有云或私有云作为由企业应用生成的完全独立的 AI 推理流量进行回传。

本地无线基础设施提供了处理 AI 推理的理想场所。这是一种新的电信网络方法,即 AI-RAN

基于传统 CPU 或 ASIC 的 RAN 系统专为 RAN 使用而设计,目前无法处理 AI 流量。AI-RAN 支持基于 GPU 的共同基础设施,可同时运行无线和 AI 工作负载,从而将网络从单一用途的基础设施转变为多用途的基础设施,并将站点从成本中心转变为收入来源。

通过对合适技术的战略投资,电信公司可以飞跃发展成为 AI 电网,促进各行各业、消费者和企业中 AI 的创建、分发和使用。这一时刻为电信公司带来了巨大的机会,可以通过重新利用其中央和分布式基础设施来构建用于 AI 训练(创建)和 AI 推理(分发)的网络。

SoftBank 和 NVIDIA 快速推进 AI-RAN 商业化

SoftBank 已将 AI-RAN 愿景变为现实,在日本神奈川县藤沢市成功进行了 户外野外试验 ,并以 NVIDIA 加速硬件和 NVIDIA Aerial 软件为技术基础。

这一成就标志着 AI-RAN 商业化向前迈出了多步,并为行业对技术可行性、性能和货币化的要求提供了真实的证据:

  • 全球首个户外 5G AI-RAN 现场试验,在 NVIDIA 加速计算平台上运行。这是一种端到端解决方案,基于与 5G 核心集成的全栈虚拟 5G RAN 软件。
  • 实现电信级虚拟 RAN 性能。
  • 实现 AI 和 RAN 多租户和编排。
  • 与现有基准相比,验证了能效和经济效益。
  • 一种新的解决方案,用于解锁集成在人工智能无线接入网络(AI-RAN)基础设施上的人工智能市场。
  • 展示了在 AI-RAN 网络上运行的真实 AI 应用。

最重要的是,SoftBank 的目标是在 2026 年商用发布自己的 AI-RAN 产品,以便在全球部署。

为了帮助其他移动网络运营商立即开始其 AI-RAN 之旅,SoftBank 还计划提供一个参考套件,其中包括快速轻松地试用 AI-RAN 所需的硬件和软件元素。

端到端 AI-RAN 解决方案和现场结果 

SoftBank 通过集成 NVIDIA 和生态系统合作伙伴的硬件和软件组件,并对其进行强化以满足电信级要求,开发了自己的 AI-RAN 解决方案。该解决方案共同实现了 100% 软件定义的完整 5G vRAN 堆栈,在 NVIDIA GH200(CPU+GPU)、NVIDIA Bluefield-3(NIC/DPU)和 Spectrum-X 上运行,用于前传和回传网络。它集成了 20 个无线电单元和一个 5G 核心网络,并连接 100 个移动 UE。

核心软件堆栈包括以下组件:

  • SoftBank 使用 NVIDIA Aerial CUDA 加速的 RAN 库开发和优化了 5G RAN 第一层功能,例如信道映射、信道估计、调制和前向纠错。
  • 适用于 L2 函数的 Fujitsu 软件
  • Red Hat 的 OpenShift 容器平台 (OCP) 作为容器虚拟化层,使不同类型的应用程序能够在同一底层 GPU 计算基础设施上运行。
  • 软银开发的 E2E AI 和 RAN 编排器,可根据需求和可用容量无缝地提供 RAN 和 AI 工作负载

底层硬件是 NVIDIA GH200 Grace Hopper 超级芯片,可用于从分布式到集中式 RAN 场景的各种配置。此实现使用单个机架中的多个 GH200 服务器,同时为聚合 RAN 场景中的人工智能和 RAN 工作负载提供服务。这相当于部署多个传统 RAN 基站。

在此试点中,当在仅使用 RAN 的模式下使用时,每个 GH200 服务器能够使用 100MHz 带宽处理 20 个 5G 单元。在理想条件下,每个单元实现了 1.3Gbps 的峰值下行链路性能,并在户外部署中展示了 816Mbps 的商用级可用性。

实现 AI-RAN 多租户 

AI-RAN 技术的首要原则之一是能够同时运行 RAN 和 AI 工作负载,而不会损害运营商级别的性能。这种多租户可以是时间也可以是空间:根据一天中的时间或计算百分比来划分资源。这也意味着需要一个编排器,能够根据可用容量无缝地调配、取消调配或转移工作负载。

在富士川市的试验中,在 RAN 和 AI 工作负载之间进行静态资源分配的基础上,GH200 成功地演示了并发的 AI 和 RAN 处理(图 1)。

A screenshot of SoftBank’s dashboard shows cluster GPU utilization at up to 100% with AI-RAN c compared to the 30% average utilization of traditional RAN-only.
图 1. AI 和 RAN 并发及总 GPU 利用

每台 NVIDIA GH200 服务器均由多个 MIG(多实例 GPU)组成,可将单个 GPU 划分为多个独立的 GPU 实例。每个实例都有自己的专用资源,如内存、缓存和计算核心,并且可以独立运行。

SoftBank 编排器可以智能地分配整个 GPU 或 GPU 内的一些 MIG 来运行 AI,一些用于运行 RAN 工作负载,并在需要时动态切换。此外,还可以为 RAN 和 AI 静态分配一定比例的计算,例如,60% 用于 RAN,40% 用于 AI,而不是基于需求的分配。

目标是最大限度地提高容量利用率。借助 AI-RAN,电信公司可以实现近 100%的利用率,而典型的仅使用 RAN 的网络的利用率仅为 33%。得益于动态编排和优先级策略,在满足 RAN 负载峰值需求的同时,利用率最高可提升 3 倍。

打造 AI-RAN 市场 

分布式 AI-RAN 基础设施现已具备新的 AI 计算能力,因此出现了如何将 AI 需求引入这种 AI 计算供应的问题。

为了解决这一问题,软银使用了由 NVIDIA AI Enterprise 提供支持的无服务器 API,在 AI-RAN 上部署和管理 AI 工作负载,具有安全性、可扩展性和可靠性。NVIDIA AI Enterprise 无服务器 API 在 AI-RAN 基础设施上托管,并与软银 E2E AI-RAN 编排器集成,可连接到运行相同 API 的任何公有云或私有云,在计算资源可用时,将外部 AI 推理作业发送到 AI-RAN 服务器(图 2)。

A diagram shows three kinds of workloads running on an AI-RAN server (RAN, internal AI, and external AI), and how external AI workloads are brought in through the integration of NVIDIA AI Enterprise serverless API.
图 2. 与 SoftBank AI-RAN 集成的 AI 市场解决方案

该解决方案支持 AI 市场,帮助软银集团提供本地化、低延迟、安全的推理服务。它还展示了 AI-RAN 在帮助电信公司成为 AI 分布网(尤其是对于外部 AI 推理任务而言)方面的重要性,并开辟了新的收入机会。

展示 AI-RAN 应用 

在这次户外试验中,展示了软银开发的新型边缘 AI 应用,通过实时 AI-RAN 网络演示。

  • 通过 5G 远程支持自动驾驶汽车
  • 工厂多模态 AI 应用
  • 机器人开发应用

通过 5G 远程支持自动驾驶汽车 

社会实施自动驾驶的关键需求是车辆安全性和降低运营成本。

在富士川市的试验中,SoftBank 演示了一辆自动驾驶汽车,该汽车使用 5G 将其前摄像头视频转发到托管在 AI-RAN 服务器上的基于 AI 的远程支持服务。多模态 AI 模型分析视频流,进行风险评估,并使用 5G 文本向自动驾驶汽车发送建议操作。

这也是可解释 AI 的一个示例,因为可以通过摘要文本和日志记录来监控和解释自动驾驶汽车的所有操作,以获得远程支持。

工厂多模态 AI 应用 

在此用例中,多模态输入(包括视频、音频和传感器数据)使用 5G 流式传输到 AI-RAN 服务器。多个 LLMs、VLMs、检索增强生成(RAG)管道和 NVIDIA NIM 微服务托管在 AI-RAN 服务器上,用于合并这些输入,并通过聊天界面让使用 5G 的用户访问知识。

这非常适合工厂监控、施工现场检查以及类似的复杂室内外环境。该用例展示了边缘 AI-RAN 如何通过保持数据访问和分析的本地、安全和隐私性(这是大多数企业的强制要求)来实现本地数据主权。

机器人开发应用 

SoftBank 展示了边缘 AI 推理对通过 5G 连接的机器人的优势。 一个机器人经过训练,可以根据语音和动作跟踪人类。

该演示将机器人在本地 AI-RAN 服务器上托管 AI 推理时的响应时间与在中央云上托管时的响应时间进行了比较,差异显而易见。基于边缘的推理机器人狗可即时跟踪人类的动作,而基于云的推理机器人则难以跟上这一步伐。

使用 Aerial RAN Computer-1 加速 AI-RAN 商业案例

虽然业界已经接受了 AI-RAN 的愿景,但 GPU 支持的基础设施的能效和经济效益仍然是关键要求,特别是与传统的 CPU 和 ASIC 的 RAN 系统相比的情况。

通过 AI-RAN 的现场试验,SoftBank 和 NVIDIA 不仅证明了支持 GPU 的 RAN 系统的可行性和高性能,而且在能效和经济盈利能力方面也有显著提高。

NVIDIA 最近宣布推出基于下一代 NVIDIA Grace Blackwell 超级芯片的 Aerial RAN Computer-1 ,作为推荐的 AI-RAN 部署平台。我们的目标是将 SoftBank 5G vRAN 软件从 NVIDIA GH200 迁移到基于 GB200-NVL2 的 NVIDIA Aerial RAN Computer-1,这样的转变更容易,因为代码已经支持 CUDA。

借助 GB200-NVL2 ,AI-RAN 的可用计算能力将增加 2 倍。与之前的 H100 GPU 系统相比,Llama-3 的 AI 处理能力将提高 5 倍,数据处理的 AI 处理能力将提高 18 倍,向量数据库搜索的 AI 处理能力将提高 9 倍。

在本次评估中,我们将基于 GB200 NVL2 的目标部署平台 Aerial RAN Computer-1 与新一代 x86 和出色的自定义 RAN 产品基准进行了比较,并验证了以下结果:

  • 加速 AI-RAN 提供最佳的 AI 性能
  • 加速 AI-RAN 是可持续的 RAN
  • 加速的 AI-RAN 利润丰厚

加速 AI-RAN 提供最佳的 AI 性

在 100% AI-only 模式下,每台 GB200-NVL2 服务器每秒生成 25000 个令牌,相当于每台服务器每小时 20 美元的可用可盈利计算量,即每台服务器每月 15,000 美元。

请记住,目前无线服务的每个用户平均收入(ARPU)在 5–50 美元/月之间,具体取决于国家/地区,因此 AI-RAN 开辟了价值数十亿美元的新 AI 收入机会,比仅使用 RAN 的系统的收入高出几个数量级。

使用的令牌 AI 工作负载是 Llama-3-70B FP4,这表明 AI-RAN 已经能够运行世界上最先进的 LLM 模型。

加速 AI-RAN 是可持续的 RAN 

在 100% 仅 RAN 模式下,GB200-NVL2 服务器功耗性能(瓦特/千兆位每秒)表现出以下优势:

  • 与当今最好的定制 RAN-only 系统相比,功耗降低 40%
  • 与基于 x86 的 vRAN 相比,功耗降低 60%
  • 分布式 RAN 和集中式 RAN 配置的效率相似。

作为偶数比较,它假设所有平台上的 100 MHz 4T4R 单元数量和 100% RAN 工作负载相同。

A vertical bar chart compares the x86, custom, and NVIDIA GB200 NVL2 platforms. The NVIDIA platform delivers 40% less power than the best-in-class traditional RAN platform.
图 3.RAN 功耗和性能 (瓦特/千兆比特每秒)

加速的 AI-RAN 利润丰厚 

在本次评估中,我们使用了覆盖东京一个地区的 600 个单元作为所比较的三个平台中每个平台的 RAN 部署的通用基准。然后,我们研究了 AI 和 RAN 工作负载分布的多个场景,从仅使用 RAN 到使用大量 RAN 或使用大量 AI 的场景不等。

在 AI 密集型场景 (图 4) 中,我们使用了一种三分之一的 RAN 和三分之二的 AI 工作负载分布:

  • 对于基于 NVIDIA GB200 NVL2 的加速 AI-RAN 基础设施,每投入 1 美元的资本支出(CapEx),电信公司可在 5 年内创造 5 倍的收入。
  • 从净利润的角度来看,考虑到所有资本支出和运营支出成本,总体投资可提供 219% 的利润空间。这当然是 SoftBank 特有的,因为它使用了当地国家成本假设。
A vertical bar chart shows new AI revenues and total AI costs for three RAN-only platforms plus RAN-heavy and AI-heavy results. The latter two are much higher, per Table 1.
图 4. 覆盖东京一个地区 600 个基站的 AI-RAN 经济学
  33%的 AI 和 67%的 RAN 67%的 AI 和 33%的 RAN
每 1 美元资本支出的收入 2 倍 5 倍
利润百分比基于 TCO 33% 219 欧元
表 1. AI 密集型场景与 RAN 密集型结果对比

在 RAN 密集型场景中,我们使用了三分之二的 RAN 和三分之一的 AI 工作负载分配,并发现 NVIDIA 加速的 AI-RAN 按资本支出除以的收入是 2 倍,使用 SoftBank 本地成本假设,5 年内利润率为 33%。

在仅使用 RAN 的情况下,NVIDIA Aerial RAN Computer-1 比仅使用 RAN 的定制解决方案更具成本效益,这凸显了使用加速计算进行无线电信号处理的优势。

从这些场景中可以明显看出,与仅使用 RAN 的解决方案相比,AI-RAN 在 AI 密集型和 RAN 密集型模式下都具有很高的盈利能力。事实上,AI-RAN 将传统的 RAN 从成本中心转变为盈利中心。

每台服务器的盈利能力随着 AI 使用率的提高而提高。即使在仅使用 RAN 的情况下,AI-RAN 基础设施也比仅使用 RAN 的自定义选项更具成本效益。

用于计算收入和 TCO 的主要假设包括:

  • 每个平台的相应平台、服务器和机架数量使用在相同频率 4T4R 上部署 600 个单元的通用基准计算得出。
  • 总拥有成本(TCO)计算周期为 5 年,包括硬件、软件、vRAN 和 AI 的运营成本。
  • 对于新的 AI 收入计算,我们使用了基于 GB200 NVL2 AI 性能基准的 20 美元/小时/服务器。
  • 运营支出成本基于日本当地的电力成本,不可在全球范围内扩展。
  • 利润**(新的 AI 收入 – TCO)/TCO

这种对 AI 收入提升、能效和盈利能力的验证让我们对这项技术的可行性、性能和经济效益毫不犹豫。

展望未来,每一代 NVIDIA 超级芯片 (例如 Vera Rubin) 带来的指数级收益将使这些收益进一步成倍增加,从而实现期待已久的电信网络业务转型。

展望未来 

SoftBank 和 NVIDIA 将继续合作 ,实现 AI-RAN 的商业化,并将新的应用带入生活。下一阶段的合作将包括研究 AI-for-RAN 以提高频谱效率,以及研究 NVIDIA Aerial Omniverse 数字孪生,以在数字世界中模拟准确的物理网络,从而进行微调和测试。

NVIDIA AI Aerial 为全球运营商和生态系统合作伙伴利用加速计算和软件定义的 RAN+AI 的强大功能转变 5G 和 6G 网络奠定了基础。现在,您可以使用 NVIDIA Aerial RAN Computer-1 和 AI Aerial 软件库开发自己的 AI-RAN 实现。

NVIDIA AI Enterprise 还在帮助创建可托管在 AI-RAN 上的新的电信 AI 应用,这一点从本次试用中可以明显看出,其中使用了许多 NVIDIA 软件工具包。这包括用于生成式 AI 的 NIM 微服务、RAG、VLMs、用于机器人训练的 NVIDIA Isaac、NVIDIA NeMo、RAPIDS、用于推理的 NVIDIA Triton,以及用于 AI 代理的无服务器 API。

电信行业正处于成为 AI 服务提供商的巨大机遇的前沿。AI-RAN 可以利用加速计算作为无线网络的新基础,为全球电信公司开启这种新的复兴。

此公告标志着 AI-RAN 技术的突破性时刻,证明了其可行性、电信级性能、卓越的能效和经济价值。在 NVIDIA 加速的 AI-RAN 基础设施上,每投入 1 美元的资本性支出就会产生 5 倍的收入,同时支持 6G。

AI 盈利之旅可以立即开始。

 

标签