当今的 5G New Radio (5G NR) 无线通信系统依靠高度优化的信号处理算法,在短短几微秒内重建从杂信道观察到的传输消息。这一非凡的成就是电信工程师和研究人员数十年不懈努力的成果,他们不断改进信号处理算法,以满足无线通信严苛的实时限制。
最初,一些算法因其在发现时过于复杂而被广泛遗忘。Gallager 在 20 世纪 60 年代发现的低密度奇偶校验(LDPC)代码就是一个明显的例子。David MacKay 在 20 世纪 90 年代重新发现了这些算法,现在它们已成为 5G NR 的支柱。这说明,即使是最好的算法也不切实际,除非它们满足电信行业严格的计算和延迟要求。
无线通信领域的 AI 技术已经引起了学术界和行业研究人员的广泛关注,如在《An Introduction to Deep Learning for the Physical Layer》和《An Overview of the 3GPP Study on Artificial Intelligence for 5G New Radio》中所讨论的那样。与许多传统的物理层算法相比,人们越来越认识到,AI 具有提供更出色的可靠性和准确性的潜力。这启发了 AI 无线电接入网(AI-RAN)的概念。到目前为止,大多数研究都基于仿真,对实时推理延迟对拟议解决方案的影响所知甚少。
无线通信系统对延迟和吞吐量的要求对神经网络(Neural Network)设计施加了严格的限制,有效地限制了其大小和深度。因此,在现实的延迟限制下,在实际蜂窝系统的物理层中部署和验证AI组件是一项开放且有趣的挑战。
本文讨论了在未来 AI-RAN 的物理层中部署基于 NN 的接收机组件所带来的机遇和挑战。我们介绍了经过优化的神经网络架构和实现实时推理所需的工具链。此外,我们还讨论了特定站点训练的潜力以及通过端到端学习实现无导航通信的概念,并深入探讨了 6G 的可能研究方向。
NVIDIA 开设研究实验室
NVIDIA 开发了一种基于神经网络的无线接收器研究原型,该原型可以由学习组件取代物理层信号处理的部分内容。该原型特别关注神经网络架构执行实时推理的能力。有关详情,请参阅适用于 5G NR 多用户 MIMO 的神经接收器。
为增强 AI-RAN 研究人员和工程师的能力,NVIDIA 发布了研究代码,该代码提供了设计、训练和评估基于 NN 的接收机所需的整个工具链。实时推理通过 NVIDIA TensorRT 在 GPU 加速硬件平台上实现。因此,NVIDIA 提供了独特的软件和硬件堆栈,以便从 NVIDIA Sionna 中的概念原型设计无缝过渡到使用 NVIDIA TensorRT 进行早期现场评估,再到 NVIDIA Aerial 中的商业级部署。
我们已经展示了该项目的各个部分,包括神经接收器的硬件在环验证、站点特定的训练和端到端学习。
从手工信号处理块到神经接收
神经接收器(Neural Receivers,NRX)的理念是训练单个神经网络(NN)以联合执行信道估计、均衡和去映射(图 1)。该神经网络经过训练,可从信道观测中估计传输位,并可用作现有信号处理算法的简易替代品。有关 NRX 概念的更多详细信息和性能评估,请参阅《面向环境特定基站:AI/ML 驱动的神经 5G NR 多用户 MIMO 接收器》。
从算法的角度来看,NRX 主要由张量运算(包括矩阵乘法和卷积)定义。与许多 AI 应用一样,使用 NVIDIA 硬件可以显著加速这些运算。此外,广泛的 NVIDIA 生态系统中的分析和优化工具能够改进 NRX 架构,有效消除性能瓶颈。由此生成的 NRX 架构使用 NVIDIA TensorRT 推理库在 NVIDIA A100 GPU 上实现不到 1 毫秒的推理延迟。
5G NR 标准合规性和重新配置
虽然 NRX 概念相当简单,但其在 5G NR 标准中的集成带来了几个需要解决的工程挑战(图 2)。由于实际设置中的网络配置可能会在几毫秒内动态变化,因此拟议的 NRX 架构具有适应性,能够支持不同的调制和编码方案(MCS),无需任何重新训练,也不会增加推理复杂性。
此外,还支持任意数量的子载波,并且支持具有不同数量活跃用户的多用户MIMO。实际部署的另一个重要方面是处理5G NR兼容参考信号的能力。
为了保持 NRX 在未发现的信道条件下的弹性,我们使用随机宏参数(例如信噪比(SNR)、多普勒传播和活跃用户数量),在 3GPP 38.901 的城市微单元(UMi)场景中进行训练。这允许预训练稳健且通用的 NRX,该 NRX 可泛化到各种无线电环境。
由于 NRX 是软件定义的,因此特定于站点的微调即使在部署后也可以持续改进接收机。本文的后续部分提供了一个详细的微调示例,其中使用了基于无线电环境光线追踪的模拟结果(称为数字孪生)。有关更多技术细节,请参阅 Jumpstart 教程和 Neural Receiver 架构概述 notebook。
实时约束下的性能评估
如前所述,部署 AI 算法会受到严格的实时限制,即使是稳健的 NRX 架构也可能变得不切实际,除非它们在所需的延迟内运行。在其他的话,用于部署的最佳网络不一定是具有最佳错误率性能的网络,而是在定义的计算延迟预算内提供最佳准确性的网络。
估算给定神经网络架构的推理延迟是一项复杂的任务,因为其结果在很大程度上取决于目标硬件平台、特定的软件堆栈以及代码优化的程度。因此,浮点运算次数(FLOPs)、权重或层等指标通常用作模型计算复杂性的代理。但是,由于推理过程中高度并行和潜在的内存瓶颈,这些指标可能会产生误解。因此,我们在目标 NVIDIA A100 GPU 上使用 TensorRT 推理库部署 NRX。这可确保真实的延迟测量,并且 profiler 有助于消除关键路径上的瓶颈。
在 TensorFlow 中进行训练后,我们将经过训练的模型导出为 ONNX 文件,并构建了 TensorRT 推理引擎。TensorRT 可自动优化目标平台的神经网络推理。如果需要,我们会提供详细的分析输出。在实时教程 notebook 中提供了示例。
正如预期的那样,计算复杂性在很大程度上受 5G 系统配置(包括所分配的子载波数量和活跃用户等参数)的影响。NRX 架构采用可配置的网络深度进行设计和训练,从而能够控制训练后的计算延迟。凭借这种灵活性,NRX 可以在目标硬件平台或系统参数发生变化时轻松进行重新配置。
图 3 展示了使用 TensorRT 在 NVIDIA A100 GPU 上执行的 NRX 的性能评估。在实时约束下的性能不同于不受计算限制的网络版本。然而,我们要强调的是,即使在实时约束下,NRX 的性能也具有竞争力,甚至优于许多传统的接收机算法。
超越传统算法:站点特定的微调
AI-RAN 组件的一个有趣特性是能够进行特定站点的微调,即使在部署后也能优化神经网络权重。这种微调依赖于两个关键的推动因素:
- 基于 AI 的算法,例如 NRX
- 软件定义的RAN,在系统处于活跃状态时便于提取训练数据。
收集数据后,训练可以在云端或本地离线进行。
为了演示神经接收机的特定站点微调,我们使用 Sionna 光线追踪器对训练数据集进行了采样,该数据集包含整个场景中 1,000 个随机用户位置和速度。图 4 显示了用于微调接收机性能评估的用户位置。红色点表示基站的位置,灰色线表示用于评估的用户轨迹。新的场景可以直接从 OpenStreetMap 加载。
由于微调从预训练的接收机网络权重开始,因此只需要少量的训练步骤和适度的计算资源。请注意,NRX 架构本身保持不变。图 5 显示,在单个 GPU 上进行一分钟的微调可显著提高特定无线电环境中的错误率性能。站点特定的训练允许根据特定无线电环境调整较小的 NRX,使其在 4 倍以上的通用预训练 NRX 的水平上执行。这在推理期间节省了大量计算,同时保持出色的错误率性能。
这是 AI 启用的 RAN 的独特功能,可以不断适应实际的 RF 环境。因此,我们设想完全软件定义和 AI 驱动的下一代基站,即使在部署后也能改进。
从 5G 合规性转向 6G 研究
最后,我们要强调的是,神经接收机不仅是现有接收机算法的强大替代产品,也是实现一系列新功能的关键推动因素,例如使用端到端学习的无导航通信和部署后特定站点的重新训练。
图 6 展示了端到端学习方法,其中 NRX 通过可训练的自定义星座(constellation)进行扩展,可取代传统的正交幅度调制(QAM)。
可训练的自定义星座与无先导式插槽结构的结合会迫使 NRX 在不依赖任何参考信号的情况下学习信号重建。在直觉上讲,NRX 学习新的星座,其中隐式包含某种类型的叠加先导方案,可用于联合信道估计和均衡。训练后,生成的方案显示出与传统 5G 系统类似的错误率性能,但由于完全消除了先导式开销,因此受益于更高的数据速率。有关更多详细信息,请参阅端到端学习 notebook。
虽然生成的星群不符合 5G NR 标准,但这些指标表明 AI 如何实现新的 6G 功能,从而提高可靠性和吞吐量。如需了解更多信息,请访问 GitHub 上的 NVlabs/neural_rx。
致谢
根据 Grant Agreement 101096379 (CENTRIC),本作品获得了欧洲联盟的资金支持。然而,所表达的观点和观点仅为作者的观点和观点,不一定与欧洲联盟或欧洲委员会(授权机构)的观点和观点相同。欧洲联盟或授权机构均不对此负责。