移动通信标准通过协调技术协议来促进不同供应商的网络和设备之间的互操作性,在电信生态系统中发挥着至关重要的作用。随着这些标准的发展,电信公司面临着管理复杂性和数量的持续挑战。
通过利用 生成式 AI ,电信公司可以实现技术标准解释和应用的自动化,从而减少浏览、分析和实施大量规范中的规则和协议所需的时间和精力。为了展示生成式 AI 在处理标准文档方面的强大功能,我们针对 O-RAN(开放无线接入网)标准开发了一个聊天机器人演示。
O-RAN 提供了一套规范,旨在通过使用开放接口和模块化硬件和软件,促进电信网络的无线接入网 (RAN) 组件的互操作性、开放性和创新性。
本文详细介绍了我们的方法,该方法使用 NVIDIA NIM 微服务和 检索增强生成技术(RAG),高效生成对涉及大量技术规格和工作流程的复杂查询的响应。这展示了生成式 AI 在转变行业实践和有效管理复杂标准方面的潜力。
O-RAN 聊天机器人 RAG 架构
为了部署 O-RAN 聊天机器人,我们使用了专为云原生端到端 RAG 应用设计的 NIM 微服务。具体来说,我们使用了 NVIDIA NeMo 检索器 文本嵌入 NIM, NV-Embed-QA-Mistral-7B-v2 ,将 O-RAN 文档和用户查询中的段落转换为向量表示。此外,我们还实施了基于相关性的 NeMo 检索器文本重新排序 NIM,以重新排序检索到的段落,从而改进语义排序。
为了管理数据流并确保组件之间的无缝交互,我们使用 LangChain 框架集成了各种聊天机器人元素。我们选择了 GPU 加速的 FAISS 向量数据库来存储嵌入,并为 大语言模型(LLM) 采用了 NIM 微服务来生成答案。我们使用 Streamlit 实现了前端,使用户能够直接与聊天机器人进行交互。此外,我们部署了 NVIDIA NeMo Guardrails ,以确保提供的答案既相关又真实,并进一步增强用户体验。图 1 展示了架构。要下载参考代码,请访问 NVIDIA/GenerativeAIExamples GitHub 库 。
朴素的 RAG 挑战
在没有增强功能的情况下设置基本 RAG 架构(Naive RAG)后,我们注意到响应存在几个问题。首先,提供的答案往往过于冗长,聊天机器人的语气与预期的上下文不一致。我们能够通过适当的提示调优来改进这些方面。
其次,我们观察到基本的 RAG 流程无法检索一些相关文档,从而导致回答不准确或具有误导性。此外,流程难以准确回答最复杂的问题,通常会产生部分正确的答案或幻觉。
虽然提示调优成功解决了语气和详细程度问题,但需要一种不同的方法来处理检索和响应准确性方面的挑战。为此,我们首先试验了高级检索策略,然后评估了不同的语言模型。这些工作旨在优化机器人的整体质量,将在以下部分详细介绍。
优化检索策略
为了解决检索准确性问题,我们仔细检查了检索到的内容不完整的查询。我们发现,出现此问题的原因通常是答案的相关部分分散在不同文档中,导致检索系统无法访问所有必要的上下文。为了应对这一挑战,我们尝试了两种高级检索方法(Advanced RAG 和 HyDE),探索了基本 RAG 的增强功能,这两种方法有可能提高性能。
高级 RAG
我们尝试的第一个增强功能是实施名为 Advanced RAG 的查询转换技术,该技术使用 LLM 从初始查询中生成多个子查询。这种方法旨在通过扩展搜索空间和优化检索到的文档的相关性来提高检索准确性。图 2 展示了 Advanced RAG 的结构。
HyDE RAG
接下来,我们探索了另一种名为 HyDE (Hypothetical Document Embeddings) RAG 的方法。HyDE 通过考虑潜在答案来增强检索,使系统能够找到与上下文更相关的文档。此技术之前在许多任务中表现优于许多密集检索器,并且在各种任务中展示的性能可与微调检索器相媲美。图 3 概述了我们如何实施 HyDE RAG 及其与检索过程的集成。
检索策略评估
在实施 Advanced RAG 和 HyDE RAG 技术后,我们继续评估它们与基本的 Naive RAG 相比的性能。我们的评估结合了人类专业知识的见解和自动化方法的效率和一致性,利用了这两种方法的优势。
对于人工评估,我们聘请了 O-RAN 工程师创建了 20 个问题,这些问题涵盖了最新标准版本的各个方面。然后,我们使用所有三种 RAG 方法生成答案:Naive RAG、Advanced RAG 和 HyDE RAG。专家们通过按 1 到 5 的评分来评估每个答案的质量,同时考虑到答案的整体质量和相关性。
在自动评估方面,我们使用了 RAGAs,这是一个开源框架,它采用先进的 LLM 担任评委,实现评估流程的自动化。图 4 展示了我们的评估方法,展示了如何集成人工评估和自动评估,以全面比较 RAG 技术。
图 5 显示了这些评估的结果,清楚地表明使用增强型 RAG 技术可显著提高响应质量。人工和自动评估一致发现,Advanced RAG 方法的表现优于 Naive RAG 和 HyDE RAG 方法。
NVIDIA LLM NIM 精选
在确定了最佳检索器策略后,我们的目标是通过评估不同的 LLM NIM 微服务来进一步提高答案的准确性。如下文工作流程所示,我们试验了各种模型以确定最准确的模型。使用 Advanced RAG 管道,我们使用不同的 LLM NIM 微服务生成了答案,并评估了它们的性能。为此,我们采用了 RAGAs 框架,使用 LLM-as-a-Judge 来计算两个关键指标:faithfulness 和 answer relevancy。
鉴于我们需要比较大量 NIM 微服务,因此我们选择优先考虑自动评估,而不是人工评估,因为人工评估非常耗时,并且需要大量的工程资源。图 6 展示了我们的 LLM NIM 评估流程。
根据图 7 中的结果,我们注意到所有 LLM 均按同等性能运行,二者之间几乎没有性能差异。这表明检索优化是关键因素。经过优化后,所有开源 LLM 都能实现可比性能。
结束语
通过利用 NVIDIA LLM NIM 微服务以及 NeMo 检索器嵌入和重新排序 NIM 微服务,我们展示了构建高级 RAG 工作流的价值,以创建能够理解 O-RAN 技术规范的专家聊天机器人。通过利用高级检索技术增强的开源 LLM,我们显著提高了对复杂技术问题的响应准确性。
我们的评估框架表明,Advanced RAG 方法在检索准确性和整体响应质量方面的表现始终优于其他方法。O-RAN 聊天机器人的成功凸显了集成 NVIDIA 端到端平台以开发自定义生成式 AI,使电信公司能够提高处理技术标准的效率,从而在迅速发展的电信行业中保持竞争优势。
如需了解更多信息,请访问 NVIDIA/GenerativeAIExamples GitHub 仓库。