生成式人工智能/大语言模型

NVIDIA NeMo Retriever 和 NVIDIA NIM 带来电信网络运营中心变革

电信公司面临的挑战是如何始终如一地满足面向最终客户的服务水平协议(SLA),以确保网络服务质量。这包括快速故障排除存在复杂问题的网络设备、确定根本原因,以及在其网络运营中心(NOC)高效解决问题。

当前的网络故障排除和维修流程通常非常耗时、容易出错,并导致网络长时间中断,从而对运营效率和客户体验产生负面影响。

为解决这些问题,Infosys 使用 NVIDIA NIM 推理微服务和 检索增强生成 (RAG) 构建了一款生成式 AI 解决方案,以自动化网络故障排除。该解决方案简化了网络操作中心(NOC)流程,最大限度地减少了网络停机时间,并优化了网络性能。

借助生成式人工智能构建智能网络运营中心

Infosys 是新一代数字服务和咨询领域的全球领导者,在全球拥有 300 多万名员工。Infosys 团队构建了一个 智能网络运营中心,一个生成式人工智能客户交互平台,专为网络运营商、首席网络官、网络管理员和 IT 支持人员设计。

基于 RAG 的解决方案使用智能聊天机器人为 NOC 员工提供网络设备的数字化产品信息,并通过快速提供用于诊断和监控的基本、与供应商无关的路由器命令来协助故障排除网络问题。这缩短了平均解决问题的时间,并增强了客户服务。

向量嵌入和文档检索面临的挑战

在为智能 NOC 构建聊天机器人时,Infosys 面临多项挑战。这些挑战包括平衡底层生成式 AI 模型的高精度和低延迟,因为在用户查询期间,较高的准确性可能会增加模型的延迟,以进一步重新排名检索到的向量嵌入,从而影响模型的实时响应能力。

此外,处理特定于网络的分类、更改网络设备类型和端点以及复杂的设备文档使得创建可靠、用户友好型解决方案变得非常困难。

CPU 上的向量嵌入过程非常耗时,这可能会严重影响用户体验,特别是在长时间的作业运行期间。这可能会导致延迟和沮丧。

使用 LLM 通过 API 进行推理,揭示了延迟的显著上行趋势,这一因素本质上增加了整体处理时间,值得关注优化。

数据收集和准备

为了应对这些挑战,Infosys 构建了一个包含特定于网络设备的手册和知识构件(例如训练文档和故障排除指南)的向量数据库,以便针对用户查询构建上下文响应。其最初的重点包括 Cisco 和 Juniper Networks 设备。使用嵌入模型、自定义块大小和其他微调参数,Infosys 创建了嵌入,以填充向量数据库。

The workflow diagram shows a user inputting a query to a generative AI application, which results in a query embedding sent to a vector database populated with document embeddings from an enterprise’s data. Documents are retrieved and ranked, and then the best-fit document and response are sent back to the user.
图 1. 基本检索增强型生成工作流程的数据预处理管道

解决方案架构

Infosys 为其解决方案架构平衡了以下考虑因素和目标:

  • 用户界面和聊天机器人:使用 React 开发直观的界面,以创建针对工作流程和高级查询脚本选项定制的自定义聊天机器人,并使用 Llama 2 70B 模型显示 NVIDIA NIM 的响应。
  • 数据配置管理:使用NVIDIA NeMo Retriever Embedding NIM (NV-Embed-QA-Mistral-7B) 提供灵活的分块和嵌入设置,以便用户定义参数像块大小、重叠等参数,并从多种嵌入模型中选择,以获得最佳性能并控制数据摄取。
  • 向量数据库选项:实现选择不同向量数据库的能力,例如 FAISS,以实现高效数据检索,确保灵活性、效率和一致响应速度。
  • 后端服务和集成: Create 可靠的后端服务,以管理和配置聊天机器人,包括用于与外部系统集成的 RESTful API,并确保身份验证和授权的安全。
  • 与 NIM 集成: 集成 NIM 微服务以提高推理的准确性、性能和成本。
  • 配置:
    • 10 个 NVIDIA A100 80-GB GPUs 以及八个运行 NIM 的 NVIDIA A100 GPU
    • 两个运行 NeMo Retriever 微服务的 A100 GPU
    • 128 个 CPU 核心
    • 1 TB 存储
  • Guardrails:使用 NVIDIA NeMo Guardrails,一个开源工具包,可轻松地向基于语言模型(LLM)的对话式应用添加可编程防护栏,并提供漏洞防护。
Workflow diagram shows a user icon interacting with a generative AI chatbot, which uses NVIDIA NeMo Guardrails to align the prompt, NVIDIA NeMo Retriever microservices to generate vector embeddings and rerank retrieved documents, and NVIDIA NIM to send an accurate, safe, and quick response back to the user.
图 2. 用户提示生成式 AI 聊天机器人和后端 RAG 工作流以提供快速准确响应的工作流程

使用 NVIDIA NIM 和 NeMo Guardrails 的 AI 工作流程

为了构建智能 NOC,Infosys 使用了 NVIDIA NIM 和 NVIDIA NeMo 的自托管实例来微调和部署基础 LLM。该团队使用 NIM 公开了类似 OpenAI 的 API 端点,为其客户端应用程序启用了统一的解决方案。

Infosys 使用 NVIDIA NeMo Retriever 为其矢量数据库检索和重新排序工作流程提供支持。NVIDIA NeMo Retriever 是一系列微服务,提供用于索引和查询用户数据的单一 API,使企业能够将自定义模型与各种业务数据无缝连接,并提供高度准确的响应。有关更多信息,请参阅使用 NVIDIA NeMo Retriever 将企业数据转换为可行见解

借助由 NVIDIA 提供支持的 NeMo Retriever,Infosys 在其文本嵌入模型上实现了超过 90% 的准确率。

NV-Embed-QA-Mistral-7B 在 Massive Text Embedding Benchmark (MTEB) 中排名第一,在 56 项任务中表现出色,包括检索和分类。该模型的创新设计使 NV-Embed 能够关注隐向量,以实现更好的池化嵌入输出,并采用双阶段指令调整方法来提高准确性。

Bar graph showing accuracy comparisons for two embedding models. NV-Embed-QA-Mistral-7B achieved over 90% accuracy for text embeddings, outperforming All-MPNET-Base-v.
图 3.NV-Embed-QA-Mistral-7B 嵌入模型性能

Infosys 使用了 NeMo Retriever 重新排序 NIM(Rerank-QA-Mistral-4B),该方法针对查询从向量数据库中优化检索到的上下文。当检索到的上下文来自具有不同相似度分数的不同数据存储时,此步骤至关重要。重新排序基于经过微调的 Mistral 7B 模型,使用 7B 参数,并在不牺牲性能的情况下提高效率。

The bar graph shows accuracy comparisons for nv-rerank-qa_v1 compared to a base model without reranking and using Mistral 7B.
图 4. nv-rerank-qa_v1 重排名模型提高了准确率

使用 NV-Embed-QA-Mistral-7B 模型将基准模型的准确度提高了 19%(从 70%提高到 89%),从而在生成响应时整体提高性能。使用 nv-rerank-qa_v1 重新排名模型将准确度提高了 2%以上。将 NeMo Retriever 重新排名模型添加到 RAG 管道中提高了 LLM 响应的准确性和相关性。

成果

延迟和准确性是评估语言模型(LLMs)性能的两个关键因素。Infosys 测量了这两个因素,并将结果与使用 NVIDIA NIM 部署的模型进行了比较,基准模型的结果也被纳入其中。

LLM 延迟评估

Infosys 测量了大语言模型延迟,以比较使用和不使用 NVIDIA 神经机器翻译器的结果 (表 1)。

没有 NIM,Combo 1 的 LLM 延迟为 2.3 秒。使用 NIM 部署具有 NeMo Retriever 嵌入和重新排序微服务的 Llama 3 70B 模型时,Combo 5 的 LLM 延迟为 0.9 秒,比基准模型提高了近 61%。

  不使用 NIM 使用 NIM
  组合 1 组合 2 组合 3 组合 4 组合 5
延迟 (秒) 2.3 1.9 1.1 1.3 0.9
表 1.LLM 延迟比较
The bar graph shows latency comparison with two setups not using NVIDIA NIM and three setups using NVIDIA NIM. NIM improves LLM latency by nearly 61%.
图 5. 五种不同语言模型的延迟比较

LLM 准确性评估

Infosys 测量了智能 NOC 的大语言模型延迟,以比较使用和不使用网络基础设施管理的结果 (表 2)。

在比较同一模型时,Infosys 在不使用 NIM 的情况下实现了高达 85% 的 LLM 准确率,在使用 NeMo Retriever 嵌入和重新排序 NIM 时实现了 92% 的 LLM 准确率,与基础模型相比,绝对提高了 22%。这表明 NVIDIA NIM 在优化 RAG 系统准确性方面的有效性,使其成为实现更准确、更可靠的模型输出的重要增强功能。

  关闭 NIM 开启 NIM
  组合 1 组合 2 组合 3 组合 4 组合 5
框架 朗链 美洲豹指数 朗链 朗链 朗链
数据块大小、数据块重叠 512100 512100 512100 512100 512100
嵌入模型 All-mpnet-base-v 全 MiniLM-L6-v2 NV-Embed-QA-Mistral-7B NV-Embed-QA-Mistral-7B NV-Embed-QA-Mistral-7B
重新排名模型 nv-rank-qa_v1 nv-rank-qa_v1
TRT-LLM
Triton
向量数据库 FAISS CPU Milvus FAISS GPU FAISS GPU FAISS GPU
LLM Ollama (Mistral 7B) 顶点 AI (Cohere-command) NIM LLM (Mistral-7B) NIM LLM
(Mistral-7B)
NIM LLM
(Lama-3 70B)
准确率 70% 85% 89% 91% 92%
表 2. 生成式 AI 模型的准确度比较
The bar graph shows the accuracy comparison with two setups not using NVIDIA NIM and three setups using NVIDIA NIM. NIM improves absolute LLM latency by 22%.
图 6. 五种不同语言模型的准确度比较

结束语

通过使用 NVIDIA NIMNVIDIA NeMo Retriever 微服务部署其智能网络运营中心,Infosys 将大语言模型延迟降低了 61%,准确率绝对提高了 22%。部署在 NIM 上的 NeMo Retriever 嵌入和重新排序微服务通过优化的模型推理实现了这些收益。

集成用于嵌入和重新排名的 NeMo Retriever 微服务可显著提高 RAG 的相关性、准确性和性能。重新排名增强了上下文理解,而优化的嵌入确保了准确的响应。这种集成提高了网络运营中心的用户体验和运营效率,使其成为系统优化的关键组件。

了解 Infosys 如何通过由 NVIDIA 提供支持的自动化工作流程消除网络停机时间

开始使用 NVIDIA NIMNeMo Retriever NIM 微服务部署生成式人工智能应用。探索更多 AI 解决方案为电信运营

 

Tags