传统 RAG 与代理 RAG——AI 智能体如何通过动态知识实现更高智能

是否曾依赖不知道新高速公路旁路或道路突然关闭的旧 GPS？它可能会让您到达目的地，但不是最有效或最准确的方式。

AI 智能体也面临着类似的挑战：它们通常依赖于静态训练数据。这些数据在某个时间点是固定的，在创建时为最新数据，但很快就会过时。此限制可能会在实际使用中造成问题：

幻觉：特工可能会生成听起来可信的错误事实。
过时信息：他们无法访问最新数据或实时更新。
知识差距：他们可能缺乏特定、隐私或新出现的信息。
安全性：数据权限可能会随着时间的推移而发生变化，或者之前可用的数据可能会变得保密。

现在，想象一下实时更新的 GPS，它可以立即了解每一条新道路、每一次交通堵塞和每一条捷径。这就是 AI 智能体动态知识的力量，它正在彻底改变 AI 应对不断变化的世界的方式。

AI 智能体需要访问动态知识

除了简单的聊天机器人之外，AI 智能体是专为独立运行而设计的复杂 AI 系统。正如 NVIDIA 首席执行官黄仁勋所说，AI 智能体是“感知、推理、计划和行动”的“信息机器人”，旨在理解问题、制定计划、使用各种工具，甚至理解文本和图像等不同类型的信息。

AI 智能体的核心功能包括：

感知：了解他们周围的环境和情境。
推理：分解复杂问题并制定策略解决方案。
规划：制定分步行动来实现目标。
代理：执行任务，通常使用各种数字工具。

从搜索公司内部文档到外部数据库，检索增强生成 (RAG) 使 AI 智能体能够查找和使用不断变化的动态知识数据。借助 AI 查询引擎，您可以让坐席访问不断变化的内部和外部数据，并使用推理来提高坐席的准确性和决策制定能力，帮助他们可靠地执行复杂任务。

RAG 和代理式 RAG 有什么区别？

RAG 是一种 AI 模型在生成响应之前从知识库中检索信息的技术。这种检索可增强生成过程。传统的 RAG 类似于快速查找。AI 会查询知识库、检索信息，然后生成回复。

代理式 RAG 更具动态性。在这里，AI 智能体主动管理其获取信息的方式，将 RAG 集成到其推理过程中。它不仅仅是检索；它使用推理来完善查询，将 RAG 转变为复杂的工具，并随着时间的推移管理信息。这种智能方法使 AI 智能体能够更好地适应不断变化的情况。

主要区别：

传统的 RAG：简单 – 查询、检索、生成。通常速度更快，成本更低。
代理式 RAG：动态 – 智能体查询、优化、使用 RAG 作为工具，随时间推移管理上下文。非常适合异步任务，包括研究、总结和代码校正。

查询引擎如何为 AI 智能体提供持续学习

这个动态知识系统的核心是 AI 查询引擎。这些不仅仅是基本的搜索工具，而是强大的系统，可将 AI 智能体连接到海量、多样化且不断更新的数据源。它们是连接智能体对信息的需求和组织内分布广泛的动态知识库的关键桥梁。

AI 查询引擎可以：

处理海量数据：从私人和公共来源提取并整理大量信息，包括文本、图像、视频和结构化数据，并构建用于处理持续更新。
准确检索：使用多模态嵌入、向量搜索和重排序等高级技术查找最新的相关知识。
实现持续学习：支持反馈回路，其中 AI 智能体的行动或见解可以更新知识库，从而创造持续改进的循环。
理解：它们帮助智能体解释不清楚的自然语言查询，以跨不同的数据类型查找相关信息。

AI 查询引擎是 RAG 的核心。它们可确保 AI 智能体始终获取最新、最相关的信息，以执行复杂的决策，从而提高实时准确性。

设计具有推理能力的代理式 RAG 系统

此过程将 AI 智能体的推理与 AI 查询引擎的数据访问相结合。

代理式 RAG 工作流程如下：

智能体需求数据：AI 智能体识别需要当前信息 (例如实时市场分析) 的任务。
查询生成：智能体创建特定查询并将其发送给 AI 查询引擎。
动态知识检索：AI 查询引擎会搜索其不断更新的知识库。它会提取相关信息 (文本、图像、音频、结构化数据) 并对其进行优先处理，以提供最相关的信息。
上下文增强：将检索到的当前信息添加到智能体的当前提示中。这为 LLM 创造了更丰富的背景。
增强型决策和行动：LLM 在这种新的、最新的背景下提供更准确的响应、制定更好的计划或做出更明智的决策。

RAG 对 AI 智能体有哪些好处？

RAG 和强大的 AI 查询引擎显著提高了 AI 智能体的能力，尤其是在处理动态信息时。

提高准确性：智能体提供可靠的信息，因为其响应基于经过验证的当前数据。准确性也得到了提高，因为它不仅仅是一个一次性查询，智能体可以使用推理模型来检查答案的相关性，并重写查询，不断迭代，直到获得最佳响应。
实时相关性：获取最新信息意味着客服人员在操作时掌握最新知识。
增强上下文理解：对查询的更深入理解会带来更准确、更有用的回答。
更高的适应性：智能体可以根据新的实时数据动态调整策略，使其更加灵活。
减少幻觉：使用可验证的外部数据可减少生成错误或虚构信息的几率。
可扩展知识：智能体可以利用不断更新的海量数据源，扩大其运营范围。
多模态：使用 RAG 提取信息，发现隐藏在图形、图表和图像中的见解。
增强安全性：使用 RAG 从私有、精选来源提取数据，以便集中管理访问权限。

推动 AI 智能体开发生态系统

NVIDIA 提供加速基础设施和软件工具，以加速 RAG 驱动的 AI 智能体及其底层 AI 查询引擎。

AI-Q NVIDIA Blueprint：一个开源参考示例，用于构建使用动态数据的安全、可扩展和高性能 AI 智能体。它集成了各种 NVIDIA 技术，包括 Nemotron 推理和 NeMo Retriever 模型，以及 NeMo Agent 工具包。
适用于 RAG 的 NVIDIA AI Blueprint：该 RAG 蓝图包含在 AI-Q 蓝图中，可提供使用 LangChain、LlamaIndex 和 CrewAI 等常见智能体编程框架创建可扩展提取和检索工作流的方法。它支持多模态数据、语义搜索和多语种功能，专为不断更新的知识来源而设计。RAG 蓝图使用 ChatNVIDIA LangChain 连接器，通过标准 LangChain 接口快速访问和使用 NVIDIA 优化模型。
NVIDIA NeMo Retriever：适用于 RAG 的微服务。用于在 AI 查询引擎中进行高精度数据提取、嵌入和重排序的核心组件。它们针对 NVIDIA GPU 进行了优化，将数据访问速度提升高达 15 倍，准确性提高了 50%，存储效率提高了 35 倍。
NVIDIA NeMo Agent Toolkit：一个开源库，可简化构建和改进多个 AI 智能体协同工作的系统。它充当通用连接器，允许开发者混合不同的智能体框架 (例如 LangChain、CrewAI 或自定义代码) ，同时提供详细的性能跟踪来修复瓶颈并降低成本。

NVIDIA 还通过 NVIDIA AI 数据平台在基础设施层面做出贡献。这种可定制的参考设计可帮助戴尔、NetApp、IBM 和 VAST Data 等存储提供商为 AI 查询引擎构建企业级系统。它使用 NVIDIA 加速计算 (如 Blackwell GPU) 、高性能网络 (Spectrum-X) 和软件，确保 AI 智能体能够快速访问和处理庞大的数据集，以便从动态信息中获得实时见解。

为动态世界设计 AI 智能体

RAG、强大的 AI 查询引擎和复杂的 AI 智能体的结合标志着 AI 的重大演进。这种集成使 AI 系统超越了静态限制，使它们能够：

访问和使用来自各种实时来源 (私人和公共来源) 的信息。
无缝适应不断变化的信息和情况。
根据最新的可用数据做出更明智、更精确、更可靠的决策。
自主协作，通过与动态信息的持续交互来学习和改进。

虽然构建这些先进的 AI 智能体本身存在一系列挑战，但工具和框架正在迅速成熟。通过利用 RAG 和 AI 查询引擎来利用动态知识，开发者可以在各行各业构建具有出色智能和自主性的 AI 智能体。

探索 NVIDIA NeMo Retriever 微服务，通过快速、准确的数据检索为您的 AI 查询引擎提供支持。联系 NVIDIA 合作伙伴，获取部署 AI 数据平台的帮助，从而在您的数据中找到含义。或者，立即前往 build.nvidia.com，使用 AI-Q 和 RAG 蓝图开始构建您自己的前沿 AI 智能体和 RAG 系统。

传统 RAG 与代理 RAG——AI 智能体如何通过动态知识实现更高智能

AI 智能体需要访问动态知识

RAG 和代理式 RAG 有什么区别？

查询引擎如何为 AI 智能体提供持续学习

设计具有推理能力的代理式 RAG 系统

RAG 对 AI 智能体有哪些好处？

推动 AI 智能体开发生态系统

为动态世界设计 AI 智能体

标签

关于作者

传统 RAG 与代理 RAG——AI 智能体如何通过动态知识实现更高智能

AI 智能体需要访问动态知识

RAG 和代理式 RAG 有什么区别？

查询引擎如何为 AI 智能体提供持续学习

设计具有推理能力的代理式 RAG 系统

RAG 对 AI 智能体有哪些好处？

推动 AI 智能体开发生态系统

为动态世界设计 AI 智能体

标签

关于作者

相关文章

LLM 推理、AI 智能体和测试时间缩放的简单介绍

借助 Hybrid RAG 实现 AI 模型高性能与数据隐私保护

相关文章

如何将计算机视觉工作流与生成式 AI 和推理集成

使用 NVIDIA Nemotron 构建检索增强生成 (RAG) 智能体

借助生成式 AI 通过分子合成途径进行推理

借助 NVIDIA NeMo 在 FP8 精度下提高训练吞吐量

在 NVIDIA RTX AI PC上部署高性能人工智能模型到 Windows 应用中