对话式人工智能

LLM 推理、AI 智能体和测试时间缩放的简单介绍

智能体一直是应用大语言模型 (LLMs) 解决复杂问题的主要驱动力。自 2023 年 AutoGPT 以来,各行各业已经开发出各种技术来构建可靠的智能体。在设计这些应用时,有关代理式推理和 AI 推理模型的讨论进一步增加了一层细微差别。这种快速发展还使得开发者难以参与构建这些智能体,需要从众多设计和技术选择中进行选择。

为帮助简化这些决策,本文涵盖以下广泛主题:

  • 什么是 LLM Agent?需要考虑哪些不同的结构模式?
  • LLM 推理和测试时间缩放的工作原理是什么?
  • 应该考虑哪些不同类型的推理?

什么是 LLM 智能体?

LLM 智能体是通过使用 LLM 来推理问题、制定计划以及使用工具或 API 来完成任务来解决复杂问题的系统。这使得它非常适合智能聊天机器人、自动代码生成和工作流程自动化等生成式 AI 用例。LLM 智能体只是更广泛的 AI 智能体领域的一部分:“代理式 AI”一词还涵盖由计算机视觉模型、语音模型和强化学习提供支持的智能体,它们在客户服务聊天机器人、复杂的企业流程编排和自动驾驶汽车等各种领域中开展工作。

根据执行的性质,LLM 代理的应用空间大致可以分为聊天机器人和工作流。如果您不熟悉代理,本文将通过构建您的第一个代理来帮助您了解概念部分!

工作流

传统上,机器人流程自动化 (RPA) 流程一直用于实现机械任务的自动化,例如数据输入、提交索赔和客户关系管理 (CRM) 。这些通常旨在解决在后台运行的离线批处理作业,以解决机器人任务。

传统上,这些工作流是围绕严格的规则和启发式流程设计的。这限制了 RPA 流程的应用空间,并经常导致横向扩展问题。

通过使用 LLM,这些智能体工作流可以通过注入做出复杂决策的能力并执行适当的工具来解决问题,从而变得更加灵活。

LLM 智能体可以帮助变革 RPA 流程的一个主要用例是处理保险和医疗健康行业的索赔。虽然传统的 RPA 流程可能对数据结构过于严格,但 LLM 智能体可以处理来自不同文件格式(例如客户上传)的索赔中的非结构化数据,而无需显式编程。

智能体还可以根据索赔调整动态工作流程,帮助识别潜在的欺诈行为,根据不断变化的法规调整决策过程,或者帮助分析复杂的索赔场景,从而根据政策和历史数据建议适当的行动。

在工作流中,智能体在预定义的pipeline中运行,该pipeline是通过将复杂任务分解为主要由业务逻辑决定的特定约束路径而创建的。在这些情况下,LLMs用于解决每个子任务中的歧义,但较大的任务流是预先确定的。

A workflow diagram shows a workflow style application of agents where a complex task is broken down into simpler subtasks by the software architect, and the LLMs help resolve complexity in the minutia of individual step.
图 1。用于 CVE 影响分析的 plan-and-execute-style LLM 代理管道

图 1 展示了一个 CVE 分析工作流示例,该工作流有助于检测已发送容器中的漏洞。此管道定义明确,由明确的特定子任务组成。

聊天机器人

智能体的另一个用例是 AI 聊天机器人。根据响应延迟和所解决任务的性质,这些聊天机器人可分为以下几类:

  • 探索性智能体
  • 辅助性智能体

探索性智能体通常用于解决难以解决的复杂多步骤任务,并且需要时间让智能体执行。此类智能体可被视为独立智能体,用户在其中给出预期解决方案的任务。

OpenAI 和 Perplexity 的 Deep Research 就是一个很好的例子 (图 2) 。这些智能体对复杂的多步骤问题进行推理,并尝试提出最终解决方案。在这些情况下,用户不会期望进行迭代交互。相反,他们希望任务能够独立完成。用户通常可以接受更高的延迟,但期望获得完整的解决方案来处理复杂的任务。

An example of an exploratory task open ended task for which agents are used

辅助智能体本质上需要协作式人机回圈体验,让用户参与到需要验证的决策过程中。它们通常围绕使用一组紧密结合的工具进行设计。

例如,这些应用程序可以是文档创作助手、个人 AI 助手、报税助手等。这些智能体旨在降低延迟,同时解决更小的 boiler plate-style 问题,以便用户专注于构建更广泛的解决方案。

A user Interface showing a Python file open in a coding environment. The user is asking a coding assistant to modify part of the code. The assistant responded with suggested edits.
图 3。提示编码助手对现有 Python 文件进行编辑

所有这些智能体的共同之处在于,需要借助一些工具进行推理并制定计划来解决任务 (Figure 3) 。

下一个自然问题是 LLM 推理的工作原理。

什么是 LLM 推理?它如何应用于 AI 智能体?

《牛津字典》将推理定义为“以符合逻辑的合理方式思考事物的动作”。这非常适合用于考虑使用 LLM 进行推理的范式。

 

为此,推理可大致分为以下类别:

  • 长期思考
  • 寻找最佳解决方案
  • 思考 – 评论 – 改进
There are three broad categories of reasoning - Think Longer, Diverse Thinking and Critique thinking, each of which have their own niches.

这三种技术的工作原理都是扩展测试时间计算,即提高响应质量,并通过生成更多 token 来解决更复杂的问题。

虽然这些技术是互补的,可以应用于所有不同的问题空间,但它们在设计方式上的差异使它们能够应对各种挑战。

促使 AI 模型思考更长时间

思维链是这类推理最直接的表征。在生成最终答案之前,我们会提示模型逐步思考。

思维链上的迭代是 ReAct 智能体框架。ReAct 结合推理和行动来执行多步骤决策。生成推理轨迹可将复杂问题分解为可管理的小任务,从而帮助智能体制定战略计划。操作步骤通过与外部工具交互来帮助执行计划。

另一种尝试注入更深层次思维的技术是自我反思,它引入了批判循环。这迫使智能体分析和重新评估推理,使其能够自我纠正并生成更可靠的答案。

DeepSeek-R1 强效助力这一概念。对 DeepSeek-R1 进行了调整,以提高思维链的一致性和深度。该模型采用了新的强化学习 (RL) 范式,使模型能够自主探索和完善其推理策略。这使其成为迄今为止最有趣的长链多步骤推理实现之一。

 An example of “Deeper Thinking” are the thinking tokens that are used to generate a single cohesive chain of thought to reason through a complex problem
图 5。展示 DeepSeek-R1 的推理想法

这种类型的推理最适合处理复杂问题,例如根据财务报告回答多个跳跃式问题或解决逻辑推理问题。

这些技术最终使模型能够更深入地理解问题。

帮助 AI 模型搜索最佳解决方案

虽然更深入地思考可以解决任务的复杂性,但这可能不是解决具有多个解决方案的任务的最佳方法。Tree-of-thoughtGraph-of-thought等技术引入了LLM通过多个推理方向进行推理的概念。

Scaling LLM Test-Time Compute Optimally 中详细介绍的 Best-of-N 等技术可能比 Scaling Model Parameters 更有效,其原理很简单。如果多次尝试,模型可能会生成正确的响应。从本质上讲,这让我们能够反复向模型提出相同的问题,直到模型回答正确,或者至少更有可能得到正确的回答。

我们可以将 N 设置为任意大,一些研究使用极高的 N 值使用极高的 N 值来处理代码生成等问题。然而,生成大量响应只是解决方案的一小部分,因为我们需要一种方法让系统从这 N 个解决方案中选择最佳解决方案。

这就是验证问题的症结所在!在某些情况下,这一点更为明显:代码是否运行并通过测试?对于其他人来说,它可能更复杂,可能依赖于reward model或其他更复杂的验证过程。

The diagram shows three models: Best of N, Beam Search, and Look Ahead search. Each workflow starts with a question and then shows the prompt, intermediate solution steps, and solution steps selected or rejected by the verifier.

与 Think-Critique-Improve 交互

Think-Critique-Improve 等方法利用更具交互性的流程来生成可靠的响应,而不是在没有反馈的情况下通过“花更多时间思考”的视角来解决问题。简单来说,管道如下所示:

  1. 思考:生成 N 个样本,类似于 Best-of-N 方法。
  2. 生成反馈:针对每个样本,使用专门的模型生成 X 个反馈响应,然后对该模型进行过滤以发现无效响应。根据一些启发式算法选择其中的 Top-k。
  3. 编辑:对于 N 个样本中的每个样本及其 Top-k 反馈响应,专门的编辑器模型通过编辑基础模型的响应来整合反馈。
  4. 选择:最后,从工作流使用 Select 模型生成的 N 个反馈和已编辑的响应中选择最终响应。

这种方法更类似于一个团队一起解决问题,而不是一个人长期思考一个问题。

由于其他方法在训练或实施过程中依赖于可验证的问题 (代码、数学和逻辑推理) ,因此这种方法擅长解决开放式问题,而这些问题不仅仅是获得正确答案。

下一步

随着创造商业价值的模型和技术的飞速发展,企业需要专注于产品上市时间,并优化其功能和技术。

在这种环境中,NVIDIA Blueprints 等解决方案可帮助企业快速构建支持其用户的应用。使用易于使用的 NVIDIA NIM,您的企业可以确保您拥有最有效、安全可靠的基础设施。

现在,开发者可以从 Hugging Face 下载最新的 NVIDIA Llama Nemotron 模型,或试用构建用于研究和报告的 AI 代理

如需详细了解 LLM 代理,请参阅本系列中的其他博客:

 

标签