生成式人工智能/大语言模型

Llama Nemotron 模型提升智能体 AI 工作流的准确性和效率

Agentic AI 是新一波生成式 AI 浪潮,是一种范式转变,通过使 AI 系统能够自主行动并实现复杂的目标,具有变革行业的潜力。智能体 AI 将 大语言模型 (Large Language Models,LLMs) 的强大功能与高级推理和规划功能相结合,为医疗健康、金融、制造和物流等各行各业带来无限可能。

智能体 AI 系统将感知、推理和行动相结合,以有效地与其环境交互。它从数据库和外部来源收集信息,分析目标并制定实现目标的策略。

系统的操作模块可执行决策,同时保留过去交互的内存,以支持长期任务和个性化响应。借助多智能体协作,智能体可以共享信息并高效协调复杂的任务。

The diagram includes an AI agent that makes routing decisions, LLMs that connect with databases to generate responses for the agents to take actions, and data flywheels to tune the LLM as new data is generated.
图 1、代理 AI 架构

AI 智能体还配备了反馈机制,可创建 数据飞轮 ,并将通过交互生成的数据输入到系统中,以增强模型。这使得系统能够随着时间的推移提高运营效率并做出更明智的决策。

这些系统的核心是基础模型,这些模型可提供语言理解、决策、推理和指令遵循等功能。

适用于代理 AI 的领先 LLM 

今天,NVIDIA 宣布推出 Llama Nemotron 系列代理 AI 模型,可为各种代理任务提供更高的准确性、出色的计算效率和开放的许可证,供企业使用。在本文中,我们将深入探讨此模型系列如何在各种代理 AI 任务中实现领先的准确性。

NVIDIA 一直在为各种基准测试开发排行榜模型,包括用于聊天的 Arena Hard 、用于指令遵循的 IFEval ,以及通过利用 NVIDIA 调整技术在其大小类别中进行函数调用的 BFCL

简化代理 AI 系统并将其推向市场

NVIDIA 正在通过整合这些模型的优势来简化 AI 智能体的开发,从而提供支持各种任务的单个模型。Llama Nemotron 擅长处理关键代理任务,因此单个模型可以通过替换多个专用模型来简化工程流程。

您可以使用专有数据轻松定制这些模型,以使用 NVIDIA NeMo 满足特定领域和任务的需求,通过 NeMo Aligner 进行调整以遵循指令并生成人类首选响应,并使用 NVIDIA AI Blueprints (以 NVIDIA NIM 和 NeMo 微服务为基础)快速开发 AI 智能体。

这些模型还可用作便携式 NIM 微服务 ,在 NVIDIA 加速的基础设施上提供最大推理吞吐量。

已针对计算效率进行优化 

Llama Nemotron 系列已针对各种计算资源进行优化,可确保在不同环境中实现出色性能:

  • Nano: 在 NVIDIA RTX AI PC 和工作站上针对准确性和性能进行优化的模型,可为 PC 应用程序开发者提供代理工作流。
  • Super: 高精度 模型,可在单个 GPU 上提供出色的吞吐量。
  • Ultra:高精度模型 ,专为要求高性能的数据中心级应用而设计。

其他适用于智能体 AI 系统的整合模型包括:

为模型对齐整理高质量数据 

高质量训练数据对于自定义 LLM 响应的准确性和质量至关重要,但稳健的数据集可能成本高昂且难以创建。

合成数据通过生成大规模数据来应对这些挑战,而这些数据可以通过进一步整理来提高质量。 NVIDIA NeMo Curator 通过大规模下载、提取、清理、过滤、重复数据消除和混合原始数据,帮助构建高质量的多模态训练数据。

最近发布的先进 NVIDIA Llama 3.1 Nemotron 70B Instruct 模型使用真实数据和合成数据、 NVIDIA Llama 3.1 Nemotron Reward 模型和 NeMo Aligner 根据人类偏好进行了调整。

在基准测试中实现出色的 LLM 准确性

NVIDIA 正在利用 Llama 系列、最受欢迎的开放模型和 NVIDIA 的定制技术,为各种代理 AI 任务 (包括指令遵循、工具调用、聊天、编码和数学运算) 构建最先进的准确性模型。

这些模型经过剪枝以降低延迟并提高计算效率,然后使用具有蒸馏的高质量数据集和对齐方法进行重新训练,以提高跨任务的准确性。这将产生较小的模型,具有较高的准确性和吞吐量。

用于 nvidia/Minitron-4B-Base 模型的 NVIDIA 剪枝和蒸馏技术具有教师校正步骤 , 该步骤可将任何模型转换为具有自定义训练数据的教师模型,然后进行结构化剪枝和知识蒸馏。有关更多信息,请参阅如何剪枝和蒸馏 Llama-3.1 8B 到 NVIDIA Llama-3.1-Minitron 4B 模型

使用 NeMo Aligner 的 NVIDIA 对齐 recipe 帮助该模型在指令跟随、函数调用和数学运算等智能体系统的基本功能方面实现了出色的 SOTA 准确性。

代理系统必须具备高效的计算能力,才能实时处理复杂的任务。但是,LLM 的大量计算需求可能会阻碍其在这些复杂系统中的部署,而这些系统却无法通过优化来仔细平衡性能和资源限制。克服这些挑战需要开发精简的硬件优化型模型架构,在保持高性能的同时,确保实用且可扩展的部署。

NVIDIA 最近开发了 神经架构搜索 (Neural Architecture Search, NAS) 方法和相关训练技术,用于创建专为高效推理优化的 Transformer 模型。

NAS 代表了一种变革性的方法,用于设计 LLM,以在特定硬件平台上优化性能。传统上,许多 LLM 都采用由重复相同的块组成的统一结构构建而成,而 NAS 通过探索广泛的设计空间和各种非标准 Transformer 块,提供了一种更加细致入微的方法:

  • 替代注意力机制
  • 具有不同效率水平的多样化前馈网络(FFN)块
  • 完全消除某些构建块

此方法的核心组件是块蒸馏,它通过使用师生框架来高效训练不同的块变体。教师模型提供输入 – 输出映射,学生块经过训练以进行模仿。

名为 Puzzle 的算法用于对替代建筑组件进行评估和排名,类似于组装一个谜题,其中每个组件代表不同的块变体。此过程可在广阔的设计空间中导航,以识别能够平衡准确性与内存和吞吐量等严格限制的模型。

The diagram shows the puzzle framework steps: creating the puzzle pieces, assembling the puzzle architecture, and uptraining.
图 2、益智框架
  1. 制作益智游戏: 并行将块级局部蒸馏应用于每种可替代的遮罩替代品,并对其质量和推理成本进行评分,以构建块库。
  2. 组装解谜架构: 使用混合整数编程组装异构架构,该架构可在吞吐量、延迟和内存使用等限制条件下优化质量。
  3. 上训练:重新组合的架构使用全局知识蒸馏进行训练,以增强块间兼容性。

通过在评分和训练过程中结合知识蒸馏(Knowledge Distillation, KD)损失,该方法可缩小优化模型与对应参考模型之间的准确性差距,同时所需的训练成本仅为一小部分。

在使用 NVIDIA NeMo Aligner 完成一系列高级微调步骤后,生成的模型可提供符合人类偏好的响应,在目标 NVIDIA GPU 上显著提高推理吞吐量,并在与代理工作负载相关的领域提供出色的性能。

NeMo Aligner 是一个可扩展的高效模型对齐工具包,具有先进的算法,例如从人类反馈中进行强化学习 (RLHF)、直接偏好优化 (DPO) 和 SteerLM。

这种方法导致了 Llama Nemotron Super 和 Llama Nemotron Ultra 模型的开发。

打开 LLM 

Llama Nemotron 模型提供了一种由 NVIDIA 开源许可证提供支持的商业上可行的解决方案,使企业能够定制这些模型,并在保持数据控制的同时满足其用例和需求。

开放式许可证还提供了在不同环境 (无论是本地、云端还是边缘) 中部署这些强大模型的灵活性,确保企业可以在最适合其运营需求和战略目标的环境中利用 Llama Nemotron 模型的优势。

入门指南 

借助适用于代理式 AI 的新 NVIDIA AI 蓝图,简化自定义 AI 智能体的开发和部署,这些智能体可以推理、规划并采取行动。

注册以在 新的 Llama Nemotron 模型 作为使用 API 端点的 NIM 微服务提供时接收有关这些模型的通知。它们可以从 NVIDIA NGC 和 Hugging Face 下载,也可以使用 NVIDIA NeMo 进行定制。

 

标签