代理式 AI 的迅速崛起,正在重塑企业、开发者以及整个行业对自动化与数字生产力的认知。从软件开发流程到企业级任务编排,AI 智能体正逐步深入企业的核心运营,在诸多曾因重复性工作而效率受限的领域提供日益显著的支持。
其中大多数智能体高度依赖大语言模型(LLM)。LLM 通常因其较强的通用推理能力、语言流畅性以及支持开放式对话的特点而广受认可。然而,当它们被嵌入智能体系统时,未必始终是效率最高或成本最优的选择。在我们近期发表的立场文件中,探讨了小语言模型(SLM)在代理式 AI 中所扮演角色的若干观察。我们认为,小语言模型正成为推动代理式 AI 发展的重要力量,并重点分析了在代理类应用中以 SLM 替代 LLM 所带来的显著优势,包括降低部署成本、提升运行效率以及增强运营灵活性等方面的潜力。我们发表的文章标题为 小语言模型是代理式 AI 的未来,其中我们强调了在代理应用中用 SLM 替代 LLM 的日益增长的机会,这些机会不仅降低了成本,还提高了操作灵活性。
我们的立场并非否定大语言模型(LLM)在智能体环境中的作用。相反,我们强调的是异构生态系统的兴起:其中小语言模型(SLM)承担核心的运行任务,而LLM则被保留在其通用能力不可替代的场景中使用。
这条未来之路并非凭空设想,NVIDIA 已推出一套完整的产品组合,涵盖开放的 NVIDIA Nemotron 推理模型,以及用于管理整个 AI 智能体生命周期的 NVIDIA NeMo 软件套件。企业借助这些工具,能够构建异构的 AI 模型系统:一方面为核心工作负载部署经过微调的小型语言模型(SLM),另一方面利用大型语言模型(LLM)处理偶尔执行的多步骤战略任务。这种协同方法可显著降低功耗与成本,从而提升整体效率与成果。
为什么 SLM 有利于代理式 AI 任务?
小语言模型非常适合代理时代,因为它们在执行单一语言模型任务时,仅需运用大语言模型的部分功能。大语言模型虽设计为通用型多面手,但大多数智能体实际上只使用其功能的一个子集。
它们通常负责解析命令、生成结构化输出(例如用于工具调用的 JSON)、或生成摘要并回答与上下文相关的问题。这些任务具有一定的重复性(取决于提示内容的变化)、可预测性以及高度的专业性,完全在专用小型语言模型(SLM)的能力范围之内。相比之下,用于处理开放域对话的大语言模型(LLM)在此类场景中显得过于复杂,容易造成计算资源和成本的浪费。
相比之下,针对少数特定代理任务进行微调的小型语言模型可能更加可靠、不易产生幻觉,且运行更快、成本更低。换句话说,代理式 AI 不需要功能繁杂的瑞士军刀,而只需一把精良趁手的工具。
同样值得注意的是,小语言模型并非大语言模型中能力较弱的版本。在常识推理、工具调用和指令遵循等特定基准测试中,较新的小语言模型表现优异,性能可与规模更大的大语言模型相媲美,甚至在某些方面更胜一筹。
例如,近期推出的 NVIDIA Nemotron Nano 2 展现了在代理式 AI 中高性能小型语言模型(SLM)的巨大潜力。这款拥有 90 亿参数的开源 Mamba-Transformer 混合架构模型,在降低内存占用的同时,实现了更高的准确率。在推理、代码生成和指令遵循等关键基准测试中,其吞吐量达到同类模型的 6 倍。Nemotron Nano 2 专为实际代理工作负载设计,支持长达 12.8 万个令牌的上下文长度,并针对单个 GPU 进行了性能优化。其开放的模型权重和详尽的文档,也更好地满足了企业级应用的需求。

小模型在各项基准测试中的表现虽不及大语言模型,但用户可根据智能体的实际需求选择合适的小型模型作为起点,并通过微调进一步提升其性能。借助混合架构、知识蒸馏以及检索增强等技术创新,小型模型已展现出处理多数子任务的能力。这在一定程度上挑战了以往“只有大规模模型才能在代理式 AI 环境中实现可靠表现”的传统观点。

切换到 SLM 后,效率显著提升。运行 Llama 3.1 B SLM 的成本可能比同代高性能模型 Llama 3.3 405B 低 10 到 30 倍,具体差异取决于架构细节和典型查询的参数配置。
SLM 能够提供实时响应,且无需满足前沿大模型所需的复杂并行化条件,因此更适用于云端和边缘端的部署。微调的灵活性也是一大优势:在 SLM 上添加新技能或修正行为仅需数个 GPU 小时即可完成,而 LLM 的微调则往往需要耗费数天甚至数周时间。
借助 NVIDIA ChatRTX 等边缘部署技术,小型语言模型(SLM)可在消费级 GPU 上实现本地运行,兼顾隐私保护与低延迟推理。这不仅有助于降低成本,更关乎可扩展性、可持续性以及技术的普及。更轻量的模型使更多组织能够参与开发智能代理型 AI,推动创新在各行业的广泛渗透。
小语言模型的关键优势在于其灵活性与一致性。它们更易于进行微调,以满足严格的格式和行为规范,这对于需要每次工具调用和代码交互都精确匹配特定模式的智能体工作流尤为重要。大型语言模型有时可能出现偏差,生成格式不正确的输出,而经过训练、始终以固定格式响应的小语言模型则不会出现此类问题,因为它仅掌握这一种输出方式。
这种可靠性直接转化为生产系统中更少的故障环节。此外,代理式系统本质上具有异构性,完全可以采用一个智能体整合多个专用小语言模型(SLM),并根据需要调用大语言模型(LLM)。这种模块化的方法——为特定子任务选用适当规模的模型——更符合智能体分解复杂问题的逻辑。
LLM 在异构 AI 架构中的新作用
这并不意味着大语言模型(LLM)已经过时。在需要开放式、类人对话,跨领域的抽象与迁移,或涉及复杂多步骤问题求解且子任务难以清晰拆分的场景中,其通用推理能力依然具有无可比拟的优势。在实际应用中,未来将呈现异构化趋势:小型语言模型(SLM)负责处理大量操作性子任务,并在必要时选择性调用 LLM 来应对超出自身能力范围的挑战。可以将 SLM 视作数字工厂中的熟练工人——高效、专注且可靠;而 LLM 则如同随时待命的專家顧問,在需要广博知识或与外部环境进行灵活互动时提供支持。
为什么企业没有更广泛地使用 SLM?
如果小语言模型(SLM)具有显著优势,为何大多数智能体仍高度依赖大语言模型(LLM)?我们推测,这种障碍更多源于认知偏差或组织文化,而非技术本身的局限。转向支持 SLM 的架构,需要有意识地转变思维方式。尽管代理类工作负载往往需要不同的评估标准,但当前 SLM 的研究仍普遍沿用通用基准。此外,LLM 更常占据媒体头条,获得广泛关注。然而,随着支持 SLM 的系统在降低成本和提升可靠性方面展现出强大潜力,这一趋势正变得不可逆转。这种转变或将重现过去计算领域的重要演进,例如从单一服务器向云原生微服务架构的过渡。
如何将 SLM 添加到智能体架构中
对于计划将小型语言模型(SLM)引入智能体架构的组织而言,实施流程清晰且易于执行。首先,收集智能体的使用数据,识别出重复频率较高的任务。随后对数据进行清洗,去除敏感信息,并构建合适的训练数据集。将任务按类型分类,例如解析、摘要或代码生成,并据此匹配适合的候选 SLM。最后,采用 LoRA 或 QLoRA 等高效微调技术,对模型进行优化,使其在特定任务上具备高度专业化的能力。
随着时间的推移,这一过程不断重复,通过将越来越多的子任务交由成本更低、速度更快的小型语言模型(SLM)处理,持续优化智能体的性能。由此,原本完全依赖大语言模型(LLM)的智能体,可逐步演变为以 SLM 为核心支持的模块化系统。
对从业者而言,一个令人振奋的消息是,实现这一转变的工具现已触手可及。NVIDIA NeMo 提供了端到端的软件解决方案,可用于管理数据、定制与评估模型、保障代理响应的安全性与可靠性,并对基于代理的 AI 系统进行监控与优化。不久之后,任何组织中的非技术背景人员都将能够轻松搭建并部署异构系统,从而提升工作流程效率。希望以负责任的方式控制成本、提升效率并实现规模化的企业,现在即可着手探索异构系统的应用。
结论:异构系统优势
对代理式 AI 系统的需求正在快速演变。当前的小型语言模型凭借模块化、工具驱动的设计架构,能够高效融入各类系统,为广泛的常规与专业工作负载提供了强大的功能、准确性和运行效率。然而,随着 AI 应用需求持续增长,完全依赖大语言模型来支撑每个工作流程,在成本和效率方面正面临显著挑战。
相反,大型模型更适合作为专家资源,有选择性地应用于应对复杂挑战。采用异构模型系统的企业将获得显著优势:降低运营成本、加速结果产出,以及实现更广泛、更灵活的代理式AI部署。一个更加开放、模块化和普及化的企业自动化时代,正始于小型语言模型的集成。
了解更多详情:
- 阅读我们的 论文.
- 详细了解 NVIDIA NeMo Customizer、NVIDIA Data Flywheel Blueprint 和 NVIDIA NeMo Curator.
- 通过订阅 NVIDIA 新闻 并在 LinkedIn、X、Discord 和 YouTube 上关注 NVIDIA AI,及时了解 NVIDIA Nemotron。
- 访问我们的 Nemotron 页面,获取开始使用更开放、更智能的每计算推理模型所需的所有基础知识。
- 在 Hugging Face 和 NIM 微服务 以及 Blueprints 上探索 build.nvidia.com 上的新开放 Nemotron 模型和数据集。
- 收听即将推出的 Nemotron 直播,并通过 Nemotron 开发者论坛 和 Discord 上的 Nemotron 频道 与 NVIDIA 开发者社区建立联系。
- 浏览 视频教程和直播,充分利用 NVIDIA Nemotron。