代理式 AI 是一个由专门的语言模型与视觉模型协同工作的生态系统,负责规划、推理、信息检索以及安全防护。
开发者需要专用的 AI 智能体 来处理特定领域的工作流、现实世界的部署以及合规性要求。构建专业 AI 需具备四个关键要素:可微调的开源模型、高质量的数据集、提升模型准确率与计算效率的方法,以及支持大规模部署的高效推理能力。
在 NVIDIA GTC DC 大会上,我们将推出涵盖推理、视觉语言、检索增强生成(RAG)以及安全模型的技术,这些模型具备开放的数据与方法,兼顾准确性、计算效率与开放性。
此博客介绍了如何利用全新的 Nemotron 模型构建多模态智能体,涵盖 RAG 工作流的实现、内容安全的 AI 功能,以及相关性能分析与实践教程。
借助 NVIDIA Nemotron Nano 3,智能体可实现高效思考
NVIDIA Nemotron Nano 3 是一款高效且精准的 32B 参数 MoE 模型,包含 36 亿个激活参数,专为开发者构建专用代理式 AI 系统而设计。该模型即将发布,相较于同规模的密集模型,具备更高的吞吐量,能够探索更广阔的搜索空间,实现更有效的自我反思,并在科学推理、编程、数学以及工具调用等基准测试中展现出更优的准确性。此外,得益于 MoE 架构,该模型还能显著降低计算成本与延迟。
借助 NVIDIA Nemotron Nano 2 VL 实现多模态理解与推理能力的增强
NVIDIA Nemotron Nano 2 VL,是 OCRBenchV2 上表现优异的模型,是一款面向文档智能与视频理解的开源 12B 多模态推理模型。该模型使 AI 助手能够高效提取、解析并处理文本、图像、表格及视频中的信息,适用于专注于数据分析、文档处理和视觉理解的智能体。其能力可广泛应用于生成报告、管理视频内容,以及为媒体资产管理与检索增强搜索提供密集字幕支持。
该视觉语言模型(VLM)采用混合的 Mamba-Transformer 架构,兼具出色的准确性、高 token 吞吐量与低延迟,能够高效支持大规模推理任务。模型在 Nemotron VLM Dataset V2 上进行训练,该数据集包含超过 1100 万个高质量样本,覆盖图像问答、OCR、密集字幕、视频问答以及多图像推理等多种任务。深入了解该数据集。我们采用 FP8 技术以提升处理速度,并结合上下文并行机制来有效处理更长的输入,从而增强在视频分析和长文档处理等任务中的效率与准确性。
该模型引入了高效视频采样(EVS)方法,能够识别并剪除视频序列中的静态片段。EVS 有效减少了 token 冗余,同时保留了关键语义信息,使模型可以处理更长的视频片段,并更快地输出结果。
该模型支持 FP4、FP8 和 BF16 量化,由 vLLM 和 TRT-LLM 推理引擎提供支持,并以 NVIDIA NIM 的形式交付。开发者可利用 NVIDIA AI Blueprint 实现视频搜索与摘要(VSS),用于分析长视频内容,同时可通过 NVIDIA NeMo 整理多模态数据集,自定义或构建专属模型。 技术报告还为开发者提供了基于 Nemotron 技术构建自定义优化模型的指导。
使用 NVIDIA Nemotron Parse 1.1 增强文档智能处理能力
我们还将推出 NVIDIA Nemotron Parse 1.1,这是一款基于 10 亿参数视觉语言模型(VLM)的紧凑型文档解析器,旨在提升文档智能处理能力。在输入图像的情况下,该模型能够提取带有边界框和语义类别的结构化文本与表格,从而支持各类下游应用,例如提升检索器的准确性、丰富大语言模型(LLM)的训练数据,以及优化文档处理工作流。
Nemotron Parse 能够全面理解文本、表格和布局,适用于检索器和 Curator 工作流。其提取的数据集和结构化输出可用于支持 LLM 和 VLM 的训练,并在运行时提升 VLM 的推理准确性。
具备开放 RAG 模型的 Ground 智能体
NVIDIA Nemotron RAG 是一套用于构建 RAG 工作流和实现实时业务洞察的模型。它保障数据隐私,支持跨环境安全连接至专有数据,满足企业级检索需求。作为 NVIDIA AI-Q 和 NVIDIA RAG Blueprint 的核心组件,Nemotron RAG 为基于检索的智能 AI 应用提供了可扩展且面向生产的坚实基础。
它支持开发多种应用,涵盖从实现复杂目标的多智能体系统(具备感知、规划与行动能力的 AI 智能体),到由专用大语言模型驱动的生成式 Co-pilot(用于协助 IT 支持、人力资源运营和客户服务)。此外,它还支持 AI 助手利用企业数据及摘要工具,与开发者进行自然交互,以生成书面报告或视觉媒体亮点。
嵌入模型在 ViDoRe 和 MTEB(用于视觉和多模态检索)、MMTEB(用于多语种文本检索)等业界排行榜上表现优异,非常适用于构建高效的 RAG 工作流。新模型现已在 Hugging Face 上发布。
借助 Llama 3.1 Nemotron 安全守护机制提升 AI 安全性
随着开发者构建具备自主推理、信息检索与行动能力的代理式 AI 系统,确保安全性对于防范有害或意外行为变得至关重要。由于大语言模型可能被滥用、产生不安全的输出,或在非英语语境中忽视文化细微差异,因此,建立可靠的审核机制对于实现负责任的开发尤为关键。
新的 Llama 3.1 Nemotron Safety Guard 8B V3 是一个多语言内容安全模型,基于 Nemotron Safety Guard 数据集 进行微调。该数据集具有丰富的文化多样性,包含超过 38.6 万个样本,覆盖 23 个区域适配的安全类别,每个类别均包含对抗性提示和越狱提示的示例。
该模型能够检测 23 个安全类别以及 9 种语言(如阿拉伯语、印地语和日语)的提示与响应中不安全或违反政策的内容。图 4 展示了该模型在不同语言上的性能对比情况。
该模型在极低延迟的情况下实现了 84.2% 的有害内容分类准确率,如图 5 所示。其性能得益于两项新技术:1) 由大语言模型驱动的文化适应性,使提示和响应与当地习语及敏感性保持一致;2) 一致性过滤机制,可剔除噪声或未对齐的样本,从而支持高质量的微调。
它重量轻,可部署在单个 GPU 上,或作为 NVIDIA NIM 使用,并与 NeMo Guardrails 集成,能够在代理式 AI 工作流中实现高效、多语种的实时内容安全。欢迎在 HuggingFace 或 build.nvidia.com 上探索模型与数据集,开启构建更安全、全球一致的 AI 系统之旅。
使用 NVIDIA NeMo 评估模型并优化 AI 智能体
为确保可靠地测量大语言模型(LLM)的功能,NVIDIA 推出了开源的 NeMo Evaluator SDK。该 SDK 支持可重现的基准测试,使开发者能够更加信任实际性能表现,而不仅依赖于报告的分数。
现在,NeMo Evaluator 还可通过支持 ProfBench(一个用于评估代理式 AI 行为的基准套件,涵盖多步骤推理和工具使用情况),在动态交互式工作流中对模型进行评估。
通过开源的标准化评估设置,开发者能够在一致的条件下对模型性能进行基准测试、输出验证及模型比较。
NeMo Agent Toolkit 是一个开源框架,与 MCP 等行业标准集成,并兼容其他主流框架,如语义内核、Google ADK、LangChain 和 CrewAI。该工具包新增的 Agent Optimizer 功能可自动调整关键超参数(如 LLM 类型、温度、最大 tokens),并针对准确性、接地性、延迟、token 使用率以及自定义指标进行优化。这一功能有助于减少试错过程,加快智能体、工具及工作流程的开发进度。
立即体验我们的 GitHub Notebook。
立即开始使用 Nemotron 构建您的 AI 应用
在这篇博文中,我们介绍了 Nemotron 系列的最新成员,并分享了一些可能的应用示例。
首先,请从 Hugging Face 下载 Nemotron 模型及相关数据集。
Nemotron Nano 2 VL 由 Baseten、Deep Infra、Fireworks、Hyperbolic、Nebius 和 Replicate 等推理服务商提供支持,为代理式 AI 从开发到生产提供了高效路径。
您还可以通过 build.nvidia.com 和 OpenRouter 评估 NVIDIA 托管的 API 端点。
通过订阅 NVIDIA 新闻并关注 NVIDIA AI 的LinkedIn、X、Discord和YouTube平台,及时获取 NVIDIA Nemotron的最新动态。
- 分享您的想法,并为影响 Nemotron 未来发展的功能投上一票。
- 关注即将上线的 Nemotron 直播,通过 Nemotron 开发者论坛及 Discord 上的 Nemotron 频道,与 NVIDIA 开发者社区建立连接。
- 浏览 视频教程与直播内容,充分发掘 NVIDIA Nemotron 的潜力。