NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
代理式 AI/生成式 AI

利用 NVIDIA Nemotron Vision、RAG 和 Guardrail 新模型开发专用 AI 智能体


代理式 AI
是一个由专门的语言模型与视觉模型协同工作的生态系统,负责规划、推理、信息检索以及安全防护。

开发者需要专用的 AI 智能体 来处理特定领域的工作流、现实世界的部署以及合规性要求。构建专业 AI 需具备四个关键要素:可微调的开源模型、高质量的数据集、提升模型准确率与计算效率的方法,以及支持大规模部署的高效推理能力。

在 NVIDIA GTC DC 大会上,我们将推出涵盖推理、视觉语言、检索增强生成(RAG)以及安全模型的技术,这些模型具备开放的数据与方法,兼顾准确性、计算效率与开放性。

此博客介绍了如何利用全新的 Nemotron 模型构建多模态智能体,涵盖 RAG 工作流的实现、内容安全的 AI 功能,以及相关性能分析与实践教程。

The image shows the new NVIDIA Nemotron models launched at GTC DC. This includes models for document intelligence, video understanding, multilingual content safety, and information retrieval.
图 1。用于文档智能、视频理解、多语种内容安全及信息检索的新型 Nemotron 模型

借助 NVIDIA Nemotron Nano 3,智能体可实现高效思考

NVIDIA Nemotron Nano 3 是一款高效且精准的 32B 参数 MoE 模型,包含 36 亿个激活参数,专为开发者构建专用代理式 AI 系统而设计。该模型即将发布,相较于同规模的密集模型,具备更高的吞吐量,能够探索更广阔的搜索空间,实现更有效的自我反思,并在科学推理、编程、数学以及工具调用等基准测试中展现出更优的准确性。此外,得益于 MoE 架构,该模型还能显著降低计算成本与延迟。

借助 NVIDIA Nemotron Nano 2 VL 实现多模态理解与推理能力的增强

NVIDIA Nemotron Nano 2 VL,是 OCRBenchV2 上表现优异的模型,是一款面向文档智能与视频理解的开源 12B 多模态推理模型。该模型使 AI 助手能够高效提取、解析并处理文本、图像、表格及视频中的信息,适用于专注于数据分析、文档处理和视觉理解的智能体。其能力可广泛应用于生成报告、管理视频内容,以及为媒体资产管理与检索增强搜索提供密集字幕支持。

视频 1:构建用于文档与视频智能的多模态 AI 智能体,基于 NVIDIA Nemotron VLM

该视觉语言模型(VLM)采用混合的 Mamba-Transformer 架构,兼具出色的准确性、高 token 吞吐量与低延迟,能够高效支持大规模推理任务。模型在 Nemotron VLM Dataset V2 上进行训练,该数据集包含超过 1100 万个高质量样本,覆盖图像问答、OCR、密集字幕、视频问答以及多图像推理等多种任务。深入了解该数据集。我们采用 FP8 技术以提升处理速度,并结合上下文并行机制来有效处理更长的输入,从而增强在视频分析和长文档处理等任务中的效率与准确性。

The bar chart shows accuracy of Nemotron Nano VL and Nemotron Nano 2 VL models across visual benchmarks for multi-image understanding, document intelligence, and video captioning.
图 2。Nemotron Nano 2 VL 提升了视觉基准测试的准确性,适用于多图像理解、文档智能与视频字幕任务。

该模型引入了高效视频采样(EVS)方法,能够识别并剪除视频序列中的静态片段。EVS 有效减少了 token 冗余,同时保留了关键语义信息,使模型可以处理更长的视频片段,并更快地输出结果。

The line graph shows accuracy of two video benchmarks across various levels of tokens dropped with EVS. The graphs stay largely flat in terms of accuracy and slope down slightly after 50% token drops.
图 3。EVS 使 Nemotron Nano 2 VL 能够在保持准确性的同时,实现高达 2.5 倍的吞吐量提升。

该模型支持 FP4FP8BF16 量化,由 vLLM 和 TRT-LLM 推理引擎提供支持,并以 NVIDIA NIM 的形式交付。开发者可利用 NVIDIA AI Blueprint 实现视频搜索与摘要(VSS),用于分析长视频内容,同时可通过 NVIDIA NeMo 整理多模态数据集,自定义或构建专属模型。 技术报告还为开发者提供了基于 Nemotron 技术构建自定义优化模型的指导。

使用 NVIDIA Nemotron Parse 1.1 增强文档智能处理能力

我们还将推出 NVIDIA Nemotron Parse 1.1,这是一款基于 10 亿参数视觉语言模型(VLM)的紧凑型文档解析器,旨在提升文档智能处理能力。在输入图像的情况下,该模型能够提取带有边界框和语义类别的结构化文本与表格,从而支持各类下游应用,例如提升检索器的准确性、丰富大语言模型(LLM)的训练数据,以及优化文档处理工作流。

he bar chart shows accuracy comparison of Nemotron Parse 1.1 with a leading open popular model. The Nemotron model delivers significant accuracy improvements on PubTabNet benchmark, designed to evaluate image-based table recognition.
图 4。Nemotron Parse 1.1 在 PubTabNet 基准测试中展现出卓越的准确性,适用于基于图像的表格识别。

Nemotron Parse 能够全面理解文本、表格和布局,适用于检索器和 Curator 工作流。其提取的数据集和结构化输出可用于支持 LLM 和 VLM 的训练,并在运行时提升 VLM 的推理准确性。

具备开放 RAG 模型的 Ground 智能体

NVIDIA Nemotron RAG 是一套用于构建 RAG 工作流和实现实时业务洞察的模型。它保障数据隐私,支持跨环境安全连接至专有数据,满足企业级检索需求。作为 NVIDIA AI-QNVIDIA RAG Blueprint 的核心组件,Nemotron RAG 为基于检索的智能 AI 应用提供了可扩展且面向生产的坚实基础。

它支持开发多种应用,涵盖从实现复杂目标的多智能体系统(具备感知、规划与行动能力的 AI 智能体),到由专用大语言模型驱动的生成式 Co-pilot(用于协助 IT 支持、人力资源运营和客户服务)。此外,它还支持 AI 助手利用企业数据及摘要工具,与开发者进行自然交互,以生成书面报告或视觉媒体亮点。

嵌入模型在 ViDoReMTEB(用于视觉和多模态检索)、MMTEB(用于多语种文本检索)等业界排行榜上表现优异,非常适用于构建高效的 RAG 工作流。新模型现已在 Hugging Face 上发布。

视频 2:构建具备信息检索功能的自定义 AI 智能体,基于 NVIDIA Nemotron RAG 开发

借助 Llama 3.1 Nemotron 安全守护机制提升 AI 安全性

随着开发者构建具备自主推理、信息检索与行动能力的代理式 AI 系统,确保安全性对于防范有害或意外行为变得至关重要。由于大语言模型可能被滥用、产生不安全的输出,或在非英语语境中忽视文化细微差异,因此,建立可靠的审核机制对于实现负责任的开发尤为关键。

新的 Llama 3.1 Nemotron Safety Guard 8B V3 是一个多语言内容安全模型,基于 Nemotron Safety Guard 数据集 进行微调。该数据集具有丰富的文化多样性,包含超过 38.6 万个样本,覆盖 23 个区域适配的安全类别,每个类别均包含对抗性提示和越狱提示的示例。

该模型能够检测 23 个安全类别以及 9 种语言(如阿拉伯语、印地语和日语)的提示与响应中不安全或违反政策的内容。图 4 展示了该模型在不同语言上的性能对比情况。

Bar chart comparing Llama 3.1 Nemotron Safety Guard’s performance across multiple languages.
图 5。Llama 3.1 Nemotron 安全防护模型在不同语言间的性能比较

该模型在极低延迟的情况下实现了 84.2% 的有害内容分类准确率,如图 5 所示。其性能得益于两项新技术:1) 由大语言模型驱动的文化适应性,使提示和响应与当地习语及敏感性保持一致;2) 一致性过滤机制,可剔除噪声或未对齐的样本,从而支持高质量的微调。

Bar chart showing average scores of 4 safety models being tested across 8 datasets, 23 safety categories, and 8 languages and their average harmful content classification accuracy.
图 6。在 8 个数据集的基准测试中,Llama 3.1 Nemotron Safety Guard 模型于 23 个安全类别中展现出卓越的性能。

它重量轻,可部署在单个 GPU 上,或作为 NVIDIA NIM 使用,并与 NeMo Guardrails 集成,能够在代理式 AI 工作流中实现高效、多语种的实时内容安全。欢迎在 HuggingFacebuild.nvidia.com 上探索模型与数据集,开启构建更安全、全球一致的 AI 系统之旅。

视频 3。利用具备文化感知能力的 Nemotron Safety Guard 为 AI 驱动的 LLM 护栏提供支持

使用 NVIDIA NeMo 评估模型并优化 AI 智能体

为确保可靠地测量大语言模型(LLM)的功能,NVIDIA 推出了开源的 NeMo Evaluator SDK。该 SDK 支持可重现的基准测试,使开发者能够更加信任实际性能表现,而不仅依赖于报告的分数。

现在,NeMo Evaluator 还可通过支持 ProfBench(一个用于评估代理式 AI 行为的基准套件,涵盖多步骤推理和工具使用情况),在动态交互式工作流中对模型进行评估。

通过开源的标准化评估设置,开发者能够在一致的条件下对模型性能进行基准测试、输出验证及模型比较。

NeMo Agent Toolkit 是一个开源框架,与 MCP 等行业标准集成,并兼容其他主流框架,如语义内核、Google ADK、LangChain 和 CrewAI。该工具包新增的 Agent Optimizer 功能可自动调整关键超参数(如 LLM 类型、温度、最大 tokens),并针对准确性、接地性、延迟、token 使用率以及自定义指标进行优化。这一功能有助于减少试错过程,加快智能体、工具及工作流程的开发进度。

立即体验我们的 GitHub Notebook

立即开始使用 Nemotron 构建您的 AI 应用

在这篇博文中,我们介绍了 Nemotron 系列的最新成员,并分享了一些可能的应用示例。

首先,请从 Hugging Face 下载 Nemotron 模型及相关数据集。

Nemotron Nano 2 VL 由 BasetenDeep InfraFireworksHyperbolicNebiusReplicate 等推理服务商提供支持,为代理式 AI 从开发到生产提供了高效路径。

您还可以通过 build.nvidia.comOpenRouter 评估 NVIDIA 托管的 API 端点。

通过订阅 NVIDIA 新闻并关注 NVIDIA AI 的LinkedInXDiscordYouTube平台,及时获取 NVIDIA Nemotron的最新动态。

 

 

标签