生成式人工智能/大语言模型

全新 NVIDIA Llama Nemotron Nano 视觉语言模型在 OCR 准确性基准测试中位居榜首

PDF、图形、图表和控制面板等文档是丰富的数据源,在提取和整理时,可提供信息丰富的决策见解。从自动化财务报表处理到改进商业智能工作流程,智能文档处理正在成为企业 AI 解决方案的核心组成部分。

企业组织可以使用 NVIDIA Llama Nemotron Nano VL 加速 AI 开发流程。这种多模态视觉语言模型能够以高精度和高效率读取、理解和分析多种文档类型。

此生产就绪型模型为文档理解设定了新的基准,专为可扩展的 AI 智能体而设计,能够以无与伦比的速度从多模态文档中读取和提取见解,从而将视觉语言模型 (VLM) 引入企业数据处理的前沿。

隆重推出 Llama Nemotron Nano VL,实现出色的文档理解

Llama Nemotron Nano VL 是 NVIDIA Nemotron 系列的最新成员,是一种先进的 AI 模型,专为高级智能文档处理和理解而设计。此模型可作为 NVIDIA NIM API 提供,并可从 Hugging Face 下载,可在单个 GPU 上精确地从 PDF、图形、图表、表格、图表和控制面板等复杂文档中提取各种信息。

通过集成先进的多模态功能,Llama Nemotron Nano VL 在多图像理解方面表现出色,专注于智能文档处理,以确保企业能够从其业务文档中快速获得关键见解。

无论是回答问题、提取表格,还是理解图表等视觉元素,Llama Nemotron Nano VL 均经过优化,可处理各种文档级理解任务,包括:

  • 问答 (Q/A)
  • 文本和表格处理
  • 图表和图形解析
  • 信息图和图表解释

由于此模型注重效率,企业可以部署复杂的文档理解系统,而不会产生高昂的基础设施成本。

使用 VLM 实现高精度文档智能

 

 

OCRBench v2 基准测试数据集包含图 1 中的以下功能和相关任务。

Diagram showing eight testable text-reading capabilities in OCRBench v2. The figure maps each capability to its associated tasks, illustrating the distinct categories of text-reading skills evaluated by the benchmark.
图 1。OCRBenchV2 中八个文本阅读功能和任务的概述,每种颜色表示一种能力类型。图片来源:Chiang et al,LLM-as-a-Judge arXiv:2501.00321

基准测试结果:智能文档处理的新标准

Llama Nemotron Nano VL OCRBench V2 基准测试结果反映了 NVIDIA 开源模型的性能,这些模型由用于提供尖端 AI 技术的 NVIDIA 工具和专业知识增强。通过使用 NeMo Retriever Parse 数据自定义 Llama-3.1 8B,并添加 C-RADIO 视觉 Transformer,Llama Nemotron Nano VL 能够出色地解析文本,并从复杂的视觉布局中提取有意义的见解。通过结合这些技术,Llama Nemotron Nano VL 可提供高性能的智能文档处理,使其成为希望自动化和扩展文档处理操作的企业的强大工具。

The OCRBenchV2 leaderboard showing that Llama Nemotron Nano VL performs better than other models.
图 2OCRBenchV2 排行榜展示 Llama Nemotron Nano VL 在文本识别、文本引用和文本识别方面的表现

OCRBench v2 和 OCR 评估

OCRBench v2 是一个高级基准测试,用于测试 VLM 中的 OCR 和文档理解能力。其综合评估框架可确保模型在与真实企业用例产生共鸣的任务上接受严格测试,例如:

  • 发票和收据处理
  • 合规性文档分析
  • 合同和法律文件审查
  • 银行和财务报表自动化
  • 医疗健康和保险文档处理
  • 财务报告、趋势分析

OCRBench v2 的数据集包括 10000 个人工验证的问答对,用于对多种文档类型的模型性能进行细致入微的评估。OCRBench v2 涵盖 31 个真实场景,可确保在其上测试的模型能够应对企业文档处理工作流程中通常面临的各种复杂挑战。

基于出色 NVIDIA 研究打造的行业领先性能

首款 NVIDIA Nemotron VLM 是 NVIDIA 研究人员多年努力的成果。Llama Nemotron Nano VL 的行业领先性能得益于以下几个关键因素。

  • 用于文档智能的高质量数据,该数据基于 NeMo Retriever Parse (基于 VLM 的 OCR 解决方案) 构建。该模型提供文本和表格解析以及接地功能,使 Llama Nemotron Nano VL 能够在文档理解任务中达到行业领先水平。
  • 高质量的多模态数据集对于 Llama Nemotron Nano VL文档理解方面表现良好以及作为通用 VLM 发挥作用至关重要。为了将 VLM 泛化到现实世界,我们基于 VILA、Eagle 和 NVLM 研究团队开发的高质量数据集和工具而构建。
  •  
  • 基于 C-RADIO v2 视觉编码器的强大基础视觉编码。这是一款使用先进的多教师蒸馏技术开发的尖端视觉 Transformer 模型。这种方法结合了多个领先 AI 模型的优势,创建了一个高效而强大的系统,擅长理解复杂的视觉内容。C-RADIO v2 旨在处理高分辨率图像、图表、图表和表格 (即使质量各不相同) ,确保从复杂文档中可靠地提取视觉信息。

Llama Nemotron Nano VL 在文本识别和视觉推理等任务中表现出色,并展示了先进的图表理解能力。在面向文档的关键任务 (如图表理解、图表推理和 OCR) 中,它超越了同类 VLM,凸显了其在复杂文档分析中的强大性能。对于企业而言,这意味着更快、更准确地大规模处理文档。

Llama Nemotron Nano VL 的出色智能文档处理用例

Llama Nemotron Nano VL 专为需要深入理解众多行业文档的用例而设计。无论您的目标是实现文档处理自动化还是增强业务分析,此模型都能提供构建生产就绪型解决方案所需的性能。

Key use cases include:

使用案例 先进智能文档处理的影响
发票和收据处理 自动从发票和收据中提取关键数据点,如细列项目、总额和日期,用于会计、费用管理和企业资源规划 (ERP) 集成。
合规性和身份文件分析 从护照、ID 卡和报税表等文档中提取结构化数据,以了解您的客户 (KYC) 并确保合规性。
合同和法律文件审查 解析合同和法律协议,以确定风险评估和合同管理的关键条款、义务和日期。
医疗健康和保险自动化 处理医疗记录和保险表格,以提取患者数据、索赔信息以及医疗健康管理和保险索赔的政策详情。
客服 汇总图表和控制面板,从长产品手册中提取正确的内容,解释装配步骤,并将文本与控制面板中的图表等可视化功能关联起来。
科技文档解析 从科学论文和技术报告中提取表格、图表和公式,为研究和知识管理提供帮助。
银行和财务报表自动化 自动从银行对账单、抵押表格和薪酬存根中提取数据,用于财务分析和贷款处理。
零售目录管理 汇总图表和控制面板,从长产品手册中提取正确的内容,解释装配步骤,并将文本与控制面板中的图表等可视化功能关联起来。

开始使用 Llama Nemotron Nano VL

Llama Nemotron Nano VL 的发布代表着智能文档处理的重大突破,为开发者提供了大规模自动化文档处理所需的工具。凭借 OCRBench v2 上突破基准的性能、先进的 VLM 功能和行业领先的效率,该模型是希望在文档工作流中利用 AI 的企业的理想解决方案。

build.nvidia.com 上探索 NIM API 预览,开始将 Llama Nemotron Nano VL 用于您自己的 AI 应用。

 

 

标签