企业在研究报告、业务合同、财务报表和技术手册等文档中生成并存储大量非结构化数据。传统的光学字符识别 (OCR) 技术难以处理复杂的布局、结构变化以及保持页面之间的连续性,因此,从这些数据中提取有意义的见解仍然是一项挑战。
准确地对页眉、页脚和正文内容等页面元素进行分类对于保留多页文档的结构至关重要。表格、图表和数学公式以及嵌套内容也需要超越基本文本识别的结构理解。此外,从大型报告到格式化信件,各种文档密度进一步加大了 OCR 处理的难度。这些挑战凸显了对布局感知智能模型的需求,这些模型能够理解文档并可靠地大规模保留含义、结构和阅读顺序。
基于 Transformer 的 VLM,用于高精度文档理解
NVIDIA NeMo Retriever Parse 解决了 OCR 技术的不足。NeMo Retriever Parse 是一个基于尖端视觉语言模型 (VLM) 技术构建的优化模型,旨在解决文档智能中最难处理的方面。
它提供高级文本和表格提取,以及具有空间基础的文档语义理解,将结构化和非结构化文档转换为可操作的数据。它是 NeMo Retriever 微服务系列的一部分,用于构建具有高准确性和最大数据隐私的多模态摄取和检索工作流。
NeMo Retriever Parse 核心是一个基于 Transformer 的视觉编码器-解码器模型,专为高精度文档理解而设计。其 VLM 架构能够在保留文档布局、语义类别和阅读顺序的同时,无缝提取结构化文本。
主要功能包括:
- 按阅读顺序准确提取文本和公式。
- 文档元素的空间定位和分类,例如标题、章节标题、文本、列表项、页眉、页脚、标题、表格、图形、公式、参考文献、目录和脚注。
- 支持纯文本和 markdown 输出格式。
- 与企业检索工作流无缝集成,提高可搜索性和组织性。
通过将原始文档与智能 AI 驱动的处理相结合,NeMo Retriever Parse 可以改善企业和研究人员与数据交互的方式。
转变文档 AI 以增强下游检索流程
数字世界需要结构化知识才能蓬勃发展。无论是科学研究、法律合同还是企业报告,文档智能对于信息可访问性和决策制定都至关重要。NeMo Retriever Parse 通过以下方式改变文档 AI:
- 提高检索准确性:通过准确地对文档组件进行分类和分割,增强检索流程。NeMo Retriever Parse 使用边界框来保留文档布局并对内容类型(例如标题、段落、标题)进行分类,从而确保结构化、上下文感知的文本提取。
- 结构化内容提取:通过高质量的结构化文本提取提高大语言模型 (LLM) 和 VLM 的准确性。NeMo Retriever Parse 通过准确提取和格式化语义丰富的文本、表格和结构元素等内容,丰富训练数据集和推理工作流。
- 使用多模态智能处理文档:PDF、PowerPoint 演示文稿等文件格式,为 AI 驱动的文本、表格知识提取和文档特征理解带来新的效率。
技术概述
该模型基于视觉 Transformer(ViT-H)视觉编码器和基于 mBART 的解码器构建而成,在效率和准确性方面经过优化。以下是其独特之处:
模型架构
NeMo Retriever Parse 是一个 9 亿参数模型,使用 6 亿参数 ViT-H 模型对视觉元素进行编码,并使用基于 2.5 亿参数 mBART 的解码器,该解码器针对效率和准确性进行了优化。主要架构功能包括:
- NVIDIA C-RADIO 框架,用于高性能视觉语言建模。
- 自适应压缩层,将潜在空间从 13,184 个 token 减少到 3,200 个 token。
- 用于结构化文本重建的 10 块 mBART transformer 解码器。
- 基于 Galactica 的 Tokenizer,用于高质量文档标记化。
与其他依赖轻量级编码器和重型解码器的方法不同,NeMo Retriever Parse 使用重型视觉编码器和轻型解码器。这使模型能够深入理解复杂的文档布局和语义,从而以自回归的方式实现快速、高效的提取。

Tokenization
Nemo Retriever Parse 采用端到端方法,通过使用 VLM 架构集成文本提取、布局分析和语义分类,从而与传统文档处理流程区分开来。
其关键技术创新是统一的标记化方案。专门针对文本领域的底层分词器通过专用特殊 token 进行增强,使 NeMo Retriever Parse 不仅能够表示提取的文本,还能表示相应的边界框坐标和语义类别。
这些空间(<x_{coordinate}>、<y_{coordinate}>)token 代表相对于输入图像尺寸的规范化网格内预测的离散坐标,而语义(<class_{category}>)token 则根据文档的规范阅读流顺序直接交错在输出序列中。这使得 NeMo Retriever Parse 能够生成包含文本、空间和语义信息的丰富结构化输出流,从而摆脱多阶段或单独输出的方法。</class_{category}></y_{coordinate}></x_{coordinate}>
训练
NeMo Retriever Parse 的训练采用两步式方案,旨在培养其多功能能力。首先,它在 arXiv-5M 上进行大规模预训练,arXiv-5M 是一个提供丰富注释(格式化文本、边界框、语义类别)的高信息数据集。
接下来,在 arXiv-5M、人工注释样本和通常只有部分注释的公开数据集等各种语料库上进行微调。微调期间的策略融合至关重要:基于数据集标注可用性动态调整提示控制的目标输出格式(例如,仅文本、文本+bbox、文本+bbox+类别)。这可以训练模型处理不同的信息密度要求,提高不同文档和输出规格的鲁棒性。
最后,多 token 训练 (MTT) 也被集成。通过训练解码器来预测每一步的“n”个后续 token,这种方法迫使模型的内部表示开发出更强大的预测状态,从而有效地跟踪结构化序列生成所需的依赖关系。
这包括隐式跟踪预期的下一个 token,这对于保持输出流中文本、空间和语义 token 的精确交错和规范阅读顺序至关重要。与传统的单令牌预测相比,这种增强的内部跟踪显著提高了模型遵循文档结构并保持一致性的能力。
更多信息。
输入和输出属性
NeMo Retriever Parse 将 RGB 图像作为输入进行处理。输出包含带有边界框和类别属性的结构化文本,从而实现全面的文档理解。
训练和准确性评估
NeMo Retriever Parse 经过严格训练,使用人工标记、合成和自动标记数据集,确保在各种文档类型中实现强大的准确性。在公共数据集和内部数据集上进行的大量基准测试表明,该模型在实际应用中非常有效。
在 NVIDIA API 目录中试用 NeMo Retriever Parse。
文本提取基准测试
对于文本提取任务,NeMo Retriever Parse 在两个关键基准测试中进行了评估,以评估各种文档类型和布局的质量和准确性:通用 OCR 理论 (GOT) 稠密 OCR 基准测试和 NVIDIA 内部文档 OCR 基准测试。
所采用的评估指标包括 F1 分数,它平衡了准确率和召回率。100 标准化编辑距离 (NED) 评估文本阅读顺序的准确性。METEOR 考虑了对齐、词干提取和同义词。BLEU 衡量 n-gram 重叠。
NeMo Retriever Parse 在 GOT Dense OCR 基准测试和 NVIDIA 内部文档 OCR 基准测试中表现出卓越的文本提取性能。在 GOT 基准测试中,NeMo Retriever Parse 在高分辨率文档中密集排列的复杂格式文本上实现了近乎完美的得分,展示了其处理复杂排版内容的能力。


表格提取基准测试
对于表格提取任务,NeMo Retriever Parse 在两个已建立的基准测试中进行了评估:PubTabNet 和 RD-TableBench。
PubTabNet:用于生成图像中物体位置的标签的深度学习模型。
PubTabNet 是一个基于图像的表格识别大型数据集,包含从科学出版物中提取的 568,000 多张表格图像。每个表格图像都标注了相应的 HTML 表现形式。该基准测试使用 TEDS 和 S-TEDS 等指标评估模型识别和重建表结构的能力。在此,TEDS 通过将 LaTeX 表转换为 HTML 并计算预测表与真值表之间的归一化树编辑距离来衡量表格识别准确性。S-TEDS 通过计算将一棵树转换为另一棵树所需的最小节点编辑次数来量化结构相似性。

NeMo Retriever Parse 的 TEDS 得分达到 80.20,S-TEDS 得分达到 92.20,大大超过了表提取领域的热门模型。这些数据表明,NeMo Retriever Parse 在准确识别表格内容和精确重建其底层结构方面都具有增强的能力。
RD-TableBench:用于测试 RDMA 性能的基准测试工具。
RD-TableBench 是一款开放式基准测试,用于评估文档中复杂表格的提取准确性。它包含来自扫描表格、手写内容、多种语言和合并单元格等来源的 1000 张手动注释图像,其准确性通过使用分层对齐和 Levenshtein 距离来衡量。

与流行的文档提取器相比,NeMo Retriever Parse 在 RD-TableBench 上的表格提取准确性方面表现出显著优势。这种出色的准确性凸显了 NeMo Retriever Parse 在正确提取内容和结构方面的增强功能,尤其是在 RD-TableBench 中包含的具有挑战性的多样化表格格式方面。
主要要点:
NVIDIA NeMo Retriever Parse 是基于 VLM 的 OCR 解决方案,使企业能够利用尖端技术处理文档理解中的复杂挑战并收集见解。
- 近乎无损的文本提取:NeMo Retriever Parse 能够以最小的编辑距离和较高的语义保真度实现近乎无损的文本提取,这在指标中得到了证明。
- 准确性:NeMo Retriever Parse 的整体准确性具有很高的竞争力,因为它在文本和表格提取保真度之间实现了全面平衡
- 卓越的表格提取:在表格提取方面,尤其是在 PubTabNet 等大型基准测试中,它以显著的优势超越了最接近的竞争对手,巩固了其作为复杂文档分析任务的最佳解决方案的地位。
- 结构化文档分割:通过预测语义类别(例如标题、页脚、列表项),该模型能够保留多页、多列文档的阅读顺序和层次结构,从而为检索器和 LLM 提供连贯的结构化输出。
通过仔细研究这些详细基准测试,技术人员、研究人员和开发者可以得出结论,NeMo Retriever Parse 为文本和表格提取提供了平衡、高精度的选项,使其成为任务关键型文档处理工作流的最佳选择。
展望未来
NeMo Retriever Parse 不仅仅是一个文本提取模型,它还是迈向文档 AI 未来的重要一步。通过无缝弥合原始文档与智能 AI 系统之间的差距,它使组织能够更高效地提取、构建和利用信息。目前,该服务主要针对英语,但正在扩展以支持中文和手写文档,以便更广泛地应用。扩展上下文长度将实现更深入、更高级的文档理解。
尝试使用 NVIDIA NeMo Retriever Parse VLM 来推进您的文档智能。
从 NGC 目录下载 VLM NIM。
贡献者贡献者:Ilia Karmanov、Amala Sanjay Deshmukh、Lukas Voegtle、Philipp Fischer、Kateryna Chumachenko、Timo Roman、Jarno Seppänen、Andrew Tao、Karan Sapra