生成式人工智能/大语言模型

借助 NVIDIA NIM 智能体蓝图构建企业级多模态文档检索工作流

每年都会生成数万亿个 PDF 文件,每个文件可能由多个页面组成,其中充满了各种内容类型,包括文本、图像、图表和表格。这笔数据财富只能在人类能够阅读和理解的情况下才能快速使用。

但是,借助生成式 AI检索增强生成(RAG),这些未开发的数据可以用于发现业务见解,从而帮助员工提高工作效率并降低成本。

想象一下,能够准确地提取海量企业数据中包含的知识,有效地与数据对话,从而快速使您的数字人成为任何主题的专家。这反过来又使您的员工能够更快地做出更明智的决策。

在本文中,我们将展示多模态 PDF 数据提取蓝图如何结合 NVIDIA NeMo RetrieverNVIDIA NIM 微服务,以及用于实现此目的的参考代码和文档。

应对复杂信息提取的挑战。

PDF 是内容丰富的文档,可存储跨模式表达的精细信息,使其更加简洁和易于理解。例如,PDF 可能包含用于传达复杂信息的文本、表格、图表、图形和图表的混合体。从信息检索的角度来看,每种模式都存在独特的挑战。

要构建应对这些挑战的流程,您可以使用以下 NVIDIA NIM 微服务:

  • PDF Ingestion NIM microservices
    • nv-yolox-structured-image:一种经过微调的对象检测模型,用于检测 PDF 中的图表、plots 和表格。
    • Deplot:用于生成图表说明的热门社区 pix2struct 模型。
    • 缓存:用于识别图形中各种元素的对象检测模型。
    • PaddleOCR:一个光学字符识别(OCR)模型,用于从表格和图表中转录文本。
  • NVIDIA NeMo Retriever NIM microservices
    • NV-EmbedQA-E5-V5:一款热门的社区基础嵌入模型,针对文本问答检索进行了优化。
    • NV-RerankQA-Mistral4b-v3:一款热门社区基础模型,经过微调,可进行文本重排名,从而实现高精度问答。

有关更多信息,请参阅 An Easy Introduction to Multimodal Retrieval-Augmented Generation

PDF 上 RAG 的多模态检索蓝图

在 PDF 上构建多模态检索工作流包含两个关键步骤:

  1. 使用多模态数据提取文档。
  2. 根据用户查询检索相关上下文。

提取包含多模态数据的文档

这是工作流程的前一半,它可以有效地提取信息并使其可供检索。这涉及以下步骤:

首先,解析 PDF,以分离出模式(文本、图像、图表、表格、绘图和其他图表)。文本被解析为结构化的 JSON,而页面被解析为图像,每个页面在文档中都被渲染为图像。

接下来,从图表和表格中提取文本元数据。使用NIM微服务从图像中准确提取信息:

  • nv-yolox-structured-image:识别 PDF 中的图表。 
  • DePlot、CACHED 和 PaddleOCR:从图表中提取信息。DePlot 转录图形,CACHED 与 PaddleOCR 提取图形的其他重要元数据。  
  • PaddleOCR:从表格中提取文本信息,保持表格的读取顺序。

最后,过滤提取的信息,分块并创建 VectorStore。提取的信息经过过滤以避免重复,并被分解成适当的分块。然后,NeMo Retriever 嵌入 NIM 微服务将这些分块转换为嵌入,并将其存储在 VectorStore 中。

根据用户查询检索相关上下文

当用户提交查询时,系统会从庞大存储库中的相关文档中检索信息。具体操作如下:

  • NeMo Retriever 嵌入 NIM 微服务嵌入用户查询,该查询用于从 VectorStore 中使用向量相似度搜索检索最相关的数据块。
  • NeMo Retriever 重新排序的 NIM 微服务充当细化层,仔细评估结果并重新排序,以确保使用最准确、最有用的数据块来响应查询。
  • 借助最相关的信息,LLM NIM 微服务可生成明智、准确且与上下文相关的响应。

这个工作流程利用从提取的文档中构建的综合知识库,使用户能够访问精准且相关的信息,为他们的查询提供宝贵的见解和答案

Diagram shows that the PDF retrieval pipeline has two major steps, ingestion and and retrieval, addressed using NIM microservices built for embedding, reranking, object detection, extraction, and LLMs.
图 1. 连接到检索管道的 NVIDIA 多模态 PDF 吸收和提取工作流程的架构。

构建经济高效的企业级 RAG 工作流程

以下是使用 NIM 微服务创建多模态文档 RAG 流程的优势:成本和稳定性。

成本有两个考虑因素:

  • 上市时间:NVIDIA NIM 微服务旨在提供易于使用且可扩展的模型推理解决方案,使企业应用开发者能够专注于处理其应用程序逻辑,而不必花费大量时间来构建和扩展基础架构。NIM 微服务是容器化解决方案,附带行业标准 API 和 Helm Chart 进行扩展。
  • 部署成本:NIM 使用全套 NVIDIA AI Enterprise 软件来加速模型推理,最大限度地提高企业从模型中获得的价值,进而降低大规模部署流程的成本。图 2 展示了在测试这种提取和提取流程时,在准确性和吞吐量方面取得的改进。
Two charts show the benefit of NIM Off compared to NIM On showing 20% fewer incorrect answers and 3x improved ingestion throughput.
图 2. 多模态 PDF 的检索精度和提取吞吐量比较。

使用 NIM-On:nv-yolox-structured-image-v1、DePlot、CACHED、PaddleOCR、nv-embedqa-e5-v5、nv-rerankqa-mistral-4b-v3 与 2xA100 GPU 上的 NIM-Off:开源替代方案相比,对公开可用的 PDF 数据集(包括文本、图表和表格)评估的多模态 PDF 检索准确性。

每秒多模态 PDF 吞吐量页面数,以由文本、图表和表格组成的公开可用的 PDF 数据集进行评估,并使用 NIM-On:nv-yolox-structured-image-v1、DePlot、CACHED、PaddleOCR、nv-embedqa-e5-v5、nv-rerankqa-mistral-4b-v3(与在多线程 CPU 上运行的 NIM-Off:开源替代方案相比)。

NIM 微服务是 NVIDIA AI Enterprise 许可证的一部分,该许可证提供 API 稳定性、安全补丁、质量保证,并支持企业在 AI 上运行业务从原型平稳过渡到生产(图 3)。

Diagram includes industry-standard APIs, prebuilt containers and Helm charts, domain-specific code, and optimized inference engines.
图 3.NIM 微服务中包含的内容

在企业数据中发现智能

为了使企业能够充分利用其海量数据,NVIDIA 与数据和存储平台合作伙伴合作,包括 Box、Cloudera、Cohesity、DataStax、Dropbox 和 Nexla。

Cloudera

Cloudera 企业 AI 产品副总裁 Priyank Patel 表示:“通过将 NVIDIA NIM 微服务集成到 Cloudera AI 推理服务(现已作为 Tech Preview 提供)中,公司可以将在 Cloudera 中管理的 EB 级私有数据与为 RAG 用例提供支持的高性能模型相匹配。

无论企业选择在本地还是云端运行 AI,我们都能与 NVIDIA 合作,为其提供出色的 AI 平台功能。

Cohesity

“为了充分发挥其专有数据在 AI 应用中的潜力,企业必须高效处理和分析存储在备份和存档中的大量信息,”Cohesity 数据和 AI 首席技术官 Greg Statton 说。

“NeMo Retriever 多模态 PDF 工作流程具有为客户的数据备份和存档添加生成式 AI 智能的潜力,使他们能够快速准确地从数百万份文件中提取宝贵见解。通过将此工作流程与 Cohesity Gaia 结合起来,我们的客户可以专注于创新和战略决策,而无需应对复杂的数据集成挑战。

DataStax

DataStax 首席产品官 Ed Anuff 表示:“要从专有企业数据中为 AI 应用释放价值,就需要从数百万结构化和非结构化文档中提取知识。”

我们正在与 NVIDIA 合作,利用加速计算的速度和规模,以及用于 PDF 的 NeMo Retriever 数据提取工作流,以及 DataStax AstraDB 和 DataStax 超融合数据库,使客户能够专注于创新,而不是面临复杂的数据集成挑战。

Dropbox

Dropbox 总经理 Manik Singh 表示:“扩展到表格和图像之外的文本检索,可以让客户在其云内容中获得见解。”

“我们正在评估 NeMo Retriever 多模态 PDF 提取工作流程,以探索引入新的生成式 AI 能力来帮助我们的客户发现这些宝贵的见解。”

Nexla

Nexla 首席执行官兼联合创始人 Saket Saurabh 表示:“将生成式 AI 演示扩展到生产级解决方案对企业来说是一项巨大的挑战。我们的合作可以通过将 NVIDIA NIM 集成到 Nexla 的无代码/低代码平台来解决这一问题,该平台适用于文档 ETL,并且有可能跨包括 Sharepoint、SFTP、S3、Network Drives、Dropbox 等企业系统中的数百万文档扩展多模态提取。”

Saurabh 表示:“Nexla 将在云和私有数据中心环境中支持 NIM,涵盖嵌入生成、模型执行、推理和检索解决方案等全套功能,以帮助客户加速其 AI 路线图。”

开始使用

通过 NVIDIA API 目录中的交互式演示体验多模态 PDF 提取工作流程。申请抢先体验,使用开源代码、自定义说明和 Helm 图表进行部署,预览这项工作流程蓝图

报名参加 NVIDIA 和 LlamaIndex 开发者竞赛,与全球各地的开发者一起构建 RAG 应用程序,提升技能,并竞逐丰厚的奖品。

 

Tags