企业生成和存储的多模态数据比以往任何时候都多,但传统的检索系统在很大程度上仍然以文本为重点。虽然他们可以从书面内容中获得见解,但不会提取嵌入表格、图表和信息图(通常是文档中信息最密集的元素)的关键信息。
如果没有多模态检索系统, 检索增强型生成(RAG) 用户可能会丢失隐藏在这些复杂数据格式中的关键见解,从而在企业知识检索中造成重大盲点。了解适用于 RAG 的 NVIDIA AI Blueprint 。
在本文中,我们将探索适用于 RAG 的 AI Blueprint 的最新进展,并深入探讨背后的核心技术 – NVIDIA NeMo Retriever 。探索新的基准测试,了解 NVIDIA 合作伙伴如何使用此蓝图高效地提取、索引和查询多模态数据。
深入了解蓝图:快速数据提取和准确检索
适用于 RAG 的 AI Blueprint 是一个 GPU 加速的参考示例,使开发者能够构建针对企业数据量身定制的可扩展、上下文感知的检索工作流 。将 LLM 与企业组织的现有知识库关联起来,可以提高准确性和吞吐量,这对于现代生成式 AI 应用至关重要。 本节将深入探讨推动高效且可扩展的数据提取、优化检索性能和高级企业功能的关键技术。
大规模多模态数据提取
该蓝图不只是停留在文本上,而是可以提取和提取各种数据类型,例如图表、表格和信息图。这些不同的模式通过 NVIDIA NIM (在 NVIDIA GPU 上优化的先进模型)处理,使组织能够从各种企业文档中获取见解。
利用使用 NIM 构建的全新 NeMo Retriever 提取、嵌入和重排序微服务,基准测试表明多模态数据提取的吞吐量提高了 15 倍。这加快了端到端检索工作流程,并使企业能够不断从最新信息中提取信息,以用于实时决策 (图 1)。

要求:每秒页面数,根据公开可用的 PDF 数据集 (包括文本、图表和表格) 进行评估。NIM On 包含以下 NeMo Retriever 微服务:nv-yolox-structured-image-v1、nemoretriever-page-elements-v1、nemoretriever-graphic-elements-v1、nemoretriever-table-structure-v1、PaddleOCR、nv-llama3.2-embedqa-1b-v2 (与作为 OSS 替代方案的 NIM Off 相比) ;HW:1x NVIDIA H100
为了进一步提高检索性能,该蓝图采用了 NeMo Retriever parse,这是一种基于 VLM 的高级 OCR 推理微服务,用于提取文本和表格。此微服务利用专门构建的自回归 VLM 来理解和保留文本和表格的语义结构,从而优化下游检索的内容。该 NIM 微服务专为从图像中转录文档而设计,可使用 Commercial RADIO (C-RADIO) 进行视觉特征提取和 mBART 进行文本生成。
此外,它还可以识别文本区域的边界框,对页面构件 (例如标题、段落和描述) 进行分类,并以 markdown 格式输出结构化文本。这种方法同时保留了空间布局和语义结构,使转录更加井然有序和上下文感知,最终增强检索能力。
该蓝图还利用了出色的 NeMo Retriever 嵌入和重排序微服务 ,与标准 FP16 加速相比,可提供 3 倍的嵌入性能和 1.6 倍的重排序吞吐量(图 2)。这一改进使开发者能够更高效地处理更大的数据集,从而构建 AI 驱动的搜索和检索系统。
例如,客户支持聊天机器人可以从数百万支持文档中快速提供最准确的故障排除指南,实时提供精确的答案,减少客户等待时间并提高解决效率。

要求:左侧图表:1xH100 SXM;passage token 长度:512,batch size:64,并发客户端请求:5;NIM Off 是 OSS 替代方案:FP16,而 NIM On 包括 NeMo Retriever 嵌入 NIM:FP8。右侧图表:1xH100 SXM;passage token 长度:512,batch size:40,并发客户端请求:5;NIM Off 是 OSS 替代方案:FP16,而 NIM On 包括 NeMo Retriever 重排序 NIM:FP8
检索更快、更准确
提取数据后,需要高效地对其进行索引和存储,以便快速检索。适用于 RAG 的 AI Blueprint 使用 NVIDIA cuVS 加速了这一过程,以创建可扩展的索引,从而快速将大型数据集编入索引,同时将延迟降至最低。该蓝图采用混合搜索策略,将基于关键字的传统 (sparse) 搜索与最近邻 (dense) 向量搜索相结合,进一步优化了检索性能。无论数据类型如何,这种混合方法都能确保精确、高速的信息检索。
此外,NeMo Retriever 还通过动态长度和长上下文支持提高了存储效率, 将存储需求降低了 35 倍 。这不仅可以降低运营成本,还可以保持检索速度,即使在处理大量数据时也是如此。通过利用 GPU 加速索引,开发者可以体验到索引吞吐量提升高达 7 倍,从而提高可扩展性、实时检索和更负责任的 AI 应用 (图 3)。

CPU 索引硬件 – 第五代 Intel Xeon (192vCPU) ;GPU 索引硬件 – 8xL4;Embedding (nv-embedqa-e5-v5) ;段大小 – 240K 向量 (1024 Dim, fp32) ;索引 – CAGRA (GPU), HNSW (CPU) ;目标召回 – 98%
该蓝图还提供了更高的准确性,通过 NeMo Retriever 多模态提取微服务将错误答案减少了 50%(图 4)。这意味着开发者可以构建更可靠的系统,即使在数据扩展的情况下,也能实时提供一致、相关的结果。

回顾@5。NeMo 检索器提取 (NIM 开启) :nemoretriever-page-elements-v2, nemoretriever-table-structure-v1, nemoretriever-graphic-elements-v1, paddle-ocr 与开源替代方案 (NIM 关闭) 的比较:HW – 1x H100
该蓝图认识到每个企业都有自己独特的数据、专有术语和领域知识,因此提供了一条定制路径。借助 NVIDIA NeMo 微服务,开发者可以构建 数据飞轮 来微调模型,以满足特定的业务需求。这种自定义微调可创建反馈循环,提高特定领域查询的准确性,并确保检索系统根据企业的独特需求进行定制。
高级企业功能
适用于 RAG 的 AI Blueprint 不仅仅关注速度和可扩展性。它还为需要管理复杂工作流和支持全球运营的企业提供关键功能。
对于满足多元化全球受众需求的组织,该蓝图支持使用 NeMo Retriever 微服务 进行多语种和跨语言检索,从而更轻松地为不同地区和语言的客户提供服务。
现代 AI 系统的一个关键方面是能够随着时间的推移维护上下文。该蓝图还支持多轮交互,并保留跨多个会话的上下文,从而提供无缝的对话体验。这种能力对于创建与用户自然交互的智能虚拟助理和 chatbots 至关重要。
现在,该蓝图中内置了监控和可观察性以及遥测工具,可帮助企业跟踪使用情况、检测问题和优化性能,这一切对于企业级部署至关重要。它通过 NVIDIA NeMo Guardrails 微服务 提供 reflection 等功能,以提高 RAG 准确性,并通过 guardrails 使对话与负责任的 AI 指南保持一致,这些功能都是当今监管环境中的重要功能。
最后,该蓝图与兼容 OpenAI 的 API 轻松集成,为熟悉基于 LLM 的工作流的现有团队简化了集成流程。其可分解架构使开发者能够仅采用所需的组件,同时根据需要添加新功能或自定义现有功能。NVIDIA 还打包了一个示例用户界面,以展示如何在现实环境中实施系统,从而进一步加速实现价值。
通过提供这些先进的功能,客户可以构建自己的企业级 RAG 工作流,并实现行业领先的性能、准确性和成本效益。
借助 RAG 革新企业和数据平台
包括 Accenture, Cohesity, DataStax, DDN, Dell, Deloitte, HPE, IBM, NetApp, Nutanix, PureStorage, SAP, Siemens和 Teradata 在内的领先 NVIDIA 合作伙伴已经在采用适用于 RAG 和 NeMo Retriever 微服务的 AI Blueprint,以安全地将自定义模型连接到各种大型数据源,使其系统和客户能够访问更丰富、更相关的信息。
- Accenture 已将 NeMo Retriever 集成到 AI Refinery (AIR) 平台,提高了营销团队在活动创建和管理方面的效率。这种集成将活动开发时间从几天缩短到几分钟,同时为用户提供了一个可扩展的平台,确保低延迟和较短的学习曲线,以实现无缝采用。
- DataStax 已集成用于高性能推理的 NVIDIA NIM、用于模型定制的 NeMo,以及用于多模态数据提取和高精度信息检索的 NeMo Retriever 。这支持从 PDF 等非结构化文件中提取数据,并在 Astra DB 向量存储 中生成嵌入。通过将 NeMo Retriever 功能直接集成到 DataStax 平台和 Astra DB 中, Wikimedia 在短短三天内为 Wikipedia 添加了语义搜索功能 ,比之前基于 GPU 的解决方案减少了 90% 的工作时间,速度提高了 10 倍。
- DDN Infinia 通过无缝、一键式部署高效的问答 RAG 工作流,正在彻底改变 AI 赋能的数据智能。通过集成 NeMo Retriever,DDN Infinia 使汽车行业的 DDN 客户能够以比基于云的传统嵌入服务快 20 倍的速度自动回答问题。这一突破可加速向量嵌入生成和索引,同时将服务成本降低高达 80%,从而提供无与伦比的效率。因此,TCO 和运营绩效得到了显著改善,使 AI 驱动的决策制定更容易实现且更具成本效益。
- Deloitte 用 NeMo Retriever 提取和嵌入微服务,使用户能够提取各种非结构化文档,并将其转换为可搜索的高价值知识库。他们的文档处理时间提高了 35%,平均查询响应时间提高了 8 倍。
- Cohesity 将 NeMo Retriever 集成到其 Cohesity Gaia 解决方案中,使大型制造客户能够利用其庞大的研究数据库 (数千篇 PDF 格式的研究论文) ,并在几分钟内快速找到相关答案。事实证明,这非常有价值,可以节省以前用于搜索正确信息的时间,从而显著加快研究和发现的速度。
- VAST 已无缝集成 NVIDIA LLM 和 NeMo Retriever 嵌入,并将 NIM 微服务重新排序到其统一数据平台中,从而提高检索准确性和模型推理。这种集成为 VAST InsightEngine 提供动力支持,可优化 AI 部署、提高响应相关性,并充分发挥生成式 AI 应用的潜力。借助 VAST InsightEngine,国家冰球联盟可以解锁超过 550,000 小时的历史游戏片段。这种合作支持赞助分析,帮助视频制作人快速创建广播片段,并增强个性化的粉丝内容。
- WEKA WARRP 集成了 NeMo Retriever、 NVIDIA Triton 和 NVIDIA TensorRT ,以优化其 RAG 架构,加速多模态数据提取 (文本、音频、图像),提高检索准确性,并实现大规模动态数据管理。通过这种集成,WEKA 可以为企业级代理群工作负载处理数亿个并发代理。
开始使用由 NVIDIA NeMo Retriever 提供支持的 RAG,让您的企业面向未来
AI 领域正在迅速发展。未能采用智能检索的企业可能会落后。适用于 RAG 的 NVIDIA AI Blueprint 不仅仅是一次渐进式更新,而是向可扩展、多模态和高性能检索的根本性转变,这些检索可为面向未来的企业 AI 策略提供支持。它可以按原样使用,也可以与其他 NVIDIA Blueprint (例如 数字人蓝图 或 AI 助手蓝图 ) 结合使用,使组织能够构建更复杂的解决方案。
在 API Catalog 上探索 NeMo Retriever 微服务 ,以开发企业就绪型信息检索系统,从大量多模态数据中生成上下文感知响应。NeMo Retriever 微服务现已在 AWS SageMaker 、 Google Cloud Provider GKE 和 Azure Marketplace 上推出。
准备好进行企业部署了吗? 申请 NVIDIA AI Enterprise 90 天免费试用 ,开启生产就绪型 AI 驱动的检索的下一个时代。