NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
代理式 AI/生成式 AI

借助 NVIDIA AI Blueprint 深入解析视频分析

企业组织正日益寻求从视频、音频及其他复杂数据源中提取有价值见解的方法。检索增强生成(RAG)技术使生成式AI系统能够利用专有的企业数据,然而,将视频内容融入这些工作流程带来了新的技术挑战,例如如何高效地实现数据摄取与索引,以及如何确保来自不同来源的内容符合合规要求。

本文介绍了一种集成方法,结合使用 NVIDIA AI Blueprint 中的视频搜索与摘要(VSS)和用于检索增强生成(RAG)的 NVIDIA AI Blueprint,以增强视频分析与摘要能力。通过整合这两个工作流,开发者能够利用可信且富含上下文的企业数据,进一步提升对视频内容的理解,从而为关键业务应用提供更深入的洞察。

在本文中,您将学习如何:

  • 集成 VSS 与 RAG Blueprint,实现多模态搜索与智能摘要。
  • 结合情境相关的企业知识,增强视频内容分析能力。
  • 构建支持实时视频问答与摘要的可扩展、模块化工作流程。
  • 将上述解决方案应用于多个行业的实际业务场景。

在之前关于 VSS Blueprint 的博文基础上,本文将进一步探讨将 VSS 与 RAG 相结合如何提升视频分析的效果。这一融合方案能够为企业级 AI 应用提供更加准确且具备情境感知能力的洞察。

什么是 NVIDIA AI Blueprint?

NVIDIA AI Blueprint 是一套可定制的参考工作流,旨在帮助开发者构建生成式 AI 应用。利用该蓝图,开发者可以搭建多模态 RAG 工作流。RAG Blueprint 基于 NVIDIA NeMo Retriever 模型构建,支持对多模态文档进行持续索引,从而在企业级场景中实现高效且精准的语义搜索。此外,VSS Blueprint 能够处理大量流式或存档视频,支持视频内容的检索、摘要生成、交互式问答,以及基于事件触发的提醒等操作。

实际应用:基于 RAG 与 VSS Blueprint 构建 AI 驱动的健康洞察

以下示例对比了原始 VSS Blueprint 的输出与结合 RAG Blueprint 后生成的、包含丰富上下文信息的分析结果。输入视频内容为一个人准备早餐的过程。该用例展示了 AI 如何识别早餐食材,并对其饮食习惯的健康程度进行评估。在第一个示例中,AI 生成的视频摘要未融合任何额外的 RAG 数据,而在第二个示例中,AI 引入了来自 RAG 的知识支持,从而输出更详尽、更具信息量的分析内容。第一个截图展示了 VSS Blueprint 对早餐准备流程的默认事件摘要,其输出将关键行为归类为食材选择、烹饪方式、营养信息、卫生习惯和呈现技巧等方面。VSS 的默认结果以事实描述为主,具备较强的客观性,但未将观察到的行为与营养学价值或健康生活方式建立关联。

Figure 1 shows a bullet-point summary of a breakfast video, with categories for ingredient selection, cooking techniques, nutritional insights, hygiene practices, and presentation tips. The entries are factual descriptions of observed actions, such as pouring milk and making oatmeal
图1。早餐准备视频的默认 VSS Blueprint 摘要,展示所观察到的操作及其对应的基本类别

下图展示了维基页面中关于健康饮食的详细摘要。在与 RAG Blueprint 集成后,VSS 借助这些营养指南和最佳实践来增强上下文理解。该摘要内容丰富,阐述了各项建议,强调了选择全谷类食物的益处、纤维摄入的重要性、乳制品的营养价值,以及卫生在保障食品安全中的关键作用。

A bullet-point summary of the same breakfast video, but with added context from external nutritional sources. The entries include the health benefits of particular foods, the importance of hygiene, and practical advice for making nutritious choices, such as choosing whole grains and highlighting the protein and calcium in milk.

图2:通过RAG增强VSS摘要,将观察到的行为与营养价值及健康习惯相关联。

通过结合视频理解与外部知识,生成的丰富摘要能够帮助观众在饮食选择和健康习惯方面做出更明智的决策。它将视频内容转化为支持日常健康的实用建议,使营养信息更加易于获取和应用,惠及更广泛的受众。

部署步骤

要部署此解决方案,请按照以下步骤操作。

注意:本示例假设 RAG Blueprint 已安装,并可通过远程端点进行访问。

  1. https://github.com/NVIDIA-AI-Blueprints/rag 下载并部署 RAG Blueprint,
  2. 然后克隆视频搜索与摘要的代码仓库:
$ git clone https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization.git
  1. 编辑 src/vss-engine/docker/Dockerfile 文件,以集成补丁。
diff --git a/src/vss-engine/docker/Dockerfile b/src/vss-engine/docker/Dockerfile
index 58b25e3..e1df783 100644
--- a/src/vss-engine/docker/Dockerfile
+++ b/src/vss-engine/docker/Dockerfile
@@ -17,7 +17,7 @@ RUN --mount=type=bind,source=binaries/gradio_videotimeline-1.0.2-py3-none-any.wh
     pip install --no-deps /tmp/gradio_videotimeline-1.0.2-py3-none-any.whl

 
-RUN git clone https://github.com/NVIDIA/context-aware-rag.git -b v1.0.0 /tmp/vss-ctx-rag
+RUN git clone https://github.com/NVIDIA/context-aware-rag.git -b dev/vss-external-rag-support-v2 /tmp/vss-ctx-rag
 ARG TARGETARCH
 RUN pip install /tmp/vss-ctx-rag --no-deps && \
     if [ "$TARGETARCH" = "amd64" ]; then \
  1. 继续按照 src/vss-engine/README.md 中的 VSS 部署步骤,部署已修复的 VSS Blueprint。

测试集成

以下代码片段展示了在 Kubernetes 中使用修饰后的提示符执行 VSS Pod 的 kubectl exec 命令的方法。该过程分析了一段备餐视频,并结合相关营养指南对视频内容进行了丰富和补充。

import subprocess, textwrap

deployment_id = "vss-vss-deployment-595d5b4ccb-8678v"
vid_id        = "6482b573-3aa6-4231-b981-a3e75806826b"

def run_in_vss(pod, cmd):
    subprocess.run(
        ["kubectl", "exec", pod, "-c", "vss", "--",
         "/bin/bash", "-c", cmd],
        check=True, text=True)

prompt = textwrap.dedent("""
  Summarize key events only.
  <e>Breakfast nutriontal guidelines?<e>
""")

cmd = f"""python3 via_client_cli.py summarize \
  --id {vid_id} --model vila-1.5 --enable-chat \
  --chunk-duration 10 \
  --caption-summarization-prompt "{prompt}"
"""

run_in_vss(deployment_id, cmd)

… <e> 标签内的所有内容将被发送至 RAG Blueprint。

在生成大语言模型(LLM)响应之前,系统会将返回的上下文插入到可调节的 VECTOR_RAG_ENRICHMENT_PROMPT 所定义的扩充提示集中。

下图展示了该营养示例中所使用的可调节丰富提示词。

Here is the summary generated about the meal preparation video:  
{original_response}

Here is additional nutritional and food safety information:  
{external_context}

Please enrich the summary by naturally incorporating relevant nutritional facts, food safety guidelines, and practical advice from the external context. Connect observed actions in the video to their health benefits, such as highlighting the value of specific ingredients, cooking methods, or hygiene practices. Ensure the enrichment is contextual, informative, and supports everyday healthy choices.

Do not include any introductory phrases, notes, explanations, or comments about how the inputs were combined. Do not reference the original summary or external context. Only provide the enriched summary itself, organized as bullet points under the categories: Ingredient Selection, Cooking Techniques, Nutritional Insights, Hygiene Practices, and Presentation Tips.

工作原理

  1. 摄取
    • VSS 提取视频流,生成描述性片段,并对可视化元数据进行索引。
    • RAG 将企业内部的手册、历史事件统计数据以及媒体指南等专有文档提取并存入 GPU 加速的向量存储中,实现高效检索。
  2. 查询流
    • 当用户提问:“我今天吃得健康吗?”时,
    • VSS 会识别并提取用户用餐行为的候选视频片段,
    • VSS 同时向 RAG 服务器发起查询,从多种健康指南中检索与当前问题相关的知识。
  3. 知识融合
    • RAG Blueprint 检索与企业健康标准相关的知识内容,并将其传递给 VSS 的大语言模型(LLM),
    • 结合视频中的用餐片段,共同生成有依据的初步回答。
  4. 回应
    • 最终回应以视频内容为基础,融合外部权威知识,并附带适当引用,实时呈现给用户,提供全面且可信的反馈。

VSS 和 RAG Blueprints 集成架构

图3展示了生成这些结果的模块化集成架构。

  1. VSS 负责提取视频流,生成字幕和元数据,并支持对视频内容进行问答与总结。
  2. RAG Blueprint 作为独立的微服务进行部署,能够对企业范围内的各类数据源(如文本文档、PDF、表格和政策手册)中的知识进行索引构建、搜索与检索。
  3. VSS 与 RAG Blueprint 通过预定义的 API 实现通信。当提示中包含位于 <e>…<e> 标签内的文本时,VSS Blueprint 会将该部分子提示发送至外部的 RAG 服务。
  4. RAG Blueprint 接收子提示后,返回相关的上下文信息。
  5. 随后,VSS Blueprint 利用可自定义的增强型提示,将检索到的上下文整合至最终的摘要或对话式问答结果中。

这种基于 API 的模块化集成方式,使得各个 blueprint 既能协同工作,也可独立使用,并能根据用户需求灵活扩展。

Architecture diagram showing the integration of VSS and RAG Blueprints. Detailing the connection of the video analysis pipeline to the external RAG service, emphasizing modular composability and separate microservices.
图 3:VSS 与 RAG Blueprint 解决方案的架构图

连接工作流:可组合的 AI Blueprint 如何赋能协作

通过整合多个 NVIDIA AI Blueprint,开发者能够融合视频分析、企业检索等专用流程,应对跨领域的复杂挑战。这种模块化、可组合的架构不仅加快了开发速度,还拓展了功能边界,实现了单一 Blueprint 无法达成的广泛能力。

我们来深入探讨可组合性如何实现灵活集成、促进跨团队协作,并生成更加丰富的上下文结果。

  • 灵活集成:结合专用蓝图、用于视频处理的 VSS 以及用于知识检索的 RAG,构建可扩展且高度定制化的解决方案。
  • 跨职能协作:独特的蓝图架构支持视频工程师、数据科学家与领域专家协同工作,充分融合企业内部知识,提升视频分析的深度与价值。
  • 上下文感知的分析结果:在 VSS Blueprints 中,用户查询可通过 RAG Blueprints 引用企业文档中的相关信息,对视频内容摘要进行补充,从而输出更准确、更具操作性的洞察。

VSS Blueprint 负责处理视频流,实现检测与描述功能,而 RAG Blueprint 则从文本及结构化数据源中检索相关信息。用户对 VSS Blueprint 发起的查询可被转发至 RAG Blueprint,以补充相关背景信息,最终生成的综合响应将融合视频分析结果与企业知识。

优化企业工作流程:专属 RAG 应用案例

将 RAG Blueprint 保留为独立的专用服务器,而非将其与视频、文档等各类数据源合并,这一关键架构决策主要由多个现实因素驱动。

  • 多工作流支持:RAG Blueprint 为多种工作流(如搜索门户、聊天机器人、控制面板、合规性工具)提供统一的知识层服务,VSS Blueprint 作为众多客户端之一访问该后端系统。
  • 灵活扩展:各 Blueprint 可独立扩展与优化,便于针对视频和文档等不同工作负载进行精细化的资源分配。
  • 高效创新与安全保障:通过集中式 RAG 管理,可简化更新、补丁部署和安全增强流程,同时不影响现有的 VSS 部署。
  • 降低集成成本:VSS 集成仅需配置 RAG 服务器端点及相应环境变量,无需为新应用场景重复构建视频数据或重新索引,最大程度减少集成开销。

需要注意的是,VSS Blueprint 也集成了 RAG 功能。尽管 VSS Blueprint 能够检索企业文档,但其处理流程经过高度优化,专注于实现精准的视频搜索与检索。相比之下,RAG Blueprint 支持与 VSS Blueprint 相似的多种模式,但其设计更侧重于搜索和检索多语言、多模态的业务文档,例如包含文本、表格和图表的 PDF 文件。通过 API 调用实现工作流的松散耦合,开发者得以在两个高度专业化的工作流之间灵活协作,兼具两者的优势。

延迟影响

我们还评估了将视频摘要蓝图与问答蓝图结合对性能的影响。总延迟包括执行视频摘要(VSS)操作的时间、RAG 操作的时间,以及整合结果所需的时间。

\displaystyle \LARGE\text{Latency}_{\text{total}} = \text{Latency}_{\text{VSS}} + \text{Latency}_{\text{RAG}} + \text{Latency}_{\text{LLM}}

表 1 展示了各个用例的系统延迟情况。

在聊天问答用例中,RAG 输入会增加约 10% 的总延迟。而在视频摘要工作流中,使用 RAG 数据进行内容增强仅带来约 1% 的延迟。

Bar chart displaying runtime percentages for each system component in the VSS and Enterprise RAG pipeline. The chart shows VSS as the largest portion, with smaller shares for Enterprise RAG and LLM Fusion.
图4:VSS 与 RAG Blueprint 运行时各组件占比
工作流阶段 VSS 总结延迟(秒) VSS 聊天问答延迟(秒)
RAG 检索 1.69 1.81
LLM 融合 1.24 1.35
端到端 250 29.77
VSS 总结 / 聊天问答(主要任务) 247.07 26.61
表 1:VSS 与 Enterprise RAG 组合 Blueprint 预计各工作流的系统运行时间

各行业如何利用蓝图制定更明智、更高效的决策

从建筑工地到森林,再到体育场馆,VSS 与 RAG Blueprint 通过提示融合实现无缝集成,能够在不增加延迟的前提下,将原始视频转化为具有价值且富含上下文的洞察。以下示例展示了该集成方案如何有效应对现实世界中的各类挑战:

  • Shimizu 在施工现场应用该技术,实现视频实时传输,监控工程进度,防范不安全行为,从而提升安全水平与合规性。
  • Cloudian 在森林管理的 HyperScale AIDP 演示中部署了 VSS 与 RAG Blueprint,用于识别植被过度生长及入侵物种,即时检索相关政策文件,并生成可用于火灾保险和合规管理的 actionable 报告。
  • Monks 利用该解决方案快速生成个性化的体育赛事精彩片段,将庞大的内容库转化为适用于社交媒体和广播平台的高质量、吸引力强的视频内容。
Annotated summary of a forestry video, with bullet points describing fallen trees, dense vegetation, and dirt paths. The notes highlight how VSS and RAG Blueprints enrich scene understanding with BLM wilderness inventory criteria, and show invasive species were detected.
图5。基于土地管理局森林评估的Cloudian VSS+ RAG蓝图

访问 https://build.nvidia.com/blueprints,开启您专属的复杂加速工作流开发之旅。

 

标签