计算机视觉/视频分析

使用 NVIDIA AI Blueprint 进行视频搜索和摘要,推动视频分析 AI 智能体的发展

与传统的 Computer Vision (CV) 模型相比, Vision Language Models (VLMs) 实现了更广泛的感知和更丰富的上下文理解,从而改变了视频分析。然而,上下文长度有限和缺乏音频转录等挑战仍然存在,限制了 VLM 一次可以处理的视频数量。

为克服这一问题,适用于视频搜索和摘要 (VSS) 的 NVIDIA AI Blueprint 将 VLM、LLM 和 检索增强生成 (RAG) 与高效的提取、检索和存储机制相集成,从而实现存储和实时视频分析。视觉 AI 智能体可应用于监控智能空间、仓库自动化和 SOP 验证等众多用例。

NVIDIA 宣布推出适用于视频搜索和摘要的 NVIDIA AI Blueprint 新版本并全面推出 (GA) 。此版本包含多项新功能,包括多实时流、突发模式提取、可自定义 CV 流程和音频转录。这些更新进一步简化了 视频分析 AI 代理 的开发,为长篇视频理解提供全面的解决方案。

本文是在上一篇文章“ 使用 NVIDIA AI Blueprint 构建视频搜索和摘要智能体 ”之后的文章,其中概述了此 NVIDIA AI Blueprint 的基础功能。

视频 1。了解如何使用由 NVIDIA NIM 和 NVIDIA Metropolis 加速的 AI 代理推进视频分析

用于高级视频分析的 AI agents

VSS 通过使用 VLM、 大语言模型 (LLM) 以及最新的 RAG 技术和视频提取工作流提供长视频理解的方法,加速视频分析 AI 智能体的开发。抢先体验版 (v2.0.0) 允许视觉代理提取流式传输和录制的视频,提供摘要、执行问答并发送警报。

此正式发布版本 (v2.3.0) 包含以下主要功能。图 1 展示了反映这些增强功能的更新架构图。

  • 单 GPU 部署和硬件支持扩展 :根据您的性能要求,VSS 现在可在各种不同的硬件配置中进行部署。对于较小的工作负载,我们现在还支持在 NVIDIA A100、H100 和 H200 GPU 上进行单 GPU 部署。
  • 多直播和突发剪辑模式:同时处理数百个直播或预先录制的视频文件。
  • 音频转录:将语音转换为文本,以多模态理解场景。这对于音频是关键组成部分的用例很有用,例如教学视频、主题演讲、团队会议或公司培训内容。
  • 计算机视觉工作流 :通过零样本物体检测跟踪场景中的物体,并使用边界框和分割蒙版与 Set-of-Mark (SoM)来提高准确性,从而使用预定义的一组参考点或标签来指导视觉语言模型,从而改进检测。
  • 提升上下文感知型 RAG (CA-RAG) 和 GraphRAG 的准确性和性能 :通过批量汇总和实体提取、在数据块提取期间创建动态图形,以及在具有独立事件循环的专用进程中运行 CA-RAG,显著降低延迟并提高可扩展性,从而提高性能。
An architecture diagram shows two new blocks for audio processing and CV pipeline, compared to the previous architecture. These new blocks are optional and must be enabled during deployment.
图 1。VSS GA 版本的高级架构

单 GPU 部署 

引入了使用低内存模式和较小 LLM 的单 GPU 部署方案。它可在 NVIDIA H100、H200 和 A100 (80 GB 以上,HBM) 机器上使用,并即将支持其他 GPU。此设置非常适合不需要多 GPU 环境的较小工作负载,可显著节省成本并简化部署。

此部署在单个 GPU 上本地运行 VLM、LLM、embedding 和 reranker 模型。配置详情如下:

  • 模型分配: 所有模型 ( VSS、LLM、嵌入、重排序) 均配置为共享单个 GPU。
  • 显存优化 :为 LLM 启用了低显存模式和宽松的显存限制,以确保高效利用 GPU 资源。
  • 模型选择:使用专为在单个 GPU 部署上实现最佳性能而选择的较小 LLM 模型 (Llama 3.1 8B Instruct) 。 VSS 引擎设置为使用 NVILA 模型执行视觉任务。
  • 服务初始化:配置适当的 init 容器,以确保服务按照正确的顺序启动。

多实时串流和 Burst Clip 模式

随着对实时视频分析的需求不断增长,以及需要同时处理大量视频片段,最新功能可确保部署的 AI 智能体可以管理多个直播和突发片段,从而扩展视频分析解决方案。

在此次更新中,VSS 后端负责并行处理多个流的排队和调度请求。在 CA-RAG 的帮助下,它还会分别维护每个来源的上下文。跨不同的线程或进程针对各种视频文件或直播并行调用任意 API,包括 Summarization (POST/summarize) 和 Q&A (POST/chat/completions)。

为促进多流处理,每个数据块(无论是 VLM 生成的描述还是提取的实体)都用唯一的 Stream ID 进行标记。此 Stream ID 可用作关键标识符,确保所有相关描述、实体和关系始终与其各自的流相关联。

用户可以通过设置 multi_channel: true 灵活查询所有流,或通过设置 multi_channel: false 将查询限制在特定流,从而实现广泛和有针对性的分析。

视频 2。VSS 支持多实时团队和 burst clip 模式,可并行处理直播或录制的视频流

音频转录 

NVIDIA 为蓝图生成的视觉智能体提供了聆听能力,从而提高了对上下文的理解,并解锁了视频未捕获的信息。此功能可显著提高主题演讲、讲座、视频会议和视角镜头等媒体的准确性。

为了将音频集成到 VSS 中,我们应用了与视频处理方法类似的技术来处理给定视频的音频。在对视频进行分块以跨 GPU 并行提取后,我们通过以下方式处理音频:

  • 从视频剪辑中分割音频 :从视频中创建单独的音频文件。
  • 解码音频 :然后将每个音频块转换为 16 kHz 单声道音频。
  • 使用自动语音识别 (ASR) 进行处理:然后将转换后的音频传递给 NVIDIA Riva ASR NIM 微服务,该微服务会为数据块生成音频转录。
  • 合并音频和视频信息: 对于每个数据块,VLM 的视频描述和 ASR 服务的音频转录以及时间戳信息等其他元数据将发送到检索工作流,以供进一步处理和索引。

在初始化期间,可以启用或禁用 VSS 中的音频处理功能。每个摘要请求也可以配置为启用或禁用音频转录。这种灵活性支持在批量处理视频文件以及在线处理直播时进行音频转录。

通过使用 RIVA ASR NIM 微服务,我们可以在 NIM 微服务中引入先进的音频功能。这些自定义功能可确保您可以根据特定需求定制音频处理功能,从而增强 VSS 的整体功能和适应性。

此功能已有效用于在 NVIDIA GTC 主题演讲上进行聊天,使用户能够通过音频转录实时互动和讨论内容。

计算机视觉工作流 

将特定的 CV 模型与 VLM 集成可提供物体的详细元数据(包括其位置、遮罩和追踪 ID),从而增强视频分析。SoM 提示可实现有效的视觉基础,允许 VLM 根据单个物体而非整体场景生成响应,这对于涉及多个物体的复杂查询以及使用物体 ID 了解物体在较长时间内的时间行为尤为有用。

视频 3。观看带和不带 CV metadata 的提示的对比

VSS 中的 CV 和跟踪工作流旨在为视频和直播生成全面的 CV 元数据。此元数据包含视频中物体的详细信息,例如其位置、遮罩和追踪 ID。管道通过以下方式实现这一点:

  • 物体检测: 每个区块都会使用 零样本物体检测器 (Grounding DINO) 进行物体检测。这可根据文本提示识别物体,从而规范多个物体类别和检测置信度值。
  • 蒙版生成和追踪 :在识别物体后,GPU 加速的多物体追踪器使用 NVIDIA DeepStream NvDCF 追踪器 来追踪所有物体。此多目标跟踪器集成了 Meta 的 SAM2 模型,用于生成实例分割掩码和提高精度。
  • 元数据融合:CV 处理中的一个主要挑战是,同一对象可能会出现在不同的数据块中,并被分配到不同的 ID。为了解决这一问题,VSS 包含 CV Metadata Fusion 模块,该模块可将每个数据块中的 CV 元数据合并到一个全面的元数据集,就像从连续视频文件中生成一样。
  • 数据处理流程 :然后将融合的 CV 元数据传递给数据处理流程,由其生成 CV 元数据叠加输入帧,供 VLM 执行 SoM 提示。
  • 密集描述生成 :生成融合的 CV 元数据和 VLM 生成的密集描述。

举个例子。在交通监控方面,启用具有用户指定目标类别 (例如“vehicle, truck”) 的 CV 管道可在视频中检测和跟踪这些目标。每个视频块均由 VLM 模型处理,并使用对象 ID 和分割遮罩覆盖已采样的帧。VLM 模型使用这些 ID 来生成密集描述并促进问答交互。例如,如果在一段很长的交叉路口视频中出现多辆红色汽车,则指定确切的对象 ID 可确保清晰识别所提及的车辆 (图 2) 。

A sample frame of traffic intersection video shows a CV overlay that includes object IDs and segmentation masks. An example Q&A text box shows how labeled IDs provide more contextual answers. The query says, “Do you see any abnormal events in the video clip? If so, which cars are involved?” The response says, “Yes, I see an abnormal event in the video clip, which is a collision between two cars. The cars involved are a red car (labeled 20) and a yellow car (labeled 21). The collision occurs at the intersection and is described in Event 1: Collision.”
图 2。带有 Object IDs 和 Segmentation Masks 的示例帧,以及 QA

按照 VLM、音频和 CV 工作流,VLM 视频描述、音频转录、边界框和分割遮罩以及时间戳信息等其他元数据将发送到检索工作流,以进行进一步处理和索引,如图 3 所示。

The diagram shows three different modality outputs from a basketball video: dense captions, CV and tracking metadata, and the audio transcript. All are sent over to the databases (vector DB and graph DB).
图 3。一个篮球视频的多种模式样本输出

这些融合数据被嵌入并存储在 向量数据库 以及要在检索管道期间访问的图形数据库。这使得智能体能够在场景中的实体之间形成时间和空间关系,同时增强其基于音频转录的视觉理解。

通过 CA-RAG 优化智能体检索

CA-RAG 是视频搜索和摘要智能体中的一个专用模块,可增强从视频数据中检索和生成符合上下文的准确信息的能力。

CA-RAG 从每个块的 VLM 响应中提取有用信息,并聚合这些信息以执行有用的任务,例如摘要、问答和警报。有关各项任务的更多信息,请参阅 使用 NVIDIA AI Blueprint 构建视频搜索和摘要智能体

它支持的功能包括:

  • 时间推理:理解不同时间的事件序列。
  • 多跳推理:连接多个信息片段来回答复杂的查询 。
  • 异常检测:识别视频内容中的异常模式或行为。
  • 可扩展性 :高效处理大量视频数据集。

为提高性能和效率,我们对 CA-RAG 进行了几项关键改进:

  • 批量摘要和实体提取
  • GraphRAG 优化
  • 独立进程

批量摘要和实体提取

CA-RAG 现在采用内置的 Batcher 实现来优化性能。此方法通过将文档分批整理以进行异步处理来处理乱序视频块描述。

当所有批量完成后,最终任务(例如 summarization aggregation)可以继续执行,从而提高效率并降低延迟。

GraphRAG 优化 

以前,CA-RAG 会在构建图形之前等待所有 VLM 标题,这会导致延迟。

现在,CA-RAG 会在提取数据块的同时动态创建图形,从而实现图形创建和摘要的并行处理。这可缩短总体处理时间并提高可扩展性。

独立进程 

CA-RAG 现在在自己的专用进程中运行,具有用于处理异步请求的独立事件循环。这一变化消除了共享执行上下文中的瓶颈,实现了数据处理工作流与 CA-RAG 之间的真正并行。

其结果是提高了系统响应速度、降低了延迟,并更大限度地提高了大规模工作负载的资源利用率。

VSS 蓝图性能 

VSS Blueprint 针对 NVIDIA GPU 进行了高度优化,可将视频摘要任务的速度提升高达 100 倍。它专为实现灵活性而设计,可以部署在针对特定用例定制的各种拓扑中,确保优化资源利用率。

对于单个流输入,性能由完成摘要请求所需的延迟来衡量。相比之下,对于突发视频文件输入,性能取决于可以并发处理的指定长度的视频片段的最大数量,以实现可接受的延迟。对于给定的部署拓扑,影响延迟的主要因素包括:

  • 视频长度
  • 数据块大小
  • 聚合批量大小
  • 启用 VectorRAG 或 GraphRAG

视频长度和 chunk size 都会影响需要处理的视频块总数,而这决定了提取视频所需的 VLM 和 LLM 调用数量。Aggregation batch size 决定了将在单个 LLM 请求中组合的 VLM 输出数量:

\text{Video Chunks} = \frac{\text{Video Length}}{\text{Chunk Size}}

\text{VLM Calls} = \text{Number of Video Chunks}

\text{LLM Calls} = \frac{\text{Number of Video Chunks}}{\text{Aggregation Batch Size}} + 1

\text{LLM Calls (with GraphRAG)} = \frac{\text{Number of Video Chunks}}{\text{Aggregation Batch Size}} + \text{Number of Video Chunks} + 1

摘要会话的总体延迟可定义为端到端 (E2E) 延迟:

\text{E2E latency} = \left(\frac{\text{Upload latency}}{\text{Streaming latency}}\right) + \text{Summarization latency}

上传或流式传输延迟取决于网络。摘要延迟现在包括将视频分割成多个块,为每个块生成 VLM 描述,以及 LLM 调用聚合和最终摘要生成,如上述方程中所述。

图 4 比较了各种拓扑和模型中使用 10 秒数据块大小的 60 分钟视频的 summarization latency。图 5 展示了在给定输入视频长度的情况下,1 分钟内可处理的视频片段数量,并展示了突发文件输入的系统吞吐量。

Bar graph showing time to summarize a 60-minute video using 10-second chunk size, across different GPU deployments: 8xH100, 8xH200, 4xH100, 8xA100 (80GB), 8xL40S, 1xH100.
图 4 。在不同的 GPU 部署中汇总 60 分钟视频 (数据块大小为 10 秒) 所需的时间
Bar graphs showing burst file throughput, with number of videos processed in 1 minute on the y-axis, and varying lengths of input videos on the x-axis.
图 5。Burst file throughput,显示 1 分钟内针对不同长度的输入视频处理的视频数量

最佳 chunk size 取决于视频的动态以及摘要或问答输出所需的详细程度。小 chunk size 会增加时间粒度,从而可以捕获快速移动的物体、事件或动作,例如汽车在高速公路上超速行驶。但是,如果感兴趣的事件移动缓慢并随着时间的推移而分散 (例如检测野火蔓延) ,则可以使用更大的 chunk size 来减少冗余处理。

开发和部署选项

得益于模块化蓝图,NVIDIA 提供了各种部署选项来满足不同需求。这种灵活性支持轻松配置和定制,确保这些解决方案可以根据您的特定要求进行定制。

  • NVIDIA API Catalog
  • NVIDIA 可启动内容
  • Docker 或 Helm chart 部署
  • 云部署

NVIDIA API Catalog 

如需了解有关该蓝图的更多信息并试用一些示例,请参阅 build.nvidia.com 上的 VSS 蓝图演示

NVIDIA 可启动内容 

NVIDIA Launchables 可在云端提供经过全面优化的预配置计算和软件环境。

本次部署使用 docker compose 方法搭建 VSS 蓝图 ,提供精简高效的部署流程。部署 VSS 蓝图,在您自己的视频中试用。

Docker 或 Helm chart 部署

NVIDIA 使用 docker compose 和一键式 Helm 图表提供部署选项。这些方法可以针对更精细的部署 (例如交换模型) 进行单独配置。有关更多信息,请参阅 VSS 部署指南。

云部署 

VSS 包含一系列部署脚本,可为跨多个云平台部署应用提供稳健、灵活且安全的方法。目前支持 AWS,即将推出 Azure 和 GCP 支持。

这个全面的工具包支持在不同的云环境中进行一致部署。有关 AWS 部署的更多信息,请参阅 VSS Cloud 部署指南

模块化架构由以下层组成:

  • 基础架构:处理云提供商特定的设置。
  • 平台:管理 Kubernetes 和相关平台组件。
  • 应用程序:部署实际的应用程序工作负载。

总结 

下载蓝图 ,并使用您的 NVIDIA 开发者帐户开始开发。有关更多信息,请参阅以下资源:

如需了解更多信息,请与 NVIDIA 创始人兼首席执行官 Jensen Huang 一起参加 COMPUTEX 2025 主题演讲 ,并在 COMPUTEX 2025 上 参加 GTC Taipei 分会 ,时间截止至 5 月 23 日。

订阅我们的时事通讯,并在 LinkedIn、Instagram、X 和 Facebook 上关注 NVIDIA AI,及时了解最新动态。探索 NVIDIA 文档和 YouTube 频道,并加入 NVIDIA Developer Vision AI 论坛。

 

 

标签