비전 언어 모델(VLM)은 기존 컴퓨터 비전(CV) 모델보다 더 넓은 인식 범위와 풍부한 맥락 이해를 제공하며 영상 분석을 혁신했습니다. 그러나 문맥 길이의 한계나 오디오 전사 기능 부재와 같은 과제가 여전히 존재해 VLM이 한 번에 처리할 수 있는 영상의 양을 제한합니다.
이를 해결하기 위해 비디오 검색과 요약(VSS)을 위한 NVIDIA AI Blueprint은 VLM, LLM, 검색 증강 생성(RAG)을 효율적인 데이터 수집, 검색, 저장 메커니즘과 통합하여 저장된 영상과 실시간 영상을 모두 분석할 수 있도록 합니다. Visual AI Agent는 스마트 공간 모니터링, 창고 자동화, SOP 검증 등 다양한 사례에 적용될 수 있습니다.
NVIDIA는 비디오 검색과 요약을 위한 NVIDIA AI Blueprint의 새로운 버전과 GA(General Availability)를 발표했습니다. 이번 버전에는 다중 실시간 스트림, 버스트 모드 수집, 사용자 정의 CV 파이프라인, 오디오 전사 기능 등이 새롭게 추가되었습니다. 이 업데이트는 장시간 영상 이해를 위한 영상 분석 AI 에이전트 개발을 더욱 간소화합니다.
이번 글은 이 Blueprint의 기본 기능을 소개한 Build a Video Search and Summarization Agent with NVIDIA AI Blueprint의 후속 글입니다.
향상된 비디오 검색을 위한 AI 에이전트
VSS는 VLM, 거대 언어 모델(LLM), 최신 RAG 기법, 영상 수집 파이프라인을 활용하여 장시간 영상 이해를 위한 AI 에이전트 개발을 가속화합니다. 초기 액세스 버전(v2.0.0)은 요약, Q&A, 알림을 제공하는 Visual Agent를 통해 스트리밍 및 녹화 영상을 수집할 수 있도록 지원했습니다.
이 일반 공개 버전(v2.3.0)에는 다음과 같은 주요 기능이 포함되어 있습니다. 그림 1은 이러한 개선 사항을 반영한 업데이트된 아키텍처 다이어그램을 보여줍니다.
- 단일 GPU 배포 및 하드웨어 지원 확대: 성능 요구사항에 따라 VSS는 다양한 하드웨어 구성에서 배포할 수 있습니다. 소규모 워크로드의 경우 NVIDIA A100, H100, H200 GPU에서 단일 GPU 배포를 지원합니다.
- 다중 실시간 스트림 및 버스트 클립 모드: 수백 개의 실시간 스트림이나 사전 녹화된 영상 파일을 동시에 처리할 수 있습니다.
- 오디오 전사: 음성을 텍스트로 변환하여 장면을 다중 모달로 이해할 수 있도록 지원합니다. 이는 강의 영상, 기조연설, 팀 회의, 사내 교육 콘텐츠 등 오디오가 중요한 사례에서 유용합니다.
- 컴퓨터 비전 파이프라인: Zero-shot 객체 탐지, 바운딩 박스와 세그멘테이션 마스크를 이용한 객체 추적, 그리고 사전에 정의된 참조점이나 레이블로 VLM 탐지를 돕는 Set-of-Mark(SoM)를 통해 정확도를 향상합니다.
- CA-RAG 및 GraphRAG 성능 개선: 배치 요약과 엔터티 추출, 청크 수집 중 동적 그래프 생성, 독립 이벤트 루프에서의 전용 CA-RAG 실행을 통해 지연을 크게 줄이고 확장성을 강화했습니다.

단일 GPU 배포
적은 메모리 모드와 소형 LLM을 활용한 단일 GPU 배포 레시피가 도입되었습니다. 이 방식은 NVIDIA H100, H200, A100 (80 GB 이상, HBM) 머신에서 사용 가능하며, 추가 GPU에 대한 지원도 곧 제공될 예정입니다. 이 구성은 멀티 GPU 환경이 필요하지 않은 소규모 작업에 이상적이며, 비용을 크게 절감하고 배포를 단순화할 수 있습니다.
이 배포 방식은 VLM, LLM, 임베딩, 리랭커 모델을 모두 하나의 GPU에서 로컬로 실행합니다. 구성 세부 사항은 다음과 같습니다.
- 모델 할당: 모든 모델(VSS, LLM, 임베딩, 리랭킹)이 단일 GPU를 공유하도록 설정됩니다.
- 메모리 최적화: GPU 자원을 효율적으로 사용하기 위해 LLM에 저메모리 모드와 완화된 메모리 제약이 적용됩니다.
- 모델 선택: 단일 GPU 배포에 최적화된 성능을 제공하도록 Llama 3.1 8B Instruct와 같은 소형 LLM 모델을 사용합니다. VSS 엔진은 비전 작업을 위해 NVILA 모델을 사용하도록 설정됩니다.
- 서비스 초기화: 서비스가 올바른 순서로 시작되도록 적절한
init
컨테이너가 구성됩니다.
멀티 라이브 스트림 및 버스트 클립 모드
실시간 영상 분석에 대한 수요 증가와 대량의 영상 클립을 동시에 처리해야 하는 필요성이 커짐에 따라, 최신 기능은 배포된 AI 에이전트가 여러 개의 라이브 스트림과 버스트 클립을 처리하여 영상 분석 솔루션을 확장할 수 있도록 지원합니다.
이번 업데이트를 통해 VSS 백엔드는 여러 스트림에 대한 요청을 병렬로 큐잉하고 스케줄링을 담당합니다. CA-RAG의 도움으로 각 소스의 컨텍스트도 개별적으로 유지됩니다. Summarization(POST/summarize), Q&A(POST/chat/completions)를 포함한 모든 API를 다양한 영상 파일이나 라이브 스트림에 대해 여러 스레드나 프로세스에서 병렬로 호출할 수 있습니다.
멀티 스트림 처리를 지원하기 위해 VLM이 생성한 캡션이나 추출된 엔터티와 같은 각 데이터 청크는 고유한 스트림 ID로 태깅됩니다. 이 스트림 ID는 주요 식별자 역할을 하여 관련 캡션, 엔터티, 관계가 각 스트림에 정확히 연관되도록 합니다.
사용자는 multi_channel: true
를 설정하여 모든 스트림을 대상으로 쿼리하거나, multi_channel: false
를 설정하여 특정 스트림으로 쿼리를 제한할 수 있어 광범위하거나 타겟팅된 분석이 모두 가능합니다.
오디오 전사
NVIDIA는 blueprint-generated 비주얼 에이전트에 청취 기능을 추가하여 컨텍스트 이해도를 높이고 영상에 담기지 않은 정보를 활용할 수 있도록 했습니다. 이 기능은 키노트, 강연, 화상회의, 1인칭 시점 영상과 같은 미디어의 정확도를 크게 향상시킵니다.
VSS에 오디오 통합을 구현하기 위해 영상 처리 방식과 유사한 기법을 적용하여 주어진 영상의 오디오를 처리했습니다. 영상이 청크로 분할되어 GPU 간 병렬 수집이 이뤄진 뒤, 오디오는 다음과 같은 절차로 처리됩니다.
- 영상 클립에서 오디오 분리: 영상에서 별도의 오디오 파일을 생성합니다.
- 오디오 디코딩: 각 오디오 청크를 16kHz 모노 오디오로 변환합니다.
- 자동 음성 인식(ASR) 처리: 변환된 오디오는 NVIDIA Riva ASR NIM 마이크로서비스로 전달되어 청크 단위의 오디오 전사본을 생성합니다.
- 오디오와 영상 정보 결합: 각 청크에 대해 VLM의 영상 설명과 ASR 서비스의 오디오 전사본, 타임스탬프 정보 등의 추가 메타데이터가 검색 파이프라인으로 전달되어 후속 처리 및 인덱싱에 활용됩니다.
VSS의 오디오 처리 기능은 초기화 시 활성화하거나 비활성화할 수 있습니다. 각 요약 요청별로도 오디오 전사를 활성화하거나 비활성화하도록 설정할 수 있습니다. 이 유연성 덕분에 영상 파일의 배치 처리뿐 아니라 라이브 스트림의 온라인 처리에서도 오디오 전사를 활용할 수 있습니다.
RIVA ASR NIM 마이크로서비스를 사용함으로써, NIM 마이크로서비스에 새로 도입되는 최신 오디오 기능을 제공할 수 있습니다. 이러한 맞춤 설정을 통해 오디오 처리 기능을 사용자 요구에 맞게 조정할 수 있으며, VSS의 전반적인 기능성과 적응력을 강화합니다.
이 기능은 NVIDIA GTC 키노트에서 채팅 기능을 지원하는 데 효과적으로 활용되었으며, 사용자가 오디오 전사를 통해 콘텐츠에 대해 실시간으로 상호작용하고 토론할 수 있도록 했습니다.
컴퓨터 비전 파이프라인
특정 CV 모델을 VLM과 통합하면 객체의 위치, 마스크, 트래킹 ID 등의 상세 메타데이터를 제공해 영상 분석을 강화할 수 있습니다. SoM 프롬프트는 효과적인 시각적 그라운딩을 가능하게 하여 VLM이 전체 장면이 아닌 개별 객체를 기반으로 응답을 생성하도록 돕습니다. 이 기능은 특히 다수 객체가 포함된 복잡한 쿼리나 객체 ID를 이용해 장기간에 걸친 객체의 시간적 행동을 이해하는 데 유용합니다.
VSS의 CV 및 트래킹 파이프라인은 영상과 라이브 스트림 모두에 대해 종합적인 CV 메타데이터를 생성하도록 설계되었습니다. 이 메타데이터에는 영상 내 객체의 위치, 마스크, 트래킹 ID 등 상세 정보가 포함됩니다. 파이프라인은 다음과 같은 방식으로 이를 수행합니다.
- 객체 감지: 각 청크는 zero-shot 객체 감지기인 Grounding DINO를 이용해 객체 감지를 수행합니다. 이를 통해 텍스트 프롬프트 기반으로 객체를 식별하며, 다수의 객체 클래스와 감지 신뢰도 임계값을 지정할 수 있습니다.
- 마스크 생성 및 트래킹: 객체 식별 후, NVIDIA DeepStream의 NvDCF 트래커를 활용한 GPU 가속 멀티 객체 트래커가 모든 객체를 추적합니다. 이 멀티 객체 트래커는 Meta의 SAM2 모델을 통합해 인스턴스 분할 마스크를 생성하고 정밀도를 향상시킵니다.
- 메타데이터 통합: CV 처리의 주요 과제 중 하나는 동일 객체가 여러 청크에서 서로 다른 ID로 할당되는 문제입니다. 이를 해결하기 위해 VSS는 각 청크의 CV 메타데이터를 하나의 연속 영상에서 생성된 것처럼 통합하는 CV Metadata Fusion 모듈을 제공합니다.
- 데이터 처리 파이프라인: 통합된 CV 메타데이터는 데이터 처리 파이프라인으로 전달되며, SoM 프롬프트용 CV 메타데이터가 오버레이된 입력 프레임을 생성합니다.
- 고밀도 캡션 생성: 통합된 CV 메타데이터와 VLM이 생성한 고밀도 캡션이 함께 생성됩니다.
예를 들어 교통 모니터링에서 “vehicle”, “truck”과 같은 사용자 지정 객체 클래스를 지정해 CV 파이프라인을 활성화하면 해당 객체를 감지하고 추적할 수 있습니다. 각 영상 청크는 VLM 모델이 처리하며, 샘플링된 프레임에는 객체 ID와 분할 마스크가 오버레이됩니다. VLM 모델은 이 ID를 기반으로 고밀도 캡션을 생성하고 질문 응답 상호작용을 지원합니다. 예를 들어 긴 교차로 영상에서 여러 대의 빨간 차량이 나타날 경우, 특정 객체 ID를 지정하면 어떤 차량을 지칭하는지 명확히 할 수 있습니다.

VLM, 오디오, CV 파이프라인을 거친 후 VLM이 생성한 영상 캡션, 오디오 전사 결과, 바운딩 박스와 세그멘테이션 마스크, 타임스탬프 정보 등의 추가 메타데이터는 그림 3에 나타난 것처럼 검색 파이프라인으로 전달되어 추가 처리 및 인덱싱이 이루어집니다.

이 융합 데이터는 벡터 데이터베이스와 그래프 데이터베이스에 임베딩되어 저장되며, 검색 파이프라인에서 활용됩니다. 이를 통해 에이전트는 장면 내 엔터티 간 시간적·공간적 관계를 형성하고, 오디오 전사 내용을 기반으로 시각적 이해를 강화할 수 있습니다.
CA-RAG를 통한 에이전트 검색 최적화
CA-RAG는 비디오 검색 및 요약 에이전트 내에 포함된 특수 모듈로, 영상 데이터에서 맥락적으로 정확한 정보를 검색하고 생성하는 기능을 강화합니다.
CA-RAG는 청크 단위 VLM 응답에서 유용한 정보를 추출하고 이를 집계하여 요약, Q&A, 알림 등의 작업을 수행합니다. 각 작업에 대한 자세한 내용은 Build a Video Search and Summarization Agent with NVIDIA AI Blueprint를 참고하세요.
이 기능이 가능하게 하는 주요 역량은 다음과 같습니다.
- 시간적 추론: 시간 흐름에 따른 사건의 순서를 이해합니다.
- 멀티 홉 추론: 복수의 정보를 연결해 복잡한 쿼리에 답변합니다.
- 이상 탐지: 영상 콘텐츠 내에서 비정상적인 패턴이나 행동을 식별합니다.
- 확장성: 대규모 영상 데이터셋을 효율적으로 처리합니다.
성능과 효율성을 높이기 위해 CA-RAG에는 여러 핵심 개선이 적용되었습니다.
- 배치 요약 및 엔터티 추출
- GraphRAG 최적화
- 별도 프로세스
배치 요약 및 엔터티 추출
CA-RAG에는 성능 최적화를 위한 내장 Batcher가 새롭게 추가되었습니다. 이 방식은 순서가 뒤섞인 영상 청크 캡션을 비동기 처리가 가능한 배치로 정리해 처리합니다.
모든 배치 처리가 완료되면 요약 집계 등의 최종 작업이 실행되며, 효율성이 향상되고 지연이 줄어듭니다.
GraphRAG 최적화
이전에는 CA-RAG이 VLM의 모든 캡션을 수집한 후에야 그래프를 생성했기 때문에 지연이 발생했습니다.
이제 CA-RAG은 청크 수집 중 그래프를 동적으로 생성하여 그래프 생성과 요약을 병렬로 처리할 수 있습니다. 이로써 전체 처리 시간이 단축되고 확장성이 개선됩니다.
독립 프로세스 실행
CA-RAG은 독립 이벤트 루프를 가진 별도 프로세스에서 구동되며, 비동기 요청을 처리합니다. 이를 통해 공유 실행 컨텍스트에서 발생하던 병목이 제거되고 데이터 처리 파이프라인과 CA-RAG 간 진정한 병렬 처리가 가능합니다.
그 결과 시스템 응답성이 향상되고, 지연이 줄어들며, 대규모 워크로드에서 리소스 활용도가 극대화됩니다.
VSS Blueprint 성능
VSS Blueprint는 NVIDIA GPU에 최적화되어 영상 요약 작업에서 최대 100배 속도 향상을 달성합니다. 유연성을 염두에 두고 설계되어, 특정 사용 사례에 맞춘 다양한 토폴로지에 배포할 수 있으며 최적의 자원 활용을 보장합니다.
단일 스트림 입력의 경우 성능은 요약 요청을 완료하는 데 소요되는 지연 시간으로 측정됩니다. 반면, 버스트 영상 파일 입력의 경우 성능은 허용 가능한 지연 시간 내에 동시에 처리할 수 있는 지정된 길이의 영상 클립 최대 개수로 측정됩니다. 특정 배포 토폴로지에서 지연 시간에 영향을 주는 주요 요소는 다음과 같습니다.
- 영상 길이
- 청크 크기
- 집계 배치 크기
- VectorRAG 또는 GraphRAG 활성화 여부
영상 길이와 청크 크기는 처리해야 하는 총 영상 청크 수에 영향을 주며, 이는 영상을 수집하는 데 필요한 VLM 및 LLM 호출 횟수를 결정합니다. 집계 배치 크기는 단일 LLM 요청에서 결합될 VLM 출력의 수를 결정합니다.
요약 세션의 전체 지연 시간은 End-to-End(E2E) 지연 시간으로 정의될 수 있습니다.
업로드 또는 스트리밍 지연 시간은 네트워크 상태에 따라 달라집니다. 요약 지연 시간에는 영상 청크 분할, 각 청크에 대한 VLM 캡션 생성, 집계 및 최종 요약 생성을 위한 LLM 호출이 포함되며, 이는 위의 수식에서 설명한 바와 같습니다.
그림 4는 60분 길이의 영상을 10초 청크 크기로 처리할 때 다양한 토폴로지와 모델별 요약 지연 시간을 비교합니다. 그림 5는 입력 영상 길이에 따라 1분 동안 처리할 수 있는 영상 클립 수를 보여주며, 버스트 파일 입력에 대한 시스템 처리량을 나타냅니다.


최적의 청크 크기는 영상의 동적 특성과 요약 또는 Q&A 출력에서 요구되는 세부 수준에 따라 달라집니다. 청크 크기가 작을수록 시간적 세분성이 높아져 고속으로 이동하는 객체나 사건, 예를 들어 고속도로를 질주하는 차량 같은 동작을 포착하기에 유리합니다. 반면, 관심 있는 이벤트가 느리게 진행되거나 장시간에 걸쳐 분산된 경우, 예를 들어 산불 확산 감지와 같은 사례에서는 불필요한 처리를 줄이기 위해 더 큰 청크 크기를 사용할 수 있습니다.
개발 및 배포 옵션
NVIDIA는 모듈형 Blueprint 덕분에 다양한 요구에 맞춘 배포 옵션을 제공합니다. 이 유연성은 손쉬운 구성과 사용자 맞춤형 설정을 가능하게 해, 특정 요구에 최적화된 솔루션을 구현할 수 있도록 합니다.
- NVIDIA API Catalog
- NVIDIA Launchables
- Docker 또는 Helm 차트 배포
- 클라우드 배포
NVIDIA API Catalog
Blueprint에 대한 자세한 정보와 예제를 체험하려면 build.nvidia.com의 VSS Blueprint 데모를 참조하세요.
NVIDIA Launchables
NVIDIA Launchables는 클라우드에서 사전 구성되고 최적화된 컴퓨팅 및 소프트웨어 환경을 제공합니다.
이 배포는 docker compose
방식을 사용해 VSS Blueprint를 설정하며, 간소화되고 효율적인 배포 과정을 지원합니다. 사용자는 자신의 영상으로 VSS Blueprint를 직접 시험해 볼 수 있습니다.
Docker 또는 Helm 차트 배포
NVIDIA는 docker compose
와 원클릭 Helm 차트를 모두 활용한 배포 옵션을 제공합니다. 이러한 방법들은 모델 교체와 같은 세부 설정이 가능한 맞춤형 배포를 지원합니다. 자세한 내용은 VSS 배포 가이드를 참고하세요.
클라우드 배포
VSS는 다양한 클라우드 플랫폼에서 애플리케이션을 안정적이고 유연하며 안전하게 배포할 수 있는 스크립트 모음을 제공합니다. 현재 AWS를 지원하며, 곧 Azure와 GCP 지원도 추가될 예정입니다.
이 종합 툴킷은 다양한 클라우드 환경에서 일관된 배포를 가능하게 합니다. AWS 배포에 대한 자세한 내용은 VSS 클라우드 배포 가이드를 참조하세요.
VSS의 모듈형 아키텍처는 다음 계층으로 구성됩니다.
- 인프라: 클라우드 제공자별 설정 담당
- 플랫폼: 쿠버네티스와 관련 플랫폼 구성 요소 관리
- 애플리케이션: 실제 애플리케이션 워크로드 배포
요약
Blueprint를 다운로드하고 NVIDIA Developer 계정으로 개발을 시작해 보세요. 자세한 내용은 아래 리소스를 참고하세요.
- VSS Blueprint 미리보기
- NVIDIA Launchable에서 VSS 실행(사용자 영상 활용)
- GitHub: NVIDIA-AI-Blueprints/video-search-and-summarization
- 비주얼 AI 에이전트 포럼
자세한 내용을 알아보려면 NVIDIA 창립자 겸 CEO인 젠슨 황의 COMPUTEX 2025 키노트에 참여하고, 5월 23일까지 COMPUTEX 2025에서 열리는 GTC Taipei 세션에 참석해 보세요.
최신 소식을 받아보려면 뉴스레터를 구독하고 LinkedIn, Instagram, X, Facebook에서 NVIDIA AI를 팔로우하세요. 또한 NVIDIA 문서와 YouTube 채널을 탐색하고 NVIDIA Developer 비전 AI 포럼에도 참여해 보세요.