Computer Vision / Video Analytics

NVIDIA AI Blueprints を活用した動画解析の新しいアプローチ

Reading Time: 4 minutes

企業は、動画や音声など複雑なデータ ソースから洞察を得る方法をますます模索しています。RAG (Retrieval-Augmented Generation: 検索拡張生成) は、生成 AI システムが企業独自のデータを活用できるようにする技術ですが、動画コンテンツをこれらのワークフローに組み込むには、効率的な取り込み、インデックス化、多様なソース間でのコンプライアンス維持など、新たな技術的課題が生じます。

本ブログ記事では、NVIDIA の動画検索および要約用 AI Blueprint (VSS: Video Search and Summarization) と RAG Blueprint を統合し、動画解析と要約を高度化する方法を紹介します。これらのワークフローを組み合わせることで、動画理解に信頼性の高い企業データを補完し、ビジネスに不可欠なアプリケーションにおいて、より深い洞察を引き出すことが可能になります。

本記事で学べること

  • VSS と RAG Blueprint を統合したマルチモーダル検索および要約の実現方法
  • 動画解析に企業知識を組み込む手法
  • リアルタイム動画 Q&A および要約のためのスケーラブルかつモジュール型ワークフローの設計
  • 業界横断的な実用例への応用方法

前回の記事で VSS Blueprint について解説しましたが、今回は VSS と RAG を組み合わせることで動画解析がどのように進化するかを説明します。この統合により、企業向け AI アプリケーションにおいて、より正確で文脈に即した洞察が得られます。

NVIDIA AI Blueprints とは?

NVIDIA AI Blueprints は、生成 AI パイプライン構築のためのカスタマイズ可能なリファレンス ワークフローです。開発者はこれを使ってマルチモーダルな RAG パイプラインを構築できます。RAG Blueprint は、NVIDIA NeMo Retriever モデルを基盤とし、マルチモーダル文書を継続的にインデックス化し、企業規模で高速かつ高精度なセマンティック検索を実現します。VSS Blueprint は、膨大なストリーミングまたはアーカイブ動画を取り込み、検索、要約、インタラクティブ Q&A、イベント トリガー (アラート等) を可能にします。

実例: RAG と VSS Blueprint による AI ヘルス インサイトの構築

以下は、VSS Blueprint の生出力と RAG Blueprint による文脈強化インサイトの比較例です。入力ビデオは朝食の調理シーンで、入力動画は「朝食の準備」を映したもので、AI が朝食の内容を解析し、食習慣の健康度についてコメントします。最初の例では、AI は追加の RAG 情報なしでビデオの要約を生成し、2 つ目の例では、AI は RAG からのデータを利用し、もっと詳しく情報量の多い要約を生成します。最初の例では、VSS Blueprint が朝食準備の動画イベントを要約します。出力は、材料選択、調理技術、栄養分析、衛生管理、盛り付けのコツなど、主要な行動をカテゴリごとにまとめます。デフォルトの VSS 出力は事実に基づき記述されますが、観察された行動を栄養価や健康習慣に結びつけることはありません。

図 1. 朝食準備ビデオの VSS Blueprint によるデフォルトの要約。観察された行動と基本的なカテゴリをリストアップしています

次の例では、「健康的な食事に関する Wiki ページ」と統合した RAG Blueprint を活用します。VSS はこれらの栄養ガイドラインやベストプラクティスを参照し、行動の説明に加え、全粒穀物の利点、食物繊維の重要性、乳製品の栄養価、衛生管理の食品安全への役割などを強調します。

図 2. RAG で強化した VSS 要約。観察された行動が栄養価や健康的な習慣に結び付けられています

動画理解と外部知識を結びつけることで、強化された要約は視聴者が食事選択や健康習慣についてより良い判断を下せるよう支援します。動画内容を実践的な洞察へと翻訳し、日常の健康維持に役立つ情報を誰もがアクセスや活用できるようにします。

デプロイ手順

このソリューションを展開するには、以下の手順に従います。

※この例では、RAG Blueprint がすでにインストールされ、リモート エンドポイント経由で利用可能であることを前提としています。

  1. https://github.com/NVIDIA-AI-Blueprints/rag から RAG Blueprint をダウンロードしてデプロイします。
  2. video-search-and-summarization リポジトリをクローンします。
$ git clone https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization.git
    1. Edit the src/vss-engine/docker/Dockerfile ファイルを編集して統合パッチを適用します。
    diff --git a/src/vss-engine/docker/Dockerfile b/src/vss-engine/docker/Dockerfile
    index 58b25e3..e1df783 100644
    --- a/src/vss-engine/docker/Dockerfile
    +++ b/src/vss-engine/docker/Dockerfile
    @@ -17,7 +17,7 @@ RUN --mount=type=bind,source=binaries/gradio_videotimeline-1.0.2-py3-none-any.wh
         pip install --no-deps /tmp/gradio_videotimeline-1.0.2-py3-none-any.whl
     
      
    -RUN git clone https://github.com/NVIDIA/context-aware-rag.git -b v1.0.0 /tmp/vss-ctx-rag
    +RUN git clone https://github.com/NVIDIA/context-aware-rag.git -b dev/vss-external-rag-support-v2 /tmp/vss-ctx-rag
     ARG TARGETARCH
     RUN pip install /tmp/vss-ctx-rag --no-deps && \
         if [ "$TARGETARCH" = "amd64" ]; then \
    
    1. steps in src/vss-engine/README.md の VSS デプロイ手順を進め、パッチを適用した VSS Blueprint をデプロイします。

    統合テスト

    以下のコード スニペットは、Kubernetes で装飾付きプロンプトを用いて VSS Pod を実行する際の kubectl exec 構文を示しています。食事の準備ビデオを解析し、関連する栄養ガイドラインの情報で内容を補強しています。

    import subprocess, textwrap
     
    deployment_id = "vss-vss-deployment-595d5b4ccb-8678v"
    vid_id        = "6482b573-3aa6-4231-b981-a3e75806826b"
     
    def run_in_vss(pod, cmd):
        subprocess.run(
            ["kubectl", "exec", pod, "-c", "vss", "--",
             "/bin/bash", "-c", cmd],
            check=True, text=True)
     
    prompt = textwrap.dedent("""
      Summarize key events only.
      <e>Breakfast nutriontal guidelines?<e>
    """)
     
    cmd = f"""python3 via_client_cli.py summarize \
      --id {vid_id} --model vila-1.5 --enable-chat \
      --chunk-duration 10 \
      --caption-summarization-prompt "{prompt}"
    """
     
    run_in_vss(deployment_id, cmd)
    

    <e>…<e> タグ内のすべてが RAG Blueprint に送られます。

    返されたコンテキストは、LLM 生成の前に、調整可能な VECTOR_RAG_ENRICHMENT_PROMPT に設定されている強化プロンプトに挿入されます。 

    栄養例で使用されている調整可能な強化プロンプトは以下の図のようになります。

    Here is the summary generated about the meal preparation video:  
    {original_response}
     
    Here is additional nutritional and food safety information:  
    {external_context}
     
    Please enrich the summary by naturally incorporating relevant nutritional facts, food safety guidelines, and practical advice from the external context. Connect observed actions in the video to their health benefits, such as highlighting the value of specific ingredients, cooking methods, or hygiene practices. Ensure the enrichment is contextual, informative, and supports everyday healthy choices.
     
    Do not include any introductory phrases, notes, explanations, or comments about how the inputs were combined. Do not reference the original summary or external context. Only provide the enriched summary itself, organized as bullet points under the categories: Ingredient Selection, Cooking Techniques, Nutritional Insights, Hygiene Practices, and Presentation Tips.
    

    仕組み

    1. 取り込み
      • VSS はビデオ ストリームを取り込み、キャプション チャンクを作成し、ビジュアル メタデータにインデックスを作成する。 
      • RAG は、マニュアル、履歴イベント統計、メディア ガイドなどの独自のドキュメントを GPU 対応のベクトル ストアに取り込む。
    2. クエリの流れ
      • 「今日の私の食事は健康的ですか?」と、あるユーザーが質問する。
      • ユーザーが食事している映像から関連のある部分を VSS が抽出する。
      • VSS はまた、RAG サーバーに問い合わせ、健康に関するさまざまなガイドラインからインデックス付きの関連知識を取得する。
    3. 知識の融合
      • RAG Blueprint は、企業が保有している健康に関する関連知識を検索し、それを VSS LLM に渡し、ビデオの関連部分と共に根拠のある回答を作成する。
    4. 応答
      • 最終的な回答はビデオのデータに基づき、関連する外部知識で強化され、適切な引用と共にリアルタイムでユーザーに渡される。

    VSS と RAG Blueprint 統合アーキテクチャ

    図 3 は、このような結果を生み出すモジュール式の統合アーキテクチャを示しています。 

    1. VSS は動画ストリームを取り込み、キャプション、メタデータを生成し、動画内容の Q&A や要約をサポートします。
    2. RAG Blueprint は独立したマイクロサービスとして展開され、企業全体のテキスト文書、PDF、表、ポリシー マニュアルなどから知識を検索し取得します。
    3. VSS と RAG Blueprint は定義済み API で通信します。VSS Blueprint のプロンプトに<e>…<e> タグが含まれる場合、その部分が外部 RAG サーバーに送信されます。
    4. RAG Blueprint はサブプロンプトを受け取り、関連するコンテキストを返します。
    5. VSS Blueprint はカスタマイズ可能な強化プロンプトを使い、取得したコンテキストを最終要約や Q&A 応答に融合します。  

    このモジュール型 API 連携により、両 Blueprint は個別または統合して利用でき、ユーザー需要に応じて独立してスケール可能です。 

    図 3. VSS および RAG Blueprint ソリューションのアーキテクチャ図

    ワークフロー連携: コンポーザブル AI Blueprint による協働

    複数の NVIDIA AI Blueprint を組み合わせることで、動画解析と企業データ検索など専門パイプラインを統合し、部門横断的な課題を解決できます。モジュール型のコンポーザビリティは開発を加速し、単一 Blueprint では実現できない機能拡張を可能にします。

    コンポーザビリティ (組み立てできること) が柔軟な統合、異種チーム間のコラボレーション、背景情報を踏まえた成果を可能にする仕組みを、順を追って見ていこう。

    • 柔軟な統合: VSS (動画処理) と RAG (知識検索) など専門 Blueprint を組み合わせ、用途に応じたスケーラブルなソリューションを構築
    • 部門横断協働: 動画エンジニア、データ サイエンティスト、専門家が協力し、動画解析に企業知識を付加
    • 文脈認識型結果: VSS Blueprint のユーザー クエリが RAG Blueprint を活用し、組織文書から関連情報を補完。精度の高い実用的な洞察を提供

    VSS Blueprint は動画ストリームの検出やキャプション生成を担い、RAG Blueprint はテキストや構造化データから情報を取得。VSS Blueprint のユーザー クエリは RAG Blueprint に転送され、動画解析と企業知識を組み合わせた応答が生成されます。

    エンタープライズ ワークフロー最適化: 専用 RAG の意義

    RAG Blueprint を動画や文書など全ソース統合ではなく、独立サーバーとして分離した理由は以下の通りです。

    • マルチワークストリーム対応: RAG Blueprint は検索ポータル、チャットボット、ダッシュボード、コンプライアンス ツールなど複数ワークフローの統一知識レイヤーとして機能。VSS Blueprint はそのクライアントの 1 つ
    • 分離スケーリング: 動画、文書ワークロードごとに最適化やリソース配分が可能
    • 迅速なイノベーションとセキュリティ: RAG 管理を中央集約することで、アップデート、パッチ、セキュリティ強化が容易。VSS 展開への影響なし
    • 最小限の統合負荷: VSS 統合には RAG サーバー エンドポイントと環境変数のみ必要。新規ユース ケースごとに動画データの再構築や再インデックス不要

    なお、VSS Blueprint にも RAG 機能が含まれています。VSS Blueprint は企業文書の検索も可能ですが、動画検索や取得に特化したパイプラインです。同様に、RAG Blueprint も VSS Blueprint と同じモダリティを多くサポートしますが、PDF などテキスト、表、チャートを含む多言語やマルチモーダルなビジネス文書検索に最適化されています。API 連携による疎結合設計で、両パイプラインの強みを最大限活用できます。

    レイテンシへの影響

    動画要約や Q&A で Blueprint を統合した場合のパフォーマンス影響も評価しました。全体レイテンシは VSS 処理、RAG 処理、結果統合の合計です。

    各ユース ケースのシステム レイテンシは表 1 に示します。

    Q&A ユース ケースでは RAG 入力追加が全体レイテンシの約 10%、動画要約強化では約 1% のレイテンシ増加に留まります。

    図 4. VSS および RAG ブループリントのコンポーネント別ランタイム パーセント
    パイプライン ステージVSS 要約レイテンシ (秒)VSS チャット Q&A レイテンシ (秒)
    RAG 検索1.691.81
    LLM の融合1.241.35
    エンドツーエンド25029.77
    VSS 要約/チャット Q&A (メイン タスク)247.0726.61
    表 1. VSS と Enterprise RAG コンポーザブル ブループリントのパイプラインごとのシステム ランタイム予想

    業界での活用事例

    建設現場から森林、スタジアムまで、VSS と RAG Blueprint の統合によるプロンプト融合は、追加レイテンシなしで生動画を価値ある文脈付き洞察へと変換します。以下は実際の課題解決例です。以下は実際の課題解決例です。

    • Shimizu: 建設現場で技術を活用し、現場映像のストリーミング、進捗監視、危険行動の防止、安全、コンプライアンス向上を実現
    • Cloudian の HyperScale AIDP 森林管理デモ: VSS と RAG Blueprint で過剰成長や外来種を検出し、関連ポリシー文書を即座に取得。火災保険やコンプライアンス向けレポートを生成
    • Monks: スポーツ ハイライトを個別生成し、大規模コンテンツ ライブラリを SNS や放送向けに魅力的なクリップへ変換
    図 5. Cloudian による VSS + RAG Blueprint を活用した、米国土地管理局基準に基づく森林評価

    詳細および開発開始は https://build.nvidia.com/blueprints をご覧ください。

    翻訳に関する免責事項

    この記事は、「Make Sense of Video Analytics by Integrating NVIDIA AI Blueprints」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

    Tags