生成 AI はあらゆる産業を変革する可能性を秘めています。私たちは、困難な認知作業を説明し、論理的に推論し、解決する目的ですでに大規模言語モデル (LLM) を使用しています。検索拡張生成 (RAG) は LLM をデータに接続し、LLM が最新の正確な情報にアクセスできるようにすることで LLM の利便性をさらに高めます。
多くの企業がすでに RAG で業務プロセスを自動化し、データからインサイトを発掘する方法を探り始めています。ほとんどの企業が生成 AI のユース ケースに合わせた複数のパイロットプロジェクトを始めていますが、そのほとんど (90%) は近い将来に評価フェーズから先に進むことはないと推定されています。人々を惹きつける RAG のデモを、真のビジネス価値を提供する本番環境サービスに変換することは、依然として困難です。
このブログでは、NVIDIA AI を利用し、RAG アプリケーションを 4 つのステップでパイロットから本番環境に移行する方法についてご紹介します。
エンタープライズ対応 RAG パイプラインを構築する
本番環境対応のエンタープライズ RAG パイプラインの開発とデプロイには多くの困難がともないます。
IT 管理者は、LLM のセキュリティ、使いやすさ、移植性、データ ガバナンスに関連する課題に直面します。開発者は、LLM の精度や LLM フレームワークの全体的な成熟度に苦労することもあるかもしれません。 また、オープンソースの進化のスピードが凄まじく、新しいモデルや RAG 技術が日々現れることに誰もが圧倒されています。
本番環境 RAG の開発とデプロイを簡単にするビルディング ブロック
NVIDIA は、クラウドネイティブなエンドツーエンド RAG アプリケーションのためのリファレンス アーキテクチャを提供することで、この複雑性に対応できるよう支援しています。このリファレンス アーキテクチャはモジュール式であり、主要なオープンソース ソフトウェアと NVIDIA アクセラレーションを組み合わせます。モジュール式のビルディング ブロックからなる包括的なパッケージを活用することには、いくつかの利点があります。
- まず、企業は新しいコンポーネントを既存のインフラに選択的に統合することができます。
- 次に、パイプラインの各段階に応じて、商用のコンポーネントかオープンソースのコンポーネントかを選択できます。企業は、ベンダー ロックインを回避しつつ、自社のユース ケースに最適なコンポーネントを自由に選択できます。
- 最後に、モジュール式アーキテクチャにより、パイプラインの各段階での評価、監視、トラブルシューティングが簡素化されます。
図 1 は、RAG パイプラインをデプロイするための基本的な構成要素を示しています。
NVIDIA は、RAG アプリケーションの開発を支援するため、オープンソースの統合や GPU で高速化されたコンテナーなどを提供しています。
オープンソースで人気のフレームワークやツールとの統合
NVIDIA は、RAG アプリケーション開発を速やかに始められるよう、サンプルのパイプラインを提供しています。 NVIDIA RAG パイプラインのサンプルは、LangChain、LlamaIndex、Haystack などの人気のオープンソース LLM プログラミング フレームワークを NVIDIA アクセラレーテッド ソフトウェアと組み合わせる方法を開発者に示します。サンプルを出発点として利用することで、開発者は、オープンソース イノベーションとアクセラレーテッド コンピューティングのパフォーマンスとスケールを組み合わせ、両方の利点を活用することができます。
サンプルは、評価、パイプライン監視、データ取り込みのために人気のオープンソース ツールと統合する方法も示し、2 日目からのパイプライン オペレーションをより簡単に、費用対効果高く行えるようにします。
高速で正確な応答のための GPU 対応コンテナー
LLM を活用するエンタープライズ RAG アプリケーションは応答性と正確性に優れていなければなりません。CPU ベースのシステムでは、エンタープライズ規模では許容できるパフォーマンスを提供できません。NVIDIA API カタログには、GPU アクセラレーションの恩恵を享受できる RAG パイプラインの各段階を強化するコンテナーが含まれています。
- NVIDIA NIM は LLM 推論に業界最高のパフォーマンスとスケールを提供します。
- NVIDIA NeMo Retriever は、RAG パイプラインの中核で、ドキュメントの埋め込み、取得、クエリ機能を簡素化および高速化します。
- NVIDIA RAPIDS は、エンタープライズデータのベクトル表現を格納するデータベースの検索とインデックス作成を高速化します。
マルチモーダル入力、出力、データ処理のサポート
RAG アプリケーションは、テキストベースのチャットボットから、画像、音声、動画など、さまざまなモダリティをともなう複雑なイベント駆動ワークフローへと急速に進化しています。NVIDIA AI ソフトウェアは、RAG パイプラインの使いやすさと機能性を強化し、こうした新しいユース ケースに対応します。
- NVIDIA Riva は、話し言葉を使用して RAG パイプラインとやりとりするための、GPU で高速化されたテキスト読み上げ、音声書き起こし、翻訳のインターフェイスを提供します。
- NVIDIA RAPIDS では、LLM エージェントによってトリガーされたアクションを GPU で高速化できます。たとえば、LLM エージェントは RAPIDS cuDF を呼び出し、構造化データで統計処理を実行できます。
- NVIDIA Morpheus は、膨大なエンタープライズデータを前処理し、リアルタイムで取り込むために利用できます。
- NVIDIA Metropolis と NVIDIA Holoscan は、RAG パイプラインに動画とセンサーの処理機能を追加します。
開発者は、NVIDIA AI Enterprise を活用し、これらの AI ソフトウェア コンポーネントを本番環境向けにデプロイできます。NVIDIA AI Enterprise は、エンタープライズグレードの生成 AI アプリケーションのために、最速かつ最も効率的なランタイムを提供します。
RAG アプリをパイロットから本番環境に移行するための 4 つのステップ
本番環境の RAG アプリケーションを構築するには、多くの関係者間での協力が必要になります。
- データ サイエンティストは、LLM のパフォーマンスと精度を評価します。
- AI 開発者は、RAG アプリケーションを構築し、テストし、改善します。
- データ エンジニアは、エンタープライズ データをインデックス作成と検索のために接続し、変換します。
- MLOps、DevOps、SRE (サイト リライアビリティ エンジニア) は、本番システムへデプロイし、保守します。
NVIDIA AI は、RAG アプリケーションの開発、デプロイ、運用のあらゆる段階をサポートするため、クラウドからシリコンまで行き渡っています。図 2 は、RAG アプリケーションを評価から本番環境に移行するための 4 つの手順を示しています。
Step 1. NVIDIA API カタログで LLM を評価する
まず、NVIDIA API カタログにアクセスし、主要なオープンソース モデルや商用モデルを NVIDIA GPU で実行してみます。開発者はユーザーインターフェイスでモデルを操作し、そのやりとりによって生成されたバックエンド API 呼び出しを閲覧することができます。この API 呼び出しは、Python、Go、TypeScript コード スニペット、またはシェル スクリプトとしてエクスポートできます。
Step 2. モデルをマイクロサービスとしてエクスポートする
次に、モデルを NVIDIA NIM としてエクスポートします。NIM は、生成 AI のデプロイを加速するように設計された、使いやすいセルフホスト型の マイクロサービスです。このマイクロサービスは主要なクラウド上で仮想マシン内のコンテナーとして実行できます。あるいは、Helm を経由して Kubernetes クラスターにインストールできます。データ プライバシーまたはセキュリティについて懸念がある場合は、自社のデータ センターや仮想プライベート クラウドでモデルを評価することもできます。
Step 3. サンプル RAG アプリケーションを開発する
ホストされたモデルを評価したら、NVIDIA Generative AI Examples を試し、サンプル RAG アプリケーションを構築してみます。このサンプルでは、NVIDIA のマイクロサービスと主要なオープンソース LLM プログラミング フレームワークを統合し、エンドツーエンドの RAG パイプラインを作る方法を示しています。データ サイエンティストはこれらのサンプルを使用し、アプリケーションのパフォーマンスを調整し、その精度を評価することができます。 NVIDIA AI Enterprise をご利用のお客様なら、NVIDIA AI workflows にもアクセスいただけます。このワークフローは、NVIDIA Generative AI Examples を業界固有のユース ケースに適用する方法を示しています。
Step 4. RAG パイプラインを本番環境にデプロイする
アプリケーションの開発が完了したら、MLOps 管理者は NVIDIA RAG LLM Operator を使用し、テストまたは本番環境の名前空間にアプリケーションをデプロイできます。現在、早期アクセスでご利用いただける RAG LLM Operator では、アプリケーション コードを書き直すことなく、RAG アプリケーションを Kubernetes クラスターに簡単にデプロイできます。
RAG LLM Operator は、Kubernetes 上での NVIDIA GPU のデプロイと管理を自動化する人気のインフラ ソフトウェアである NVIDIA GPU Operator 上で実行されます。ライフサイクル管理の複雑性を軽減し、RAG パイプラインのシームレスなデプロイ、スケーリング、管理を可能にします。
生産性を高める本番環境 RAG パイプライン
本番環境 RAG システムは、骨の折れる作業を減らし、関連データを見つけやすくし、イベントを自動化することで作業者の生産性を高めます。
NVIDIA は RAG パイプラインを使用し、安全なエンタープライズ ソフトウェアの構築を支援しています。NVIDIA CVE 分析ツールでは、NVIDIA NIM、NeMo Retriever、Morpheus サイバーセキュリティ AI フレームワークを組み合わせ、NGC コンテナーで CVE (共通脆弱性識別子) を特定し、トリアージします。NGC コンテナー レジストリに投稿されたすべてのコンテナーの整合性を確保するこの重要なビジネス プロセスが数日ではなく数時間で完了します。
Deepset、Sandia National Laboratories、Infosys、Quantiphi、Slalom、Wipro などの組織が、NVIDIA 生成 AI で貴重なインサイトを引き出し、エンタープライズ データのセマンティックサーチを可能にしています。
Deepset の新しい Haystack 2.0 と NVIDIA NIM と NeMo Retriever の統合により、組織は GPU で高速化された LLM を効率的に検証し、RAG アプリケーションを迅速にプロトタイピングすることができます。
Sandia National Laboratories と NVIDIA は、精度とパフォーマンスを改善しつつ、データからのインサイトを最大化できるよう、新しい生成 AI ツールの評価で協力しています。
Infosys は NVIDIA との戦略的コラボレーションを拡大し、Infosys Topaz の一部である Infosys Generative AI と NVIDIA NeMo を組み合わせて、エンタープライズ対応の RAG アプリケーションをさまざまな産業のために開発しています。こうしたアプリケーションは従来の常識を破り、バイオ医薬品の臨床試験レポートの自動化から、100,000 を超える自社の財務文書からのインサイト発見まで、さまざまなユース ケースで価値をもたらします。
Quantiphi は、NVIDIA が高速化する生成 AI を組み込んで、RAG ベースのソリューションを開発し、膨大な創薬文書のリポジトリから洞察を引き出し、人口統計や地理的位置に合わせた小売サプライチェーンを最適化することで、画期的な成果を提供できるよう支援しています。
Slalom は、リスクを軽減し、AI の責任ある適用を保証するための強固なフレームワークを用いて、設計、実装、ガバナンスなど、生成 AI と RAG の複雑さを乗り越える組織を支援しています。
Wipro は、生成 AI ツール との協働により、全米の何百万人もの患者へのサービス提供の改善を通じて、医療機関のアウトカムの向上を支援しています。
今すぐ始める
企業は、ビジネスの複雑な課題を解決し、従業員の生産性を高めるために、生成 AI にますます目を向けるようになっています。また、多くの企業が生成 AI を自社製品に組み込んでいます。企業は、NVIDIA AI Enterprise が提供するセキュリティ、サポート、安定性を活用し、RAG アプリケーションをパイロットから本番環境に移行することができます。また、NVIDIA AI で標準化することで、企業は急速に進化する LLM エコシステムに対応するための献身的なパートナーを得ることができます。
API カタログで、検索埋め込みモデルなど、NVIDIA NeMo Retriever マイクロサービスを体験してみてください。または、NVIDIA Generative AI Examples をお試しください。最新の情報を利用しながら、自然言語でドメイン固有の質問に正確に回答できるチャットボットの構築が始められます。RAG アプリケーションを構築するための最新のイノベーションとベスト プラクティスについては、NVIDIA GTC 2024 の検索拡張生成セッションをご覧ください。
関連情報
- おすすめ記事: GenerativeAIExamples と NVIDIA API カタログを用いて Retrieval Augmented Generation を活用した LLM チャットボットを作成
- GTC セッション: Large-Scale Production Deployment of RAG Pipelines (RAG パイプラインの大規模な本番環境デプロイ)
- GTC セッション: From RAG to Rich Apps with Snowflake Cortex (Snowflake Cortex で RAG からリッチなアプリへ) (Presented by Snowflake)
- NGC コンテナー: chain-server
- SDK: MONAI Deploy Workflow Manager
- ウェビナー: Building Intelligent AI Chatbots Using RAG (RAG を使ったインテリジェント AI チャットボットの構築)