オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guard モデルが含まれています。NVIDIA のアクセラレーテッド コンピューティング プラットフォームと組み合わせることで、Llama 3.2 は開発者、研究者、企業に、生成 AI のユース ケースを実現するための有益な新機能と最適化を提供します。
NVIDIA H100 Tensor コア GPU でトレーニングされた 1B および 3B サイズの SLM は、エッジ デバイスに Llama ベースの AI アシスタントを展開するのに最適です。11B および 90B サイズの VLM は、テキストと画像の入力とテキストの出力をサポートします。マルチモーダルをサポートする VLM は、グラウンディング (Visual grounding)、推論 (Reasoning)、理解を必要とする強力なアプリケーションを開発するのに役立ちます。例えば、画像キャプショニング、画像テキスト検索、ビジュアル Q&A、文書 Q&A などを担当する AI エージェントを構築することができます。Llama Guard モデルは、テキスト入力に加えて、画像入力のガードレールもサポートするようになりました。
Llama 3.2 モデル アーキテクチャは、最適化された Transformer アーキテクチャを使用する自己回帰言語モデルです。指示チューニング版では、教師ありファインチューニング (SFT) と、人間のフィードバックによる強化学習 (RLHF) を使用して、人間の好みに合わせた有用性と安全性を実現しています。すべてのモデルは 128K トークンの長いコンテキスト長をサポートし、グループ化されたクエリ アテンション (GQA) のサポートと共に推論に最適化されています。
NVIDIA は、Llama 3.2 のモデル コレクションを最適化しており、データ センターから NVIDIA RTX 搭載のローカル ワークステーション、そして NVIDIA Jetson 搭載のエッジに至るまで、世界中の数百万の GPU で高スループットと低遅延を実現しています。この記事では、ハードウェアとソフトウェアの最適化、カスタマイズ、デプロイを容易にする機能について説明します。
NVIDIA TensorRT による Llama 3.2 のパフォーマンスの高速化
NVIDIA は、Llama 3.2 モデル コレクションを高速化し、コストとレイテンシを低減しながら、比類のないスループットと最適なエンド ユーザー体験を提供しています。NVIDIA TensorRT には、高性能なディープラーニング推論用の TensorRT および TensorRT-LLM ライブラリが含まれています。
Llama 3.2 1B および Llama 3.2 3B モデルは、TensorRT-LLM の長コンテキスト サポートのために、Scaled Rotary Position Embedding (RoPE) 技術と KV キャッシュおよびインフライト バッチングなど、その他、複数の最適化手法を使用して高速化されています。
Llama 3.2 11B と Llama 3.2 90B はマルチモーダルで、テキスト デコーダーを備えたビジョン エンコーダーが搭載されています。ビジョン エンコーダーは、モデルを ONNX グラフにエクスポートし、TensorRT エンジンを構築することで加速されています。ONNX のエクスポートでは、推論に重点を置いた組み込みの演算子と標準データ型を用いた標準モデル定義が作成されます。TensorRT は ONNX グラフを使用し、TensorRT エンジンを構築することで、ターゲット GPU にモデルを最適化します。これらのエンジンは、カーネル自動チューニングとレイヤー、テンソルの融合を通じて、NVIDIA GPU の利用を最大限に高めるために、ハードウェア レベルで多様な最適化を提供します。
ビジョン エンコーダーから取得した視覚情報は、TensorRT-LLM でサポートされているクロス アテンションのメカニズムを使用して Llama テキスト デコーダーに融合されます。これにより VLM は、テキスト入力のコンテキストにおける理解と視覚的な推論 (Reasoning) を考慮に入れて、効率的にテキストを生成できるようになります。
NVIDIA NIM を使用して生成 AI ソリューションを容易にデプロイ
TensorRT の最適化は、NVIDIA NIM マイクロサービスを使用した本番環境へのデプロイを通じて利用できます。NIM マイクロサービスは、クラウド、データ センター、ワークステーションなど、NVIDIA がアクセラレートするインフラ全体で生成 AI モデルのデプロイを加速します。
Llama 3.2 90B Vision Instruct、Llama 3.2 11B Vision Instruct、Llama 3.2 3B Instruct および Llama 3.2 1B Instruct は、NIM マイクロサービスを通じた本番環境へのデプロイに対応しています。NIM は、生成 AI ワークロードの簡素化された管理とオーケストレーション、標準的なアプリケーション プログラミング インターフェイス (API) および本番環境に対応したコンテナーによるエンタープライズ サポートを提供します。175 社を超えるパートナーが自社のソリューションを NVIDIA NIM マイクロサービスと統合し、強力で拡大を続けるエコシステム サポートを提供することで、世界中の開発者、研究者、企業は、生成 AI アプリケーションに対する投資収益率を最大化できます。
NVIDIA AI Foundry と NVIDIA NeMo による Llama 3.2 モデルのカスタマイズと評価
NVIDIA AI Foundry は、高度な AI ツール、コンピューティング リソース、AI の専門知識にアクセスできる、Llama 3.2 モデルのカスタマイズに適したエンドツーエンドのプラットフォームを提供します。独自のデータに基づいてファインチューニングしたカスタム モデルにより、企業は特定ドメインにおける業務でより優れたパフォーマンスと精度を達成し、競争力を高めることができます。
NVIDIA NeMo を使用することで、開発者はトレーニング データをキュレーションして LoRA、SFT、DPO、RLHF などの高度なチューニング技術を活用して、Llama 3.2 モデルをカスタマイズし、精度を評価し、ガードレールを追加して、モデルから適切な応答が得られるようになります。AI Foundry は、NVIDIA DGX Cloud 上で専用のリソースを提供し、そして NVIDIA AI の専門家によってサポートされています。出力は、NVIDIA NIM 推論マイクロサービスとしてパッケージ化されたカスタム Llama 3.2 モデルで、どこにでもデプロイすることができます。
NVIDIA RTX および NVIDIA Jetson によるローカル推論のスケーリング
現在、Llama 3.2 モデルは、世界中の 1 億台を超える NVIDIA RTX 搭載 PC およびワークステーションで最適化されています。Windows でのデプロイ用に NVIDIA はこのモデル スイートを最適化し、DirectML バックエンドで ONNX-GenAI ランタイムを使用して効率的に動作するようにしました。NVIDIA RTX で Llama 3.2 3B モデルを使用してみましょう。
新しい VLM と SLM モデルは、NVIDIA RTX システムに新たな可能性をもたらします。実証するために、テキストと視覚データ処理 (例えば画像、グラフ、表など) を組み合わせ、情報検索と生成を強化するマルチモーダル検索拡張生成 (RAG) パイプラインの例を作成しました。
Llama 3.2 SLM と VLM を使用して NVIDIA RTX Linux システム上でこのパイプラインを実行する方法についてご覧ください。30 GB 以上のメモリを搭載する NVIDIA RTX プロフェッショナル GPU を搭載した Linux ワークステーションが必要となります。
SLM は、アプリケーションに特化したドメインの精度を確保しながらメモリ、レイテンシおよび演算要件を削減するために、蒸留、プルーニング、量子化などの技術を使用して、エッジ デバイスへのローカル デプロイに合わせてカスタマイズされています。最適化された GPU の推論と INT4/FP8 量子化を備えた Jetson に、Llama 3.2 1B および 3B SLM をダウンロードしてデプロイするには、NVIDIA Jetson AI Lab の SLM チュートリアルを参照してください。
マルチモーダル モデルは、ビデオ分析やロボティクスにおける独自のビジョン機能により、エッジ アプリケーションで有用性が高まってきています。Llama 3.2 11B VLM は、組み込みの Jetson AGX Orin 64 GB でサポートされています。
コミュニティ AI モデルの進化
オープンソースに積極的に貢献している NVIDIA では、ユーザーが直面する最も困難な課題で支援できるように、コミュニティ ソフトウェアの最適化に取り組んでいます。オープンソースの AI モデルは透明性を促進し、ユーザーは AI の安全性とレジリエンスに関する作業を広く共有することが可能になります。
Hugging Face の推論サービス (Inference-as-a-Service) 機能により、開発者は NVIDIA DGX Cloud 上で動作する NVIDIA NIM マイクロサービスで最適化された Llama 3 コレクションなどの大規模言語モデル (LLM) を迅速にデプロイすることができます。
NVIDIA 開発者プログラムを通じて、研究、開発、テスト用の NIM への無料アクセスを利用できます。
NVIDIA NIM、NVIDIA TensorRT-LLM、NVIDIA TensorRT、NVIDIA Triton などのNVIDIA AI 推論プラットフォームが、LoRA でチューニングした最新の LLM の高速化など、どのように最先端の技術を使用しているのかについては詳細を是非調べてみてください。
関連情報
- GTC セッション: LLM クラスター アーキテクチャの青写真: 世界最大規模のデプロイに向けたスケーリング (Supermicro による講演)
- NGC コンテナー: Llama-3-Swallow-70B-Instruct-v0.1
- NGC コンテナー: Llama-3.1-405b-instruct
- SDK: Llama3 8B Instruct NIM