Robotics

CUDA Toolkit 11.8 の新機能が公開

Reading Time: < 1 minute

NVIDIA は、CUDA ツールキットの最新ソフトウェア リリース 11.8 を発表しました。このリリースは、新しいハードウェア機能によるプログラミング モデルの強化と CUDA アプリケーションのスピードアップに重点を置いています。

NVIDIA Hopper および Ada Lovelace アーキテクチャ固有の新機能は、初めはライブラリとフレームワークの強化を通じて公開されます。NVIDIA Hopper アーキテクチャのための完全なプログラミング モデル強化は、CUDA Toolkit 12 ファミリからリリースされる予定です。

CUDA 11.8 はいくつかの重要な機能を備えています。この記事では、主要な機能の概要をご紹介します。

NVIDIA Hopper および NVIDIA Ada アーキテクチャのサポート

CUDA アプリケーションは、新しい GPU ファミリのストリーミング マルチプロセッサ (SM) 数の増加、より高いメモリ バンド幅、そしてより高いクロック周波数の恩恵をすぐに受けることができます。

CUDA と CUDA ライブラリは、GPU ハードウェア アーキテクチャの強化に基づく新しい性能の最適化を公開します。

遅延モジュール ロード

11.7 の遅延カーネル ロード機能をベースに、NVIDIA は CPU モジュール側に遅延ロードを追加しました。これは、関数やライブラリが CPU 上でより速くロードされ、時には大幅なメモリフットプリントの削減が可能になることを意味します。トレードオフは、アプリケーション内で関数が最初にロードされる時点の遅延が最小限であることです。これは、遅延ロードを行わない場合の遅延よりも全体的に小さくなっています。

遅延ロードで使用されるすべてのライブラリは、遅延ロードの対象となるために 11.7 以上でビルドする必要があります。

このリリースでは、CUDA スタックで遅延ロードがデフォルトでは有効になっていません。ご自身のアプリケーションで評価する場合は、環境変数 CUDA_MODULE_LOADING=LAZY を設定して実行してください。

MPS シグナル処理を改善

MPS 環境で実行中のアプリケーションを、他の実行中のプロセスに影響を与えることなく、SIGINT または SIGKILL で終了させることができるようになりました。真のエラー分離ではありませんが、この強化により、特にベアメタル データ センター環境において、よりきめ細かなアプリケーション制御が可能になります。

H100 GPU 向け数学ライブラリで FP8 をサポート

cuBLASLt は、新しい FP8 データ型による混合精度の乗算を公開します。これらの演算は、BF16 および FP16 バイアス融合、および FP8 入出力データ型を持つ GEMM のよる GELU 活性化関数のための FP16 バイアスもサポートしています。CUDA Math API は、新しい FP8 行列積演算の使用を容易にするために、FP8 変換を提供します。

NVIDIA JetPack のインストールの簡素化

NVIDIA JetPack は、Jetson プラットフォーム上でハードウェアによる高速化でエッジ AI のための完全な開発環境を提供します。CUDA Toolkit 11.8 以降、NVIDIA JetPack 5.0 以降の Jetson ユーザーは、NVIDIA JetPack のバージョンまたは Jetson Linux BSP (ボード サポート パッケージ) を更新することなく最新の CUDA バージョンにアップグレードでき、CUDA デスクトップのリリースと同等にすることが可能です。

詳細については、NVIDIA Jetson 開発者のための CUDA アップグレードの簡素化をご覧ください。

CUDA 開発者ツールのアップデート

コンピューティング開発者向けツールは、CUDA エコシステムと連動して設計されており、性能に関する問題の特定と修正に役立ちます。

Nsight Compute

Nsight Compute では、低レベルのパフォーマンス メトリクスの詳述、API コールのデバッグ、ワークロードの可視化により、CUDA カーネルの最適化に役立てることができます。CUDA 11.8 では、NVIDIA Hopper アーキテクチャのパフォーマンス チューニングのアクティビティを支援するために、新しいコンピューティング機能が導入されています。

NVIDIA Hopper スレッド ブロック クラスターのプロファイリングとデバッグが可能になり、性能向上と GPU の制御強化が実現しました。クラスター チューニングは、グローバル メモリと共有メモリ間の NVIDIA Hopper 高速データ転送システムである Tensor Memory Accelerator (TMA) のプロファイリング対応と合わせてリリースされています。

Nsight Compute for CUDA 11.8 には、新しいサンプルも含まれています。このサンプルは、非コアレス メモリ アクセス問題を特定し修正するための、ワークフロー全体を説明するソース コードと出力例を提供します。ツールキットの機能を使用し、ご自身のアプリケーションで同様のケースを解決するための知識を身につけるために、より多くの CUDA サンプルをご覧ください。

Nsight Systems

Nsight Systems によるプロファイリングは、GPU の枯渇、不要な GPU 同期、不十分な CPU 並列化、CPU と GPU にわたる高コストなアルゴリズムなどの問題に対する洞察や知見を提供します。これらの挙動と PyTorch や TensorFlow などのディープラーニング フレームワークの負荷を理解することで、モデルやパラメーターを調整し、単一または複数の GPU の全体の利用率を高めることができます。

その他のツール

また、CUDA Toolkit には、CPU と GPU のスレッド デバッグを行う CUDA-GDB と、機能の正しさをチェックする Compute Sanitizer の両方が、NVIDIA Hopper アーキテクチャに対応しています。

まとめ

本リリースの CUDA 11.8 Toolkit は、以下の機能を備えています。

  • NVIDIA Hopper および NVIDIA Ada Lovelace GPU をサポートする初のリリース
  • デバイス側カーネルに加え、CPU 側モジュールの遅延ロードをサポートするために拡張された遅延モジュール ロード
  • アプケーションを中断や終了させるための MPS シグナル処理の改善
  • NVIDIA JetPack のインストールの簡素化
  • CUDA 開発者ツールのアップデート

詳細は、以下の情報をご覧ください。

翻訳に関する免責事項

この記事は、「CUDA Toolkit 11.8 New Features Revealed」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

Tags