CUDA 11.6 ツールキットの新リリースを発表

Reading Time: < 1 minute

NVIDIA は、 CUDA 開発環境の最新リリースである CUDA 11.6 を発表しました。今回のリリースは、プログラミングモデルとアプリケーションのパフォーマンスの向上に焦点を当てています。 CUDA は、 GPU アクセラレーションの限界を押し広げ、HPC、ビジュアライゼーション、AI、ML と DL、データサイエンスにおける新しいアプリケーションの基礎を築き続けます。

CUDA 11.6 にはいくつかの重要な機能があります。この記事では、主な機能の概要をご紹介します。

GSP ドライバーアーキテクチャのデフォルトが Turing と Ampere GPU に変更
インスタンス化されたグラフのノードを無効にするための新しい API
128 ビット整数型のフルサポート
Cooperative groups の名前空間の更新
CUDA コンパイラアップデート
Nsight Compute 2022.1 リリース

CUDA 11.6 にはアップデートブランチである R510 ドライバーが同梱されています。 CUDA 11.6 ツールキットこちらからダウンロード可能です。

GSPドライバーアーキテクチャ

GSP ドライバーアーキテクチャは、対応しているすべての Turing および Ampere GPU に対して、ドライバーモードのデフォルトになりました。古いドライバーアーキテクチャはフォールバックとしてサポートされています。詳細については、 R510 Driver Readme を参照してください。

インスタンス化されたグラフノードを操作するAPI の追加

新しい API cudaGraphNodeSetEnabled の追加により、インスタンス化されたグラフのノードを無効化にできるようになりました。本リリースでは、サポート対象をカーネルノードに限定しています。また、対応する API cudaGraphNodeGetEnabled により、ノードの有効状態を問い合わせることができます。また、NULL カーネルグラフノードの起動を無効にする機能も追加されました。

128 ビット整数対応

CUDA 11.6 では、128 ビット整数の (__int128) データ型が、コンパイラや開発ツールのサポートを含め、すべての機能がリリースされました。この機能を使用するには、ホスト側のコンパイラが __int128 データ型をサポートしている必要があります。

Cooperative groups の名前空間

Cooperative groups の名前空間が更新され、名前、機能の範囲、ユニットの寸法とサイズの一貫性を向上させるために新しい機能が追加されました。

Implicit Group/Member	Threads	Blocks
`thread_block::`	`dim_threads` `num_threads` `thread_rank` `thread_index`	(Not needed)
`grid_group::`	`num_threads` `thread_rank`	`dim_blocks` `num_blocks` `block_rank` `block_index`

表 1．Cooperative groups の名前空間中に追加された新しい関数

CUDA コンパイラ

コンパイル時にインストールされた GPU をターゲットとする -arch=native コンパイルオプションを追加しました。これは、既存の -gencode=arch=compute_xx,code=sm_xx アーキテクチャ仕様を拡張するものです。
nvlink から PTX ファイルを作成する機能を追加。

非推奨の機能

デバイス上でのフォークとジョインを用いた並列処理における cudaDeviceSynchronize() の使用は、より高い性能を持つ代替プログラミングモデルに備えて非推奨となりました。このリリースでは、これらの関数は引き続き動作しますが、ツールでは今後の変更についての警告が出されます。
2021 年 12 月 31 日に CentOS Linux 8 has reached End-of-Life がリリースされ、CUDA Toolkit の利用は、非推奨となりました。CentOS Linux 8 のサポートは、将来のリリースで完全に削除される予定です。

翻訳に関する免責事項

この記事は、「CUDA 11.6 Toolkit New Release Revealed」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

CUDA 11.6 ツールキットの新リリースを発表

GSPドライバーアーキテクチャ

インスタンス化されたグラフノードを操作するAPI の追加

128 ビット整数対応

Cooperative groups の名前空間

CUDA コンパイラ

非推奨の機能

関連情報

翻訳に関する免責事項

Tags

About the Authors

CUDA 11.6 ツールキットの新リリースを発表

GSPドライバー アーキテクチャ

インスタンス化されたグラフノード を操作するAPI の追加

128 ビット整数対応

Cooperative groups の名前空間

CUDA コンパイラ

非推奨の機能

関連情報

翻訳に関する免責事項

Tags

About the Authors

関連記事

NVIDIA GB200 NVL72 は兆単位パラメーターの LLM トレーニングとリアルタイム推論を実現

NeMo Framework で日本語 LLM を簡単デプロイ - オンライン推論編 -

cuDLA による NVIDIA Jetson Orin 上での YOLOv5 の紹介

NeMo Framework で日本語 LLM をファインチューニング - PEFT 編 -

TAO Toolkit 5.0 に追加された Data Service を活用

GSPドライバーアーキテクチャ

インスタンス化されたグラフノードを操作するAPI の追加