Data Center / Cloud / Edge

NVIDIA Arm HPC 開発者キットを使用したアプリケーションの評価

Reading Time: 3 minutes

NVIDIA Arm HPC 開発者キットは、ヘテロジニアスな GPU と CPU で高速化されたコンピューティング システム上で、HPC、AI、科学技術計算アプリケーションを作成、評価、ベンチマークするためのハードウェアとソフトウェアの統合プラットフォームです。NVIDIA は、2021 年 3 月に提供開始することを発表しました。

このキットは、HPC および AI アプリケーション向けの次世代 NVIDIA Grace Hopper Superchip への足がかりとして設計されています。2023 年前半に発売される NVIDIA Grace Hopper システムに先駆けて、明白でない x86 依存関係を特定し、ソフトウェアの準備を確実にするために使用することができます。詳細については、NVIDIA Grace Hopper Superchip アーキテクチャのホワイトペーパーをご覧ください。

オークリッジ リーダーシップ コンピューティング施設 (OLCF: Oak Ridge National Laboratory Leadership Computing Facility) は、NVIDIA Arm HPC 開発者キットを既存の Wombat Arm クラスターに統合しました。アプリケーション チームは、いくつかの HPC アプリケーションの構築、検証、およびベンチマークに取り組み、次世代の Arm および GPU ベースの HPC システムに対するアプリケーションの準備状況を評価しました。チームは、IEEE Transactions on Parallel and Distributed Systems Journal に共同で論文を投稿し、GPU 対応 Arm システムで利用可能な一連のソフトウェアとツールが、実稼働環境に対応していることを実証しました。詳細については、最新の GPU 対応 Armベース HPC プラットフォームにおける早期アプリケーション体験をご覧ください。

OLCF Wombat クラスター

Wombat は、様々なベンダーの Arm ベースのプロセッサを搭載した実験的なクラスターです。2018 年から運用されており、このクラスターは OLCF によって管理され、ユーザーや研究者が自由にアクセスできるようになっています。

調査時点では、このクラスターは 3 種類のコンピュート ノードで構成されていました。

  • 4 台の HPE Apollo 70 ノード、各ノードにはデュアル Cavium (現 Marvell) ThunderX2 CN9980 プロセッサと、2 基の NVIDIA V100 Tensor コア GPU を搭載
  • 16 台の HPE Apollo 80 ノード、各ノードには 1 基の Fujitsu A64FX プロセッサを搭載
  • 8 台の NVIDIA Arm HPC 開発者キット ノード、各ノードには 1 基の Ampere Computing Altra Q80-30 CPU と 2 基の NVIDIA A100 GPU を搭載

これら 3 種類のノードは、一般的な TX2 ベースのログイン ノードを共有し、Arm ベースで、すべてのノードが InfiniBand の EDR と HDR で接続されています。

HPC アプリケーションの評価

評価作業を行ったのは 11 の異なるチームです。オークリッジ国立研究所、サンディア国立研究所、イリノイ大学アーバナシャンペーン校、ジョージア工科大学、バーゼル大学、スイス国立スーパーコンピューティング センター (SNSC) 、ヘルムホルツ センター ドレスデン-ローゼンドルフ研究所、デラウェア大学、NVIDIA の研究者らがチームに加わりました。

表 1 では、最終的なアプリケーションのリストとその様々な特徴をまとめました。アプリケーションは 8 つの異なる科学分野をカバーし、Fortran、C、C++ で記述されたコードが含まれています。使用された並列プログラミング モデルは、MPI、OpenMP/OpenACC、Kokkos、Alpaka、および CUDA です。移植作業中には、アプリケーションのコードに変更は加えられませんでした。評価プロセスでは、アプリケーションの移植とテストに焦点を当て、たたき台としての実験的性質を考慮し、絶対的な性能にはあまり重点を置きませんでした。

アプリ名科学分野言語並列プログラミング モデル
ExaStar恒星天体物理学FortranOpenACC、OpenMP offload
GPU-I-TASSERバイオインフォマティクスCOpenACC
LAMMPS分子動力学C++OpenMP、KOKKOS
MFC流体力学FortranOpenACC
MILCQCDC/C++CUDA
MiniSweepSn 輸送COpenMP、CUDA
NAMD/VMD分子動力学C++CUDA
PIConGPUプラズマ物理学C++Alpaka、CUDA
QMCPACK化学C++OpenMP offload、CUDA
SPECHPC 2021様々C/C++/FortranOpenMP offload、OpenMP
SPH-EXA2流体力学C++OpenMP、CUDA
表 1. Wombat テストベッドで評価されたアプリケーション

この記事では、そのうちの 4 つのアプリケーションの結果について説明します。他のアプリケーションの詳細については、最新の GPU 対応 Armベース HPC プラットフォームにおける早期アプリケーション体験を参照してください。

タンパク質構造と機能予測のためのバイオインフォマティクス

GPU-I-TASSER は、タンパク質の構造と機能を予測するための GPU 対応バイオインフォマティクス手法です。I-TASSER Suite は、4 つの主要なステップを通してタンパク質構造を予測します。これらには、スレッド テンプレートの特定、反復的な構造組み立てシミュレーション、モデルの選択、および改良が含まれます。最後のステップは、構造に基づいた機能アノテーションです。構造の折り畳みと再組み立ての段階は、レプリカ交換モンテカルロ シミュレーションによって行われます。

図 1. Wombat と Summit における GPU-I-TASSER の性能

図 1 は、Summit 上の POWER9 プロセッサと比較した、Wombat の ThunderX2 と Ampere Altra プロセッサ、および NVIDIA A100 と V100 GPU の性能を示しています。Ampere Altra、NVIDIA V100、A100 では、それぞれ 1.8 倍、6.9 倍、13.3 倍の高速化が確認されました。

物理問題用流体ソルバー

マルチコンポーネント フロー コード (MFC: Multi-component Flow Code) は、圧縮性混相流やサブグリッド分散など、さまざまな物理問題に対して高次で精度の高いソリューションを提供するオープンソースの流体ソルバーです。

表 2 は、異なるハードウェアの平均経過時間と相対的な性能指標を示しています。時間の列は絶対的な意味はほとんどなく、相対的な性能が最も意味を持ちます (最後の列にも示されています)。すべての比較は、NVHPC v22.1 または GCC v11.1 コンパイラを使用しています。CPU の経過時間は、チップあたりの CPU コア数によって正規化されています。この結果から、A100 GPU は Summit の V100 と比較して 1.72 倍高速であることが分かります。

コンパイラ時間 (秒)高速化
NVIDIA A100NVHPC0.2815.71
NVIDIA V100NVHPC0.58.80
2xXeon 6248NVHPC2.71.63
2xXeon 6248GCC2.12.10
Ampera AltraNVHPC3.91.13
Ampera AltraGCC2.71.63
2xPOWER9NVHPC4.41.00
2xPOWER9GCC3.51.26
2xThunderX2NVHPC210.21
2xThunderX2GCC5.40.81
A64FXNVHPC4.31.02
A64FXGCC130.34
表 2. 様々なアーキテクチャにおける時間ステップごとの経過時間の比較。太字は、NVIDIA Arm HPC 開発者キット ハードウェアを使用したことを示しています。

NAMD と VMD による生体分子ダイナミクス シミュレーションと可視化

NAMD と VMD は、分子動力学シミュレーション (NAMD) および準備、分析、可視化 (VMD) のための生体分子モデリング アプリケーションです。研究者は NAMD と VMD を使用して、個々のタンパク質から大きなタンパク質複合体、光合成器官、そしてウイルス全体におよぶ生体分子系を研究しています。

表 3 によれば、A100 で NAMD を使用した場合のシミュレーションは、V100 の場合よりも 50% も高速になっています。Cavium ThunderX2 と IBM POWER9 の間でも同様の性能が実証されており、後者では CPU と GPU 間の低遅延の NVIDIA NVLink 接続の恩恵を受けています。

CPUGPUコンパイラPerf (ns/day)
2x EPYC 7742A100-SXM4GCC187.5
1x Ampera AltraA100-PCIeGCC182.2
2x Xeon 6134A100-PCIeICC181.4
2x POWER9V100-NVLINKXLC125.7
2x ThunderX2V100-PCIeGCC124.9
表 3. 100 万原子 STMV シミュレーション、12A カットオフによる NVE アンサンブル、リジッド ボンドの制約、2fs 高速タイム ステップによるマルチ タイム ステップ、および PME は 4fs、における NAMD シングル GPU 性能を示しています。太字は、NVIDIA Arm HPC 開発者キット ハードウェアを使用したことを示しています。

VMD の場合、表 4 の GPU による高速化の結果は、既存の CPU プラットフォームと比較して、GPU が提供するはるかに高いピーク演算スループットとメモリ帯域幅によって得られる性能向上を示しています。GPU 分子軌道の結果は、GPU の性能とGPU をホストしたインターコネクトの帯域幅を強調しています。

CPUコンパイラSIMD時間 (秒)
AMD TR 3975WXICCAVX21.32
AMD TR 3975WXICCSSE22.89
1x Ampere AltaArmClangNEON1.35
2x ThunderX2ArmClangNEON3.02
A64FXArmClangSVE4.15
A64FXArmClangNEON13.89
2x POWER9ArmClangVSX6.43
表 4. 各プラットフォームにおける VMD 分子軌道実行時間の比較。太字は、NVIDIA Arm HPC 開発者キット ハードウェアを使用したことを示しています。

QMCPACK

QMCPACK は、オープンソースの高性能な量子モンテカルロ (QMC: Quantum Monte Carlo) パッケージで、様々な統計的アプローチを使って多体シュレーディンガー方程式を解きます。QMC で行われるいくつかの近似は、系統的にテストされ削減されるため、密度汎関数理論のようなより広く使用されている方法と比較して、大幅な計算コストのトレードオフで予測における不確実性を定量化することができるかもしれません。

応用例としては、弱く結合した分子、2 次元のナノ材料、金属、半導体、絶縁体のような固体材料などが挙げられます。

図 2. NiO ベンチマークにおける電子数の関数としての Wombat ノードと Summit ノードの QMCPACK DMC スループット

図 2 に示すように、Wombat で実行される単一の A100 GPU は、ほぼすべての問題サイズで V100 の実行を上回り、スループットが大幅に向上しています。Wombat の 2 基の A100 GPU は、最大かつ計算上最も困難なケースにおいて、大幅に性能が向上しています。これらのシステム サイズでは、より大きな GPU メモリが性能向上の最も大きな要因となります。

NVIDIA Arm HPC 開発者キットの評価結果

Wombat クラスターの一部として NVIDIA Arm HPC 開発者キットを使用している研究チームは、「NVIDIA GPU を組み込んだ Wombat テストベッド ノードの展開において、Arm Server 対応ファームウェア OS、ソフトウェア、ライブラリ、エンドユーザー パッケージからスタックを越えて貢献することによって、一般的なクラスターの設定が容易になったことがわかりました。」と語りました。

「この研究でテストされた GPU で高速化されたアプリケーションの多くは、GPU アーキテクチャに最適化されたアプリケーション カーネルからその性能のほとんどを引き出しています。」と彼らは付け加えました。「これは、新しい Arm および GPU プラットフォームのテストの重要性を否定するものではありません。私たちは、最大の制約は、限られた GPU メモリ サイズと、GPU アクセラレータの近くにデータを移行して保持するためのメカニズムに関連しているようだと指摘しました。」

NVIDIA Grace Hopper システムへの道のり

NVIDIA Arm HPC 開発者キットは、Arm エコシステムで加速された HPC、AI、科学技術計算アプリケーションの開発および性能分析のための安定したハードウェアとソフトウェアのプラットフォームをお客様に提供するために開発されました。NVIDIA Grace Hopper Superchip は、72 基の Arm Neoverse V2 CPU コアの非常に高いシングル スレッド性能と次世代 GPU の NVIDIA Hopper H100 を組み合わせ、HPC および AI アプリケーションに比類ない性能を提供します。NVIDIA Grace Hopper Superchip は、PCIe Gen5 よりも 7 倍高速な NVLink-C2C で CPU と GPU を接続し、LPDDR5X と HBM3 メモリによって 3.5TB/s のメモリ帯域幅をサポートすることで革新をもたらします。

NVIDIA Grace Hopper Superchip は、すでにスイス国立スーパーコンピューティング センター (CSCS: Swiss National Supercomputing Centre)、ロスアラモス国立研究所 (LANL: Los Alamos National Laboratory) 、キング アブドゥッラー科学技術大学 (KAUST: King Abdullah University of Science and Technology) など、HPC の主要なお客様方に採用されています。

NVIDIA Grace Hopper Superchip を搭載したシステムは、2023 年前半に主要な OEM から発売される予定です。Arm エコシステムへのアプリケーションの移行をいち早く開始されたいお客様は、Gigabyte Systems から NVIDIA Arm HPC 開発者キットを購入することができます。

NVIDIA Grace Hopper アーキテクチャがどのように次世代の性能と容易なプログラミングを実現するかについては、NVIDIA Grace Hopper Superchip アーキテクチャのホワイトペーパーで詳細をご覧ください。

翻訳に関する免責事項

この記事は、「Evaluating Applications Using the NVIDIA Arm HPC Developer Kit」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

Tags