NVIDIA と Run:ai で学習させた AI モデルをあらゆるクラウドへ展開

Reading Time: 2 minutes

最新のコンピュートリソースにアクセスし、世界中の顧客を一貫してサポートし、コストを最適化するために、ハイブリッドクラウドやマルチクラウド戦略を採用する企業が増えています。しかし、エンジニアリングチームが直面する大きな課題は、スタックの変更に応じて、異なるプラットフォーム間で AI アプリケーションを運用することにあります。そのため、MLOps チームはさまざまな環境に精通し、開発者は対象のプラットフォーム間で実行できるように、アプリケーションをカスタマイズする必要があります。

NVIDIA は、GPU を搭載したオンプレミスまたはオンクラウドインスタンスで開発を行うための一貫したフルスタックを提供しており、利用者は、コードを変更することなく、その AI アプリケーションを GPU 搭載したどのプラットフォームにも展開することができます。

NVIDIA によるエンタープライズサポート

NVIDIA Cloud Native Stack VMI と GPU Operator のエンタープライズサポートについては、NVIDIA パートナーを通じて NVIDIA AI Enterprise をご購入ください。

コンセプトから展開まで、AI ソリューションを開発することは容易ではありません。NVIDIA AI Enterprise サポートサービスを利用して、AI プロジェクトを軌道に乗せてください。NVIDIA AI Enterprise ソフトウェアスイートの購入に含まれているこの包括的なサービスは、NVIDIA AI エキスパートへの直接お問い合わせ、サービスレベル契約、長期サポートオプションによるアップグレードやメンテナンススケジュールの管理を提供します。

NVIDIA AI Enterprise 上で Run:ai の利用をサポート

Run:ai は AI ワークロードのためのコンピュートオーケストレーションの業界リーダーですが、同社の Atlas プラットフォーム上で、エンドツーエンドで安全なクラウドネイティブの AI ソフトウェアスイートである NVIDIA AI Enterprise がサポートされました。これにより企業はデータサイエンスのパイプラインを加速することができます。また、重要なプロセスを自動化し、データから迅速なインサイトを得るために、予測 AI モデルの開発と展開の合理化に集中することができます。

Run:ai は、クラウドおよびオンプレミスクラスターにおける GPU のアクセス、管理、利用を簡素化する AI コンピューティングプラットフォームを提供します。スマートなスケジューリングと高度な GPU 分割機能により、ジョブに適したコンピュートリソースを確保します。

Run:ai Atlas には GPU オーケストレーション機能があり、研究者が GPU をより効率的に利用できるよう支援します。これは、AI ワークロードのオーケストレーションと、チームやクラスターにまたがるハードウェアリソースの管理と仮想化を自動化することで実現します。

Run:ai はどんな Kubernetes クラスターにもインストールでき、AI インフラストラクチャに効率的なスケジューリングとモニタリング機能を提供します。NVIDIA Cloud Native Stack VMI を使用すると、クラウドインスタンスを Kubernetes クラスターに追加して、クラスターの GPU 搭載ワーカーノードにすることができます。

あるチームメンバーの声「NVIDIA Cloud Native Stack VMI を使用しない場合、多くの手作業ががエンジニアに要求されます。Cloud Native Stack VMI を使えば、2 クリックで Kubernetes と Docker、そして GPU Operator のプロビジョニングが完了するので、仕事を始めるのがより簡単で速くなりました。」

AWS 上で Cloud Native Stack VMI をセットアップ

AWS Marketplace で、AWS Marketplace インスタンスの起動の手順を参照して、NVIDIA Cloud Native Stack VMI を起動します。

必要な前提条件が満たされていることを確認し、クラスターインストールの手順を参照して Run:ai をインストールします。インストール後、Overview ダッシュボードでメトリクスが入力され始めることを確認します。Clusters タブで、クラスターが接続されていることが確認できます。

次に、kube-apiserver.yaml ファイルにいくつかのコマンドコンポーネントを追加して、Run:ai プラットフォームでユーザー認証を有効にします。詳細については、管理ユーザーインターフェイスのセットアップを参照してください。

デフォルトでは、以下のディレクトリに kube-apiserver.yaml ファイルがあります:

/etc/kubernetes/manifests/kube-apiserver.yaml

oidc コマンドが kube-apiserver によって正常に適用されたことを確認できます。出力から oidc コマンドを探します。

spec:
  containers:
  - command:
    - kube-apiserver
    - --oidc-client-id=runai
    - --oidc-issuer-url=https://app.run.ai/auth/realms/nvaie
    - --oidc-username-prefix=-

Unified UI を設定し、新しいプロジェクトを作成します。プロジェクトは、Run:ai プラットフォームを使用しているデータ科学者や研究者の GPU 割り当て保証を指示するのに役立ちます。

新しいプロジェクトに名前を付け、少なくとも 1 つの GPU をプロジェクトに割り当てます。この記事では、2 基の GPU 割り当てのプロジェクトと、GPU 割り当てなしのプロジェクトを作成し、それぞれ nvaie-high-priority と nvaie-low-priority と名付けました。プロジェクトが作成されたら、 Run:ai CLI ツールをインストールし、クラスターにワークロードを投入することができます。

以下のコマンドは、runai CLI を使用して、quickstart と呼ばれる Docker イメージを活用してジョブ (job1 または job2) を投入します。quickstart には、TensorFlow、CUDA、モデル、モデルをフィードインして学習するデータが含まれています。これは、トレーニングのために 1 基の GPU を活用し (-g 1) 、-p パラメーターで示される低優先度または高優先度のプロジェクトに代わって投入されます。

いくつかのテストジョブをデプロイして、Run:ai のオーケストレーション機能の一部を表示します:

runai submit job1 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority 
runai submit job2 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-low-priority

ジョブのステータスは、実行することで確認できます:

runai describe job job1 -p nvaie-high-priority
runai describe job job2 -p nvaie-low-priority

両方のワークロードの学習プロセスが GPU 上で実行されていることが Overview ダッシュボードで確認できます。

追加のワークロードを投入して、ジョブのプリエンプション機能を強調することができます。現在、nvaie-high-priority プロジェクトは、割り当て GPU が 2 基に設定されているため、両方の GPU へのアクセスが保証されています。nvaie-high-priority プロジェクトに追加ワークロードを投入し、nvaie-low-priority ジョブがプリエンプションされていることを確認できます。

ジョブのプリエンプションにより、学習ワークロードのチェックポイント処理を見て、チェックポイントで現在の進捗を保存し、その後、ワークロードをプリエンプションして GPU から削除することができます。学習の進捗を保存し、より優先度の高いワークロードの実行のために GPU を解放します。

runai submit job3 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority

ジョブの進捗は、以下で確認できます:

runai describe job job3 -p nvaie-high-priority

Overview ダッシュボードに戻ると、nvaie-high-priority プロジェクトで実行中の 2 つのジョブと、nvaie-low-priority のワークロードがプリエンプションされて保留キューに戻されているのがわかります。保留キュー内のワークロードは、GPU が利用可能になると自動的に再スケジュールされます。

ジョブをクリーンアップするには、以下のコマンドを実行します:

runai delete job job1 -p nvaie-low-priority 
runai delete job job2 job3 -p nvaie-high-priority

まとめ

NVIDIA は、GPU を搭載したオンプレミスまたはオンクラウドインスタンスで開発するための一貫したフルスタックを提供します。MLOps を通して開発者は、コードを変更することなく、その AI アプリケーションをあらゆる GPU 搭載プラットフォームに展開することができます。

AI ワークロードのためのコンピュートオーケストレーションの業界リーダーである Run:ai の Atlas プラットフォーム上で、エンドツーエンドでセキュアなクラウドネイティブの AI ソフトウェアスイートである NVIDIA AI Enterprise がサポートされました。NVIDIA AI Enterprise は、NVIDIA パートナーを通じて購入することができ、NVIDIA VMI および GPU Operator のエンタープライズサポートを提供します。NVIDIA AI Enterprise ソフトウェアスイートの購入に含まれるこの包括的な製品により、NVIDIA AI エキスパートへの直接お問い合わせ、サービスレベル契約、長期サポートオプションによるアップグレードやメンテナンススケジュールの管理が可能になります。

詳細は、以下の関連情報をご覧ください:

翻訳に関する免責事項

この記事は、「Train Your AI Model Once and Deploy on Any Cloud with NVIDIA and Run:ai」の抄訳で、お客様の利便性のために機械翻訳によって翻訳されたものです。NVIDIA では、翻訳の正確さを期すために注意を払っておりますが、翻訳の正確性については保証いたしません。翻訳された記事の内容の正確性に関して疑問が生じた場合は、原典である英語の記事を参照してください。

NVIDIA と Run:ai で学習させた AI モデルをあらゆるクラウドへ展開

最新の NVIDIA 仮想マシンイメージについて

NVIDIA によるエンタープライズサポート

NVIDIA AI Enterprise 上で Run:ai の利用をサポート

AWS 上で Cloud Native Stack VMI をセットアップ

まとめ

翻訳に関する免責事項

Tags

About the Authors

NVIDIA と Run:ai で学習させた AI モデルをあらゆるクラウドへ展開

最新の NVIDIA 仮想マシン イメージについて

NVIDIA によるエンタープライズ サポート

NVIDIA AI Enterprise 上で Run:ai の利用をサポート

AWS 上で Cloud Native Stack VMI をセットアップ

まとめ

翻訳に関する免責事項

Tags

About the Authors

関連記事

マルチモーダル検索拡張生成 (RAG) の簡単な紹介

NVIDIA GB200 NVL72 は兆単位パラメーターの LLM トレーニングとリアルタイム推論を実現

NVIDIA NeMo マイクロサービスでカスタム生成 AI 開発が簡単に

NVIDIA Spectrum-X に対する AI ネットワーク パフォーマンスのベンチマークを Supermicro が提供

cuDLA による NVIDIA Jetson Orin 上での YOLOv5 の紹介

最新の NVIDIA 仮想マシンイメージについて

NVIDIA によるエンタープライズサポート

NVIDIA Spectrum-X に対する AI ネットワークパフォーマンスのベンチマークを Supermicro が提供