Data Center / Cloud / Edge

ChatGPT を動かすものとは? – ビデオのご紹介 –

Reading Time: < 1 minute

数年前、創業者/ CEO のジェンスン フアン (Jensen Huang) は、世界初の NVIDIA DGX AI システムを OpenAI に直接提供しました。そして今、OpenAI の ChatGPT は世界を席巻しています。ChatGPT によって人工知能 (AI) のメリットや機能が浮き彫りとなり、規模に関わらずあらゆる業界や企業において、 AI がどのように活用できるかが明らかになっています。

さて、ChatGPT をホストしてサポートするのに必要なテクノロジやインフラストラクチャについて、よく考えたことはあるでしょうか?

このビデオでは、Microsoft Azure の CTO であるマーク ルシノビッチ (Mark Russinovich) 氏が、 AI 専用スーパーコンピューターを支えるインフラストラクチャの背後にあるテクノロジ スタックについて説明しています。このインフラストラクチャは、ChatGPT やその他の大規模言語モデル (LLM) をどのような規模でもホストできるように、NVIDIA と Microsoft Azure が OpenAI と協力して開発したものです。

主なポイント

  • データの並列処理アプローチにより、NVIDIA H100 Tensor コア GPU を使用した推論のパフォーマンスが 30 倍、モデル トレーニングのパフォーマンスが 4 倍向上しました。
  • より高度な LLM の処理要求を満たすために、VM は NVIDIA Quantum-2 InfiniBand ネットワーキングを使用して拡張されました。
  • 大規模なトレーニングでは、サーバーの障害やネットワークのフラップは避けられません。マイクロソフトの Project Forge は、ジョブを迅速に再開して、グローバルで高い稼働率を維持するために、透過的なチェックポイント機能を導入しました。
  • 低ランク適応 (LoRA) のファインチューニングにより、10 億パラメーター モデルを大規模に処理する際の GPU 使用量とチェックポイントのサイズが小さくなります。
  • Wayve をはじめとする業界の先駆者は、計算集約型のワークロードに AI スーパーコンピューター インフラストラクチャを活用しています。
  • 今後、 NVIDIA H100 GPU を活用したコンフィデンシャル コンピューティングが Azure 上でサポートされます。これにより、機密データの安全性を確保し、使用中の有用な AI モデルを保護、AI の安全なマルチパーティ コラボレーションのユース ケースが実現します。
動画 1. ChatGPT を動かすものとは? マイクロソフト AI スーパーコンピューターのしくみ | マーク ルシノビッチ氏出演

まとめ

数千億のパラメーターを使用して AI モデルをトレーニングする場合に鍵となるのが、効率性の高いデータ センター インフラストラクチャです。これにより、スループットが向上しサーバー障害が大幅に削減できるだけでなく、マルチ GPU クラスターを活用したコンピューティング集約型のワークロードが実現します。

データ センター インフラストラクチャを最適化して大規模なモデルを確実に展開する方法について、詳しくは以下の資料を参照してください。


関連資料

Tags