画像001.jpg

GPUはAIコンピュータの頭脳である

簡単に言えば、グラフィックス プロセッシング ユニット (GPU) は AI コンピューターの頭脳として機能します。

ご存知のとおり、中央処理装置 (CPU) はコンピューターの頭脳です。 GPU の利点は、本質的には複雑な計算を実行することに特化した CPU であることです。この計算を実行する最も速い方法は、GPU のグループに同じ問題を解かせることです。それでも、AI モデルのトレーニングには数週間、場合によっては数か月かかることがあります。構築されると、フロントエンド コンピューティング システムに配置され、ユーザーは AI モデルに質問することができます。このプロセスは推論と呼ばれます。

複数のGPUを搭載したAIコンピュータ

AI の問題を解決するための最適なアーキテクチャは、ラック上部のスイッチに接続されたラック内の GPU クラスターを使用することです。ネットワーク接続階層で複数の GPU ラックを追加接続できます。解決すべき問題の複雑さが増すにつれて、GPU の要件も増加し、プロジェクトによっては数千の GPU のクラスターを展開する必要がある場合もあります。

各AIクラスターは小さなネットワークである

AI クラスターを構築する際には、GPU を接続して連携させ、データを効率的に共有できるようにするための小規模なコンピューター ネットワークをセットアップする必要があります。

画像002
AIクラスター

上の図は AI クラスターを示しており、下部の円は GPU 上で実行されているワークフローを表しています。 GPU はラック上部 (ToR) のスイッチに接続します。 ToR スイッチは、図の上部に示されているネットワーク バックボーン スイッチにも接続され、複数の GPU が関係する場合に必要な明確なネットワーク階層を示します。

ネットワークはAI導入のボトルネック
昨年秋、代表者たちが協力して次世代の AI インフラストラクチャを構築した Open Computer Project (OCP) グローバル サミットで、Marvell Technology の代表 Loi Nguyen 氏は「ネットワークが新たなボトルネックになっている」という重要な点を指摘しました。

技術的には、ネットワークの輻輳による大きなパケット遅延やパケット損失により、パケットが再送信され、ジョブ完了時間 (JCT) が大幅に増加する可能性があります。その結果、企業の数百万ドルから数千万ドル相当の GPU が非効率的な AI システムによって無駄になり、収益と市場投入までの時間の両方で企業に損害を与えます。

測定はAIネットワークの運用を成功させるための重要な条件である

AI クラスターを効率的に実行するには、GPU を最大限に活用してトレーニング時間を短縮し、学習モデルを展開して投資収益率を最大化できる必要があります。そのため、AIクラスターのパフォーマンスをテストして評価する必要があります(図2)。しかし、このタスクは簡単ではありません。システム アーキテクチャの観点から、GPU とネットワーク構造の間には多くの設定と関係があり、それらを相互に補完して問題を処理する必要があるためです。

画像005.jpg
AI データセンター テスト プラットフォームと AI データセンター クラスターのテスト方法

これにより、AI ネットワークの測定において多くの課題が生じます。

- コスト、設備、熟練したネットワーク AI エンジニアの不足、スペース、電力、温度などの制限により、ラボで実稼働ネットワーク全体を再現することが困難です。

- 生産システム上で測定を行うと、生産システム自体の利用可能な処理能力が低下します。

- 問題の規模や範囲の違いにより、問題を正確に再現することが困難です。

- GPU が集合的に接続する方法の複雑さ。

これらの課題に対処するために、企業はラボ環境で提案されたセットアップのサブセットをテストし、JCT (ジョブ完了時間)、AI チームが達成できる帯域幅などの主要なパラメータをベンチマークし、スイッチング プラットフォームの使用率やキャッシュの使用率と比較することができます。このベンチマークは、GPU/処理ワークロードとネットワーク設計/セットアップの適切なバランスを見つけるのに役立ちます。結果に満足したら、コンピューター アーキテクトとネットワーク エンジニアはこれらの設定を本番環境に適用し、新しい結果を測定できます。

企業の研究室、研究機関、大学では、特にベストプラクティスが変化し続ける中で、大規模ネットワークでの作業の課題に対処するために、効果的な AI ネットワークの構築と運用のあらゆる側面の分析に取り組んでいます。この繰り返し可能な共同アプローチは、企業が繰り返し可能な測定を実行し、「what-if」シナリオを迅速にテストするための唯一の方法であり、AI 向けネットワークを最適化するための基盤となります。

(出典: キーサイト・テクノロジー)