GPUはAIコンピュータの頭脳である
簡単に言えば、グラフィックス プロセッシング ユニット (GPU) は AI コンピューターの頭脳として機能します。
ご存知のとおり、中央処理装置 (CPU) はコンピューターの頭脳です。 GPU の利点は、本質的には複雑な計算を実行することに特化した CPU であることです。この計算を実行する最も速い方法は、GPU のグループに同じ問題を解かせることです。それでも、AI モデルのトレーニングには数週間、場合によっては数か月かかることがあります。構築されると、フロントエンド コンピューティング システムに配置され、ユーザーは AI モデルに質問することができます。このプロセスは推論と呼ばれます。
複数のGPUを搭載したAIコンピュータ
AI の問題を解決するための最適なアーキテクチャは、ラック上部のスイッチに接続されたラック内の GPU クラスターを使用することです。ネットワーク接続階層で複数の GPU ラックを追加接続できます。解決すべき問題の複雑さが増すにつれて、GPU の要件も増加し、プロジェクトによっては数千の GPU のクラスターを展開する必要がある場合もあります。
各AIクラスターは小さなネットワークである
AI クラスターを構築する際には、GPU を接続して連携させ、データを効率的に共有できるようにするための小規模なコンピューター ネットワークをセットアップする必要があります。
上の図は AI クラスターを示しており、下部の円は GPU 上で実行されているワークフローを表しています。 GPU はラック上部 (ToR) のスイッチに接続します。 ToR スイッチは、図の上部に示されているネットワーク バックボーン スイッチにも接続され、複数の GPU が関係する場合に必要な明確なネットワーク階層を示します。
ネットワークはAI導入のボトルネック
昨年秋、次世代の AI インフラストラクチャの構築に向けて代表者が集まった Open Computer Project (OCP) グローバル サミットで、Marvell Technology の代表 Loi Nguyen 氏は、「ネットワークが新たなボトルネックになっている」という重要な問題を指摘しました。
技術的には、ネットワークの輻輳による大きなパケット遅延やパケット損失により、パケットが再送信され、ジョブ完了時間 (JCT) が大幅に増加する可能性があります。その結果、非効率的な AI システムにより、企業から数百万ドルまたは数千万ドル相当の GPU が無駄になり、収益と製品発売までの時間の両方で企業に損害を与えます。
測定はAIネットワークの運用を成功させるための重要な条件である
AI クラスターを効率的に実行するには、GPU を最大限に活用してトレーニング時間を短縮し、学習モデルを展開して投資収益率を最大化できる必要があります。そのため、AIクラスターのパフォーマンスをテストして評価する必要があります(図2)。しかし、このタスクは簡単ではありません。システム アーキテクチャの観点から、GPU とネットワーク構造の間には多くの設定と関係があり、それらを相互に補完して問題を処理する必要があるためです。
これにより、AI ネットワークの測定において多くの課題が生じます。
- コスト、設備、熟練したネットワーク AI エンジニアの不足、スペース、電力、温度などの制限により、ラボで実稼働ネットワーク全体を再現することが困難です。
- 生産システム上で測定を行うと、生産システム自体の利用可能な処理能力が低下します。
- 問題の規模や範囲の違いにより、問題を正確に再現することが困難です。
- GPU が集合的に接続する方法の複雑さ。
これらの課題に対処するために、企業はラボ環境で推奨設定のサブセットをテストして、JCT(ジョブ完了時間)などの主要なパラメータをベンチマークすることができます。AIチームが達成できる帯域幅と、スイッチングプラットフォームの使用率を比較します。キャッシュの使用率。このベンチマークは、GPU/処理ワークロードとネットワーク設計/セットアップの適切なバランスを見つけるのに役立ちます。結果に満足したら、コンピューター アーキテクトとネットワーク エンジニアはこれらの設定を本番環境に適用し、新しい結果を測定できます。
企業の研究所、研究機関、大学は、ネットワーク上での作業の課題に対処するために、効果的な AI ネットワークの構築と運用のあらゆる側面の分析に取り組んでいます。特にベスト プラクティスは絶えず変化しているため、ネットワークは大規模です。この繰り返し可能な共同アプローチは、企業が繰り返し測定を実行し、「what-if」シナリオを迅速にテストするための唯一の方法であり、サービス ネットワークを最適化するための基盤となります。AI のケース。
(出典:キーサイト・テクノロジーズ)
[広告2]
出典: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
コメント (0)