Le GPU est le cerveau de l'ordinateur IA
En termes simples, l’unité de traitement graphique (GPU) agit comme le cerveau de l’ordinateur IA.
Comme vous le savez peut-être, l’unité centrale de traitement (CPU) est le cerveau de l’ordinateur. L’avantage d’un GPU est qu’il s’agit essentiellement d’un CPU spécialisé dans la réalisation de calculs complexes. Le moyen le plus rapide de réaliser ce calcul est de demander à des groupes de GPU de résoudre le même problème. Malgré tout, la formation d’un modèle d’IA peut encore prendre des semaines, voire des mois. Une fois construit, il est placé dans le système informatique frontal et les utilisateurs peuvent poser des questions au modèle d'IA, un processus appelé inférence.
Un ordinateur IA contenant plusieurs GPU
La meilleure architecture pour résoudre les problèmes d’IA consiste à utiliser un cluster de GPU dans un rack, connecté à un commutateur situé au sommet du rack. Plusieurs racks GPU peuvent être connectés en plus dans une hiérarchie de connexion réseau. À mesure que les problèmes à résoudre deviennent plus complexes, les exigences en matière de GPU augmentent également et certains projets peuvent devoir déployer des clusters de milliers de GPU.
Chaque cluster d'IA est un petit réseau
Lors de la création d'un cluster d'IA, il est nécessaire de mettre en place un petit réseau informatique pour se connecter et permettre aux GPU de travailler ensemble et de partager efficacement les données.
La figure ci-dessus illustre un cluster d’IA où les cercles en bas représentent les flux de travail exécutés sur des GPU. Le GPU se connecte aux commutateurs situés sur le dessus du rack (ToR). Les commutateurs ToR se connectent également aux commutateurs du réseau principal illustrés au-dessus du schéma, démontrant ainsi une hiérarchie de réseau claire requise lorsque plusieurs GPU sont impliqués.
Les réseaux constituent un goulot d’étranglement dans le déploiement de l’IA
L’automne dernier, lors du sommet mondial de l’Open Computer Project (OCP), où les délégués ont travaillé ensemble pour construire la prochaine génération d’infrastructures d’IA, la déléguée Loi Nguyen de Marvell Technology a fait valoir un point clé : « le réseau est le nouveau goulot d’étranglement ».
Techniquement, des retards de paquets importants ou des pertes de paquets dues à la congestion du réseau peuvent entraîner le renvoi des paquets, augmentant considérablement le temps d'achèvement des tâches (JCT). En conséquence, des millions, voire des dizaines de millions de dollars de GPU d’entreprises sont gaspillés en raison de systèmes d’IA inefficaces, ce qui nuit aux entreprises, tant en termes de revenus que de délais de mise sur le marché.
La mesure est une condition essentielle au bon fonctionnement des réseaux d'IA
Pour exécuter efficacement un cluster d’IA, les GPU doivent pouvoir être pleinement utilisés pour raccourcir les temps de formation et déployer des modèles d’apprentissage afin de maximiser le retour sur investissement. Il est donc nécessaire de tester et d’évaluer les performances du cluster d’IA (Figure 2). Cependant, cette tâche n’est pas facile, car en termes d’architecture système, il existe de nombreux paramètres et relations entre le GPU et les structures réseau qui doivent se compléter pour gérer le problème.
Cela crée de nombreux défis dans la mesure des réseaux d’IA :
- Difficulté à reproduire des réseaux de production entiers en laboratoire en raison de limitations de coût, d'équipement, de pénurie d'ingénieurs qualifiés en IA réseau, d'espace, d'énergie et de température.
- La mesure sur le système de production réduit la capacité de traitement disponible du système de production lui-même.
- Difficulté à reproduire avec précision les problèmes en raison des différences d’échelle et de portée des problèmes.
- La complexité de la manière dont les GPU sont connectés collectivement.
Pour relever ces défis, les entreprises peuvent tester un sous-ensemble des configurations proposées dans un environnement de laboratoire pour évaluer des paramètres clés tels que le JCT (temps d'achèvement du travail), la bande passante que l'équipe d'IA peut atteindre et la comparer à l'utilisation de la plate-forme de commutation et à l'utilisation du cache. Ce benchmark permet de trouver le bon équilibre entre la charge de travail du GPU/traitement et la conception/configuration du réseau. Une fois satisfaits des résultats, les architectes informatiques et les ingénieurs réseau peuvent appliquer ces paramètres à la production et mesurer de nouveaux résultats.
Les laboratoires de recherche d’entreprise, les instituts de recherche et les universités s’efforcent d’analyser tous les aspects de la construction et de l’exploitation de réseaux d’IA efficaces pour relever les défis liés au travail sur de grands réseaux, d’autant plus que les meilleures pratiques continuent de changer. Cette approche collaborative reproductible est le seul moyen pour les entreprises d’effectuer des mesures reproductibles et de tester rapidement des scénarios hypothétiques, la base de l’optimisation des réseaux pour l’IA.
(Source : Keysight Technologies)
Source: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Comment (0)