GPU ist das Gehirn des KI-Computers
Einfach ausgedrückt fungiert die Grafikverarbeitungseinheit (GPU) als Gehirn des KI-Computers.
Wie Sie vielleicht wissen, ist die zentrale Verarbeitungseinheit (CPU) das Gehirn des Computers. Der Vorteil einer GPU besteht darin, dass es sich im Wesentlichen um eine CPU handelt, die auf die Durchführung komplexer Berechnungen spezialisiert ist. Der schnellste Weg, diese Berechnung durchzuführen, besteht darin, Gruppen von GPUs dasselbe Problem lösen zu lassen. Trotzdem kann das Training eines KI-Modells Wochen oder sogar Monate dauern. Nach der Erstellung wird es im Front-End-Computersystem platziert und Benutzer können Fragen an das KI-Modell stellen, ein Prozess, der als Inferenz bezeichnet wird.
Ein KI-Computer mit mehreren GPUs
Die beste Architektur zur Lösung von KI-Problemen besteht in der Verwendung eines GPU-Clusters in einem Rack, das mit einem Switch oben auf dem Rack verbunden ist. Mehrere GPU-Racks können zusätzlich in einer Netzwerkverbindungshierarchie verbunden werden. Mit zunehmender Komplexität der zu lösenden Probleme steigen auch die GPU-Anforderungen, und bei manchen Projekten müssen möglicherweise Cluster mit Tausenden von GPUs eingesetzt werden.
Jeder KI-Cluster ist ein kleines Netzwerk
Beim Aufbau eines KI-Clusters ist es notwendig, ein kleines Computernetzwerk einzurichten, um eine Verbindung herzustellen und es den GPUs zu ermöglichen, zusammenzuarbeiten und Daten effizient auszutauschen.
Die obige Abbildung zeigt einen KI-Cluster, wobei die Kreise unten Workflows darstellen, die auf GPUs ausgeführt werden. Die GPU wird mit Switches oben auf dem Rack (ToR) verbunden. Die ToR-Switches stellen außerdem eine Verbindung zu den über dem Diagramm dargestellten Netzwerk-Backbone-Switches her und veranschaulichen so eine klare Netzwerkhierarchie, die erforderlich ist, wenn mehrere GPUs beteiligt sind.
Netzwerke sind ein Engpass bei der KI-Bereitstellung
Beim Global Summit des Open Computer Project (OCP), bei dem die Teilnehmer im letzten Herbst gemeinsam an der Entwicklung der KI-Infrastruktur der nächsten Generation arbeiteten, brachte Loi Nguyen von Marvell Technology einen wichtigen Punkt auf den Punkt: „Die Vernetzung ist der neue Engpass.“
Technisch gesehen können große Paketverzögerungen oder Paketverluste aufgrund einer Netzwerküberlastung dazu führen, dass Pakete erneut gesendet werden, was die Job Completion Time (JCT) erheblich verlängert. Infolgedessen werden GPUs im Wert von Millionen oder Zehnmillionen Dollar aufgrund ineffizienter KI-Systeme von Unternehmen verschwendet, was den Unternehmen sowohl hinsichtlich des Umsatzes als auch der Markteinführungszeit schadet.
Messungen sind eine Schlüsselvoraussetzung für den erfolgreichen Betrieb von KI-Netzwerken
Um einen KI-Cluster effizient auszuführen, müssen GPUs voll ausgelastet sein, um die Trainingszeiten zu verkürzen und Lernmodelle einzusetzen, die den Return on Investment maximieren. Daher ist es notwendig, die Leistung des KI-Clusters zu testen und zu bewerten (Abbildung 2). Diese Aufgabe ist jedoch nicht einfach, da es in Bezug auf die Systemarchitektur viele Einstellungen und Beziehungen zwischen GPU- und Netzwerkstrukturen gibt, die sich gegenseitig ergänzen müssen, um das Problem zu bewältigen.
Dies führt zu zahlreichen Herausforderungen bei der Messung von KI-Netzwerken:
- Schwierigkeiten bei der Reproduktion ganzer Produktionsnetzwerke im Labor aufgrund von Einschränkungen hinsichtlich Kosten, Ausrüstung, Mangel an qualifizierten Netzwerk-KI-Ingenieuren, Platz, Strom und Temperatur.
- Durch die Messung am Produktionssystem wird die verfügbare Verarbeitungskapazität des Produktionssystems selbst reduziert.
- Schwierigkeiten bei der genauen Reproduktion von Problemen aufgrund von Unterschieden in Umfang und Reichweite der Probleme.
- Die Komplexität der gemeinsamen Verbindung von GPUs.
Um diese Herausforderungen zu bewältigen, können Unternehmen eine Teilmenge der vorgeschlagenen Setups in einer Laborumgebung testen, um wichtige Parameter wie JCT (Job Completion Time), die Bandbreite, die das KI-Team erreichen kann, zu bewerten und sie mit der Auslastung der Switching-Plattform und der Cache-Auslastung zu vergleichen. Dieser Benchmark hilft dabei, das richtige Gleichgewicht zwischen GPU-/Verarbeitungsarbeitslast und Netzwerkdesign/-einrichtung zu finden. Sobald die Computerarchitekten und Netzwerkingenieure mit den Ergebnissen zufrieden sind, können sie diese Einstellungen in der Produktion anwenden und neue Ergebnisse messen.
Unternehmensforschungslabore, akademische Einrichtungen und Universitäten arbeiten daran, jeden Aspekt des Aufbaus und Betriebs effektiver KI-Netzwerke zu analysieren, um die Herausforderungen der Arbeit in großen Netzwerken zu bewältigen, insbesondere da sich bewährte Verfahren ständig ändern. Dieser wiederholbare kollaborative Ansatz ist für Unternehmen die einzige Möglichkeit, wiederholbare Messungen durchzuführen und „Was-wäre-wenn“-Szenarien schnell zu testen – die Grundlage für die Optimierung von Netzwerken für KI.
(Quelle: Keysight Technologies)
[Anzeige_2]
Quelle: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Kommentar (0)