Im Januar brachte das chinesische Startup DeepSeek sein Open-Source-Inferenzmodell R1 auf den Markt. Das Unternehmen gibt an, dass das große Sprachmodell hinter R1 mit weniger leistungsfähigen Chips und zu wesentlich geringeren Kosten als westliche KI-Modelle entwickelt wurde.

Investoren reagierten auf die Nachricht, indem sie Aktien von Nvidia und anderen Technologieunternehmen abstoßen, wodurch Nvidia an nur einem Tag 600 Milliarden Dollar an Marktkapitalisierung einbüßte. Mittlerweile hat das weltgrößte Halbleiterunternehmen jedoch den größten Teil seiner Verluste wieder wettgemacht.

Bloomberg
Die großen Sprachmodelle von DeepSeek werden mit viel schwächeren und billigeren Chips entwickelt als westliche Modelle. Foto: Bloomberg

In seinem neuesten Video argumentiert Jensen Huang, dass die extreme Reaktion des Marktes darauf zurückzuführen sei, dass Anleger die Fortschritte von DeepSeek falsch interpretieren.

Sie stellen in Frage, ob die Billionen von Dollar, die die großen Technologieunternehmen für ihre KI-Infrastruktur ausgeben, wirklich notwendig sind, wenn zum Trainieren der Modelle weniger Rechenleistung benötigt wird.

Allerdings, so Huang, benötige die Branche noch immer Rechenleistung für Post-Training-Methoden, die es KI-Modellen ermöglichen, nach dem Training Schlussfolgerungen zu ziehen oder Vorhersagen zu treffen.

Da die Post-Training-Methoden immer vielfältiger und fortschrittlicher werden, steigt auch die Nachfrage nach der Rechenleistung, die Nvidia-Chips bieten.

Laut dem CEO von Nvidia sind Investoren der Meinung, dass es in der Welt nur um Vortraining und Inferenz geht (KI eine Frage stellen und sofort eine Antwort erhalten), aber das Nachtraining sei der wichtigste Teil der KI. Dort lernt es, spezielle Probleme zu lösen.

Dennoch bestreitet Herr Huang nicht, dass DeepSeek der KI-Welt mehr Energie „gespritzt“ hat. AMD-CEO Lisa Su kommentierte in einem Interview Anfang des Monats außerdem, dass DeepSeek Innovationen vorantreibt, die „gut für KI-Anwendungen“ seien.

Der Begriff Vortraining bezieht sich auf die Anfangsphase des Trainings eines großen Sprachmodells (LLM), in der das Modell aus einem großen, vielfältigen Datensatz lernt, normalerweise bis zu mehreren Billionen Token.

Das Ziel besteht hier darin, dem Modell zu helfen, ein allgemeines Verständnis von Sprache, Kontext und gängigen Wissenstypen zu erlangen. Diese Phase erfordert oft enorme Rechenleistung und Daten und kostet Hunderte Millionen Dollar.

Von Nachtraining oder Feinabstimmung spricht man, wenn man ein zuvor trainiertes Modell nimmt und es dann mit einem spezifischeren Datensatz erneut trainiert. Diese Datensätze sind normalerweise kleiner und auf einen bestimmten Bereich oder eine bestimmte Aufgabe ausgerichtet.

Sein Zweck besteht darin, das Modell so zu optimieren, dass es in bestimmten Szenarien und Aufgaben, die während des Vortrainings nicht ausführlich behandelt werden, eine bessere Leistung erzielt. Neues Wissen, das nach dem Training hinzugefügt wird, verbessert die Leistung des Modells stärker als die Erweiterung des allgemeinen Wissens.

(Laut Insider, Reddit)