Das Bild eines Astronauten auf einem Pferd ist eine Kombination aus zwei Arten generativer KI-Modelle. Foto: MIT News
Wenn Geschwindigkeit und Qualität keine Kompromisse mehr darstellen
Im Bereich der KI-Bildgebung gibt es derzeit zwei Hauptansätze:
Diffusionsmodelle ermöglichen scharfe, detaillierte Bilder. Sie sind jedoch sehr langsam und rechenintensiv, da sie Dutzende von Verarbeitungsschritten erfordern, um das Rauschen aus jedem Pixel zu entfernen.
Autoregressive Modelle hingegen arbeiten viel schneller, da sie kleine Teile des Bildes sequenziell vorhersagen können. Allerdings erzeugen sie oft Bilder mit geringer Detailgenauigkeit und sind fehleranfällig.
HART (Hybrid Autoregressive Transformer) kombiniert beides und bietet das „Beste aus beiden Welten“. Zunächst wird ein autoregressives Modell verwendet, um das gesamte Bild zu konstruieren, indem es in diskrete Token kodiert wird. Das leichtgewichtige Diffusionsmodell fügt dann Resttoken hinzu – die detaillierten Informationen, die während der Kodierung verloren gegangen sind.
Die resultierenden Bilder weisen eine vergleichbare (oder bessere) Qualität wie modernste Diffusionsmodelle auf, sind jedoch neunmal schneller zu verarbeiten und verbrauchen 31 % weniger Rechenressourcen.
Neuer Ansatz zur Erstellung hochwertiger Bilder bei hoher Geschwindigkeit
Eine der bemerkenswerten Neuerungen von HART besteht darin, dass es das Problem des Informationsverlusts bei der Verwendung autoregressiver Modelle löst. Das Konvertieren von Bildern in diskrete Token beschleunigt den Vorgang, geht aber auch verloren wichtige Details wie Objektkanten, Gesichtszüge, Haare, Augen, Münder usw.
Die Lösung von HART besteht darin, dass sich das Diffusionsmodell nur auf das „Ausbessern“ dieser Details durch Resttoken konzentriert. Und da das autoregressive Modell den Großteil der Arbeit erledigt hat, benötigt das Diffusionsmodell nur noch 8 Verarbeitungsschritte statt der bisher über 30 Schritte.
„Das Diffusionsmodell ist einfacher zu implementieren und führt zu einer höheren Effizienz“, erklärt Co-Autor Haotian Tang.
Insbesondere die Kombination eines autoregressiven Transformatormodells mit 700 Millionen Parametern und eines leichten Diffusionsmodells mit 37 Millionen Parametern verleiht HART die gleiche Leistung wie ein Diffusionsmodell mit bis zu 2 Milliarden Parametern, ist jedoch neunmal schneller.
Zunächst versuchte das Team auch, das Diffusionsmodell in die frühen Phasen der Bildgebung zu integrieren, was jedoch zu einer Anhäufung von Fehlern führte. Der effizienteste Ansatz besteht darin, den letzten Schritt dem Diffusionsmodell zu überlassen und sich nur auf den „fehlenden“ Teil des Bildes zu konzentrieren.
Die Zukunft der Multimedia-KI erschließen
Die nächste Richtung des Forschungsteams besteht darin, visuell-linguistische KI-Modelle der neuen Generation auf der Grundlage der HART-Architektur zu erstellen. Da HART skalierbar und an viele Datentypen anpassbar (multimodal) ist, erwarten sie, dass es auf die Videogenerierung, Audiovorhersage und viele andere Bereiche angewendet werden kann.
Diese Forschung wurde von mehreren Organisationen finanziert, darunter dem MIT-IBM Watson AI Lab, dem MIT-Amazon Science Center, dem MIT AI Hardware Program und der US National Science Foundation. NVIDIA spendete außerdem GPU-Infrastruktur zum Trainieren des Modells.
(Laut MIT News)
Quelle: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)