Laut Android Authority beschreibt das Forschungspapier von Apple eine Lösung zum Ausführen großer Sprachmodelle (LLMs) auf Geräten mit begrenztem RAM. Das Dokument zeigt, wie das Unternehmen „Modellparameter“ speichern und bei Bedarf Teile davon in den RAM des Geräts laden kann, anstatt das gesamte Modell in den RAM zu laden.
Apple möchte älteren iPhones mit weniger RAM helfen, allgemeine KI auszuführen
In dem Dokument wird behauptet, dass diese Methode die Ausführung von Modellen ermöglicht, die den doppelten RAM eines iPhones erfordern, und dabei immer noch eine 4- bis 5-fache bzw. 20- bis 25-fache Inferenzgeschwindigkeit im Vergleich zu einfachen Lademethoden auf der CPU bzw. GPU gewährleistet.
Der Einsatz synthetischer KI auf Geräten mit mehr RAM ist von Vorteil, da sie schnellere Lese-/Schreibgeschwindigkeiten bietet. Geschwindigkeit ist für die KI auf dem Gerät wichtig, da sie viel schnellere Inferenzzeiten ermöglicht, da Benutzer nicht unbedingt Dutzende von Sekunden (oder länger) warten müssen, um eine Antwort oder ein Endergebnis zu erhalten. All dies bedeutet einen KI-Assistenten auf dem Gerät, der mit Gesprächsgeschwindigkeit laufen, Bilder/Texte viel schneller generieren und Artikel schneller zusammenfassen kann. Aber Apples Lösung bedeutet, dass Benutzer nicht unbedingt viel RAM benötigen, um die Reaktionsfähigkeit der KI-Aufgaben auf dem Gerät zu beschleunigen.
Apples Ansatz könnte es alten und neuen iPhones ermöglichen, synthetische KI-Funktionen direkt auf ihren Geräten anzubieten. Das ist wichtig, da Apple iPhones normalerweise weniger RAM bieten als High-End-Android-Telefone. Beispielsweise bietet die iPhone 11-Serie nur 4 GB RAM, während selbst das normale iPhone 15 nur 6 GB RAM hat.
Apple ist nicht das einzige Mobilfunkunternehmen, das versucht, LLM zu verkleinern. Die neuesten Flaggschiff-Chips von Qualcomm und MediaTek unterstützen beide die INT4-Präzision, um diese Modelle zu verkleinern. In jedem Fall versuchen die Unternehmen, neue Lösungen zu finden, um die Systemanforderungen für die geräteinterne KI zu senken, sodass diese Funktion auch auf Low-End-Telefonen angeboten werden kann.
[Anzeige_2]
Quellenlink
Kommentar (0)