Laut Android Authority beschreibt das Forschungsdokument von Apple eine Lösung zum Ausführen großer Sprachmodelle (LLMs) auf Geräten mit begrenztem RAM. Das Dokument zeigt, wie das Unternehmen „Modellparameter“ speichern und bei Bedarf Teile davon in den RAM des Geräts laden kann, anstatt das gesamte Modell in den RAM zu laden.
Apple möchte älteren iPhones mit weniger RAM helfen, allgemeine KI auszuführen
Laut dem Dokument können mit dieser Methode Modelle ausgeführt werden, die den doppelten Arbeitsspeicher eines iPhones erfordern, und gleichzeitig im Vergleich zu einfachen Lademethoden auf der CPU bzw. GPU immer noch eine 4- bis 5-fache bzw. 20- bis 25-fache Inferenzgeschwindigkeit gewährleistet werden.
Der Einsatz synthetischer KI auf Geräten mit mehr RAM ist von Vorteil, da sie schnellere Lese-/Schreibgeschwindigkeiten bietet. Geschwindigkeit ist für die geräteinterne KI wichtig, da sie viel schnellere Inferenzzeiten ermöglicht, da Benutzer nicht unbedingt Dutzende Sekunden (oder länger) warten müssen, um eine Antwort oder ein Endergebnis zu erhalten. All dies bedeutet einen integrierten KI-Assistenten, der mit Gesprächsgeschwindigkeit ausgeführt werden kann, Bilder/Texte viel schneller generiert, Artikel schneller zusammenfasst … Aber Apples Lösung bedeutet, dass Benutzer nicht unbedingt viel RAM benötigen, um die Reaktionsfähigkeit von KI-Aufgaben auf dem Gerät zu beschleunigen.
Der Ansatz von Apple könnte es alten und neuen iPhones ermöglichen, synthetische KI-Funktionen direkt auf ihren Geräten anzubieten. Das ist wichtig, da Apple iPhones normalerweise weniger RAM bieten als High-End-Android-Telefone. Beispielsweise bietet die iPhone 11-Serie nur 4 GB RAM, während selbst das normale iPhone 15 nur 6 GB RAM hat.
Apple ist nicht das einzige Mobilfunkunternehmen, das versucht, LLM zu verkleinern. Die neuesten Flaggschiff-Chips von Qualcomm und MediaTek unterstützen beide die INT4-Präzision, um diese Modelle zu verkleinern. In jedem Fall versuchen die Unternehmen, neue Lösungen zu finden, um die Systemanforderungen für die geräteinterne KI zu senken, sodass diese Funktion auch auf Low-End-Telefonen angeboten werden kann.
[Anzeige_2]
Quellenlink
Kommentar (0)