In den letzten Tagen hat Chinas KI-Agent Manus in der weltweiten Technologie-Community für Aufsehen gesorgt. Laut dem Entwickler kann das Tool komplexe Aufgaben wie das Scannen von Kandidatenprofilen, die Planung von Reiserouten und die Analyse von Aktien erledigen, wenn die Benutzer ihm grundlegende Anweisungen geben.

Bevor Manus AI Agent auf den Markt brachte, stellte OpenAI, ein amerikanischer KI-Riese, den ChatGPT Pro-Benutzern in den USA Operator vor. Laut OpenAI kann dieser KI-Agent im Namen seines Besitzers einfache Aufgaben in einem Browser ausführen, beispielsweise das Buchen von Konzertkarten oder das Aufgeben einer Online-Bestellung.

Der Operator basiert auf einem neuen Modell namens Computer-Using Agent (CUA), das auf dem großen multimodalen Sprachmodell GPT-4o aufbaut. OpenAI-Forscher Yash Kumar gibt zu, dass sich das Projekt noch in einem frühen Stadium befindet und Mängel aufweist.

Ähnlich wie andere KI-Agenten macht der Operator Screenshots des Computerbildschirms und scannt die Pixel, um zu bestimmen, welche Aktionen ausgeführt werden sollen. CUA, das zugrunde liegende Modell, ist darauf trainiert, mit grafischen Schnittstellen wie Schaltflächen, Menüs und Textdialogen zu interagieren, die Menschen vertraut sind.

Laut Reiichiro Nakano, einem weiteren OpenAI-Wissenschaftler, verwenden traditionelle Modelle Software über spezialisierte APIs (Application Programming Interfaces), was zu vielen Einschränkungen führt.

CUA unterteilt die Arbeit außerdem in kleinere Schritte und versucht, diese nacheinander auszuführen. Außerdem geht es wieder von vorne los, wenn etwas schiefgeht. Derzeit kann Operator einige Dinge nur in seinem eigenen Browser tun.

OpenAI plant, die Fähigkeiten von CUA in Zukunft durch eine API (Application Programming Interface) zu erweitern, die es Entwicklern ermöglicht, darauf basierend eigene Anwendungen zu schreiben.

OpenAI testete auch die Sicherheit von CUA und setzte ein Red Team ein, um festzustellen, was passieren würde, wenn ein Benutzer den KI-Agenten auffordert, inakzeptable Aufgaben auszuführen (wie etwa die Herstellung biologischer Waffen).

Der New York Times- Journalist Kevin Roose bat Operator, eine Reihe von Dingen für ihn zu erledigen, darunter die Bestellung von Eiskugeln über Amazon, den Kauf und die Neukonfiguration eines neuen Domänennamens, die Reservierung eines Restauranttermins für den 14. Februar und die Planung eines Friseurtermins.

Der Autor merkte an, dass der KI-Agent die meiste Arbeit selbst erledigte, er ihn aber gelegentlich nach einigen erfolglosen Versuchen „retten“ musste.

Roose beschreibt den Operator als ähnlich wie das normale ChatGPT, mit der Ausnahme, dass der KI-Agent bei der Erteilung einer Aufgabe ein kleines Browserfenster öffnet, Amazon.com in die Adressleiste eingibt und mit dem Klicken beginnt, um eine Aktion auszuführen.

Während des Vorgangs werden einige Fragen gestellt, um die Absichten des Eigentümers zu klären, beispielsweise hinsichtlich der Lieferzeit usw. Nachdem sichergestellt wurde, dass die richtige Auswahl getroffen wurde, sendet es eine endgültige Bestätigung, legt den Artikel in den Warenkorb und fährt mit der Aufgabe der Bestellung fort.

Der wichtigste Punkt hierbei ist, dass der Benutzer es nicht überwachen muss, da es im Hintergrund arbeitet.

Allerdings scheiterte der Operator auch bei einigen anderen Missionen, weil er auf einigen Websites wie Reddit oder YouTube blockiert war oder den CAPTCHA-Test nicht bestand.

Derzeit gibt es keine „Standarddefinition“ für einen KI-Agenten, aber laut Rudina Seseri, Gründerin und Managerin der Risikokapitalgesellschaft Glasswing, handelt es sich bei einem KI-Agenten um ein intelligentes Softwaresystem, das die Betriebsumgebung versteht, schlussfolgert, Entscheidungen trifft und handelt, um Ziele automatisch zu erreichen.

AI Agent verwendet dazu zahlreiche KI/ML-Techniken, wie etwa die Verarbeitung natürlicher Sprache, maschinelles Lernen und Computer Vision.

Aaron Levie, Gründer und CEO von Box, weist darauf hin, dass KI-Agenten mit der Zeit, wenn die Leistungsfähigkeit der KI zunimmt, mehr Arbeit für Menschen übernehmen können.

Jared Spataro, Director of AI at Work Marketing bei Microsoft, betrachtet KI-Agenten als „neue Anwendungen in einer KI-gesteuerten Welt“. Sie fügen neue Funktionen hinzu, um die „größten Schwachstellen“ jedes Einzelnen am Arbeitsplatz zu beheben und so echte Geschäftsergebnisse zu erzielen.

AI Agent erweitert die Leistungsfähigkeit generativer KI, indem es Menschen nicht nur unterstützt, sondern auch mit ihnen oder in ihrem Namen arbeitet. Laut IBM reagieren KI-Agenten auf der Grundlage erhaltener Informationen.

Da es nicht über eine umfassende Wissensdatenbank zur Bewältigung aller Aufgaben verfügt, greift es auf verfügbare Tools zurück, darunter externe Datensätze, Websuchen, APIs oder sogar andere KI-Agenten.

Nachdem der Agent die fehlenden Informationen gesammelt hat, erweitert er sein Wissen. Das bedeutet, dass der Aktionsplan bei jedem Schritt neu bewertet und angepasst wird.

Es ist noch zu früh, um zu beurteilen, ob KI-Agenten eine Gefahr für den Menschen darstellen. Dennoch ist es nicht schwer, sich eine nahe Zukunft vorzustellen, in der ein Großteil des Internets von Robotern bevölkert sein wird, die miteinander kommunizieren, einkaufen oder im Namen ihrer Besitzer E-Mails schreiben.

Ein „drohnenfreies Internet“ wird langsam Realität, also „klicken Sie, solange Sie können“, schlussfolgert New York Times-Kolumnist Roose.