Foto 19.jpg
Felix Yanwei Wang – Doktorand der Elektrotechnik und Informatik (EECS) am MIT. Quelle: MIT News

Stellen Sie sich einen Roboter vor, der Ihnen beim Abwasch hilft. Sie bitten ihn, eine Schüssel Seife aus dem Waschbecken zu holen, aber sein Greifer greift nicht genau dort, wo er hin soll.

Mit einem neuen Framework, das von Forschern am MIT und NVIDIA entwickelt wurde, können Sie das Verhalten eines Roboters mit einfachen Gesten optimieren. Sie können auf die Schüssel zeigen, einen Pfad auf dem Bildschirm zeichnen oder den Arm des Roboters einfach in die richtige Richtung stupsen.

Im Gegensatz zu anderen Methoden zur Verhaltensänderung von Robotern muss der Benutzer bei dieser Technik keine neuen Daten sammeln und das maschinelle Lernmodell, das den Roboter steuert, neu trainieren. Stattdessen kann der Roboter mithilfe von visuellem menschlichem Feedback in Echtzeit die Aktionssequenz auswählen, die am besten zur Absicht des Benutzers passt.

Als Forscher dieses Framework testeten, war seine Erfolgsquote um 21 % höher als bei einem alternativen Ansatz ohne menschliches Eingreifen.

Dieses Framework könnte es einem Benutzer in Zukunft leicht machen, einem werkseitig trainierten Roboter Anweisungen zur Ausführung verschiedener Haushaltsaufgaben zu geben, selbst wenn der Roboter die Umgebung oder die Objekte in diesem Haus noch nie zuvor gesehen hat.

„Wir können von normalen Benutzern nicht erwarten, dass sie selbst Daten sammeln und ein neuronales Netzwerkmodell optimieren. Sie erwarten, dass der Roboter sofort nach dem Auspacken funktioniert, und wenn etwas schief geht, brauchen sie einen intuitiven Mechanismus, um ihn anzupassen. „Dies ist die Herausforderung, der wir uns in dieser Studie gewidmet haben“, sagte Felix Yanwei Wang, Doktorand in der Abteilung für Elektrotechnik und Informatik (EECS) am MIT und Hauptautor der Studie.

Minimieren Sie die Abweichung

Kürzlich nutzten Forscher ein vorab trainiertes Modell generativer KI, um eine „Richtlinie“ zu erlernen – eine Reihe von Regeln, die ein Roboter befolgt, um eine Aufgabe zu erledigen. Diese Modelle können viele komplexe Aufgaben lösen.

Während des Trainings wird das Modell nur gültigen Roboterbewegungen ausgesetzt, sodass es lernt, geeignete Bewegungstrajektorien zu generieren.

Dies bedeutet allerdings nicht, dass jede Aktion des Roboters in der Realität den Wünschen des Benutzers entspricht. Ein Roboter könnte beispielsweise darauf trainiert werden, Kisten aus einem Regal aufzuheben, ohne sie umzustoßen. Er könnte jedoch eine Kiste im Bücherregal einer Person nicht erreichen, wenn die Anordnung des Bücherregals anders ist als beim Training.

Um solche Fehler zu beheben, sammeln Ingenieure häufig zusätzliche Daten zu neuen Aufgaben und trainieren das Modell neu. Dies ist ein kostspieliger und zeitaufwändiger Prozess, der Fachkenntnisse im Bereich maschinelles Lernen erfordert.

Stattdessen möchte das MIT-Team es Benutzern ermöglichen, das Verhalten des Roboters anzupassen, sobald dieser einen Fehler macht.

Wenn jedoch ein Mensch in den Entscheidungsprozess des Roboters eingreift, kann dies dazu führen, dass das generative Modell versehentlich eine ungültige Aktion auswählt. Der Roboter kann die vom Benutzer gewünschte Kiste holen, könnte dabei aber Bücher im Regal umstoßen.

„Wir möchten, dass die Benutzer mit dem Roboter interagieren, ohne solche Fehler zu machen, und so ein Verhalten erreichen, das den Absichten des Benutzers besser entspricht und gleichzeitig Gültigkeit und Durchführbarkeit gewährleistet“, sagte Felix Yanwei Wang.

Verbessern Sie die Entscheidungsfähigkeit

Um sicherzustellen, dass diese Interaktionen nicht dazu führen, dass der Roboter ungültige Aktionen ausführt, verwendet das Team ein spezielles Sampling-Verfahren. Mithilfe dieser Technik kann das Modell aus einer Reihe gültiger Auswahlmöglichkeiten die Aktion auswählen, die am besten zum Ziel des Benutzers passt.

„Anstatt dem Benutzer seine Absichten aufzuzwingen, helfen wir dem Roboter, seine Absichten zu verstehen, während wir den Sampling-Prozess um die erlernten Verhaltensweisen herum schwanken lassen“, sagte Felix Yanwei Wang.

Dank dieses Ansatzes übertraf ihr Forschungsrahmen andere Methoden in Simulationsexperimenten sowie bei Tests mit einem echten Roboterarm in einer Modellküche.

Obwohl diese Methode die Aufgabe nicht immer sofort erledigt, hat sie einen großen Vorteil für den Benutzer: Er kann den Roboter korrigieren, sobald er einen Fehler erkennt, anstatt zu warten, bis der Roboter die Aufgabe erledigt hat, und ihm dann neue Anweisungen zu geben.

Darüber hinaus kann sich der Roboter diese Korrektur merken und sie in sein zukünftiges Lernen einbauen, indem er den Roboter einige Male sanft anstößt, um ihn dazu zu bringen, die richtige Schüssel aufzuheben. Dadurch kann der Roboter am nächsten Tag die richtige Schüssel nehmen, ohne dass er erneut angewiesen werden muss.

„Der Schlüssel zu dieser kontinuierlichen Verbesserung besteht jedoch darin, einen Mechanismus zu haben, der es den Benutzern ermöglicht, mit dem Roboter zu interagieren, und genau das haben wir in dieser Studie gezeigt“, sagte Felix Yanwei Wang.

In Zukunft möchte das Team die Geschwindigkeit des Sampling-Prozesses erhöhen und gleichzeitig die Leistung beibehalten oder verbessern. Sie möchten die Methode auch in neuen Umgebungen testen, um die Anpassungsfähigkeit des Roboters zu beurteilen.

(Quelle: MIT News)