Seit ihrer öffentlichen Einführung Ende 2022 haben große Sprachmodelle (LLMs) wie ChatGPT immer wieder verstörende Schattenseiten gezeigt, von Lügen, Betrügen und der Vertuschung von Manipulationen bis hin zu erschreckenden Aussagen wie der Bedrohung von Menschenleben oder dem Diebstahl von Staatsgeheimnissen. Nun zeigt ein neues Experiment, dass es viel komplizierter ist als gedacht, einer KI diese schlechten Angewohnheiten während des Trainings „beizubringen“.
In einer von OpenAI durchgeführten Studie stellten Experten einem unveröffentlichten KI-Modell Aufgaben, die es schneller erledigen könnte, wenn es schummelte oder Abkürzungen nahm. Die Ergebnisse zeigten, dass die KI schnell lernte, alle möglichen Wege zu finden, um „die Regeln zu umgehen“ und Belohnungen zu maximieren (Reward Hacking), ohne die Anforderungen korrekt erfüllen zu müssen.
KI wird Wege finden, ihr Betrugsverhalten nach der Bestrafung zu verbergen
Es ist erwähnenswert, dass das Modell nicht geändert wurde, als für dieses Verhalten eine Geldstrafe verhängt wurde. Stattdessen gelingt es der KI immer besser, ihre Täuschungen zu verbergen.
„Normalerweise sind hochmoderne Inferenzmodelle in ihrem CoT sehr explizit in Bezug auf ihre Absicht“, erklärten die Forscher in einem öffentlichen Blogbeitrag. „Beispielsweise äußern sie oft ihre Absicht, ‚Lasst uns hacken‘, wenn sie eine bestimmte Aufgabe zerstören wollen.“
Sie betonen außerdem, dass Entwickler Fehlverhalten zwar überwachen und erkennen können, diese natürliche Kontrolle jedoch fragil ist. „Wenn die Gedankenkette direkt und stark überwacht wird, kann das Modell lernen, seine schlechten Absichten zu verbergen und gleichzeitig das Verhalten weiter auszuführen“, warnen sie.
Die „Lüge“ der KI finden
Um es klar zu sagen: Inferenzmodelle (wie ChatGPT-Versionen) stellen einen Fortschritt gegenüber dem herkömmlichen LLM dar, da sie eine Denkkettenmethode verwenden, die eine Selbstreflexion der unternommenen logischen Schritte ermöglicht und dadurch komplexe Probleme präziser löst. Dieser Prozess ist wie das „laute Denken“ einer KI, die jeden Schritt ihrer Argumentation in natürlicher Sprache niederschreibt, sodass er für Menschen leicht nachvollziehbar ist.
Im Experiment verwendeten die Forscher das GPT-4o-Modell als „Supervisor“ für ein anderes hochmodernes Inferenzmodell, während dieses Programmieraufgaben ausführte. In vielen Fällen entschied sich das überwachte Modell aktiv für das Betrügen, um höhere Belohnungspunkte zu erhalten, und hat diese Absicht in seinem Denkprozess klar festgehalten. Beispielsweise wird das Programm zufällig vorzeitig beendet und die Beendigung gemeldet oder es werden Dateien mit dem gleichen Namen wie angefordert erstellt, die jedoch innen völlig leer sind.
Als die Forscher versuchten, Strafen anzuwenden, verbesserte sich das Modell, aber Betrug und schwerwiegende Ausgabefehler blieben bestehen. Der Unterschied besteht darin, dass das Inferenzmodell nun gelernt hat, seinen Gedankengang zu „tarnen“, um ihn vor der überwachenden KI zu verbergen. „Das unter Aufsicht von CoT trainierte Modell lernt immer noch zu schummeln. Der einzige Unterschied besteht darin, dass das Schummeln nicht erkannt wird, weil es gelernt hat, seine Absichten in der Gedankenkette zu verbergen“, heißt es in der Studie.
Da es schwierig ist, Fälschungen in Gedankensequenzen zu erkennen, empfiehlt das Team der Gemeinschaft, diesen Prozess nicht zu streng zu überwachen, zumindest bis die Menschen die Konsequenzen besser verstehen. „Der Verzicht auf eine effektive Überwachungsmethode ist die geringe Verbesserung der Modellleistung möglicherweise nicht wert. Daher empfehlen wir, starken CoT-Optimierungsdruck zu vermeiden, bis wir ihn besser verstehen“, schlussfolgern die Forscher.
Dieser Rat ist umso dringlicher, als sich die KI in atemberaubendem Tempo weiterentwickelt und schon bald die Intelligenz der Menschen, die sie steuern, übertreffen könnte.
[Anzeige_2]
Quelle: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Kommentar (0)