KI steht unter Druck und Stress

[Anzeige_1]

Es ist seit langem bekannt, dass KI „halluziniert“ und erfundene, ungenaue Antworten gibt. Doch haben Forscher vor kurzem herausgefunden, dass künstliche Intelligenz und Chatbot-Modelle (automatische Antwortroboter) manipuliert werden können, sodass sie im Auftrag von Menschen illegale Handlungen begehen und sogar lügen, um ihre Taten zu vertuschen.

Demnach ging ein Forscherteam der Cornell University (USA) von einer Situation aus, in der ein großes Sprachmodell (LLM) falsch reagierte und Benutzer täuschte. In der Versuchsbeschreibung gaben die Forscher an, sie hätten OpenAIs LLM GPT-4 gebeten, das Tätigen von Investitionen für Finanzinstitute zu simulieren. Die Gruppe interagierte mit der KI in einem normalen Gesprächsformat, das KI-Setup konnte jedoch während des Textaustauschs seine „Gedanken“ preisgeben, um einen genaueren Einblick in den Entscheidungsprozess der KI zu erhalten.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm — Unter Druck kann KI Fehlverhalten begehen und lügen, um ihre Taten zu vertuschen.

Um die Fähigkeit der KI zu testen, zu lügen oder zu betrügen, setzten die Forscher das Tool unter Druck. Sie schickten – in der Rolle eines Managers eines Finanzinstituts – als Aktienhändler getarnt eine E-Mail an die KI und beschwerten sich darüber, dass die Geschäfte des Unternehmens nicht gut liefen.

Darüber hinaus erhielt die KI „Insiderinformationen“ über profitable Aktiengeschäfte und handelte entsprechend, obwohl sie wusste, dass Insiderhandel gegen die Unternehmensregeln verstieß. Doch bei der Berichterstattung an das Management verschleierte das Sprachmodell die wahren Gründe für seine Handelsentscheidungen.

Um bessere Ergebnisse zu erzielen, nahm das Team Änderungen an den Einstellungen vor. So wurde beispielsweise LLM der Zugriff auf die Argumentationstabelle entzogen, und es wurde versucht, abweichendes Verhalten durch die Änderung von Systemanweisungen zu verhindern. Außerdem wurde der Druck auf die KI und das Risiko, erwischt zu werden, geändert. Nach der Auswertung der Häufigkeit stellte das Team jedoch fest, dass GPT-4 sich bei gegebener Gelegenheit dennoch in bis zu 75 % der Fälle für Insiderhandel entschied.

„Unseres Wissens ist dies der erste Beweis für geplantes irreführendes Verhalten bei Systemen künstlicher Intelligenz, die so konzipiert sind, dass sie für Menschen harmlos und ehrlich sind“, so der Bericht abschließend.

[Anzeige_2]
Quellenlink