Warnung vor ChatGPT-„Halluzinationen“

Bei den beiden neu eingeführten ChatGPT-Modellen ist die Häufigkeit der Informationsfälschung höher als bei der vorherigen Generation. Foto: Glühwürmchen .

Nur zwei Tage nach der Ankündigung von GPT-4.1 hat OpenAI nicht nur ein, sondern gleich zwei neue Modelle namens o3 und o4-mini offiziell auf den Markt gebracht. Beide Modelle weisen überlegene Inferenzfähigkeiten mit vielen leistungsstarken Verbesserungen auf.

Allerdings leide dieses neue Modellduo laut TechCrunch noch immer unter „Halluzinationen“ bzw. selbst erfundenen Informationen. Sie „halluzinieren“ sogar mehr als einige der älteren Modelle von OpenAI.

Laut IBM liegen Halluzinationen vor, wenn ein großes Sprachmodell (LLM) – typischerweise ein Chatbot oder ein Computer-Vision-Tool – Datenmuster empfängt, die nicht existieren oder für Menschen nicht erkennbar sind, was zu bedeutungslosen oder irreführenden Ergebnissen führt.

Mit anderen Worten: Benutzer verlangen von der KI häufig, dass sie auf Grundlage der Trainingsdaten genaue Ergebnisse generiert. In einigen Fällen basieren die KI-Ergebnisse jedoch nicht auf genauen Daten, was zu „illusorischen“ Antworten führt.

In seinem jüngsten Bericht stellte OpenAI fest, dass o3 bei der Beantwortung von 33 % der Fragen bei PersonQA, dem internen Benchmark des Unternehmens zur Messung der Genauigkeit des Wissens eines Modells über Menschen, „halluzinierte“.

Zum Vergleich: Dies ist die doppelte „Halluzinationsrate“ der vorherigen Reasoning-Modelle von OpenAI, o1 und o3-mini, die 16 % bzw. 14,8 % betrugen. Das O4-Mini-Modell schnitt bei PersonQA sogar noch schlechter ab und erlebte während bis zu 48 % der Testdauer „Halluzinationen“.

Noch beunruhigender ist, dass der „Vater von ChatGPT“ nicht wirklich weiß, warum dies passiert. Im technischen Bericht zu o3 und o4-mini schreibt OpenAI insbesondere, dass „weitere Forschung erforderlich ist, um zu verstehen, warum die ‚Illusion‘ schlimmer wird“, wenn die Argumentationsmodelle skaliert werden.

Der o3 und der o4-mini schneiden in einigen Bereichen besser ab, darunter bei Programmier- und Mathematikaufgaben. Aufgrund der Notwendigkeit, „mehr Behauptungen aufzustellen als zu verallgemeinern“, leiden beide Modelle jedoch unter dem Problem, dass sie Ergebnisse produzieren, die „präzisere Behauptungen, aber auch ungenauere Behauptungen“ enthalten.

Quelle: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html

Kommentar (0)

Top -Interessen

Neueste

No data