Vietnam.vn - Nền tảng quảng bá Việt Nam

Bahnbrechende Forschung öffnet die „Black Box“ des KI-Denkens

Nachdem Sie einen Befehl in die KI eingegeben und die Ergebnisse erhalten haben, sind Sie neugierig, wie das Tool Ihre Antwort herausgefunden hat?

Zing NewsZing News30/03/2025

Dario Amodei, CEO von Anthropic, stellt die neuesten Forschungsergebnisse des Unternehmens vor. Foto: Fortune .

Forscher des KI-Unternehmens Anthropic geben an, ihnen sei ein grundlegender Durchbruch beim Verständnis der genauen Funktionsweise großer Sprachmodelle (LLMs) gelungen. Dieser Durchbruch hat wichtige Auswirkungen auf die Verbesserung der Sicherheit zukünftiger KI-Modelle.

Untersuchungen zeigen, dass KI-Modelle noch intelligenter sind, als wir dachten. Eines der größten Probleme des LLM-Modells hinter den leistungsstärksten Chatbots wie ChatGPT, Gemini und Copilot besteht darin, dass sie wie eine Blackbox agieren.

Wir können Eingaben machen und Ergebnisse von Chatbots erhalten, aber wie sie zu einer bestimmten Antwort kommen, bleibt selbst für die Forscher, die sie entwickelt haben, ein Rätsel.

Dadurch lässt sich nur schwer vorhersagen, wann das Modell halluzinieren oder falsche Ergebnisse liefern könnte. Die Forscher errichteten auch Zäune, um die KI daran zu hindern, gefährliche Fragen zu beantworten, erklärten jedoch nicht, warum einige Zäune wirksamer waren als andere.

KI-Agenten sind auch zum „Belohnungshacken“ fähig. In einigen Fällen können KI-Modelle Benutzer darüber belügen, was sie getan haben oder zu tun versuchen.

Obwohl aktuelle KI-Modelle in der Lage sind, Schlussfolgerungen zu ziehen und Gedankenketten zu generieren, haben einige Experimente gezeigt, dass sie den Prozess, durch den das Modell zu einer Antwort gelangt, immer noch nicht genau widerspiegeln.

Im Wesentlichen ähnelt das von den Anthropologen entwickelte Tool einem fMRI-Scanner, den Neurowissenschaftler zum Scannen des menschlichen Gehirns verwenden. Durch die Anwendung auf sein Claude 3.5 Haiku-Modell konnte Anthropic einige Einblicke in die Funktionsweise von LLM-Modellen gewinnen.

Die Forscher stellten fest, dass Claude zwar nur darauf trainiert wurde, das nächste Wort in einem Satz vorherzusagen, bei bestimmten Aufgaben jedoch lernte, langfristiger zu planen.

Wenn Claude beispielsweise aufgefordert wurde, ein Gedicht zu schreiben, suchte er zunächst nach Wörtern, die zum Thema passten und sich reimen konnten, und arbeitete sich dann rückwärts vor, um vollständige Verse zu schreiben.

Claude verfügt auch über eine gängige KI-Sprache. Obwohl Claude darauf trainiert ist, mehrere Sprachen zu unterstützen, denkt er zunächst in der jeweiligen Sprache und drückt die Ergebnisse dann in der jeweils unterstützten Sprache aus.

Nachdem Claude ein schwieriges Problem erhalten hatte, aber absichtlich die falsche Lösung vorgeschlagen hatte, stellten die Forscher fest, dass Claude über seinen Gedankengang lügen konnte, indem er der Suggestion folgte, um dem Benutzer einen Gefallen zu tun.

In anderen Fällen erfand Claude trotz einer einfachen Frage, die das Modell sofort und ohne logisches Denken beantworten konnte, einen falschen Denkprozess.

Josh Baston, ein Forscher bei Anthropic, sagte, dass Claude zwar behauptete, eine Berechnung durchgeführt zu haben, aber nichts feststellen konnte.

Experten argumentieren inzwischen, dass es Studien gebe, die zeigten, dass Menschen sich manchmal nicht einmal selbst verstehen, sondern nur rationale Erklärungen erfinden, um die getroffenen Entscheidungen zu rechtfertigen.

Im Allgemeinen neigen die Menschen dazu, ähnlich zu denken. Aus diesem Grund hat die Psychologie auch häufige kognitive Verzerrungen entdeckt.

Allerdings können LLMs Fehler machen, die Menschen nicht machen können, da die Art und Weise, wie sie Antworten generieren, sich stark von der Art und Weise unterscheidet, wie wir eine Aufgabe ausführen.

Das Anthropic-Team implementierte eine Methode zur Gruppierung von Neuronen in Schaltkreise auf der Grundlage von Merkmalen, anstatt jedes Neuron einzeln zu analysieren, wie dies bei früheren Techniken der Fall war.

Dieser Ansatz helfe dabei zu verstehen, welche Rollen verschiedene Komponenten spielen, und ermögliche es den Forschern, den gesamten Inferenzprozess durch die Schichten des Netzwerks zu verfolgen, sagte Baston.

Diese Methode hat außerdem die Einschränkung, dass sie nur annähernd ist und nicht den gesamten Informationsverarbeitungsprozess von LLM widerspiegelt, insbesondere nicht die Änderung des Aufmerksamkeitsprozesses, die sehr wichtig ist, während LLM Ergebnisse liefert.

Darüber hinaus dauert das Definieren neuronaler Netzwerkschaltkreise selbst bei Aussagen mit nur wenigen Dutzend Wörtern für einen Experten Stunden. Sie sagen, es sei noch unklar, wie diese Technik erweitert werden könne, um längere Anweisungen zu analysieren.

Abgesehen von den Einschränkungen eröffnet die Fähigkeit von LLM, das interne Denken zu überwachen, neue Möglichkeiten zur Steuerung von KI-Systemen, um Sicherheit und Schutz zu gewährleisten.

Gleichzeitig kann es Forschern auch dabei helfen, neue Trainingsmethoden zu entwickeln, KI-Kontrollbarrieren zu verbessern und Illusionen und irreführende Ergebnisse zu reduzieren.

Quelle: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Kommentar (0)

No data
No data

Erbe

Figur

Geschäft

No videos available

Nachricht

Politisches System

Lokal

Produkt