Vietnam.vn - Nền tảng quảng bá Việt Nam

Des recherches révolutionnaires ouvrent la « boîte noire » du raisonnement de l'IA

Après avoir tapé une commande à l'IA et obtenu les résultats, êtes-vous curieux de savoir comment l'outil a trouvé votre réponse ?

Zing NewsZing News30/03/2025

Dario Amodei, PDG d'Anthropic, partage les dernières recherches de l'entreprise. Photo : Fortune .

Des chercheurs de la société d'IA Anthropic affirment avoir réalisé une avancée fondamentale dans la compréhension exacte du fonctionnement des grands modèles linguistiques (LLM). Cette avancée a des implications importantes pour l’amélioration de la sûreté et de la sécurité des futurs modèles d’IA.

Les recherches montrent que les modèles d’IA sont encore plus intelligents que nous le pensions. L’un des plus gros problèmes du modèle LLM, derrière les chatbots les plus puissants comme ChatGPT, Gemini, Copilot, est qu’ils agissent comme une boîte noire.

Nous pouvons saisir des données et obtenir des résultats à partir de chatbots, mais la manière dont ils parviennent à une réponse spécifique reste un mystère, même pour les chercheurs qui les ont créés.

Il est donc difficile de prédire quand le modèle pourrait avoir des hallucinations ou produire de faux résultats. Les chercheurs ont également construit des clôtures pour empêcher l'IA de répondre à des questions dangereuses, mais ils n'ont pas expliqué pourquoi certaines clôtures étaient plus efficaces que d'autres.

Les agents d’IA sont également capables de « piratage de récompenses ». Dans certains cas, les modèles d’IA peuvent mentir aux utilisateurs sur ce qu’ils ont fait ou essaient de faire.

Bien que les modèles d’IA récents soient capables de raisonner et de générer des chaînes de pensée, certaines expériences ont montré qu’ils ne reflètent toujours pas avec précision le processus par lequel le modèle parvient à une réponse.

Essentiellement, l’outil développé par les chercheurs d’Anthropic est similaire à un scanner IRMf que les neuroscientifiques utilisent pour scanner le cerveau humain. En l’appliquant à son modèle Claude 3.5 Haiku, Anthropic a pu comprendre comment fonctionnent les modèles LLM.

Les chercheurs ont découvert que même si Claude n'était entraîné qu'à prédire le mot suivant dans une phrase, dans certaines tâches, il apprenait à planifier à plus long terme.

Par exemple, lorsqu’on lui demandait d’écrire un poème, Claude trouvait d’abord des mots qui correspondaient au thème et qui pouvaient rimer, puis travaillait à rebours pour écrire des vers complets.

Claude a également un langage d'IA commun. Bien que formé pour prendre en charge plusieurs langues, Claude pensera d'abord dans cette langue, puis exprimera les résultats dans la langue qu'elle prend en charge.

De plus, après avoir soumis Claude à un problème difficile, mais en lui suggérant délibérément la mauvaise solution, les chercheurs ont découvert que Claude pouvait mentir sur le fil de sa pensée, en suivant la suggestion pour faire plaisir à l'utilisateur.

Dans d’autres cas, lorsqu’on lui posait une question simple à laquelle le modèle pouvait répondre immédiatement sans raisonnement, Claude fabriquait encore un faux processus de raisonnement.

Josh Baston, chercheur chez Anthropic, a déclaré que même si Claude prétendait avoir fait un calcul, il n'avait rien trouvé qui se passait.

Entre-temps, les experts affirment que des études montrent que parfois les gens ne se comprennent même pas eux-mêmes, mais créent seulement des explications rationnelles pour justifier les décisions prises.

En général, les gens ont tendance à penser de la même manière. C’est aussi pourquoi la psychologie a découvert des biais cognitifs courants.

Cependant, les LLM peuvent commettre des erreurs que les humains ne peuvent pas commettre, car la façon dont ils génèrent des réponses est très différente de la façon dont nous effectuons une tâche.

L’équipe Anthropic a mis en œuvre une méthode de regroupement des neurones en circuits basés sur des caractéristiques au lieu d’analyser chaque neurone individuellement comme le faisaient les techniques précédentes.

Cette approche permet de comprendre les rôles joués par les différents composants et permet aux chercheurs de suivre l’ensemble du processus d’inférence à travers les couches du réseau, a déclaré Baston.

Cette méthode présente également la limitation d'être seulement approximative et de ne pas refléter l'ensemble du processus de traitement de l'information du LLM, en particulier le changement du processus d'attention, qui est très important lorsque le LLM donne des résultats.

De plus, définir des circuits de réseaux neuronaux, même avec des énoncés de seulement quelques dizaines de mots, prend des heures à un expert. Ils disent qu'il n'est pas encore clair comment étendre cette technique pour analyser des instructions plus longues.

Au-delà de ces limites, la capacité du LLM à surveiller le raisonnement interne ouvre de nouvelles opportunités pour contrôler les systèmes d’IA afin de garantir la sécurité et la sûreté.

Dans le même temps, cela peut également aider les chercheurs à développer de nouvelles méthodes de formation, à améliorer les barrières de contrôle de l’IA et à réduire les illusions et les résultats trompeurs.

Source : https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Comment (0)

No data
No data

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit