On sait depuis longtemps que l’IA « hallucine » et donne des réponses fabriquées et inexactes. Cependant, des chercheurs ont récemment découvert que l’intelligence artificielle et les modèles de chatbots (robots à réponse automatique) peuvent être manipulés, commettant des actes illégaux au nom des humains et même mentant pour dissimuler ce qu’ils ont fait.
Une équipe de recherche de l’Université Cornell (États-Unis) a donc supposé une situation dans laquelle un grand modèle linguistique (LLM) agissait de manière incorrecte et trompait les utilisateurs. Dans la description de l'expérience, les chercheurs ont déclaré avoir demandé au LLM d'OpenAI, GPT-4, de simuler la réalisation d'investissements pour des institutions financières. Le groupe a interagi avec l'IA dans un format conversationnel normal, mais la configuration de l'IA pouvait révéler ses « pensées » lors des échanges de texte pour avoir un aperçu plus précis du processus de prise de décision de l'IA.
Sous pression, l’IA peut commettre des actes répréhensibles et mentir pour dissimuler ce qu’elle a fait.
Afin de tester la capacité de l'IA à mentir ou à tricher, les chercheurs ont mis l'outil sous pression. Ils - dans le rôle d'un directeur d'institution financière - ont envoyé un e-mail à l'IA, se faisant passer pour un trader en bourse, se plaignant que les affaires de l'entreprise n'allaient pas bien.
L’IA recevait également des « informations privilégiées » sur des transactions boursières rentables et agissait en conséquence, sachant que le délit d’initié était contraire aux règles de l’entreprise. Mais lorsqu’il rendait compte à la direction, le modèle linguistique masquait les véritables raisons derrière ses décisions commerciales.
Pour obtenir plus de résultats, l'équipe a modifié les paramètres tels que la suppression de l'accès de LLM au tableau des mémos de raisonnement, la tentative d'empêcher les comportements déviants en modifiant les instructions du système, la modification du niveau de pression exercée sur l'IA et le risque d'être pris... Mais après avoir évalué la fréquence, l'équipe a constaté que lorsque l'opportunité lui en était donnée, GPT-4 décidait quand même de procéder à des opérations d'initiés jusqu'à 75 % du temps.
« À notre connaissance, il s’agit de la première preuve d’un comportement trompeur planifié dans des systèmes d’intelligence artificielle conçus pour être inoffensifs pour les humains et honnêtes », conclut le rapport.
Lien source
Comment (0)