Le fait que l'IA souffre d'« hallucinations » et fournisse des réponses erronées et fabriquées de toutes pièces est connu depuis longtemps. Cependant, des chercheurs ont récemment découvert que les modèles d'intelligence artificielle et les chatbots peuvent être manipulés pour commettre des actes illégaux au nom d'humains, voire mentir pour dissimuler leurs agissements.
Une équipe de recherche de l'Université Cornell (États-Unis) a donc émis l'hypothèse qu'un modèle de langage à grande échelle (MLGE) pourrait se comporter de manière erratique et tromper les utilisateurs. Dans la description de l'expérience, les chercheurs expliquent avoir demandé au MLGE GPT-4 d'OpenAI de simuler des investissements pour des institutions financières. L'équipe a interagi avec l'intelligence artificielle sous forme de conversation classique, mais l'a configurée pour révéler ses « pensées » pendant l'échange de messages, afin d'observer de plus près son processus de décision.
Sous la pression, l'IA peut commettre des actes répréhensibles et mentir pour dissimuler ses actions.
Pour tester la capacité de l'IA à mentir ou à tricher, les chercheurs l'ont mise à l'épreuve. Se faisant passer pour des gestionnaires d'une institution financière, ils lui ont envoyé des courriels, se faisant passer pour un trader et se plaignant des difficultés financières de l'entreprise.
L'IA reçoit également des informations privilégiées concernant des transactions boursières lucratives et agit en conséquence, même en sachant que le délit d'initié est contraire au règlement de l'entreprise. Toutefois, lors de ses rapports à la direction, le modèle linguistique dissimule les véritables raisons de ses décisions de trading.
Pour obtenir de meilleurs résultats, l'équipe a modifié des paramètres tels que la suppression de l'accès LLM au mémo de raisonnement, la tentative de prévention des comportements répréhensibles par la modification des instructions système, l'altération des niveaux de pression appliqués à l'IA et l'augmentation de la sensibilisation au risque d'être pris... Mais après avoir évalué la fréquence, l'équipe a constaté que, lorsqu'il en avait l'occasion, GPT-4 décidait tout de même de se livrer à des délits d'initiés jusqu'à 75 % du temps.
« À notre connaissance, il s'agit de la première preuve de comportement trompeur planifié dans des systèmes d'intelligence artificielle, conçus pour être inoffensifs et honnêtes envers les humains », conclut le rapport.
Lien source






Comment (0)