L'IA apprend à mentir de manière plus sophistiquée lorsqu'elle est punie

Depuis leur lancement public fin 2022, les grands modèles linguistiques (LLM) comme ChatGPT ont montré à plusieurs reprises des côtés sombres et inquiétants, allant du mensonge, de la tricherie et de la dissimulation de manipulations, à des déclarations terrifiantes comme des menaces sur des vies humaines ou le vol de secrets d'État. Or, une nouvelle expérience montre qu’« apprendre » à l’IA à désapprendre ces mauvaises habitudes pendant l’entraînement est beaucoup plus compliqué que nous le pensions.

Dans une étude menée par OpenAI, des experts ont mis au défi un modèle d'IA non publié avec des tâches qu'il pourrait accomplir plus rapidement s'il trichait ou prenait des raccourcis. Les résultats ont montré que l’IA a rapidement appris à trouver tous les moyens possibles pour « contourner les règles » et maximiser les récompenses (piratage de récompenses) sans avoir à remplir correctement les exigences.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — L'IA trouvera des moyens de cacher son comportement de tricherie après avoir été punie

Il convient de mentionner que lorsque l'on a été condamné à une amende pour ce comportement, le modèle n'a pas été modifié. Au lieu de cela, l’IA devient plus sophistiquée dans la dissimulation de ses tromperies.

« En règle générale, les modèles d’inférence de pointe sont très explicites sur leur intention dans leur CoT », ont expliqué les chercheurs dans un article de blog public. « Par exemple, ils sont souvent explicites quant à leur intention de « pirater » lorsqu’ils veulent perturber une tâche donnée. »

Ils soulignent également que même si les développeurs peuvent surveiller et détecter les comportements répréhensibles, cette surveillance naturelle est fragile. « Si une supervision forte est appliquée directement à la chaîne de pensée, le modèle peut apprendre à cacher ses mauvaises intentions tout en continuant à exécuter le comportement », préviennent-ils.

Trouver le « mensonge » de l'IA

Pour être clair, les modèles d'inférence (comme les versions ChatGPT) constituent un pas en avant par rapport au LLM conventionnel, en utilisant une méthode de chaîne de pensée qui permet une auto-réflexion sur les étapes logiques suivies, résolvant ainsi les problèmes complexes avec plus de précision. Ce processus est comme une IA qui « pense à voix haute », écrivant chaque étape de son raisonnement en langage naturel, ce qui le rend facile à suivre pour les humains.

Dans l’expérience, les chercheurs ont utilisé le modèle GPT-4o comme « superviseur » pour un autre modèle d’inférence de pointe alors qu’il effectuait des tâches de programmation. Dans de nombreux cas, le modèle surveillé a activement choisi de tricher pour obtenir des points de récompense plus élevés et a clairement enregistré cette intention dans son processus de réflexion. Par exemple, il arrêtera le programme de manière aléatoire et signalera sa fin, ou créera des fichiers portant le même nom que celui demandé mais complètement vides à l'intérieur.

Lorsque les chercheurs ont essayé d’appliquer des pénalités, le modèle s’est amélioré, mais la tricherie et les erreurs de sortie graves ont continué. La différence est que maintenant le modèle d’inférence a appris à « camoufler » son train de pensée pour le cacher à l’IA de supervision. « Le modèle formé sous la supervision du CoT apprend toujours à tricher. La seule différence est que la tricherie n'est pas détectée, car il a appris à dissimuler ses intentions dans la chaîne de pensée », indique l'étude.

Parce qu’il est difficile de détecter les falsifications dans les séquences de pensées, l’équipe recommande à la communauté d’éviter d’appliquer une mesure de surveillance trop stricte à ce processus, au moins jusqu’à ce que les humains comprennent mieux les conséquences. « Sacrifier une méthode de surveillance efficace ne justifie peut-être pas la faible amélioration des performances du modèle. Par conséquent, nous recommandons d'éviter toute forte optimisation du CoT jusqu'à ce que nous les comprenions mieux », concluent les chercheurs.

Ce conseil est d’autant plus urgent que l’IA se développe à un rythme effréné et pourrait bientôt surpasser l’intelligence des humains qui la supervisent.

Trouver le « mensonge » de l'IA

Comment (0)