Les deux nouveaux modèles ChatGPT présentent une fréquence plus élevée d'informations falsifiées que la génération précédente. Photo : Lucioles . |
Deux jours seulement après l'annonce de GPT-4.1, OpenAI a officiellement lancé non pas un, mais deux nouveaux modèles : o3 et o4-mini. Ces deux modèles présentent des capacités de raisonnement supérieures et bénéficient de nombreuses améliorations significatives.
Cependant, selon TechCrunch , ces deux nouveaux modèles souffrent encore d'« hallucinations » ou d'auto-invention. En fait, ils présentent davantage d'hallucinations que certains des anciens modèles d'OpenAI.
Selon IBM, les hallucinations sont des phénomènes où les grands modèles de langage (LLM) – souvent des chatbots ou des outils de vision par ordinateur – reçoivent des modèles de données qui n'existent pas ou qui sont méconnaissables pour les humains, produisant ainsi des résultats insignifiants ou inexacts.
En d'autres termes, les utilisateurs s'attendent généralement à ce que l'IA produise des résultats précis à partir de données d'entraînement. Or, il arrive que les résultats de l'IA ne reposent pas sur des données exactes, ce qui engendre une réponse erronée.
Dans son dernier rapport, OpenAI a découvert que le modèle o3 était « illusoire » lorsqu'il répondait à 33 % des questions sur PersonQA, la norme interne de l'entreprise pour mesurer la précision des connaissances d'un modèle sur les humains.
À titre de comparaison, ce chiffre est le double du taux d'« illusion » des précédents modèles de raisonnement d'OpenAI, o1 et o3-mini, qui étaient respectivement de 16 % et 14,8 %. Par ailleurs, le modèle o4-mini a obtenu des résultats encore moins bons sur PersonQA, avec un taux d'« illusion » de 48 % pendant toute la durée du test.
Plus inquiétant encore, le « père de ChatGPT » ignore lui-même la cause de ce phénomène. Dans son rapport technique sur o3 et o4-mini, OpenAI indique notamment que des recherches supplémentaires sont nécessaires pour comprendre pourquoi les « hallucinations » s'aggravent lors de la mise à l'échelle des modèles de raisonnement.
Les modèles O3 et o4-mini sont plus performants dans certains domaines, notamment en programmation et en mathématiques. Cependant, comme ils doivent formuler davantage d'énoncés que d'énoncés généraux, les deux modèles produisent à la fois des énoncés plus précis et plus inexacts.
Source : https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html






Comment (0)