OpenAI n'a pas révélé grand-chose sur la manière dont ChatGPT-4 a été formé. Cependant, les grands modèles linguistiques (LLM) sont généralement formés sur du texte récupéré sur Internet, où l'anglais est la lingua franca. Environ 93 % des données de formation de ChatGPT-3 sont en anglais.
Dans Common Crawl, l'un des ensembles de données sur lesquels le modèle d'IA est formé, l'anglais représente 47 % du corpus, les autres langues européennes représentant 38 % supplémentaires. En revanche, les Chinois et les Japonais réunis ne représentent que 9 %.
Une étude menée par Nathaniel Robinson, chercheur à l’Université Johns Hopkins, et ses collègues, a révélé que le problème ne se limite pas à ChatGPT seul. Tous les LLM sont plus performants avec des langages « à fortes ressources » où les données de formation sont abondantes, qu’avec des langages « à faibles ressources » où elles sont rares.
C’est un problème pour ceux qui espèrent introduire l’IA dans les pays pauvres pour améliorer des domaines allant de l’éducation aux soins de santé. C’est pourquoi les chercheurs du monde entier travaillent à rendre l’IA plus multilingue.
En septembre dernier, le gouvernement indien a lancé un chatbot qui aide les agriculteurs à se tenir au courant des informations utiles de l’État.
Shankar Maruwada de la Fondation EkStep, l'association à but non lucratif qui a contribué à la création du chatbot, a déclaré que le robot fonctionne en combinant deux types de modèles linguistiques et que les utilisateurs peuvent soumettre des requêtes dans leur langue maternelle. Ces requêtes en langue maternelle sont transmises à un logiciel de traduction automatique dans un centre de recherche indien, qui les traduit en anglais avant de les transmettre au LLM pour traiter les réponses. Enfin, la réponse sera traduite dans la langue maternelle de l'utilisateur.
Ce processus peut fonctionner, mais traduire les requêtes dans la langue « préférée » du LLM est une solution de contournement maladroite. La langue est un moyen de refléter la culture et la vision du monde. Un article de 2022 de Rebecca Johnson, chercheuse à l'Université de Sydney, a révélé que ChatGPT-3 produisait des réponses sur des sujets tels que le contrôle des armes à feu et la politique des réfugiés qui étaient comparables aux valeurs américaines exprimées dans le World Values Survey.
C’est pourquoi de nombreux chercheurs tentent de proposer des LLM fluides dans des langues moins utilisées. Techniquement, une approche consiste à modifier la tokenisation du langage. Une startup indienne appelée Sarvam AI a écrit un tokenizer optimisé pour l'hindi, ou OpenHathi - modèle LLM optimisé pour la langue Devanagari (indienne) qui peut réduire considérablement le coût de réponse aux questions.
Une autre solution consiste à améliorer les ensembles de données sur lesquels LLM est formé. En novembre, une équipe de chercheurs de l’Université Mohamed bin Zayed, à Abu Dhabi, a publié la dernière version d’un modèle arabophone appelé « Jais ». Il possède 1/6 du nombre de paramètres de ChatGPT-3, mais offre des performances comparables pour l'arabe.
Timothy Baldwin, chancelier de l'Université Mohamed bin Zayed, a noté que même si son équipe avait numérisé beaucoup de textes arabes, le modèle comprenait encore du texte anglais. Certains concepts sont les mêmes dans toutes les langues et peuvent être appris dans n’importe quelle langue.
La troisième approche consiste à ajuster les modèles après leur formation. Jais et OpenHathi disposent tous deux d'un certain nombre de paires de questions et de réponses générées par l'homme. Il en va de même pour les chatbots occidentaux, pour éviter la désinformation.
Ernie Bot, LLM de Baidu, une importante entreprise technologique chinoise, a été réglementé pour limiter les discours qui pourraient offenser le gouvernement. Les modèles peuvent également apprendre des commentaires humains, où les utilisateurs évaluent les réponses de LLM. Mais cela est difficile à faire pour de nombreuses langues dans les régions moins développées en raison de la nécessité d’embaucher des personnes qualifiées pour critiquer la façon dont la machine réagit.
(Selon l'économiste)
Source
Comment (0)