En utilisant des méthodes de formation contradictoires pour permettre à l'IA de générer de nouvelles données, les recherches de deux étudiants de l'Université de technologie de Ho Chi Minh-Ville ont été publiées à l'AAAI - la principale conférence mondiale sur l'IA.
Les recherches sur les modèles multilingues pour entraîner l'IA à créer des synonymes par Pham Khanh Trinh et Le Minh Khoi, 23 ans, ont été publiées dans les documents de la Conférence AAAI-24 sur l'intelligence artificielle, qui s'est tenue fin février à Vancouver, au Canada.
Le professeur associé, Dr Quan Thanh Tho, vice-doyen de la Faculté d' informatique et d'ingénierie de l'Université de technologie de Ho Chi Minh-Ville, a estimé qu'il s'agissait d'un résultat louable. M. Tho a déclaré que l'AAAI est considérée par les chercheurs et les experts comme étant de la plus haute qualité dans les conférences scientifiques dans les domaines de l'informatique et de l'intelligence artificielle, avec un taux d'acceptation d'articles très faible, cette année à 23,75 %.
Minh Khoi et Khanh Trinh (au milieu) lors de leur soutenance de thèse de fin d'études, 2023. Photo : fournie par le personnage
Partageant une passion pour le Deep Learning et le traitement du langage naturel, Trinh et Khoi ont choisi de faire des recherches sur les grands modèles linguistiques (LLM). Tous deux souhaitaient découvrir les limites des LLM et les améliorer.
Khanh Trinh a déclaré que les GPT de chat ou les LLM doivent être formés sur une énorme quantité de données textuelles pour générer des réponses précises et diversifiées pour les utilisateurs. Les deux garçons ont réalisé qu'avec des langues moins courantes comme l'hindi, le kazakh ou l'indonésien, les GPT et les LLM de Chat donnaient souvent des résultats inattendus parce qu'ils n'avaient pas beaucoup étudié ces langues, ou que les langues n'avaient pas suffisamment de données pour qu'ils puissent les apprendre.
« Pourquoi ne créons-nous pas davantage de données textuelles à partir des « petites ressources » de ces langues pour former davantage l'IA ? », ont demandé les deux étudiants. De là, le modèle LAMPAT (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) - méthode de paraphrase multilingue utilisant un entraînement contradictoire étudiée par Trinh et Khoi, est né.
LAMPAT est capable de générer une phrase synonyme à partir d'une phrase d'entrée existante, afin de générer des données textuelles supplémentaires. L’explicateur « d’entraînement contradictoire » est une approche relativement nouvelle pour l’entraînement de grands modèles linguistiques. Lorsqu'une phrase d'entrée est donnée, avec les méthodes de formation traditionnelles, l'application génère une phrase de sortie. Mais avec une formation contradictoire, l'application peut s'autocorriger, modifier la phrase de sortie et « jouer contre elle-même » pour générer plus de phrases.
Le multilinguisme de LAMPAT réside dans le fait que le modèle intègre 60 langues en même temps. Sur la base des ensembles de données collectés, l’équipe a continué à former LAMPAT pour générer des phrases synonymes. La quantité de données textuelles générées à partir de LAMPAT continuera d'être formée pour les LLM afin que ces modèles puissent apprendre de nombreuses manières différentes d'exprimer des informations pour le même contenu, donnant ainsi des réponses diverses avec une probabilité plus élevée d'être correctes. Grâce à cette fonctionnalité, le représentant de l'équipe estime que LAMPAT peut être intégré dans des applications comme ChatGPT pour perfectionner davantage ce modèle.
De plus, le manque de données pour les Chat GPT ou les LLM oblige certaines entreprises à rechercher de nombreuses sources externes telles que des livres, des journaux, des blogs,... sans prêter attention aux questions de droits d'auteur. Créer des synonymes est également un moyen de limiter le plagiat et la violation du droit d’auteur, selon Khanh Trinh.
Nam Sinh a donné un exemple d'applications comme Chat GPT, lorsqu'un utilisateur demande un résumé d'un texte existant A, l'application générera un texte de résumé B. Si la méthode de recherche du groupe est intégrée, lors de la réception du texte A, l'application générera plusieurs textes avec le même contenu A1, A2, A3 en fonction du mécanisme de génération de synonymes, à partir desquels elle résumera le texte et produira de nombreux résultats parmi lesquels l'utilisateur pourra choisir.
Au cours des premières étapes de la recherche, l’équipe a eu des difficultés à préparer des données d’évaluation pour 60 langues. Comme nous ne pouvions pas accéder à une quantité de données suffisamment importante, l’équipe a compilé un ensemble de données diversifié et complet de 13 langues pour évaluer objectivement le modèle, notamment : le vietnamien, l’anglais, le français, l’allemand, le russe, le japonais, le chinois, l’espagnol, le hongrois, le portugais, le suédois, le finnois et le tchèque. Il s’agit également d’un ensemble de données fiable pour l’étape finale d’évaluation humaine (notation).
Minh Khoi (à gauche) et Khanh Trinh (à droite) ont pris une photo souvenir avec le professeur Quan Thanh Tho le jour de la remise des diplômes, en novembre 2023. Photo : Caractère fourni
Pour chacune des langues suivantes : anglais, vietnamien, allemand, français et japonais, l’équipe a extrait au hasard 200 paires de phrases (une paire composée de la phrase de sortie et de l’étiquette correcte) pour évaluation. Pour chacune des langues ci-dessus, l'équipe a demandé à cinq experts linguistiques de les noter indépendamment, sur la base de trois critères : la préservation sémantique ; choix des mots et similarité du vocabulaire, fluidité et cohérence de la phrase de sortie. L'échelle est calculée de 1 à 5. En conséquence, la note moyenne d'évaluation des experts linguistiques dans ces 5 langues varie de 4,2 à 4,6/5 points.
L'exemple donne une paire de phrases vietnamiennes notées 4,4/5, dans lesquelles la phrase d'entrée est : « Il a expliqué le problème en détail », et la phrase de sortie est : « Il a expliqué le problème en détail ».
Mais il existe aussi des paires de phrases de mauvaise qualité et comportant des erreurs sémantiques, comme la paire de phrases « Nous mangeons pendant que la soupe est chaude - Nous mangeons la soupe pendant que nous sommes chauds », qui ne marque que 2/5 points.
Khanh Trinh a déclaré qu'il avait fallu 8 mois pour rechercher et terminer ce projet. C’est également le sujet de thèse de Trinh et Khoi. Thèse classée première au Computer Science Council 2 avec 9,72/10 points.
Selon M. Quan Thanh Tho, bien que LAMPAT ait démontré sa capacité à générer des phrases synonymes de type humain dans plusieurs langues, il doit encore être amélioré pour gérer les idiomes, les chansons folkloriques et les proverbes dans différentes langues.
De plus, l’ensemble de données d’évaluation de l’équipe ne comprend que 13 langues, ce qui laisse encore de côté de nombreuses langues, en particulier les langues minoritaires. Le groupe doit donc mener des recherches pour améliorer et étendre les capacités des modèles d’interprétation multilingues actuels. À partir de là, nous pouvons supprimer les barrières linguistiques entre les pays et les peuples.
Fin 2023, Trinh et Khoi ont obtenu une licence en informatique avec mention et distinction, avec une moyenne pondérée cumulative (GPA) de 3,7 et 3,9/4, respectivement. Tous deux prévoient d'étudier à l'étranger pour obtenir un master et de poursuivre des recherches en intelligence artificielle et en apprentissage automatique.
« Nous continuons à rechercher ce sujet dans le but d'appliquer davantage LAMPAT aux projets scientifiques à venir, en créant un produit multilingue fiable pour les utilisateurs », a partagé Trinh.
Le Nguyen
Lien source
Comment (0)