La traduction automatique est l’une des applications les plus réussies de la technologie de l’intelligence artificielle dans le traitement du langage naturel. Les systèmes de traduction automatique de haute qualité comme Google Translate ou Bing Translator de Microsoft ont besoin d'ensembles de données bilingues à grande échelle, jusqu'à des millions de paires de phrases, pour entraîner le modèle.

Cependant, de nombreuses langues dans le monde ne disposent pas de ressources suffisantes. Il est donc urgent et difficile de construire un modèle de traduction automatique efficace pour les langues pauvres en ressources, notamment celles de la région de l’Asie du Sud-Est.

Récemment, l'Institut des technologies de l'information (Académie des sciences et technologies du Vietnam) a étudié et maîtrisé la technologie de traduction automatique la plus avancée à ce jour. Cette unité a également réussi à construire un système de traduction de textes multilingues entre le vietnamien et les langues régionales, notamment le laotien, le khmer, le thaï, le malaisien et l'indonésien.

Selon le développeur, des langues comme le laotien, le thaï et le khmer posent d'énormes défis lors de la création de modèles de traduction automatique. La difficulté ne vient pas seulement de la rareté des données bilingues mais aussi du fait que ces langues sont morphologiquement riches, dépourvues de segmentation des mots, de segmentation des phrases et de polysémie.

Le modèle d'IA développé par l'Institut des technologies de l'information a « appris » à « s'adapter » à toutes les particularités des langages ci-dessus. À partir de là, le logiciel permet l'ajout rapide d'autres langues lorsque cela est nécessaire avec une qualité de traduction équivalente aux produits étrangers avancés.

La particularité de ce logiciel de traduction multilingue est qu'il fonctionne séparément, stocke les données localement et n'a pas besoin d'utiliser l'API d'un autre fournisseur de services. Cela permet de garantir la sécurité, la sûreté et l’absence de fuites d’informations.

W-vien-han-lam-illustration-ai-tri-tue-nhan-tao-1.jpg
Certains produits scientifiques et technologiques de l'Académie des sciences et technologies du Vietnam sont exposés à l'Exposition internationale de l'innovation du Vietnam 2023. Photo : Trong Dat

L’un des problèmes des systèmes de traduction comme Google Translate ou Bing Translator est l’adaptabilité spécifique au domaine. Autrement dit, ils peuvent traduire correctement dans des domaines linguistiques courants et populaires destinés au public, mais la qualité de la traduction est médiocre dans des domaines linguistiques spécialisés tels que la médecine, le droit, la sécurité, etc.

Pour surmonter les lacunes ci-dessus, l'équipe de recherche de l'Institut des technologies de l'information a développé un système de traduction centré sur le vietnamien, capable d'effectuer une traduction bidirectionnelle dans des langues pauvres en ressources avec une bonne qualité.

Plus précisément, ce logiciel a une qualité égale ou supérieure à celle de Google Translate pour le même texte. De plus, le logiciel ne limite pas la longueur du texte.

Au cours de la période 2022-2023, le système se concentre sur le déploiement de techniques de grands modèles linguistiques (LLM), en donnant la priorité aux paires de langues suivantes : vietnamien - khmer, vietnamien - lao, vietnamien - thaï, vietnamien - malais et vietnamien - indonésien.

Avec la langue anglaise (une ressource de données très abondante et un point fort prioritaire de Google), le logiciel de l'Information Technology Institute assure une qualité presque équivalente à Google Translate. En particulier, le système a la capacité de s'adapter avec précision à des domaines linguistiques spécialisés tels que la médecine, le droit, etc. en fonction des exigences spécifiques du partenaire.

Ce système a été développé par l'équipe de recherche elle-même, sur la base de l'infrastructure technique qui prend en charge le stockage de données linguistiques volumineuses et la capacité de supercalcul d'intelligence artificielle/apprentissage automatique (IA/ML) la plus puissante du Vietnam.

L'Institut des Technologies de l'Information maîtrise parfaitement les technologies connexes. Par conséquent, cette unité peut facilement étendre l'application à de nouvelles langues cibles, y compris les langues des minorités ethniques au Vietnam (souvent très pauvres en ressources de données) telles que le muong, le thaï, etc. et les langues étrangères populaires telles que le chinois, le français, le russe, etc. si nécessaire.

Ce logiciel de traduction multilingue Made in Vietnam devrait être la solution au problème d’accès à l’information pour les minorités ethniques.

Le marché de l'intelligence artificielle au Vietnam vaut 100 millions de dollars . Au Vietnam, la technologie de l’IA est actuellement largement appliquée dans les services de service à la clientèle, en particulier dans le secteur bancaire et bientôt dans les assurances.