Le produit a rapidement créé le buzz dans la communauté scientifique et technologique vietnamienne.

Choisir la voie difficile pour résoudre les problèmes vietnamiens

Fin 2022, ChatGPT créera un « big bang », ouvrant une course à la conquête de l'IA artificielle entre les pays et les géants du domaine technologique. À cette époque, la communauté technologique vietnamienne souhaitait également développer des produits vietnamiens afin de devenir technologiquement indépendants et de réduire leur dépendance vis-à-vis des produits internationaux. Cependant, toutes les unités n’ont pas la capacité et la détermination de réaliser ce souhait comme VinBigdata.

« L’IA générative est un problème difficile. Les grandes entreprises comme OpenAI ou Google doivent également investir beaucoup de ressources et de temps dans la recherche pour pouvoir créer des produits comme ceux que nous voyons. Ces produits sont excellents, mais les scientifiques ne comprennent toujours pas complètement leur fonctionnement. Il est difficile de prédire quand et comment cet échec surviendra. Développer un produit similaire à ChatGPT pour les Vietnamiens, en moins d’un an, nécessite de nombreux défis. Mais nous avons choisi de « prendre un risque » car si ce ne sont pas les Vietnamiens qui font une version vietnamienne de ChatGPT, qui le fera ? - Professeur. Vu Ha Van - Directeur scientifique de VinBigdata a partagé.

En fait, très peu d’entreprises choisissent de construire leur propre modèle de langage à grande échelle à partir de zéro. Comme le GPT 3 d'OpenAI, il comporte 175 milliards de paramètres et a été formé sur un ensemble de données de 45 téraoctets et a coûté 4,6 millions de dollars. Selon les calculs, le montant nécessaire au développement de GPT 4 pourrait même atteindre 100 millions de dollars. « Avec des chiffres aussi importants, il est difficile de trouver une entreprise qui puisse se permettre d’investir dans cette technologie », a déclaré le Dr. Nguyen Kim Anh, directeur produit de VinBigdata, a déclaré.

image 1.jpg

Pour que les entreprises vietnamiennes puissent accéder à une technologie d'IA de nouvelle génération, avec des coûts et une infrastructure optimaux, VinBigdata a choisi une direction complètement différente, qui consiste à créer un modèle de langage avec seulement 1,6 milliard de paramètres, mais avec des capacités équivalentes à de grands modèles de langage avec des milliards de paramètres. « Les résultats montrent qu'avec l'architecture développée par VinBigdata elle-même, il est tout à fait possible d'optimiser et d'accélérer le processus de formation du modèle de langage, de réduire les coûts d'infrastructure (y compris les coûts de formation et les coûts d'utilisation), tout en garantissant la qualité du modèle », a déclaré le Dr. Nguyen Kim Anh a ajouté.

Après avoir résolu le problème de la taille importante du modèle de langage, lors du processus de « conception » de ViGPT, après avoir étudié des modèles étrangers, l'équipe VinBigdata a également relevé un autre défi : « l'illusion », provenant de la nature inhérente des modèles de probabilité statistique.

En conséquence, les plus grands modèles linguistiques du monde sont souvent formés à l’aide de sources de données en anglais. Par conséquent, ce modèle ne comprend pas vraiment et ne répond pas correctement au contexte et à la culture du peuple vietnamien. Cela conduit à une hallucination qui amène le grand modèle linguistique à « fabriquer » des réponses incorrectes.

image 3.jpg

Pour trouver la solution optimale dans les plus brefs délais, l'équipe de traitement du langage naturel (NLP) de VinBigdata a été divisée en petits groupes, analysant et discutant de différentes idées pour trouver la direction finale la plus appropriée.

« Nous avons finalement décidé de développer une architecture différente de la plupart des grands modèles linguistiques actuels et de mener une formation sur un ensemble de données vietnamiennes affinées de 600 Go, pour créer un « assistant virtuel intelligent » capable de comprendre et de donner des réponses en fonction du contexte des Vietnamiens », a déclaré le Dr. Nguyen Kim Anh a ajouté.

Aspiration à un écosystème technologique vietnamien

Selon les résultats de l'évaluation des normes d'évaluation des compétences en langue vietnamienne (VMLU), ViGPT a obtenu un score moyen de 42,24 %, juste derrière ChatGPT (48,54 %). Ce résultat permet à ViGPT de rechercher rapidement des informations et de répondre à des questions sur des sujets spécifiques du Vietnam.

Outre les capacités d'un assistant virtuel, l'équipe de développement souhaite intégrer ViGPT dans des produits familiers et utilisés quotidiennement, afin de créer des changements dans la vie des Vietnamiens. C'est la motivation qui pousse l'équipe VinBigdata à construire un écosystème de produits linguistiques et vocaux appliquant ViGPT - l'écosystème « Vi » comprenant : ViChat, ViVoice, ViVi Virtual Assistant. Ces produits peuvent être utilisés dans de nombreux secteurs industriels, allant de l'automobile, de la banque, de la finance, des assurances aux transports et bien d'autres domaines.

« Lorsque nous faisons de la technologie, en particulier de l'IA, nous ne voulons pas seulement conquérir des systèmes intéressants et complexes qui sont difficiles à voir. « Nous voulons créer des produits tangibles et hautement applicables, dans lesquels l'IA est un agent direct dans la création de changements dans la vie », a affirmé le directeur produit de VinBigdata.

image 4.jpg

Par conséquent, le développement réussi de ViGPT n’est que la première étape dans le voyage visant à mettre la technologie et les données « purement vietnamiennes » au service de la vie de millions de Vietnamiens. Le représentant de VinBigdata a déclaré que cette unité vise à intégrer ViGPT dans la plate-forme d'intelligence artificielle multicognitive VinBase 2.0, afin de fournir des solutions exceptionnelles aux systèmes organisationnels et aux entreprises de différentes tailles et secteurs.

Avant ViGPT, l'équipe d'experts et d'ingénieurs dans le domaine des technologies de traitement du langage et de la parole VinBigdata s'est distinguée en lançant ViVi - le premier assistant virtuel vietnamien complet (appliqué et déployé sur les voitures électriques VinFast, les applications Vinhomes Resident et la plateforme de commerce électronique Vinhomes Online), maîtrisant en même temps complètement les technologies les plus avancées au monde telles que la biométrie vocale ou le clonage vocal.

Toutes ces technologies sont développées sur la base d’une base de données de 3 500 téraoctets, se concentrant principalement sur les données spécifiques au Vietnam, collectées, analysées et affinées par VinBigdata. L’objectif ultime est d’apporter la technologie mondiale à la vie vietnamienne, en utilisant les données et les systèmes de connaissances vietnamiens.

ViGPT est la première « version vietnamienne de ChatGPT » destinée aux utilisateurs finaux, construite sur le modèle de langage large vietnamien (LLM) développé par VinBigdata. ViGPT possède des fonctionnalités exceptionnelles et est conçu pour répondre au mieux aux besoins des Vietnamiens, tels que la création de contenu, la recherche d'informations et la réponse aux questions courantes typiques du Vietnam. Inscrivez-vous et découvrez ViGPT sur : vigpt.vinbigdata.com

Thanh Hà