Le concours de traitement de la langue et de la parole vietnamiennes (VLSP) fait partie de la Conférence internationale annuelle sur le traitement de la langue et de la parole vietnamiennes organisée par le Club VLSP, une branche de l'Association vietnamienne des technologies de l'information. VLSP 2023 organise 10 concours sur le traitement de la parole et du texte, réunissant des chercheurs, des experts et des unités de développement technologique de premier plan.
Bien qu'il s'agisse de la quatrième fois que Viettel AI participait au concours et qu'il ait déjà gagné trois fois auparavant, les ingénieurs de Viettel ont encore rencontré de nombreuses difficultés en raison des changements dans la structure des catégories du concours.
Concrètement, par rapport à l’année dernière, les catégories Reconnaissance vocale et Reconnaissance des émotions sont cette année regroupées en une seule catégorie. Les équipes devaient résoudre deux problèmes en même temps pour garantir la reconnaissance du texte et de l’émotion de la phrase, doublant ainsi la charge de travail et la difficulté.
Exploitez toutes les données, qu'elles soient de faible ou de haute qualité
L'examen de cette année ne se limite pas à modifier la structure des catégories, il se concentre également sur la création de modèles à partir de zéro avec des conditions de données limitées, notamment des données brutes, non étiquetées et de faible qualité. Le test fournit quatre groupes de données avec une qualité et un format différents. Il existe des ensembles de données qui contiennent uniquement de l'audio non étiqueté, des ensembles de données qui contiennent uniquement de l'audio et du texte, des ensembles de données qui contiennent des émotions et de l'audio, de haute qualité, bien étiquetés, et des ensembles de données qui contiennent des émotions et de l'audio, de faible qualité. Chaque ensemble de données est bien défini pour chaque objectif et catégorie d’examen, totalisant plus de 300 heures dans tous les ensembles de données. Il s’agit d’un nombre plutôt modeste par rapport aux ensembles de données standard pour la formation à la reconnaissance vocale, qui nécessitent généralement jusqu’à 1 000 à 2 000 heures ou plus.
Chaque équipe avait moins de 2 mois pour travailler et soumettre son travail, mais en réalité, le temps réellement consacré à la recherche de solutions était bien moindre en raison du manque de ressources.
« Cette année, Viettel AI a consacré beaucoup de ressources d'infrastructure informatique à la recherche de nouvelles technologies ainsi qu'au développement de produits, tandis que la reconnaissance vocale est une technologie qui nécessite beaucoup de ressources matérielles », a déclaré M. Dang Dinh Son - Ingénieur en intelligence artificielle, Plateforme d'assistant virtuel, Viettel AI.
Face au faible volume et à la faible qualité des données, l'équipe de recherche a immédiatement déterminé le point de vue selon lequel « il faut utiliser toutes les données, quelle que soit leur qualité ». Pour ce faire, il est nécessaire de construire un cycle de formation qui traite toutes les données ainsi qu’un seul modèle qui résout de nombreux problèmes différents au lieu de plusieurs modèles.
Les résultats d'une maîtrise technologique pionnière
Dans un contexte de manque de données et de manque de ressources, l’équipe de recherche a décidé de construire un processus de traitement simple, pas massif, mais surtout raffiné jusqu’au moindre détail.
Les ingénieurs de Viettel AI étudient attentivement les dernières recherches des principales conférences et revues du monde entier pour trouver une approche. En combinant des méthodes de traitement de données pour former efficacement le modèle, l’équipe de recherche a construit un cycle de formation qui aide à traiter toutes les données disponibles. Le cycle comprend trois étapes : la construction d’un modèle de pré-formation pour caractériser la parole sans étiquettes, le réglage fin du modèle de pré-formation pour les deux tâches de reconnaissance de la parole et de reconnaissance des émotions, et l’inférence.
« L'expérience acquise en matière de résolution de problèmes de pénurie de données lors du développement et du déploiement de produits précédents a également contribué de manière significative à aider l'équipe à trouver une méthode de prise de décision. « Au contraire, les connaissances et les résultats obtenus à partir du test ont également le potentiel d'être immédiatement appliqués aux produits Viettel AI, de sorte que le processus de travail tout en passant le test est assez favorable », a déclaré M. Bui Tien Dat - Ingénieur de la plate-forme d'assistant virtuel, Viettel AI.
En conséquence, Viettel AI a non seulement remporté le premier prix dans les catégories Reconnaissance vocale et Reconnaissance des émotions vocales, mais a également obtenu un score impressionnant de 89,18 % (les équipes suivantes étaient respectivement de 83,40 % et 78,45 %).
M. Son a déclaré que le facteur clé réside dans le modèle de traitement de la parole spécifiquement destiné au vietnamien que Viettel AI a développé depuis longtemps.
« Au lieu d'utiliser des modèles et des instructions issus des résultats de recherche disponibles, Viettel AI a choisi de construire et de développer son propre modèle de traitement de la parole vietnamienne. « Ce modèle est constamment mis à jour, optimisé et devient de plus en plus efficace », a déclaré M. Son.
Non seulement s'arrête au cadre de la concurrence, cette solution de Viettel AI sera la prémisse de la mise à niveau des produits de standard virtuel, l'assistant virtuel Viettel, aidant à identifier plus précisément les émotions des clients dans les conversations, donnant ainsi du feedback ou choisissant des nuances de discours appropriées. De cette façon, les conversations entre les humains et l’IA deviendront plus naturelles, améliorant ainsi l’expérience utilisateur. De nombreuses nouvelles applications dans le domaine du service client ont également été ouvertes, comme la construction d'un système automatique d'identification des réclamations des clients et des recours au standard pour un traitement rapide ou une exploitation des informations.
Le représentant de l'unité a déclaré que Viettel AI continuera à développer la technologie, à mettre constamment à niveau les produits pour augmenter la précision, à améliorer l'expérience utilisateur et l'efficacité du produit.
Quoc Tuan
Source
Comment (0)