Le projet de recherche visant à accroître la précision des modèles de reconnaissance vocale en temps réel (Streaming Automatic Speech Recognition) de Le Duy Khanh - ingénieur « GenZ » de Zalo AI - sera annoncé pour la première fois lors de la Conférence scientifique internationale, qui se tiendra en Grèce en septembre 2024.
Avec le thème « Améliorer la reconnaissance vocale en streaming avec l'attention contextuelle décalée dans le temps et le masquage dynamique du contexte droit » , le document de recherche de l'ingénieur en IA de Zalo né en 2000 a obtenu un score presque parfait - 11/12 points, passant le cycle d'examen rigoureux avec plus de 2 000 articles participants pour être présenté à la conférence Interspeech sous la forme d'une séance orale.
« Je suis très fier que mon premier article scientifique ait été reconnu par une conférence scientifique prestigieuse et que j'aie l'opportunité de présenter les réalisations de la recherche vietnamienne aux grandes entreprises technologiques, aux experts et à la communauté internationale », a partagé Le Duy Khanh.
Sous la direction du Dr Chau Thanh Duc - Chef du département de recherche et développement chez Zalo AI, professeur à l'Université des sciences (Université nationale de Ho Chi Minh-Ville), ce projet de recherche devrait apporter une contribution importante à la mise à niveau des modèles de reconnaissance vocale, en augmentant la précision de la dictée vocale et de la voix-texte sur l'application Zalo.
« Synthétiser les recherches hautement pratiques de Zalo AI dans des articles scientifiques et les présenter lors de prestigieuses conférences internationales est d'une grande importance. « Cela démontre non seulement la capacité des ingénieurs vietnamiens, mais témoigne également du désir de partager leurs expériences et de contribuer au développement de la communauté mondiale de l'IA », a déclaré le Dr. Chau Thanh Duc a déclaré.
Auparavant, Zalo avait intégré cette recherche dans son application de messagerie à partir de fin 2023, améliorant considérablement la précision de la fonctionnalité « composition de messages vocaux ». Cette fonctionnalité permet aux utilisateurs de rédiger des messages vocalement au lieu de les saisir, ce qui permet de gagner du temps et de les rendre plus pratiques dans de nombreuses situations d'utilisation. Dans le même temps, la précision de cette fonctionnalité a atteint 95 % dans la pratique ; Le taux de nécessité de rééditer un texte après l’avoir composé vocalement est passé de 6,4 % à seulement 4,8 %.
Selon les statistiques de Zalo, bien que la fonctionnalité soit encore en phase de test, elle a généré près de 4,5 millions de messages par jour et attiré environ 3,2 millions d'utilisateurs mensuels (données mises à jour jusqu'en juin 2024).
Depuis le début de son parcours pionnier dans la recherche en IA en 2017, Zalo a toujours cru en « l’autonomisation » de la jeune génération. Actuellement, jusqu’à 31 % des employés de Zalo appartiennent à la génération GenZ. En 2021, deux autres sujets de recherche de l'équipe d'ingénierie Zalo AI liés à la technologie de traitement de la parole ont également été reconnus lors de la Conférence internationale Asie-Pacifique sur l'intelligence artificielle (PRICAI 2021). Il est à noter que les auteurs de ces deux sujets sont tous de jeunes chercheurs de moins de 30 ans.
Interspeech est une conférence internationale de longue date, complète et prestigieuse dans le domaine du traitement de la parole, organisée par l'International Speech Communication Association. Cette année, la conférence sur le thème « La parole et au-delà » aura lieu du 1er au 5 septembre 2024 sur l’île de Kos (Grèce).
Comment (0)