Zalo AIの「GenZ」エンジニアであるLe Duy Khanh氏による、リアルタイム音声認識モデル(ストリーミング自動音声認識)の精度向上を支援する研究プロジェクトが、2024年9月にギリシャで開催される国際科学会議で初めて発表される予定です。
2000 年生まれの Zalo AI エンジニアによる研究論文は、 「タイムシフト コンテキスト アテンションと動的右コンテキスト マスキングによるストリーミング音声認識の改善」というテーマで、ほぼ満点の 11/12 ポイントを獲得し、2,000 件を超える参加論文による厳しい審査ラウンドを通過し、 Interspeechカンファレンスで口頭セッションの形式で発表されました。
「私の最初の科学論文が権威ある科学会議で認められ、ベトナムの研究成果を大手テクノロジー企業、専門家、国際社会に紹介する機会を得たことを非常に誇りに思います」とレ・ズイ・カーン氏は語った。
Zalo AI 研究開発部門責任者であり、ホーチミン国立大学理科大学講師でもある Chau Thanh Duc博士の指導の下、この研究プロジェクトは、音声認識モデルのアップグレード、Zalo アプリケーションでの音声ディクテーションと音声テキスト変換の精度の向上に重要な貢献をすることが期待されています。
「 Zalo AIの非常に実用的な研究を科学論文にまとめ、権威ある国際会議で発表することは非常に意義深いことです。これはベトナムのエンジニアの能力を示すだけでなく、経験を共有し、世界のAIコミュニティの発展に貢献したいという意欲も示しています」と、ベトナムのAIエンジニアの博士は述べています。チャウ・タン・ドゥック氏は語った。
以前、Zaloは2023年末からこの研究をメッセージングアプリケーションに統合し、「音声メッセージ作成」機能の精度を大幅に向上させました。この機能により、ユーザーは入力する代わりに音声でメッセージを作成できるため、多くの使用状況で時間を節約し、より便利になります。同時に、この機能の精度は実際には 95% に達しています。 音声で作成した後にテキストを再編集する必要がある割合は、6.4% からわずか 4.8% に減少しました。
Zalo の統計によると、この機能はまだテスト段階ですが、1 日あたり約 450 万件のメッセージが生成され、月間約 320 万人のユーザーが利用しています (2024 年 6 月までのデータ更新)。
Zalo は 2017 年に AI 研究の先駆的な取り組みを開始して以来、常に若い世代に「力を与える」ことを信条としてきました。現在、Zalo の従業員の最大 31% が GenZ 世代に属しています。 2021年には、音声処理技術に関連するZalo AIエンジニアリングチームの他の2つの研究テーマも、アジア太平洋人工知能国際会議(PRICAI 2021)で認められました。注目すべきは、これら 2 つのトピックの著者はいずれも 30 歳未満の若い研究者であるということです。
Interspeech は、国際音声コミュニケーション協会が主催する、音声処理の分野における長年にわたる包括的で権威ある国際会議です。今年は、「スピーチとその先」をテーマにした会議が、 2024年9月1日から5日までコス島(ギリシャ)で開催されます。
コメント (0)