空港のロビーに入ると、出張から戻った人々の喧騒の中、ホー・ミン・ドゥックさんは、システムのアナウンスを読み上げる、聞き覚えのある優しい女性の声が聞こえ、数秒間立ち止まった。
Vbeeのスタッフがハノイの本社で働いている - 写真: NVCC
彼はまるで親戚に再会したかのように、安堵と幸福を感じて微笑んだ。その「親戚」は、Duc 氏と Vbee チームが何日も何ヶ月も「一緒に食事や睡眠をとり」、すべてのサウンド ラインに心血を注ぎ、声のあらゆるニュアンスに気を配り、より自然で人間らしくするために作り上げた 20 の AI 音声のうちの 1 つです。
困難なスタート
Vbee Data Solutions and Services Joint Stock Company の 2 人の創設者である CEO の Ho Minh Duc 氏と CTO の Nguyen Thi Thu Trang 氏が、このような喜びと誇りを何度味わったか分かりません。
彼らは、学校の拡声器から聞こえる明瞭な声、建物内の温かい声、多くの企業の自動交換機から聞こえるプロフェッショナルな声など、さまざまな状況で「特別な知人」に出会った。
Vbee の発明品は、もはや単なるアルゴリズムやコードの結果ではなく、実際に生活の中に入り込み、多くの分野に静かに、しかし強力な貢献をしています。
本の紹介、映画の吹き替えからコールセンターの自動アナウンスまで、Vbee は音声テクノロジーに新たな命を吹き込みます。
コア TTS テクノロジーの「母」である Nguyen Thi Thu Trang 博士は、パリ第 11 大学での博士論文以来、多大な努力を注いできたベトナムの音声合成テクノロジーの製品を実際のユーザーに提供することを常に目指しています。
Vbee の初期の頃は困難に満ちていました。最初の 2 年間は無料だったにもかかわらず、彼らのテキスト読み上げ (TTS) エンジンは少数のユーザーしか惹きつけませんでした。しかし、COVID-19は予想外の転機となった。
厳しい社会的距離規制に直面して、FE Credit、Momo、Viet Credit、Sacombank などの企業は何千人もの顧客にアプローチする方法を見つけなければなりません。そこで Vbee が登場しました。借金のリマインダーから自動応答まで、同社の製品はすぐに最適なソリューションになりました。当時、仮想アシスタントと仮想エージェントは Vbee の収益の 80% をもたらしました。
パンデミックが過ぎ去り、世界経済が低迷すると、Vbee は新たな課題に直面しました。生成型 AI (GenAI) の波とデジタル コンテンツのトレンドにより、TTS エンジンが復活しました。今日では、TikTok から YouTube、Facebook まで、Vbee の AI 音声はあらゆる場所で使用されています。
「今日のTTSコンテンツの多くは私たちが提供しています」とホー・ミン・ドゥック氏は誇らしげに語った。現在、Vbee の実際のユーザーベースは 200 万人を超えており、この数は毎月 20% ずつ着実に増加しています。
Vbee は 20 を超える高品質な企業音声をトレーニングしており、カスタム音声も含めると 200 を超えるさまざまな AI 音声を作成しています。
最近研究されテストされた新しい音声文字変換技術により、新しい音声のトレーニングには、2年前のように4時間から数十時間の録音が必要だったのに対し、現在は3分間の録音データのみで済みます。
CEO の Ho Minh Duc 氏と最高技術責任者の Nguyen Thi Thu Trang 氏 - Vbee Data Solutions and Services Joint Stock Company の 2 人の創設者 - 写真: NVCC
「私たちはベトナム語をよりよく理解しています」
音声合成技術をめぐる競争において、CEO の Ho Minh Duc 氏は、技術革新の取り組みが徐々に限界に達する時期が来ると見ている。
同氏によれば、Vbeeはベトナム語の音声を処理するためのコア技術を開発しているだけでなく、真のベトナム人だけが完全に理解できる微妙なニュアンス、トーン、独特の文化など、ベトナム語を深く理解できる技術システムも構築しているという。
ベトナムの TTS 市場のリーダーとして、Vbee の 2 人のリーダーは、自社のツールがベトナム語の AI 音声読み上げの標準になったと考えています。ユーザーは、その正確さを評価するだけでなく、Vbee が開発した各音声の「感情」も感じます。
たとえばベトナム語では、「路地」という単語だけでも、地域によって「hèm」、「kiệt」、「xếc」などさまざまな名前があり、単語ごとにニュアンスが異なり、AI が理解する必要があります。
これを実現するために、Vbee はサンプル データ セットの収集と AI トレーニング用の強力なサーバー システムへの投資に多額の投資を行ってきました。
「AIが各地域のニュアンスを正しく理解し処理できるようにするには、無数のサンプルセットを構築する必要があり、処理サーバーのコストも非常に高かった」とCEOのホー・ミン・ドゥック氏は語った。
Nguyen Thi Thu Trang 博士は、ベトナム語の音調と文法特性を解読する Vbee のコア TTS テクノロジーの研究に 15 年以上を費やしてきました。彼女にとって、母国語は表現のニュアンスに満ちた繊細な世界です。
「私のベトナム語は非常に複雑で興味深いです。その音調は最も難しく、世界の他の多くの一般的な言語とは異なります。私がその言語を理解すればするほど、私のモデルはより正確になります」と彼女は説明した。
Vbee は、テクノロジー時代においてベトナム語処理ソフトウェアを統合したツールやデバイスに欠かせない存在になると徐々に主張しています。
Vbee チームは、あらゆる言葉、あらゆる声において、技術を研究開発するだけでなく、AI 音声に真の「ベトナムの感情」を作り出すよう努めています。
Vbee という名前は、「Vietnamese BE your Eyes」というフレーズの略語で、視覚障害者の「目」となるツールを作りたいという私の最初の願望から生まれました。しかし、現在の発展の傾向では、多くの人が「見る」よりも「聞く」ことに切り替えたいと考えているため、Vbee もすべての人の「目」になると信じています。
グエン・ティ・トゥ・トラン博士(ハノイ工科大学情報技術学部講師、Vbee Company創設者兼技術ディレクター)
オーディオブック愛好家の集まり
Vbee は、視覚障害者コミュニティの Nguyen Thi Thu Trang 医師の運命から生まれました。彼女は学生時代から、視覚障害者を支援するためにオーディオブックの録音やベトナム語の読み上げソフトの開発に携わってきました。
これらの経験が、彼女にベトナム語読み取りソフトウェア(Vbeeの前身)の開発を思い起こさせるきっかけとなりました。 2018年、彼女はハノイ工科大学の同級生で、Socbay.comプロジェクトやオーディオブックのデジタル化の経験を持つホー・ミン・ドゥック氏とともに、ベトナムのテキスト音声変換分野の先駆者であるVbeeを設立しました。
Vbeeの優れた業績
- クアルコムベトナムイノベーションチャレンジ2024最優秀賞
- 特別賞 トゥオイ・チェ・スタートアップ・アワード 2023
- Grab Venture Ignite 2020 アクセラレーター プログラムで優勝したスタートアップ
- ベトナムタレント2018第1位、ベトナムタレント2020第2位
- 情報通信省の国家デジタル変革プログラム2025-2030におけるベトナムコアテクノロジー証明書
- 2018年ベトナムデジタルメディア賞および2019年Vingroup Fundの受賞プロジェクト。
地域ビジョン
Vbeeはベトナム市場での地位を固めた後、2026年までにラオス、タイ、カンボジア、フィリピンなどの国々にTTS技術を導入する計画で東南アジアへの進出を目指している。
Nguyen Thi Thu Trang 博士によると、多言語モデルの出現による今日の技術の急速な進歩により、他の言語用の TTS ツールの開発が容易になります。
現在、彼女はタイ語、中国語、英語の音声技術を研究しており、国際市場でのVbeeの新たな一歩を踏み出しています。
[広告2]
出典: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
コメント (0)