機械翻訳は、自然言語処理における人工知能技術の最も成功した応用例の 1 つです。 Google Translate や Microsoft の Bing Translator などの高品質の機械翻訳システムでは、モデルをトレーニングするために、最大数百万の文のペアを含む大規模なバイリンガル データセットが必要です。

しかし、世界の多くの言語には十分なリソースがありません。したがって、東南アジア地域の言語を含むリソースの少ない言語向けの効果的な機械翻訳モデルを構築することは、緊急かつ困難な課題です。

最近、情報技術研究所(ベトナム科学技術アカデミー)は、現在最も先進的な機械翻訳技術を研究し、習得しました。このユニットは、ベトナム語とラオス語、クメール語、タイ語、マレーシア語、インドネシア語などの地域言語間の多言語テキスト翻訳システムの構築にも成功しました。

開発者によると、ラオス語、タイ語、クメール語などの言語は、機械翻訳モデルを構築する上で大きな課題となるという。困難さは、バイリンガル データの不足だけでなく、これらの言語が形態論的に豊かで、単語の分割、文の分割、多義性が欠けていることからも生じます。

情報技術研究所が開発した AI モデルは、上記の言語のすべての特殊機能に「適応」する方法を「学習」しました。そこから、ソフトウェアは、高度な外国製品と同等の翻訳品質で、必要に応じて他の言語をすばやく追加することを可能にします。

特別なのは、この多言語翻訳ソフトウェアが個別に実行され、データをローカルに保存し、別のサービスプロバイダーの API を使用する必要がないことです。これにより、セキュリティと安全性が確保され、情報漏洩を防ぐことができます。

W-ヴィエンハンラムイラスト-ai-tri-tue-nhan-tao-1.jpg
ベトナム科学技術アカデミーの科学技術製品の一部が、ベトナム国際イノベーション展2023で展示されている。写真:トロン・ダット

Google 翻訳や Bing Translator などの翻訳システムの問題点の 1 つは、ドメイン固有の適応性です。つまり、一般向けの一般的な言語領域ではうまく翻訳できますが、医療、法律、セキュリティなどの専門言語領域では翻訳品質が低くなります。

上記の欠点を克服するために、情報技術研究所の研究チームは、リソースの少ない言語への双方向翻訳を高品質で実現できるベトナム語中心の翻訳システムを開発しました。

具体的には、このソフトウェアは同じテキストに対して Google 翻訳と同等以上の品質を備えています。さらに、このソフトウェアはテキストの長さを制限しません。

2022年から2023年にかけて、システムは大規模言語モデル(LLM)技術の導入に重点を置き、ベトナム語 - クメール語、ベトナム語 - ラオス語、ベトナム語 - タイ語、ベトナム語 - マレー語、ベトナム語 - インドネシア語の言語ペアを優先します。

英語(非常に豊富なデータリソースであり、Google の優先強み)では、Information Technology Institute のソフトウェアは Google 翻訳とほぼ同等の品質を保証します。特に、このシステムは、パートナーの特定の要件に応じて、医学、法律などの専門的な言語領域に適応するように微調整する機能を備えています。

このシステムは、大規模な言語データストレージとベトナム最強の人工知能/機械学習(AI/ML)スーパーコンピューティング能力をサポートする技術インフラストラクチャに基づいて、研究チームによって独自に開発されました。

情報技術研究所は関連技術を完璧に習得しています。そのため、このユニットは、必要に応じて、ムオン語、タイ語などのベトナムの少数民族言語(多くの場合、データリソースが非常に乏しい)や、中国語、フランス語、ロシア語などの一般的な外国語を含む新しいターゲット言語へのアプリケーションを簡単に拡張できます。

ベトナム製のこの多言語翻訳ソフトウェアは、少数民族の情報アクセス問題の解決策となることが期待されています。

ベトナムの人工知能市場は1億米ドルの価値がある。ベトナムでは現在、AI技術は主に顧客ケアサービス、特に銀行業務に応用されており、近々保険にも応用される予定だ。