Машинный перевод — одно из наиболее успешных применений технологии искусственного интеллекта в обработке естественного языка. Для обучения модели высококачественным системам машинного перевода, таким как Google Translate или Bing Translator от Microsoft, требуются масштабные двуязычные наборы данных, содержащие до миллионов пар предложений.

Однако многим языкам мира не хватает ресурсов. Поэтому создание эффективной модели машинного перевода для языков с ограниченными ресурсами, в том числе языков Юго-Восточной Азии, является неотложной и сложной задачей.

Недавно Институт информационных технологий (Вьетнамская академия наук и технологий) исследовал и освоил самую передовую на сегодняшний день технологию машинного перевода. Это подразделение также успешно создало многоязычную систему перевода текстов между вьетнамским и региональными языками, включая лаосский, кхмерский, тайский, малайзийский и индонезийский.

По словам разработчика, такие языки, как лаосский, тайский и кхмерский, создают огромные проблемы при построении моделей машинного перевода. Трудность возникает не только из-за нехватки двуязычных данных, но и потому, что эти языки морфологически богаты, в них отсутствует сегментация слов, сегментация предложений и полисемия.

Разработанная Институтом информационных технологий модель искусственного интеллекта «научилась» «адаптироваться» ко всем особенностям вышеперечисленных языков. После этого программное обеспечение позволяет быстро добавлять другие языки по мере необходимости, обеспечивая качество перевода, эквивалентное передовым зарубежным продуктам.

Особенностью является то, что это многоязычное программное обеспечение для перевода работает отдельно, хранит данные локально и не требует использования API другого поставщика услуг. Это помогает обеспечить безопасность, сохранность и отсутствие утечек информации.

В-вьен-хан-лам-иллюстрация-ай-три-туэ-нхан-тао-1.jpg
Некоторые научные и технологические продукты Вьетнамской академии наук и технологий представлены на Вьетнамской международной выставке инноваций 2023 года. Фото: Trong Dat

Одной из проблем систем перевода, таких как Google Translate или Bing Translator, является их адаптируемость к конкретной области. То есть они могут хорошо переводить для распространенных, популярных языковых областей, обслуживающих общественность, но качество перевода в специализированных языковых областях, таких как медицина, юриспруденция, безопасность и т. д., оставляет желать лучшего.

Для преодоления вышеуказанных недостатков исследовательская группа Института информационных технологий разработала систему перевода, ориентированную на вьетнамский язык, способную осуществлять двусторонний перевод на языки с ограниченными ресурсами с хорошим качеством.

В частности, это программное обеспечение обеспечивает такое же или более высокое качество, чем Google Translate для того же текста. Кроме того, программа не ограничивает длину текста.

В период 2022–2023 гг. система будет фокусироваться на внедрении методов больших языковых моделей (LLM), отдавая приоритет следующим языковым парам: вьетнамский — кхмерский, вьетнамский — лаосский, вьетнамский — тайский, вьетнамский — малайский и вьетнамский — индонезийский.

Благодаря английскому языку (очень богатому ресурсу данных и приоритетному преимуществу Google) программное обеспечение Института информационных технологий обеспечивает качество, почти эквивалентное Google Translate. В частности, система имеет возможность тонкой настройки для адаптации к специализированным языковым областям, таким как медицина, юриспруденция и т. д., в соответствии с конкретными требованиями партнера.

Эта система была разработана исследовательской группой самостоятельно на основе технической инфраструктуры, поддерживающей хранение больших объемов языковых данных, и самых мощных суперкомпьютерных мощностей искусственного интеллекта/машинного обучения (ИИ/МО) во Вьетнаме.

Институт информационных технологий в совершенстве владеет смежными технологиями. Таким образом, данное устройство может легко расширить область применения на новые целевые языки, включая языки этнических меньшинств во Вьетнаме (часто очень бедные ресурсами данных), такие как мыонг, тайский и т. д., а также популярные иностранные языки, такие как китайский, французский, русский и т. д., при необходимости.

Ожидается, что это многоязычное программное обеспечение для перевода, созданное во Вьетнаме, станет решением проблемы доступа к информации для этнических меньшинств.

Рынок искусственного интеллекта во Вьетнаме оценивается в 100 миллионов долларов США . Во Вьетнаме технология ИИ в настоящее время применяется в основном в сфере обслуживания клиентов, особенно в банковском секторе, а вскоре и в страховании.