La traducción automática es una de las aplicaciones más exitosas de la tecnología de inteligencia artificial en el procesamiento del lenguaje natural. Los sistemas de traducción automática de alta calidad como Google Translate o Bing Translator de Microsoft necesitan conjuntos de datos bilingües a gran escala, de hasta millones de pares de oraciones, para entrenar el modelo.

Sin embargo, muchos idiomas en el mundo no cuentan con suficientes recursos. Por lo tanto, construir un modelo de traducción automática eficaz para idiomas con escasos recursos, incluidos los de la región del Sudeste Asiático, es urgente y supone un desafío.

Recientemente, el Instituto de Tecnología de la Información (Academia de Ciencia y Tecnología de Vietnam) ha investigado y dominado la tecnología de traducción automática más avanzada existente en la actualidad. Esta unidad también ha construido con éxito un sistema de traducción de textos multilingües entre vietnamita y lenguas regionales, incluidos lao, jemer, tailandés, malayo e indonesio.

Según el desarrollador, idiomas como el lao, el tailandés y el jemer plantean enormes desafíos a la hora de crear modelos de traducción automática. La dificultad no viene sólo de la escasez de datos bilingües sino también porque estas lenguas son morfológicamente ricas, carecen de segmentación de palabras, de segmentación de oraciones y de polisemia.

El modelo de IA desarrollado por el Instituto de Tecnologías de la Información ha "aprendido" a "adaptarse" a todas las particularidades de los lenguajes mencionados. A partir de ahí, el software permite agregar rápidamente otros idiomas cuando sea necesario con una calidad de traducción equivalente a productos extranjeros avanzados.

Lo especial es que este software de traducción multilingüe se ejecuta por separado, almacena los datos localmente y no tiene que utilizar la API de otro proveedor de servicios. Esto ayuda a garantizar la seguridad, la protección y la ausencia de fugas de información.

W-vien-han-lam-ilustracion-ai-tri-tue-nhan-tao-1.jpg
Algunos productos científicos y tecnológicos de la Academia de Ciencia y Tecnología de Vietnam se exhiben en la Exposición Internacional de Innovación de Vietnam 2023. Foto: Trong Dat

Un problema con los sistemas de traducción como Google Translate o Bing Translator es la adaptabilidad específica del dominio. Es decir, pueden traducir bien para dominios lingüísticos comunes y populares que atienden al público, pero la calidad de la traducción es deficiente en dominios lingüísticos especializados como la medicina, el derecho, la seguridad, etc.

Para superar las deficiencias mencionadas, el equipo de investigación del Instituto de Tecnología de la Información ha desarrollado un sistema de traducción centrado en el vietnamita, capaz de realizar traducciones bidireccionales a idiomas con escasos recursos con buena calidad.

En concreto, este software tiene la misma o mayor calidad que Google Translate para el mismo texto. Además, el software no limita la longitud del texto.

En el período 2022-2023, el sistema se centra en la implementación de técnicas de grandes modelos lingüísticos (LLM), priorizando los siguientes pares de idiomas: vietnamita - jemer, vietnamita - lao, vietnamita - tailandés, vietnamita - malayo y vietnamita - indonesio.

Con el idioma inglés (un recurso de datos muy abundante y un punto fuerte prioritario de Google), el software del Information Technology Institute garantiza una calidad casi equivalente a Google Translate. En particular, el sistema tiene la capacidad de ajustarse para adaptarse a dominios lingüísticos especializados como medicina, derecho, etc. según los requisitos específicos del socio.

Este sistema fue desarrollado internamente por el equipo de investigación, basado en la infraestructura técnica que soporta el almacenamiento de grandes datos lingüísticos y la capacidad de supercomputación de inteligencia artificial/aprendizaje automático (IA/ML) más fuerte de Vietnam.

El Instituto de Tecnologías de la Información tiene dominio completo de las tecnologías relacionadas. Por lo tanto, esta unidad puede ampliar fácilmente la aplicación a nuevos idiomas de destino, incluidos los idiomas de minorías étnicas en Vietnam (a menudo muy pobres en recursos de datos) como Muong, tailandés, etc. e idiomas extranjeros populares como chino, francés, ruso, etc. cuando sea necesario.

Se espera que este software de traducción multilingüe fabricado en Vietnam sea la solución al problema del acceso a la información para las minorías étnicas.

El mercado de inteligencia artificial de Vietnam vale 100 millones de dólares . En Vietnam, la tecnología de IA se aplica actualmente en gran medida en los servicios de atención al cliente, especialmente en la banca y pronto en los seguros.