El producto generó rápidamente revuelo en la comunidad científica y tecnológica vietnamita.

Elija el camino difícil para resolver los problemas vietnamitas

A finales de 2022, ChatGPT creará un “big bang”, abriendo una carrera para conquistar la IA artificial entre países y gigantes en el campo de la tecnología. En ese momento, la comunidad tecnológica vietnamita también estaba ansiosa por desarrollar productos vietnamitas para volverse tecnológicamente independientes y reducir la dependencia de los productos internacionales. Sin embargo, no todas las unidades tienen la capacidad y la determinación de realizar ese deseo como VinBigdata.

La IA generativa es un problema complejo. Grandes empresas como OpenAI o Google también tienen que invertir muchos recursos y tiempo en investigación para crear productos como los que vemos. Estos productos son muy buenos, pero los científicos aún no comprenden completamente su funcionamiento. Pocos pueden predecir cuándo presenta errores y cuáles serán. Desarrollar un producto similar a ChatGPT para los vietnamitas en menos de un año presenta muchos desafíos. Pero decidimos arriesgarnos porque si una versión vietnamita de ChatGPT no es creada por vietnamitas, ¿quién la creará? - El profesor Vu Ha Van, director científico de VinBigdata, compartió esto.

De hecho, muy pocas empresas optan por construir su propio modelo de lenguaje grande desde cero. El GPT 3 de OpenAI tiene 175 mil millones de parámetros y se entrenó en un conjunto de datos de 45 terabytes y costó 4,6 millones de dólares. Según los cálculos, la cantidad de dinero para desarrollar GPT 4 podría alcanzar hasta 100 millones de dólares. “Con cifras tan grandes, es difícil encontrar una empresa que pueda permitirse invertir en esta tecnología”, afirmó el Dr. Nguyen Kim Anh, director de productos de VinBigdata.

imagen 1.jpg

Para que las empresas vietnamitas puedan acceder a la tecnología de IA de nueva generación, con costos e infraestructura óptimos, VinBigdata eligió una dirección completamente diferente, que es crear un modelo de lenguaje con solo 1.600 millones de parámetros, pero con capacidades equivalentes a grandes modelos de lenguaje con miles de millones de parámetros. "Los resultados muestran que, con la arquitectura desarrollada por VinBigdata, es totalmente posible optimizar y acelerar el proceso de entrenamiento del modelo lingüístico, reducir los costos de infraestructura (incluidos los de entrenamiento y uso), y al mismo tiempo garantizar la calidad del modelo", añadió el Dr. Nguyen Kim Anh.

Después de resolver el problema del gran tamaño del modelo de lenguaje, durante el proceso de "concepción" de ViGPT, después de estudiar modelos extranjeros, el equipo de VinBigdata también se dio cuenta de otro desafío: la "ilusión", proveniente de la naturaleza inherente de los modelos de probabilidad estadística.

En consecuencia, los modelos lingüísticos más grandes del mundo a menudo se entrenan utilizando fuentes de datos en inglés. Por lo tanto, este modelo no comprende ni responde adecuadamente al contexto y la cultura del pueblo vietnamita. Esto conduce a una alucinación que hace que el gran modelo de lenguaje “fabrique” respuestas incorrectas.

imagen 3.jpg

Para encontrar la solución óptima en el menor tiempo posible, el equipo de Procesamiento del Lenguaje Natural (PLN) de VinBigdata se dividió en pequeños grupos, analizando y discutiendo diferentes ideas para encontrar la dirección final más adecuada.

“Al final, decidimos desarrollar una arquitectura diferente a la mayoría de los grandes modelos lingüísticos actuales y realizar un entrenamiento en un conjunto de datos vietnamitas optimizado de 600 GB, para crear un “asistente virtual inteligente” capaz de comprender y dar respuestas según el contexto del pueblo vietnamita”, añadió el Dr. Nguyen Kim Anh.

Aspiración a un ecosistema tecnológico vietnamita

Según los resultados de la evaluación de los Estándares de Evaluación de Competencia en Lengua Vietnamita (VMLU), ViGPT logró una puntuación promedio de 42,24%, solo superada por ChatGPT (48,54%). Este resultado permite a ViGPT buscar rápidamente información y responder preguntas sobre temas específicos de Vietnam.

Además de las capacidades de un asistente virtual, lo que el equipo de desarrollo quiere es integrar ViGPT en productos familiares y de uso diario, para crear cambios en la vida de los vietnamitas. Esa es la motivación que impulsa al equipo de VinBigdata a construir un ecosistema de productos de lenguaje y voz que apliquen ViGPT: el ecosistema "Vi", que incluye: ViChat, ViVoice y ViVi Virtual Assistant. Estos productos se pueden utilizar en muchas industrias, desde la industria automotriz, la banca - finanzas, seguros hasta el transporte y muchos otros campos.

“Al trabajar con tecnología, especialmente con IA, no solo buscamos dominar sistemas interesantes y complejos que son difíciles de ver. Queremos crear productos tangibles y altamente aplicables, donde la IA sea el agente directo que genere cambios en la vida”, afirmó el Director de Producto de VinBigdata.

imagen 4.jpg

Por lo tanto, el desarrollo exitoso de ViGPT es solo el primer paso en el camino para poner la tecnología y los datos "puramente vietnamitas" al servicio de las vidas de millones de vietnamitas. El representante de VinBigdata dijo que esta unidad tiene como objetivo integrar ViGPT en la plataforma de inteligencia artificial multicognitiva VinBase 2.0, para brindar soluciones destacadas para sistemas organizacionales y empresas de diversos tamaños e industrias.

Antes de ViGPT, el equipo de expertos e ingenieros en el campo de la tecnología de procesamiento del lenguaje y el habla VinBigdata dejó su huella con el lanzamiento de ViVi, el primer asistente virtual vietnamita integral (aplicado e implementado en los autos eléctricos VinFast, las aplicaciones Vinhomes Resident y la plataforma de comercio electrónico Vinhomes Online), al mismo tiempo, dominando por completo las tecnologías más avanzadas del mundo, como la biometría de voz o la clonación de voz.

Todas estas tecnologías se desarrollan a partir de una base de datos de 3.500 terabytes, centrándose principalmente en datos específicos de Vietnam, recopilados, analizados y refinados por VinBigdata. El objetivo final es acercar la tecnología mundial a la vida vietnamita, utilizando datos y sistemas de conocimiento vietnamitas.

ViGPT es la primera "versión vietnamita de ChatGPT" para usuarios finales basada en el modelo de lenguaje grande vietnamita (LLM) desarrollado por VinBigdata. ViGPT posee características excepcionales y está diseñado para adaptarse mejor a las necesidades de los usuarios vietnamitas, como la creación de contenido, la búsqueda de información y la respuesta a preguntas comunes típicas de Vietnam. Regístrese y experimente ViGPT en: vigpt.vinbigdata.com

Thanh Ha