OpenAI no ha revelado mucho sobre cómo se entrenó ChatGPT-4. Sin embargo, normalmente los modelos de lenguaje grandes (LLM) se entrenan con texto recuperado de Internet, donde el inglés es la lengua franca. Aproximadamente el 93% de los datos de entrenamiento de ChatGPT-3 están en inglés.

En Common Crawl, solo uno de los conjuntos de datos en los que se entrena el modelo de IA, el inglés representa el 47 % del corpus, y otros idiomas europeos representan un 38 % adicional. En cambio, los chinos y japoneses juntos representan sólo el 9%.

captura de pantalla 2024 01 31 a las 151709.png
La mayoría de los datos utilizados para la formación LLM están en inglés o en otros idiomas europeos.

Una revisión realizada por Nathaniel Robinson, investigador de la Universidad Johns Hopkins, y sus colegas descubrió que no se trataba de un problema limitado a ChatGPT. Todos los LLM funcionan mejor con lenguajes de “altos recursos” donde los datos de entrenamiento son abundantes, que con lenguajes de “bajos recursos” donde son escasos.

Este es un problema para quienes esperan llevar la IA a los países pobres para mejorar áreas que van desde la educación hasta la atención médica. Por ello, investigadores de todo el mundo están trabajando para hacer que la IA sea más multilingüe.

En septiembre pasado, el gobierno indio lanzó un chatbot que ayuda a los agricultores a mantenerse actualizados con información útil del gobierno.

Shankar Maruwada de EkStep Foundation, la organización sin fines de lucro que ayudó a construir el chatbot, dijo que el bot funciona combinando dos tipos de modelos de lenguaje y los usuarios pueden enviar consultas en su idioma nativo. Estas consultas en idioma nativo se pasan a un software de traducción automática en un centro de investigación de la India, que las traduce al inglés antes de enviarlas a LLM para procesar las respuestas. Finalmente, la respuesta se traducirá nuevamente al idioma nativo del usuario.

Este proceso puede funcionar, pero traducir las consultas al lenguaje “preferido” del LLM es una solución complicada. El lenguaje es un medio para reflejar la cultura y la visión del mundo. Un artículo de 2022 de Rebecca Johnson, investigadora de la Universidad de Sydney, descubrió que ChatGPT-3 producía respuestas sobre temas como el control de armas y la política de refugiados que eran comparables a los valores estadounidenses expresados ​​en la Encuesta Mundial de Valores.

Por ello, muchos investigadores están intentando que los LLM sean fluidos en idiomas menos utilizados. Técnicamente, un enfoque es modificar la tokenización del lenguaje. Una startup india llamada Sarvam AI ha escrito un tokenizador optimizado para hindi, o modelo OpenHathi - LLM optimizado para el idioma devanagari (indio) que puede reducir significativamente el costo de responder preguntas.

Otra forma es mejorar los conjuntos de datos en los que se entrena LLM. En noviembre, un equipo de investigadores de la Universidad Mohamed bin Zayed, en Abu Dhabi, lanzó la última versión de un modelo en árabe llamado “Jais”. Tiene 1/6 del número de parámetros de ChatGPT-3, pero ofrece un rendimiento comparable para el árabe.

Timothy Baldwin, rector de la Universidad Mohamed bin Zayed, señaló que aunque su equipo digitalizó mucho texto árabe, el modelo aún incluía algo de texto en inglés. Algunos conceptos son los mismos en todos los idiomas y pueden aprenderse en cualquier idioma.

El tercer enfoque es ajustar los modelos después de haberlos entrenado. Tanto Jais como OpenHathi tienen varios pares de preguntas y respuestas generadas por humanos. Lo mismo ocurre con los chatbots occidentales, para evitar la desinformación.

A Ernie Bot, LLM de Baidu, una importante empresa tecnológica china, se le ha regulado para limitar el discurso que pueda ofender al gobierno. Los modelos también pueden aprender de la retroalimentación humana, donde los usuarios califican las respuestas de LLM. Pero eso es difícil de hacer para muchos idiomas en regiones menos desarrolladas debido a la necesidad de contratar personas calificadas para criticar cómo responde la máquina.

(Según The Economist)

El Ejército de EE. UU. utiliza inteligencia artificial para estimar precios de minerales críticos El Ejército de Estados Unidos planea desarrollar un programa informático capaz de estimar precios y predecir suministros de níquel, cobalto y otros minerales críticos.