En enero, la startup china DeepSeek lanzó su modelo de inferencia R1 de código abierto. La compañía dice que el gran modelo de lenguaje detrás de R1 fue desarrollado con chips menos potentes y a un costo mucho menor que los modelos de IA occidentales.

Los inversores reaccionaron a la noticia deshaciéndose de las acciones de Nvidia y otras empresas tecnológicas, lo que provocó que Nvidia perdiera 600 mil millones de dólares en capitalización de mercado en un solo día. Sin embargo, la mayor empresa de semiconductores del mundo ahora ha recuperado la mayor parte de lo que perdió.

Búsqueda profunda de Bloomberg
Los modelos de lenguaje de gran tamaño de DeepSeek se desarrollan utilizando chips mucho más débiles y baratos que los modelos occidentales. Foto: Bloomberg

En su último vídeo, Jensen Huang sostiene que la reacción extrema del mercado se debe a que los inversores malinterpretan el progreso de DeepSeek.

Se preguntan si los billones de dólares que las grandes tecnológicas gastan en infraestructura de IA son necesarios si se necesita menos potencia informática para entrenar los modelos.

Sin embargo, el Sr. Huang dijo que la industria aún necesita poder computacional para los métodos posteriores al entrenamiento, que permiten a los modelos de IA sacar conclusiones o predicciones después de ser entrenados.

A medida que los métodos de post-entrenamiento se vuelven más diversos y avanzados, también lo hace la demanda de la potencia informática que proporcionan los chips Nvidia.

Según el CEO de Nvidia, los inversores creen que el mundo solo tiene entrenamiento previo e inferencia (hacerle una pregunta a la IA y obtener una respuesta inmediatamente), pero el entrenamiento posterior es la parte más importante de la IA. Ahí es donde aprende a resolver problemas especializados.

Aun así, el Sr. Huang no niega que DeepSeek haya "inyectado" más energía al mundo de la IA. La directora ejecutiva de AMD, Lisa Su, también comentó que DeepSeek está impulsando innovaciones que son “buenas para las aplicaciones de IA” en una entrevista a principios de este mes.

El término preentrenamiento se refiere a la etapa inicial del entrenamiento de un modelo de lenguaje grande (LLM), donde el modelo aprende de un conjunto de datos grande y diverso, normalmente hasta varios billones de tokens.

El objetivo aquí es ayudar al modelo a obtener una comprensión general del lenguaje, el contexto y los tipos comunes de conocimiento. Esta etapa a menudo requiere una enorme capacidad de procesamiento y de datos, con un coste de cientos de millones de dólares.

El término post-entrenamiento o ajuste fino se da cuando se toma un modelo previamente entrenado y luego se lo vuelve a entrenar con un conjunto de datos más específico. Estos conjuntos de datos suelen ser más pequeños y centrarse en un dominio o tarea concretos.

Su propósito es ajustar el modelo para que funcione mejor en escenarios y tareas específicos, que no se cubren en profundidad durante el entrenamiento previo. Los nuevos conocimientos añadidos durante el entrenamiento posterior mejorarán el rendimiento del modelo más que ampliar el conocimiento general.

(Según Insider, Reddit)