Nueva herramienta de IA crea fotos de alta calidad, 9 veces más rápido

imagen 1.jpg

La imagen de un astronauta montado a caballo es una combinación de dos tipos de modelos de IA generativa. Foto: MIT News

Cuando la velocidad y la calidad ya no son un compromiso

En el campo de la obtención de imágenes con IA, actualmente existen dos enfoques principales:

Los modelos de difusión permiten obtener imágenes nítidas y detalladas. Sin embargo, son muy lentos y requieren un uso intensivo de recursos computacionales, ya que requieren docenas de pasos de procesamiento para eliminar el ruido de cada píxel.

Los modelos autorregresivos, por otro lado, funcionan mucho más rápido porque pueden predecir pequeñas partes de la imagen secuencialmente. Pero a menudo producen imágenes con poco detalle y son propensas a errores.

HART (transformador autorregresivo híbrido) combina ambos, proporcionando "lo mejor de ambos mundos". En primer lugar, utiliza un modelo autorregresivo para construir la imagen completa codificándola en tokens discretos. Luego, el modelo de difusión liviano procede a agregar tokens residuales: la información detallada que se pierde durante la codificación.

Las imágenes resultantes son de una calidad comparable (o mejor) a la de los modelos de difusión de última generación, pero son 9 veces más rápidas de procesar y utilizan un 31% menos de recursos computacionales.

Nuevo enfoque para crear imágenes de calidad a alta velocidad

Una de las innovaciones notables de HART es cómo resuelve el problema de pérdida de información cuando se utilizan modelos autorregresivos. La conversión de imágenes en tokens discretos acelera los procesos, pero también pierde detalles importantes como los bordes de los objetos, los rasgos faciales, el cabello, los ojos, las bocas, etc.

La solución de HART es dejar que el modelo de difusión se centre únicamente en “reparar” estos detalles mediante tokens residuales. Y como el modelo autorregresivo ha hecho la mayor parte del trabajo, el modelo de difusión solo necesita 8 pasos de procesamiento en lugar de más de 30 pasos como antes.

"El modelo de difusión es más fácil de implementar, lo que conduce a una mayor eficiencia", explica el coautor Haotian Tang.

En concreto, la combinación de un modelo de transformador autorregresivo con 700 millones de parámetros y un modelo de difusión ligero con 37 millones de parámetros proporciona a HART el mismo rendimiento que un modelo de difusión con hasta 2 mil millones de parámetros, pero nueve veces más rápido.

Inicialmente, el equipo también intentó integrar el modelo de difusión en las primeras etapas de la obtención de imágenes, pero esto provocó una acumulación de errores. El enfoque más eficiente es dejar que el modelo de difusión maneje el paso final y centrarse solo en la parte "faltante" de la imagen.

Desbloqueando el futuro de la IA multimedia

La próxima dirección del equipo de investigación es construir modelos de IA visual-lingüísticos de nueva generación basados en la arquitectura HART. Debido a que HART es escalable y adaptable a muchos tipos de datos (multimodal), esperan poder aplicarlo a la generación de video, predicción de audio y muchas otras áreas.

Esta investigación fue financiada por varias organizaciones, incluido el MIT-IBM Watson AI Lab, el MIT-Amazon Science Center, el MIT AI Hardware Program y la Fundación Nacional de Ciencias de EE. UU. NVIDIA también donó infraestructura de GPU para entrenar el modelo.

(Según MIT News)

Fuente: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html