Un nouvel outil d'IA crée des photos de haute qualité, 9 fois plus rapidement

image 1.jpg

L’image d’un astronaute à cheval est une combinaison de deux types de modèles d’IA génératifs. Photo : MIT News

Quand la vitesse et la qualité ne sont plus des compromis

Dans le domaine de l’imagerie IA, il existe actuellement deux approches principales :

Les modèles de diffusion permettent d’obtenir des images nettes et détaillées. Cependant, ils sont très lents et gourmands en calculs car ils nécessitent des dizaines d'étapes de traitement pour supprimer le bruit de chaque pixel.

Les modèles autorégressifs, en revanche, fonctionnent beaucoup plus rapidement car ils peuvent prédire de petites parties de l'image de manière séquentielle. Mais ils produisent souvent des images avec peu de détails et sont sujets aux erreurs.

HART (transformateur autorégressif hybride) combine les deux, offrant le « meilleur des deux mondes ». Tout d’abord, il utilise un modèle autorégressif pour construire l’image entière en l’encodant en jetons discrets. Le modèle de diffusion léger procède ensuite à l'ajout de jetons résiduels - les informations détaillées perdues lors de l'encodage.

Les images résultantes sont d’une qualité comparable (ou supérieure) aux modèles de diffusion de pointe, mais sont 9 fois plus rapides à traiter et utilisent 31 % de ressources informatiques en moins.

Nouvelle approche pour créer des images de qualité à grande vitesse

L’une des innovations notables de HART est la manière dont il résout le problème de la perte d’informations lors de l’utilisation de modèles autorégressifs. La conversion d'images en jetons discrets accélère les choses, mais perd également des détails importants comme les bords des objets, les traits du visage, les cheveux, les yeux, la bouche, etc.

La solution de HART consiste à laisser le modèle de diffusion se concentrer uniquement sur la « correction » de ces détails via des jetons résiduels. Et comme le modèle autorégressif a fait la majeure partie du travail, le modèle de diffusion n’a besoin que de 8 étapes de traitement au lieu de plus de 30 étapes comme auparavant.

« Le modèle de diffusion est plus facile à mettre en œuvre, ce qui conduit à une plus grande efficacité », explique le co-auteur Haotian Tang.

Plus précisément, la combinaison d'un modèle de transformateur autorégressif avec 700 millions de paramètres et d'un modèle de diffusion léger avec 37 millions de paramètres donne à HART les mêmes performances qu'un modèle de diffusion avec jusqu'à 2 milliards de paramètres, mais neuf fois plus rapide.

Au départ, l’équipe a également essayé d’intégrer le modèle de diffusion dans les premières étapes de l’imagerie, mais cela a conduit à une accumulation d’erreurs. L'approche la plus efficace consiste à laisser le modèle de diffusion gérer l'étape finale et à se concentrer uniquement sur la partie « manquante » de l'image.

Débloquer l'avenir de l'IA multimédia

La prochaine direction de l’équipe de recherche est de construire des modèles d’IA visuo-linguistiques de nouvelle génération basés sur l’architecture HART. Parce que HART est évolutif et adaptable à de nombreux types de données (multimodales), ils espèrent pouvoir l'appliquer à la génération vidéo, à la prédiction audio et à de nombreux autres domaines.

Cette recherche a été financée par plusieurs organisations, dont le MIT-IBM Watson AI Lab, le MIT-Amazon Science Center, le MIT AI Hardware Program et la National Science Foundation des États-Unis. NVIDIA a également fait don d’une infrastructure GPU pour former le modèle.

(Selon MIT News)

Source : https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html