Comment fonctionne le générateur d'images AI ?
Le générateur d’images basé sur l’IA utilise des modèles d’apprentissage automatique, qui prennent les textes saisis par l’utilisateur et génèrent une ou plusieurs images correspondant à la description. La formation de ces modèles nécessite d’énormes ensembles de données contenant des millions d’images.
Créer des images avec l’IA devient plus facile. Photo: Ijnet
Bien que ni Midjourney ni DALL-E 2 ne divulguent publiquement le fonctionnement exact de leurs algorithmes, la plupart des générateurs d'images d'IA utilisent un processus appelé diffusion. Les modèles de diffusion fonctionnent en ajoutant du « bruit » aléatoire aux données d’entraînement, puis en apprenant à reconstruire les données en supprimant ces parties bruyantes. Le modèle répète ce processus jusqu’à ce qu’il trouve une image correspondant à l’entrée.
Ceci est différent des grands modèles de langage comme ChatGPT. Les grands modèles linguistiques sont formés sur des données textuelles non étiquetées, qu'ils analysent pour apprendre des modèles linguistiques et générer des réponses de type humain.
En général, dans l’IA, les entrées affectent les sorties. Si l'utilisateur spécifie qu'il souhaite uniquement inclure des personnes d'une certaine couleur de peau ou d'un certain sexe dans l'image, le modèle en tiendra compte.
Cependant, au-delà de cela, le modèle aura également tendance à renvoyer par défaut certaines images. Cela est souvent le résultat d’un manque de diversité dans les données de formation.
Une étude récente a exploré la manière dont Midjourney visualise des termes apparemment génériques, y compris des professions médiatiques spécialisées (telles que « analyste de nouvelles », « commentateur de nouvelles » et « vérificateur de faits ») et des professions plus générales (telles que « journaliste », « reporter », « journalisme »).
L'étude a été menée à partir d'août de l'année dernière et les résultats ont été répétés après 6 mois pour évaluer les progrès du système pendant cette période. Au total, les chercheurs ont analysé plus de 100 images générées par l’IA au cours de cette période.
Âgisme et sexisme
Pour certaines professions, l'aîné est toujours un homme. Photo: IJN
Pour les titres de poste non spécifiques, Midjourney montre uniquement des images d'hommes et de femmes plus jeunes. Pour les rôles spécialisés, des personnes jeunes et âgées sont représentées, mais la personne la plus âgée est toujours un homme.
Ces résultats renforcent implicitement un certain nombre de stéréotypes, notamment l’hypothèse selon laquelle les personnes âgées ne travaillent pas dans des postes non spécialisés, que seuls les hommes âgés sont aptes à occuper un emploi professionnel et que les travaux moins spécialisés sont généralement réservés aux femmes.
Il existe également des différences notables dans la manière dont les hommes et les femmes sont présentés. Par exemple, les femmes sont plus jeunes et sans rides, alors que les hommes ont « le droit » d’avoir des rides.
L’IA semble également représenter le genre comme binaire, plutôt que de montrer des exemples d’expression de genre plus fluide.
Préjugés raciaux
Les images des « reporters » ou des « journalistes » ne montrent souvent que des personnes blanches. Photo: IJN
Toutes les images renvoyées pour des termes tels que « journaliste », « reporter » ne montrent que des images de personnes blanches.
Cela peut refléter un manque de diversité et une sous-représentation dans les données de formation sous-jacentes de l’IA.
Classisme et conservatisme
Tous les personnages de l’image ont également une apparence « conservatrice ». Par exemple, personne n’a de tatouages, de piercings, de coiffures inhabituelles ou tout autre attribut qui pourrait les distinguer des descriptions traditionnelles.
De nombreuses personnes portent également des vêtements formels tels que des chemises et des costumes. Ce sont des signes d’attentes de classe. Bien que cette tenue puisse être appropriée à certains rôles, comme celui de présentateur de télévision, elle ne reflète pas nécessairement la façon dont les reporters ou les journalistes s'habillent en général.
Urbanisme
Les images sont toutes placées dans la ville par défaut, bien qu'il n'y ait aucune référence géographique. Photo: IJN
Bien qu'aucun lieu ni contexte géographique ne soit précisé, les images renvoyées par l'IA incluent des espaces urbains tels que des gratte-ciel ou des quartiers animés. Ce n’est pas vrai, car un peu plus de la moitié de la population mondiale vit dans les villes.
Dépassé
Les images des travailleurs des médias incluent des technologies obsolètes telles que des machines à écrire, des imprimantes et des appareils photo d’époque.
Étant donné que de nombreux professionnels se ressemblent aujourd’hui, l’IA semble s’appuyer sur des technologies plus différenciées (y compris des technologies obsolètes et inutilisées) pour rendre les rôles décrits plus distincts.
Donc, si vous créez vos propres images d'IA, tenez compte des biais potentiels lors de la rédaction des descriptions. Sinon, vous risquez de renforcer par inadvertance des stéréotypes néfastes que la société a passé des décennies à essayer d’éradiquer.
Hoang Ton (selon IJN)
Source
Comment (0)