Wie funktioniert der KI-Bildgenerator?
Der KI-basierte Bildgenerator verwendet Modelle des maschinellen Lernens, die vom Benutzer eingegebene Texte verwenden und ein oder mehrere Bilder generieren, die der Beschreibung entsprechen. Das Trainieren dieser Modelle erfordert riesige Datensätze mit Millionen von Bildern.
Das Erstellen von Bildern mit KI wird immer einfacher. Foto: Ijnet
Während weder Midjourney noch DALL-E 2 öffentlich machen, wie ihre Algorithmen genau funktionieren, verwenden die meisten KI-Bildgeneratoren einen Prozess namens Diffusion. Diffusionsmodelle funktionieren, indem sie den Trainingsdaten zufälliges „Rauschen“ hinzufügen und dann lernen, die Daten durch Entfernen dieser verrauschten Teile zu rekonstruieren. Das Modell wiederholt diesen Vorgang, bis es ein Bild findet, das mit der Eingabe übereinstimmt.
Dies unterscheidet sich von großen Sprachmodellen wie ChatGPT. Große Sprachmodelle werden anhand von nicht gekennzeichneten Textdaten trainiert, die sie analysieren, um Sprachmuster zu erlernen und menschenähnliche Antworten zu generieren.
Bei der KI wirken sich im Allgemeinen Eingaben auf Ausgaben aus. Gibt der Nutzer an, dass er nur Personen mit einer bestimmten Hautfarbe oder einem bestimmten Geschlecht in das Bild aufnehmen möchte, berücksichtigt das Modell dies.
Darüber hinaus neigt das Modell jedoch auch dazu, standardmäßig bestimmte Bilder zurückzugeben. Dies ist häufig die Folge einer mangelnden Diversität der Trainingsdaten.
In einer aktuellen Studie wurde untersucht, wie Midjourney scheinbar allgemeine Begriffe visualisiert, darunter spezialisierte Medienberufe (wie „Nachrichtenanalyst“, „Nachrichtenkommentator“ und „Faktenprüfer“) und allgemeinere Berufe (wie „Journalist“, „Reporter“, „Journalismus“).
Die Studie wurde ab August letzten Jahres durchgeführt und die Ergebnisse wurden nach 6 Monaten wiederholt, um die Fortschritte des Systems während dieser Zeit zu überprüfen. Insgesamt analysierten die Forscher in diesem Zeitraum mehr als 100 KI-generierte Bilder.
Altersdiskriminierung und Sexismus
Bei bestimmten Berufen ist der Älteste immer männlich. Foto: IJN
Bei unspezifischen Berufsbezeichnungen zeigt Midjourney nur Bilder von jüngeren Männern und Frauen. In Spezialrollen werden sowohl junge als auch alte Menschen dargestellt, die ältere Person ist jedoch immer männlich.
Diese Ergebnisse verstärken implizit eine Reihe von Stereotypen, darunter die Annahme, dass ältere Menschen nicht in nicht spezialisierten Positionen arbeiten, dass nur ältere Männer für eine professionelle Arbeit geeignet sind und dass weniger spezialisierte Arbeit typischerweise Frauen vorbehalten ist.
Auch hinsichtlich der Art und Weise der Vorstellung von Männern und Frauen gibt es deutliche Unterschiede. Beispielsweise sind Frauen jünger und faltenfrei, während Männer Falten haben „dürfen“.
KI scheint das Geschlecht auch binär darzustellen, anstatt Beispiele für einen fließenderen Ausdruck des Geschlechts zu zeigen.
Rassistische Vorurteile
Auf Bildern für „Reporter“ oder „Journalisten“ sind oft nur weiße Menschen zu sehen. Foto: IJN
Alle Bilder, die für Begriffe wie „Journalist“, „Reporter“ zurückgegeben werden, zeigen nur Bilder von weißen Menschen.
Dies kann auf einen Mangel an Vielfalt und Unterrepräsentation in den der KI zugrunde liegenden Trainingsdaten zurückzuführen sein.
Klassismus und Konservatismus
Auch alle Figuren im Bild haben ein „konservatives“ Erscheinungsbild. Beispielsweise hat niemand Tätowierungen, Piercings, ungewöhnliche Frisuren oder andere Merkmale, die ihn von traditionellen Beschreibungen unterscheiden könnten.
Viele Menschen tragen auch formelle Kleidung wie Hemden und Anzüge. Dies sind Anzeichen für die Erwartungen der Klasse. Während diese Kleidung für bestimmte Rollen, beispielsweise als Fernsehmoderator, angemessen sein kann, spiegelt sie nicht unbedingt die allgemeine Kleidung von Reportern oder Journalisten wider.
Städtebau
Die Bilder sind standardmäßig alle in der Stadt angesiedelt, es besteht jedoch kein geografischer Bezug. Foto: IJN
Obwohl weder ein Ort noch ein geografischer Kontext angegeben ist, enthalten die von der KI zurückgegebenen Bilder städtische Räume wie Wolkenkratzer oder belebte Stadtviertel. Dies stimmt nicht, da etwas mehr als die Hälfte der Weltbevölkerung in Städten lebt.
Veraltet
Auf den Bildern von Medienschaffenden sind veraltete Technologien wie Schreibmaschinen, Drucker und Vintage-Kameras zu sehen.
Da viele Berufsgruppen heute gleich aussehen, scheint sich die KI auf differenziertere Technologien (einschließlich veralteter und ungenutzter) zu verlassen, um die beschriebenen Rollen deutlicher hervorzuheben.
Wenn Sie also Ihre eigenen KI-Bilder erstellen, berücksichtigen Sie beim Verfassen der Beschreibungen mögliche Voreingenommenheiten. Andernfalls verstärken Sie möglicherweise unbeabsichtigt schädliche Stereotypen, die die Gesellschaft seit Jahrzehnten auszumerzen versucht.
Hoang Ton (laut IJN)
[Anzeige_2]
Quelle
Kommentar (0)