Beispiele für Verzerrungen in KI-generierten Bildern

Công LuậnCông Luận13/07/2023

[Anzeige_1]

Wie funktioniert der KI-Bildgenerator?

Der KI-basierte Bildgenerator verwendet Modelle maschinellen Lernens, die aus vom Benutzer eingegebenen Texten ein oder mehrere Bilder generieren, die der Beschreibung entsprechen. Das Trainieren dieser Modelle erfordert riesige Datensätze mit Millionen von Bildern.

Wer hat die seltsamen Fehler im Bild verursacht? Bild 1

Das Erstellen von Bildern mit KI wird einfacher. Foto: Ijnet

Während weder Midjourney noch DALL-E 2 öffentlich machen, wie ihre Algorithmen genau funktionieren, verwenden die meisten KI-Bildgeneratoren einen Prozess namens Diffusion. Diffusionsmodelle funktionieren, indem sie den Trainingsdaten zufälliges „Rauschen“ hinzufügen und dann lernen, die Daten durch Entfernen dieser verrauschten Teile zu rekonstruieren. Das Modell wiederholt diesen Vorgang, bis es ein Bild findet, das mit der Eingabe übereinstimmt.

Dies unterscheidet sich von großen Sprachmodellen wie ChatGPT. Große Sprachmodelle werden anhand von nicht gekennzeichneten Textdaten trainiert, die sie analysieren, um Sprachmuster zu erlernen und menschenähnliche Antworten zu generieren.

Bei der KI im Allgemeinen wirken sich Eingaben auf die Ausgaben aus. Gibt der Nutzer an, dass er nur Menschen mit einer bestimmten Hautfarbe oder einem bestimmten Geschlecht in das Bild einbeziehen möchte, berücksichtigt das Modell dies.

Darüber hinaus tendiert das Modell jedoch auch dazu, standardmäßig bestimmte Bilder zurückzugeben. Dies ist häufig die Folge einer mangelnden Diversität der Trainingsdaten.

In einer aktuellen Studie wurde untersucht, wie Midjourney scheinbar allgemeine Begriffe visualisiert, darunter spezialisierte Medienberufe (wie „Nachrichtenanalyst“, „Nachrichtenkommentator“ und „Faktenprüfer“) und allgemeinere Berufe (wie „Journalist“, „Reporter“, „Journalismus“).

Die Studie wurde ab August letzten Jahres durchgeführt und die Ergebnisse wurden nach 6 Monaten wiederholt, um die Fortschritte des Systems während dieser Zeit zu überprüfen. Insgesamt analysierten die Forscher in diesem Zeitraum mehr als 100 KI-generierte Bilder.

Altersdiskriminierung und Sexismus

Wer hat die seltsamen Fehler im Bild verursacht? Bild 2

Bei bestimmten Berufen ist der Ältere immer ein Mann. Foto: IJN

Bei nicht spezifischen Berufsbezeichnungen zeigt Midjourney nur Bilder von jüngeren Männern und Frauen. In Spezialrollen werden sowohl junge als auch alte Menschen dargestellt, die ältere Person ist jedoch immer ein Mann.

Diese Ergebnisse untermauern implizit eine Reihe von Stereotypen. Dazu gehört auch die Annahme, dass ältere Menschen keine nicht spezialisierten Positionen ausüben, dass nur ältere Männer für eine professionelle Tätigkeit geeignet seien und dass weniger spezialisierte Tätigkeiten typischerweise Frauen vorbehalten seien.

Auch hinsichtlich der Art und Weise der Vorstellung von Männern und Frauen gibt es bemerkenswerte Unterschiede. Beispielsweise sind Frauen jünger und faltenfrei, während Männer Falten haben „dürfen“.

KI scheint das Geschlecht zudem binär darzustellen, anstatt Beispiele für einen fließenderen Ausdruck des Geschlechts zu zeigen.

Rassistische Vorurteile

Wer hat die seltsamen Fehler im Bild verursacht? Bild 3

Auf Bildern für „Reporter“ oder „Journalisten“ sind oft nur weiße Menschen zu sehen. Foto: IJN

Alle für Begriffe wie „Journalist“, „Reporter“ zurückgegebenen Bilder zeigen ausschließlich Bilder von weißen Menschen.

Dies kann auf einen Mangel an Vielfalt und Unterrepräsentation in den der KI zugrunde liegenden Trainingsdaten hinweisen.

Klassismus und Konservatismus

Auch alle Figuren im Bild haben ein „konservatives“ Erscheinungsbild. Beispielsweise hat niemand Tätowierungen, Piercings, ungewöhnliche Frisuren oder andere Merkmale, die ihn von traditionellen Beschreibungen unterscheiden könnten.

Viele Menschen tragen auch formelle Kleidung wie Hemden und Anzüge. Dies sind Anzeichen für klassenmäßige Erwartungen. Während diese Kleidung für bestimmte Rollen, beispielsweise als Fernsehmoderator, angemessen sein kann, spiegelt sie nicht unbedingt die allgemeine Kleidungsart von Reportern oder Journalisten wider.

Städtebau

Wer hat die seltsamen Fehler im Bild verursacht? Bild 4

Die Bilder sind standardmäßig alle in der Stadt angesiedelt, es besteht jedoch kein geografischer Bezug. Foto: IJN

Obwohl weder ein Ort noch ein geografischer Kontext angegeben ist, enthalten die von der KI zurückgegebenen Bilder städtische Räume wie Wolkenkratzer oder belebte Stadtviertel. Das stimmt nicht, denn etwas mehr als die Hälfte der Weltbevölkerung lebt in Städten.

Veraltet

Auf den Bildern von Medienschaffenden sind veraltete Technologien wie Schreibmaschinen, Drucker und alte Kameras zu sehen.

Da sich heute viele Berufsgruppen ähneln, scheint die KI auf differenziertere Technologien zurückzugreifen (einschließlich veralteter und ungenutzter), um die beschriebenen Rollen deutlicher hervorzuheben.

Wenn Sie also Ihre eigenen KI-Bilder erstellen, berücksichtigen Sie beim Verfassen der Beschreibungen mögliche Voreingenommenheit. Andernfalls könnten Sie unbeabsichtigt schädliche Stereotypen verstärken, die die Gesellschaft seit Jahrzehnten auszumerzen versucht.

Hoang Ton (laut IJN)


[Anzeige_2]
Quelle

Etikett: Vorurteil

Kommentar (0)

No data
No data

Gleiches Thema

Gleiche Kategorie

Gleicher Autor

No videos available