Как работает генератор изображений на основе ИИ?
Генератор изображений на основе искусственного интеллекта использует модели машинного обучения, которые берут введенные пользователем тексты и генерируют одно или несколько изображений, соответствующих описанию. Обучение этих моделей требует огромных наборов данных с миллионами изображений.
Создавать изображения с помощью ИИ становится проще. Фото: Ijnet
Хотя ни Midjourney, ни DALL-E 2 публично не раскрывают точный принцип работы своих алгоритмов, большинство генераторов изображений на основе ИИ используют процесс, называемый диффузией. Модели диффузии работают путем добавления случайного «шума» к обучающим данным, а затем обучаются реконструировать данные, удаляя эти шумные части. Модель повторяет этот процесс до тех пор, пока не найдет изображение, соответствующее входным данным.
Это отличается от больших языковых моделей, таких как ChatGPT. Большие языковые модели обучаются на немаркированных текстовых данных, которые они анализируют для изучения языковых моделей и генерации ответов, подобных человеческим.
В общем случае ИИ входные данные влияют на выходные данные. Если пользователь укажет, что он хочет включить в изображение только людей с определенным цветом кожи или полом, модель учтет это.
Однако, помимо этого, модель также будет иметь тенденцию по умолчанию возвращать определенные изображения. Часто это является результатом отсутствия разнообразия в обучающих данных.
В недавнем исследовании изучалось, как Midjourney визуализирует, казалось бы, общие термины, включая специализированные профессии в сфере СМИ (например, «аналитик новостей», «комментатор новостей» и «проверяющий факты»), а также более общие профессии (например, «журналист», «репортер», «журналистика»).
Исследование проводилось с августа прошлого года, а результаты были повторены через 6 месяцев, чтобы оценить прогресс системы за это время. Всего за этот период исследователи проанализировали более 100 изображений, созданных с помощью ИИ.
Эйджизм и сексизм
В определенных профессиях старшим всегда является мужчина. Фото: IJN
Для неконкретных должностей Midjourney показывает только изображения молодых мужчин и женщин. В специальных ролях изображаются как молодые, так и пожилые люди, но пожилой персонаж всегда мужчина.
Эти результаты косвенно подтверждают ряд стереотипов, включая предположение о том, что пожилые люди не работают на неспециализированных должностях, что только пожилые мужчины подходят для профессиональной работы и что менее специализированная работа, как правило, предназначена для женщин.
Существуют также заметные различия в способах представления мужчин и женщин. Например, женщины моложе и не имеют морщин, в то время как мужчинам «разрешено» иметь морщины.
ИИ также, по-видимому, представляет гендер как бинарное понятие, вместо того чтобы демонстрировать примеры более гибкого гендерного выражения.
Расовые предрассудки
На изображениях «репортеров» или «журналистов» часто изображены только белые люди. Фото: IJN
Все изображения, возвращаемые по таким запросам, как «журналист», «репортер», содержат только изображения белых людей.
Это может быть следствием отсутствия разнообразия и недостаточной репрезентативности базовых данных обучения ИИ.
Классизм и консерватизм
Все персонажи на изображении также имеют «консервативную» внешность. Например, ни у кого нет татуировок, пирсинга, необычных причесок или каких-либо других признаков, которые могли бы отличить их от традиционных описаний.
Многие люди также носят официальную одежду, такую как рубашки и костюмы. Это признаки классовых ожиданий. Хотя такой наряд может быть уместен для определенных ролей, например, телеведущего, он не обязательно отражает то, как одеваются репортеры или журналисты в целом.
Урбанизм
По умолчанию все изображения установлены в городе, хотя географическая привязка отсутствует. Фото: IJN
Несмотря на отсутствие указания местоположения или географического контекста, возвращаемые ИИ изображения включают городские пространства, такие как небоскребы или оживленные кварталы. Это неправда, поскольку в городах проживает чуть более половины населения мира.
Устаревший
На изображениях работников СМИ можно увидеть устаревшие технологии, такие как пишущие машинки, принтеры и старинные камеры.
Поскольку сегодня многие специалисты выглядят одинаково, ИИ, по-видимому, полагается на более дифференцированные технологии (в том числе устаревшие и неиспользуемые), чтобы сделать описываемые роли более четкими.
Поэтому, если вы создаете собственные ИИ-изображения, учитывайте потенциальные предубеждения при написании описаний. В противном случае вы можете непреднамеренно укрепить вредные стереотипы, которые общество пыталось искоренить десятилетиями.
Хоанг Тон (по данным IJN)
Источник
Комментарий (0)