¿Cómo funciona el generador de imágenes de IA?
El generador de imágenes basado en IA utiliza modelos de aprendizaje automático, que toman los textos ingresados por el usuario y generan una o más imágenes que coinciden con la descripción. Para entrenar estos modelos se requieren grandes conjuntos de datos con millones de imágenes.
Crear imágenes con IA es cada vez más fácil. Foto: Ijnet
Si bien ni Midjourney ni DALL-E 2 revelan públicamente exactamente cómo funcionan sus algoritmos, la mayoría de los generadores de imágenes de IA utilizan un proceso llamado difusión. Los modelos de difusión funcionan agregando “ruido” aleatorio a los datos de entrenamiento y luego aprendiendo a reconstruir los datos eliminando estas partes ruidosas. El modelo repite este proceso hasta que encuentra una imagen que coincida con la entrada.
Esto es diferente de los modelos de lenguaje grandes como ChatGPT. Los modelos de lenguaje grandes se entrenan con datos de texto sin etiquetar, que analizan para aprender patrones de lenguaje y generar respuestas similares a las humanas.
En general, en IA, las entradas afectan a las salidas. Si el usuario especifica que solo desea incluir personas con un determinado color de piel o género en la imagen, el modelo lo tendrá en cuenta.
Sin embargo, más allá de esto, el modelo también tenderá a devolver determinadas imágenes de forma predeterminada. Esto suele ser el resultado de una falta de diversidad en los datos de entrenamiento.
Un estudio reciente exploró cómo Midjourney visualiza términos aparentemente genéricos, incluidas ocupaciones de medios especializados (como “analista de noticias”, “comentarista de noticias” y “verificador de hechos”) y ocupaciones más generales (como “periodista”, “reportero”, “periodismo”).
El estudio se realizó a partir de agosto del año pasado y los resultados se repitieron después de 6 meses para revisar el progreso del sistema durante este tiempo. En total, los investigadores analizaron más de 100 imágenes generadas por IA durante este período de tiempo.
Edadismo y sexismo
En determinadas ocupaciones el mayor siempre es varón. Foto: IJN
Para títulos de trabajo no específicos, Midjourney solo muestra imágenes de hombres y mujeres más jóvenes. Para los papeles especializados se representan tanto personas jóvenes como mayores, pero la persona mayor siempre es un hombre.
Estos resultados refuerzan implícitamente una serie de estereotipos, incluida la suposición de que las personas mayores no trabajan en puestos no especializados, que sólo los hombres mayores son aptos para el trabajo profesional y que el trabajo menos especializado suele estar reservado para las mujeres.
También hay diferencias notables en la forma en que se presentan hombres y mujeres. Por ejemplo, las mujeres son más jóvenes y no tienen arrugas, mientras que a los hombres se les “permite” tener arrugas.
La IA también parece representar el género como binario, en lugar de mostrar ejemplos de expresión de género más fluida.
prejuicio racial
Las imágenes de "reporteros" o "periodistas" a menudo sólo muestran personas blancas. Foto: IJN
Todas las imágenes devueltas para términos como “periodista” o “reportero” solo muestran imágenes de personas blancas.
Esto puede reflejar una falta de diversidad y subrepresentación en los datos de entrenamiento subyacentes de la IA.
Clasismo y conservadurismo
Todos los personajes de la imagen también tienen una apariencia "conservadora". Por ejemplo, nadie tiene tatuajes, piercings, peinados inusuales o cualquier otro atributo que pueda distinguirlos de las descripciones tradicionales.
Mucha gente también usa ropa formal, como camisas y trajes. Éstas son señales de expectativas de clase. Si bien esta vestimenta puede ser apropiada para ciertos roles, como presentador de televisión, no necesariamente refleja cómo se visten los reporteros o periodistas en general.
Urbanismo
Las imágenes están ambientadas en la ciudad por defecto, aunque no hay ninguna referencia geográfica. Foto: IJN
A pesar de no especificar ninguna ubicación o contexto geográfico, las imágenes devueltas por la IA incluyen espacios urbanos como rascacielos o barrios concurridos. Esto no es cierto porque poco más de la mitad de la población mundial vive en ciudades.
Anticuado
Las imágenes de trabajadores de los medios incluyen tecnologías obsoletas como máquinas de escribir, impresoras y cámaras antiguas.
Como hoy en día muchos profesionales parecen iguales, la IA parece basarse en tecnologías más diferenciadas (incluidas algunas obsoletas y en desuso) para hacer que los roles descritos sean más distintos.
Entonces, si está creando sus propias imágenes de IA, tenga en cuenta los posibles sesgos al escribir las descripciones. De lo contrario, es posible que, sin darse cuenta, esté reforzando estereotipos dañinos que la sociedad lleva décadas intentando erradicar.
Hoang Ton (según la IJN)
[anuncio_2]
Fuente
Kommentar (0)