كيف يعمل مولد الصور بالذكاء الاصطناعي؟
يستخدم مولد الصور المستند إلى الذكاء الاصطناعي نماذج التعلم الآلي، والتي تأخذ النصوص التي يدخلها المستخدم وتولد صورة واحدة أو أكثر تطابق الوصف. يتطلب تدريب هذه النماذج مجموعات بيانات ضخمة تحتوي على ملايين الصور.
أصبح إنشاء الصور باستخدام الذكاء الاصطناعي أسهل. الصورة: Ijnet
في حين أن Midjourney و DALL-E 2 لا يكشفان علنًا عن كيفية عمل خوارزمياتهما بالضبط، فإن معظم مولدات الصور بالذكاء الاصطناعي تستخدم عملية تسمى الانتشار. تعمل نماذج الانتشار عن طريق إضافة "ضوضاء" عشوائية إلى بيانات التدريب، ثم تعلم كيفية إعادة بناء البيانات عن طريق إزالة هذه الأجزاء الصاخبة. يكرر النموذج هذه العملية حتى يجد صورة تطابق الإدخال.
يختلف هذا عن نماذج اللغة الكبيرة مثل ChatGPT. يتم تدريب نماذج اللغة الكبيرة على بيانات نصية غير مصنفة، ثم تقوم بتحليلها لتعلم أنماط اللغة وتوليد استجابات شبيهة بالاستجابات البشرية.
بشكل عام، في الذكاء الاصطناعي، تؤثر المدخلات على المخرجات. إذا حدد المستخدم أنه يريد فقط تضمين الأشخاص ذوي لون بشرة معين أو جنس معين في الصورة، فسوف يأخذ النموذج هذا في الاعتبار.
ومع ذلك، إلى جانب ذلك، يميل النموذج أيضًا إلى الإرجاع الافتراضي لصور معينة. غالبًا ما يكون هذا نتيجة لعدم وجود تنوع في بيانات التدريب.
استكشفت دراسة حديثة كيف تقوم Midjourney بتصور مصطلحات تبدو عامة، بما في ذلك المهن الإعلامية المتخصصة (مثل "محلل أخبار"، و"معلق أخبار"، و"مدقق حقائق") والمهن الأكثر عمومية (مثل "صحفي"، و"مراسل"، و"صحافة").
وأجريت الدراسة اعتبارًا من أغسطس/آب من العام الماضي، وتم تكرار النتائج بعد 6 أشهر لمراجعة تقدم النظام خلال هذه الفترة. وفي المجمل، قام الباحثون بتحليل أكثر من 100 صورة تم إنشاؤها بواسطة الذكاء الاصطناعي خلال هذه الفترة الزمنية.
التمييز على أساس السن والجنس
بالنسبة لبعض المهن، يكون الأكبر سنا دائما ذكرا. الصورة: IJN
بالنسبة لمسميات الوظائف غير المحددة، يعرض موقع Midjourney صورًا للرجال والنساء الأصغر سنًا فقط. بالنسبة للأدوار المتخصصة، يتم تصوير كل من الشباب وكبار السن، ولكن الشخص الأكبر سنا يكون دائما ذكرا.
وتعزز هذه النتائج ضمناً عدداً من الصور النمطية، بما في ذلك الافتراض بأن كبار السن لا يعملون في وظائف غير متخصصة، وأن الرجال الأكبر سناً فقط هم المناسبون للعمل المهني، وأن العمل الأقل تخصصاً مخصص عادة للنساء.
وتوجد أيضًا اختلافات ملحوظة في طريقة تقديم الرجال والنساء. على سبيل المثال، النساء أصغر سناً ولا تظهر عليهن التجاعيد، بينما يُسمح للرجال بأن تظهر عليهم التجاعيد.
ويبدو أيضًا أن الذكاء الاصطناعي يمثل الجنس باعتباره ثنائيًا، بدلاً من إظهار أمثلة للتعبير الجنسي الأكثر سلاسة.
التحيز العنصري
غالبًا ما تُظهر الصور المخصصة لـ "المراسلين" أو "الصحفيين" الأشخاص البيض فقط. الصورة: IJN
جميع الصور التي تم إرجاعها لمصطلحات مثل "صحفي" و"مراسل" تظهر صورًا لأشخاص بيض فقط.
وقد يعكس هذا نقصًا في التنوع ونقص التمثيل في بيانات التدريب الأساسية للذكاء الاصطناعي.
الطبقية والمحافظة
جميع الشخصيات في الصورة لها أيضًا مظهر "محافظ". على سبيل المثال، لا أحد لديه وشم، أو ثقب، أو تسريحات شعر غير عادية، أو أي سمات أخرى قد تميزه عن الأوصاف التقليدية.
يرتدي العديد من الأشخاص أيضًا ملابس رسمية مثل القمصان والبدلات. هذه هي علامات توقعات الطبقة. رغم أن هذا الزي قد يكون مناسبًا لأدوار معينة، مثل مقدم البرامج التلفزيونية، إلا أنه لا يعكس بالضرورة كيفية ارتداء المراسلين أو الصحفيين لملابسهم بشكل عام.
التخطيط الحضري
يتم تعيين جميع الصور في المدينة بشكل افتراضي، على الرغم من عدم وجود مرجع جغرافي. الصورة: IJN
على الرغم من عدم تحديد أي موقع أو سياق جغرافي، فإن الصور التي تم إرجاعها بواسطة الذكاء الاصطناعي تشمل مساحات حضرية مثل ناطحات السحاب أو الأحياء المزدحمة. وهذا غير صحيح لأن ما يزيد قليلاً على نصف سكان العالم يعيشون في المدن.
عفا عليها الزمن
تتضمن صور العاملين في مجال الإعلام تقنيات قديمة مثل الآلات الكاتبة، والطابعات، والكاميرات القديمة.
وبما أن العديد من المهنيين يتشابهون اليوم، يبدو أن الذكاء الاصطناعي يعتمد على تقنيات أكثر تمايزًا (بما في ذلك التقنيات القديمة وغير المستخدمة) لجعل الأدوار الموصوفة أكثر تميزًا.
لذا، إذا كنت تقوم بإنشاء صور الذكاء الاصطناعي الخاصة بك، ففكر في التحيزات المحتملة عند كتابة الأوصاف. وإلا، فقد تساهم عن غير قصد في تعزيز الصور النمطية الضارة التي حاول المجتمع القضاء عليها على مدى عقود من الزمن.
هوانغ تون (وفقا لـ IJN)
[إعلان رقم 2]
مصدر
تعليق (0)