Trình tạo hình ảnh bằng AI hoạt động như thế nào?
Trình tạo hình ảnh dựa trên trí tuệ nhân tạo sử dụng các mô hình máy học, sử dụng các văn bản do người dùng nhập vào và tạo ra một hoặc nhiều hình ảnh khớp với mô tả. Đào tạo các mô hình này yêu cầu bộ dữ liệu khổng lồ với hàng triệu hình ảnh.
Mặc dù Midjourney hay DALL-E 2 không công khai cách thức hoạt động chính xác của các thuật toán, nhưng hầu hết các trình tạo hình ảnh AI đều sử dụng một quy trình gọi là khuếch tán. Các mô hình khuếch tán hoạt động bằng cách thêm “nhiễu” ngẫu nhiên vào dữ liệu đào tạo, sau đó học cách khôi phục dữ liệu bằng cách loại bỏ các phần nhiễu này. Mô hình lặp lại quy trình này cho đến khi có hình ảnh khớp với nội dung nhập vào.
Điều này khác với các mô hình ngôn ngữ lớn như ChatGPT. Các mô hình ngôn ngữ lớn được đào tạo dựa trên dữ liệu văn bản chưa được gắn nhãn, dữ liệu này sẽ phân tích để tìm hiểu các mẫu ngôn ngữ và tạo ra phản ứng giống như con người.
Trong AI tổng quát, đầu vào ảnh hưởng đến đầu ra. Nếu người dùng chỉ định rằng họ chỉ muốn đưa những người có màu da hoặc giới tính nhất định vào hình ảnh, thì mô hình sẽ tính đến điều này.
Tuy nhiên, ngoài điều này, mô hình cũng sẽ có xu hướng mặc định trả về một số hình ảnh nhất định. Đây thường là kết quả của sự thiếu đa dạng trong dữ liệu đào tạo.
Một nghiên cứu mới đây đã khám phá cách Midjourney trực quan hóa các thuật ngữ có vẻ chung chung, bao gồm các nghề truyền thông chuyên biệt (chẳng hạn như “nhà phân tích tin tức”, “nhà bình luận tin tức” và “người kiểm tra thông tin”) và những nghề nghiệp chung chung (như “nhà báo”, “phóng viên” , “báo chí”).
Nghiên cứu được thực hiện từ tháng 8 năm ngoái, và các kết quả được thực hiện lại sau 6 tháng để xem xét những tiến bộ của hệ thống trong thời gian này. Tổng cộng các nhà nghiên cứu đã phân tích hơn 100 hình ảnh do AI tạo ra trong khoảng thời gian này.
Phân biệt tuổi tác và phân biệt giới tính
Đối với các chức danh công việc không chuyên biệt, Midjourney chỉ đưa ra hình ảnh của những người đàn ông và phụ nữ trẻ hơn. Đối với những vai chuyên biệt, cả người trẻ và người lớn tuổi đều được thể hiện, nhưng người lớn tuổi luôn là nam giới.
Những kết quả này ngầm củng cố một số định kiến, bao gồm giả định rằng người cao tuổi không làm việc ở những vị trí không chuyên biệt, rằng chỉ nam giới lớn tuổi mới phù hợp với công việc chuyên môn và công việc ít chuyên môn hơn thường dành cho phụ nữ.
Cũng có những khác biệt đáng chú ý trong cách giới thiệu nam và nữ. Ví dụ, phụ nữ trẻ hơn và không có nếp nhăn, trong khi đàn ông “được phép” có nếp nhăn.
AI dường như cũng thể hiện giới tính dưới dạng nhị phân, thay vì hiển thị các ví dụ về biểu hiện giới tính linh hoạt hơn.
Thành kiến chủng tộc
Tất cả các hình ảnh được trả về cho các thuật ngữ như “nhà báo”, “phóng viên” chỉ xuất hiện hình ảnh của người da trắng.
Điều này có thể phản ánh sự thiếu đa dạng và thiếu tính đại diện trong dữ liệu đào tạo cơ bản của AI.
Chủ nghĩa giai cấp và chủ nghĩa bảo thủ
Tất cả các nhân vật trong hình ảnh cũng có vẻ ngoài “bảo thủ”. Ví dụ, không ai có hình xăm, khuyên, kiểu tóc khác thường hoặc bất kỳ thuộc tính nào khác có thể phân biệt họ với các mô tả truyền thống.
Nhiều người cũng mặc quần áo trang trọng như áo sơ mi và vest. Đây là những dấu hiệu thể hiện sự kỳ vọng của tầng lớp. Mặc dù trang phục này có thể phù hợp với một số vai trò nhất định, chẳng hạn như người dẫn chương trình truyền hình, nhưng nó không nhất thiết phản ánh đúng cách ăn mặc của các phóng viên hoặc nhà báo nói chung.
Chủ nghĩa đô thị
Dù không chỉ định bất kỳ vị trí hoặc bối cảnh địa lý nào, các hình ảnh mà AI trả về đều bao gồm các không gian đô thị như các tòa nhà chọc trời hay các khu phố sầm uất. Điều này là không đúng vì chỉ hơn một nửa dân số thế giới sống ở các thành phố.
Lỗi thời
Các hình ảnh về các nhân viên truyền thông đều bao gồm các công nghệ đã lỗi thời như máy đánh chữ, máy in và máy ảnh cổ điển.
Vì ngày nay, nhiều chuyên gia trông giống nhau, nên AI dường như đang dựa trên các công nghệ khác biệt hơn (bao gồm cả những công nghệ đã lỗi thời và không còn được sử dụng) để làm cho các vai trò được mô tả trở nên rõ ràng hơn.
Bởi vậy, nếu bạn đang tự tạo hình ảnh AI, hãy xem xét các thành kiến tiềm ẩn khi viết các mô tả. Nếu không, bạn có thể đang vô tình củng cố những định kiến có hại mà xã hội đã mất hàng thập kỷ để cố gắng xóa bỏ.
Hoàng Tôn (theo IJN)