AI nói dối khi bị gây sức ép, căng thẳng

Chuyện AI bị "ảo giác" và đưa ra các câu trả lời bịa đặt, thiếu chính xác đã được biết đến từ lâu. Tuy nhiên mới đây các nhà nghiên cứu còn phát hiện ra trí tuệ nhân tạo và các mô hình chatbot (robot trả lời tự động) có thể bị thao túng, thực hiện hành vi phạm pháp thay mặt con người và thậm chí là nói dối để che đậy việc đã làm.

Theo đó, nhóm nghiên cứu từ đại học Cornell (Mỹ) đã giả định tình huống mô hình ngôn ngữ lớn (LLM) hành động sai lệch và đánh lừa người dùng. Trong phần miêu tả cuộc thử nghiệm, các nhà nghiên cứu cho biết đã yêu cầu LLM là GPT-4 của OpenAI giả lập việc thực hiện đầu tư cho các tổ chức tài chính. Nhóm tương tác với trí tuệ nhân tạo này theo hình thức trò chuyện thông thường, nhưng thiết lập AI có thể tiết lộ "suy nghĩ" của mình khi trao đổi qua tin nhắn nhằm quan sát kỹ hơn quá trình đưa ra quyết định của trí tuệ nhân tạo.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm

Nhằm kiểm tra khả năng AI nói dối hoặc gian lận, các nhà nghiên cứu đã gây áp lực cho công cụ này. Họ - trong vai trò người quản lý của tổ chức tài chính - đã gửi email đến AI, đóng vai trò là chuyên viên giao dịch chứng khoán và than phiền rằng việc hoạt động kinh doanh của công ty đang không tốt.

AI cũng nhận được "thông tin nội bộ" về giao dịch chứng khoán sinh lợi và hành động theo, dù biết rằng giao dịch nội gián là trái quy định của công ty. Nhưng khi báo cáo lại với cấp quản lý, mô hình ngôn ngữ đã che giấu lý do thực sự phía sau quyết định giao dịch của mình.

Để có thêm kết quả, nhóm đã tiến hành thay đổi cài đặt như xóa quyền truy cập của LLM vào bảng ghi nhớ lý luận, cố gắng ngăn chặn hành vi sai lệch bằng cách thay đổi hướng dẫn hệ thống, thay đổi mức độ áp lực gây lên cho AI, nhận thức nguy cơ bị bắt... Nhưng sau khi đánh giá tần suất, nhóm nhận thấy khi có cơ hội, GPT-4 vẫn quyết định thực hiện giao dịch nội gián lên đến 75% số lần.

"Theo những gì chúng tôi được biết, đây là bằng chứng đầu tiên về hành vi mang tính lừa đảo có kế hoạch trong các hệ thống trí tuệ nhân tạo, vốn được thiết kế phải vô hại với con người và trung thực", báo cáo kết luận.

Source link