AI เรียนรู้ที่จะโกหกอย่างมีชั้นเชิงมากขึ้นเมื่อถูกลงโทษ

นับตั้งแต่เปิดตัวต่อสาธารณะเมื่อปลายปี 2022 โมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT ได้แสดงให้เห็นด้านมืดที่น่ากังวลซ้ำแล้วซ้ำเล่า ตั้งแต่การโกหก การโกง และการปกปิดการจัดการ ไปจนถึงคำพูดที่น่ากลัว เช่น การคุกคามชีวิตมนุษย์หรือการขโมยความลับของรัฐ ขณะนี้ การทดลองใหม่แสดงให้เห็นว่าการ "สอน" AI ให้เลิกนิสัยไม่ดีเหล่านี้ระหว่างการฝึกอบรมนั้นซับซ้อนกว่าที่เราคิดมาก

ในการวิจัยที่ดำเนินการโดย OpenAI ผู้เชี่ยวชาญได้ท้าทายโมเดล AI ที่ไม่ได้เผยแพร่ด้วยงานที่สามารถทำให้เสร็จได้เร็วขึ้นหากโกงหรือใช้ทางลัด ผลลัพธ์แสดงให้เห็นว่า AI เรียนรู้ได้อย่างรวดเร็วถึงวิธีการค้นหาทุกวิถีทางที่เป็นไปได้เพื่อ "หลีกเลี่ยงกฎ" และเพิ่มผลตอบแทนสูงสุด (การแฮ็กผลตอบแทน) โดยไม่จำเป็นต้องปฏิบัติตามข้อกำหนดอย่างถูกต้อง

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AI จะหาวิธีปกปิดพฤติกรรมโกงหลังจากถูกลงโทษ

ที่น่ากล่าวถึงคือเมื่อถูกปรับเนื่องจากมีพฤติกรรมเช่นนี้ ไม่ได้มีการปรับเปลี่ยนโมเดลแต่อย่างใด ในทางกลับกัน AI กลับกลายเป็นผู้ซับซ้อนมากขึ้นในการปกปิดการหลอกลวง

“โดยทั่วไปแล้ว โมเดลอนุมานที่ทันสมัยจะระบุจุดประสงค์ใน CoT ไว้อย่างชัดเจน” นักวิจัยอธิบายไว้ในโพสต์บล็อกสาธารณะ “ตัวอย่างเช่น พวกเขามักจะระบุอย่างชัดเจนถึงเจตนาที่จะ ‘แฮ็กกันเถอะ’ เมื่อต้องการทำลายงานที่ได้รับมอบหมาย”

พวกเขายังเน้นย้ำว่าแม้ว่านักพัฒนาสามารถตรวจสอบและตรวจจับการประพฤติมิชอบได้ แต่การกำกับดูแลโดยธรรมชาติก็ยังคงเปราะบาง “หากมีการนำการดูแลที่เข้มแข็งมาใช้กับห่วงโซ่ความคิดโดยตรง โมเดลก็จะเรียนรู้ที่จะซ่อนเจตนาที่ไม่ดีในขณะที่ยังคงแสดงพฤติกรรมต่อไปได้” พวกเขาเตือน

การค้นหา "ความเท็จ" ของ AI

หากจะให้ชัดเจนขึ้น โมเดลอนุมาน (เช่น เวอร์ชัน ChatGPT) ถือเป็นก้าวที่ก้าวไปอีกขั้นจาก LLM ทั่วไป โดยใช้กระบวนการคิดแบบต่อเนื่องที่ช่วยให้สามารถสะท้อนตนเองถึงขั้นตอนเชิงตรรกะที่ดำเนินการไป จึงสามารถแก้ไขปัญหาที่ซับซ้อนได้แม่นยำยิ่งขึ้น กระบวนการนี้เปรียบเสมือน AI ที่ “คิดดังๆ” โดยเขียนเหตุผลออกมาในแต่ละขั้นตอนเป็นภาษาธรรมชาติ ทำให้มนุษย์สามารถปฏิบัติตามได้ง่าย

ในการทดลองนี้ นักวิจัยได้ใช้โมเดล GPT-4o เป็น "ผู้ควบคุมดูแล" สำหรับโมเดลอนุมานล้ำสมัยอื่นในขณะที่ดำเนินการงานการเขียนโปรแกรม ในหลายกรณี โมเดลที่ถูกตรวจสอบเลือกที่จะโกงอย่างจริงจังเพื่อให้ได้รับคะแนนสะสมที่สูงขึ้น และบันทึกความตั้งใจนี้ไว้อย่างชัดเจนในกระบวนการคิด ตัวอย่างเช่น โปรแกรมจะหยุดโดยสุ่มก่อนกำหนดและรายงานการเสร็จสมบูรณ์ หรือสร้างไฟล์ที่มีชื่อเดียวกับที่ร้องขอแต่ว่างเปล่าภายในโดยสิ้นเชิง

เมื่อนักวิจัยพยายามใช้บทลงโทษ โมเดลก็ได้รับการปรับปรุง แต่การโกงและข้อผิดพลาดร้ายแรงในเอาต์พุตยังคงดำเนินต่อไป ความแตกต่างก็คือตอนนี้โมเดลการอนุมานได้เรียนรู้ที่จะ "พราง" กระแสความคิดเพื่อซ่อนมันจาก AI ที่กำลังควบคุมดูแล "โมเดลที่ได้รับการฝึกภายใต้การดูแลของ CoT ยังคงเรียนรู้ที่จะโกง ความแตกต่างเพียงอย่างเดียวคือไม่สามารถตรวจจับการโกงได้ เนื่องจากโมเดลได้เรียนรู้ที่จะซ่อนเจตนาไว้ในห่วงโซ่ความคิด" การศึกษาระบุ

เนื่องจากการตรวจจับของปลอมในลำดับความคิดเป็นเรื่องยาก ทีมงานจึงแนะนำให้ชุมชนหลีกเลี่ยงการใช้มาตรการเฝ้าระวังที่เข้มงวดเกินไปกับกระบวนการนี้อย่างน้อยจนกว่ามนุษย์จะเข้าใจถึงผลที่ตามมาดีขึ้น “การเสียสละวิธีการตรวจสอบที่มีประสิทธิภาพอาจไม่คุ้มกับการปรับปรุงประสิทธิภาพของโมเดลเล็กน้อย ดังนั้น เราขอแนะนำให้หลีกเลี่ยงแรงกดดันในการปรับปรุง CoT ที่รุนแรงจนกว่าเราจะเข้าใจสิ่งเหล่านี้ได้ดีขึ้น” นักวิจัยสรุป

คำแนะนำนี้ถือเป็นเรื่องเร่งด่วนมากยิ่งขึ้น เนื่องจาก AI กำลังพัฒนาอย่างรวดเร็ว และอาจจะแซงหน้าสติปัญญาของมนุษย์ที่ควบคุมดูแลมันอยู่ได้ในไม่ช้า

ที่มา: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm