การวิจัยอันล้ำสมัยเปิดเผย 'กล่องดำ' ของการใช้เหตุผลของ AI

Dario Amodei ซีอีโอของ Anthropic แบ่งปันผลการวิจัยล่าสุดของบริษัท ภาพ : ฟอร์จูน .

นักวิจัยจากบริษัท AI Anthropic กล่าวว่าพวกเขาได้ประสบความสำเร็จครั้งสำคัญในการทำความเข้าใจว่าโมเดลภาษาขนาดใหญ่ (LLM) ทำงานอย่างไร ความก้าวหน้าครั้งนี้มีความหมายสำคัญต่อการปรับปรุงความปลอดภัยของโมเดล AI ในอนาคต

การวิจัยแสดงให้เห็นว่าโมเดล AI มีความฉลาดมากกว่าที่เราคิด หนึ่งในปัญหาใหญ่ที่สุดของโมเดล LLM รองจากแชทบอทที่ทรงพลังที่สุดอย่าง ChatGPT, Gemini, Copilot ก็คือพวกมันทำหน้าที่เป็นกล่องดำ

เราสามารถป้อนข้อมูลและรับผลลัพธ์จากแชทบอทได้ แต่การที่แชทบอทจะแสดงคำตอบที่เจาะจงนั้นยังคงเป็นปริศนา แม้แต่สำหรับนักวิจัยที่สร้างแชทบอทขึ้นมาก็ตาม

สิ่งนี้ทำให้ยากที่จะคาดเดาว่าโมเดลจะเกิดภาพหลอนหรือสร้างผลลัพธ์เท็จเมื่อใด นักวิจัยยังได้สร้างรั้วเพื่อป้องกันไม่ให้ AI ตอบคำถามอันตราย แต่พวกเขาไม่ได้อธิบายว่าทำไมรั้วบางอันจึงมีประสิทธิภาพมากกว่าอันอื่น

นอกจากนี้ตัวแทน AI ยังมีความสามารถในการ "ให้รางวัลการแฮ็ก" อีกด้วย ในบางกรณีโมเดล AI สามารถโกหกผู้ใช้เกี่ยวกับสิ่งที่พวกเขาทำหรือกำลังพยายามทำ

แม้ว่าโมเดล AI ในปัจจุบันจะสามารถให้เหตุผลและสร้างลำดับความคิดได้ แต่การทดลองบางอย่างแสดงให้เห็นว่าโมเดลดังกล่าวยังไม่สะท้อนถึงกระบวนการที่โมเดลใช้ในการหาคำตอบได้อย่างแม่นยำ

โดยพื้นฐานแล้ว เครื่องมือที่นักวิจัย Anthropic พัฒนาขึ้นนั้นมีความคล้ายคลึงกับเครื่องสแกน fMRI ที่นักประสาทวิทยาใช้ในการสแกนสมองของมนุษย์ จากการนำไปใช้กับโมเดล Haiku ของ Claude 3.5 ทำให้ Anthropic ได้เรียนรู้เชิงลึกว่าโมเดล LLM ทำงานอย่างไร

นักวิจัยพบว่า แม้ว่าคล็อดจะได้รับการฝึกให้ทำนายคำถัดไปในประโยคเท่านั้น แต่ในงานบางงาน คล็อดก็เรียนรู้ที่จะวางแผนในระยะยาวมากขึ้น

ตัวอย่างเช่น เมื่อได้รับมอบหมายให้เขียนบทกวี คล็อดจะค้นหาคำที่เข้ากับหัวข้อและสัมผัสได้ก่อน จากนั้นจึงทำงานย้อนหลังเพื่อเขียนบทกวีให้สมบูรณ์

นอกจากนี้คล็อดยังมีภาษา AI ทั่วไปด้วย แม้ว่าจะได้รับการฝึกให้รองรับหลายภาษา แต่ Claude จะคิดในภาษานั้นๆ ก่อน จากนั้นจึงแสดงผลลัพธ์ในภาษาที่รองรับ

นอกจากนี้ หลังจากที่ให้โจทย์ที่ยากแก่คล็อด แต่จงใจเสนอวิธีแก้ปัญหาที่ผิด นักวิจัยก็ค้นพบว่าคล็อดสามารถโกหกเกี่ยวกับแนวคิดของเขาได้ โดยทำตามคำแนะนำเพื่อเอาใจผู้ใช้

ในกรณีอื่น ๆ เมื่อถูกถามคำถามง่าย ๆ ที่แบบจำลองสามารถตอบได้ทันทีโดยไม่ต้องใช้เหตุผล คล็อดยังคงสร้างกระบวนการใช้เหตุผลปลอม ๆ ขึ้นมา

Josh Baston นักวิจัยที่ Anthropic กล่าวว่า แม้ว่า Claude จะอ้างว่าได้ทำการคำนวณแล้ว แต่เขากลับไม่พบสิ่งใดเกิดขึ้น

ในขณะเดียวกัน ผู้เชี่ยวชาญโต้แย้งว่า มีการศึกษาที่แสดงให้เห็นว่าบางครั้งผู้คนไม่เข้าใจตัวเองด้วยซ้ำ แต่เพียงสร้างคำอธิบายที่สมเหตุสมผลเพื่อสนับสนุนการตัดสินใจที่ทำไปเท่านั้น

โดยทั่วไปผู้คนมักจะคิดเหมือนกัน นี่ก็เป็นเหตุผลที่จิตวิทยาได้ค้นพบอคติทางความคิดที่พบบ่อย

อย่างไรก็ตาม LLM อาจทำผิดพลาดได้ในระดับที่มนุษย์ทำไม่ได้ เนื่องจากวิธีการหาคำตอบนั้นแตกต่างจากวิธีการทำงานของเราอย่างมาก

ทีม Anthropic ได้นำวิธีการที่จัดกลุ่มเซลล์ประสาทเป็นวงจรตามลักษณะเฉพาะมาใช้แทนการวิเคราะห์เซลล์ประสาททีละเซลล์อย่างที่เทคนิคก่อนหน้านี้ทำ

แนวทางนี้ช่วยให้เข้าใจว่าส่วนประกอบต่างๆ มีบทบาทอะไรบ้าง และช่วยให้นักวิจัยสามารถติดตามกระบวนการอนุมานทั้งหมดได้ผ่านชั้นต่างๆ ของเครือข่าย Baston กล่าว

วิธีนี้ยังมีข้อจำกัดอยู่บ้าง คือ เป็นเพียงประมาณการเท่านั้น และไม่ได้สะท้อนถึงกระบวนการประมวลผลข้อมูลทั้งหมดของ LLM โดยเฉพาะกระบวนการเปลี่ยนแปลงความสนใจ ซึ่งมีความสำคัญมากในขณะที่ LLM ให้ผลลัพธ์

นอกจากนี้ การกำหนดวงจรเครือข่ายประสาท แม้ว่าคำสั่งจะมีความยาวเพียงไม่กี่สิบคำ ก็ต้องใช้เวลาหลายชั่วโมงสำหรับผู้เชี่ยวชาญ พวกเขาบอกว่ายังไม่ชัดเจนว่าจะขยายเทคนิคนี้เพื่อแยกวิเคราะห์คำสั่งที่ยาวขึ้นได้อย่างไร

หากมองข้ามข้อจำกัดไป ความสามารถของ LLM ในการตรวจสอบการใช้เหตุผลภายในก็จะเปิดโอกาสใหม่ๆ ให้กับการควบคุมระบบ AI เพื่อให้แน่ใจถึงความปลอดภัย

ในเวลาเดียวกันยังสามารถช่วยให้นักวิจัยพัฒนาวิธีการฝึกอบรมใหม่ๆ ปรับปรุงอุปสรรคการควบคุม AI และลดภาพลวงตาและผลลัพธ์ที่เข้าใจผิดได้อีกด้วย

ที่มา: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html