AI ยังไม่สามารถแทนที่มนุษย์ในด้านการเขียนโปรแกรมได้ ภาพโดย: John McGuire |
ในยุคปัจจุบัน โมเดล AI ชั้นนำจาก OpenAI และ Anthropic ถูกนำมาใช้กันอย่างแพร่หลายมากขึ้นในแอปพลิเคชันการเขียนโปรแกรม ChatGPT และ Claude ได้เพิ่มหน่วยความจำและพลังการประมวลผลเพื่อให้สามารถวิเคราะห์โค้ดได้หลายร้อยบรรทัด หรือ Gemini ได้บูรณาการการแสดงผล Canvas สำหรับโปรแกรมเมอร์โดยเฉพาะ
ในเดือนตุลาคม พ.ศ. 2567 Sundar Pichai ซีอีโอของ Google กล่าวว่าโค้ดใหม่ 25% ของบริษัทถูกสร้างขึ้นโดย AI มาร์ก ซักเคอร์เบิร์ก ซีอีโอของ Meta ยังแสดงความทะเยอทะยานที่จะนำโมเดลการเข้ารหัส AI มาใช้อย่างแพร่หลายภายในบริษัท
อย่างไรก็ตาม การศึกษาใหม่จาก Microsoft Research ซึ่งเป็นแผนก R&D ของ Microsoft แสดงให้เห็นว่าโมเดล AI รวมถึง Claude 3.7 Sonnet ของ Anthropic และ o3-mini ของ OpenAI ไม่สามารถจัดการกับข้อผิดพลาดจำนวนมากในเกณฑ์มาตรฐานการทดสอบการเขียนโปรแกรมที่เรียกว่า SWE-bench Lite ได้
ผู้เขียนการศึกษาได้ทดสอบโมเดล AI ที่แตกต่างกันเก้าแบบที่บูรณาการกับเครื่องมือดีบักต่างๆ เช่น โปรแกรมดีบัก Python และสามารถจัดการปัญหาได้ในคำสั่งเดียว แบบจำลองได้รับมอบหมายให้แก้ไขจุดบกพร่องของซอฟต์แวร์ 300 รายการที่เลือกจากชุดข้อมูล SWE-bench Lite
![]() |
อัตราความสำเร็จในการแก้ไขปัญหาการเขียนโปรแกรมจากชุดข้อมูล SWE-bench Lite ภาพ: Microsoft. |
แม้จะติดตั้งรุ่นใหม่ที่มีประสิทธิภาพมากขึ้น แต่ผลลัพธ์ก็แสดงให้เห็นว่าตัวแทน AI ยังคงไม่สามารถทำภารกิจดีบักที่ได้รับมอบหมายให้สำเร็จได้มากกว่าครึ่งหนึ่ง ในบรรดาโมเดลที่ทดสอบ Claude 3.7 Sonnet มีอัตราความสำเร็จเฉลี่ยสูงสุดที่ 48.4% รองลงมาคือ o1 ของ OpenAI ที่ 30.2% และ o3-mini ที่ 22.1%
สาเหตุบางประการที่ทำให้ประสิทธิภาพต่ำเช่นนี้อาจเกิดจากโมเดลบางรุ่นไม่เข้าใจวิธีใช้เครื่องมือดีบักที่ให้มา ยิ่งไปกว่านั้น ตามที่ผู้เขียนได้กล่าวไว้ ปัญหาที่ใหญ่กว่านั้นอยู่ที่ข้อมูลที่ไม่เพียงพอ
พวกเขาโต้แย้งว่าระบบสำหรับการฝึกอบรมโมเดลยังขาดข้อมูลที่จำลองขั้นตอนการดีบักที่มนุษย์ใช้ตั้งแต่ต้นจนจบ กล่าวอีกนัยหนึ่ง AI ยังไม่เรียนรู้มากพอเกี่ยวกับวิธีคิดและการกระทำของมนุษย์ทีละขั้นตอนเมื่อต้องรับมือกับข้อบกพร่องของซอฟต์แวร์จริง
โมเดลการฝึกอบรมและปรับแต่งจะทำให้สามารถดีบักซอฟต์แวร์ได้ดีขึ้น “อย่างไรก็ตาม สิ่งนี้ต้องใช้ชุดข้อมูลเฉพาะทางเพื่อการฝึกอบรม” ผู้เขียนกล่าว
การศึกษามากมายได้ชี้ให้เห็นถึงช่องโหว่ด้านความปลอดภัยและข้อผิดพลาดใน AI ในระหว่างการสร้างโค้ด เนื่องมาจากจุดอ่อน เช่น ความสามารถในการทำความเข้าใจตรรกะของการเขียนโปรแกรมที่จำกัด การตรวจสอบ Devin ซึ่งเป็นเครื่องมือการเขียนโปรแกรม AI ล่าสุดพบว่าสามารถทำการทดสอบการเขียนโปรแกรมได้เพียง 3 รายการจากทั้งหมด 20 รายการ
ความสามารถในการเขียนโปรแกรมของ AI ยังคงเป็นที่ถกเถียงกัน ก่อนหน้านี้ คุณ Kevin Weil ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ OpenAI เคยกล่าวไว้ว่าภายในสิ้นปีนี้ AI จะแซงหน้าโปรแกรมเมอร์ที่เป็นมนุษย์
ในทางกลับกัน Bill Gates ผู้ก่อตั้งร่วมของ Microsoft เชื่อว่าการเขียนโปรแกรมยังคงเป็นอาชีพที่ยั่งยืนในอนาคต ผู้นำคนอื่นๆ เช่น Amjad Masad (ซีอีโอของ Replit), Todd McKinnon (ซีอีโอของ Okta) และ Arvind Krishna (ซีอีโอของ IBM) ก็แสดงความสนับสนุนมุมมองนี้เช่นกัน
แม้ว่าการวิจัยของ Microsoft จะไม่ใช่เรื่องใหม่ แต่ก็เป็นการเตือนใจโปรแกรมเมอร์ รวมถึงผู้จัดการ ให้คิดให้รอบคอบมากขึ้น ก่อนที่จะมอบการควบคุมการเขียนโค้ดเต็มรูปแบบให้กับ AI
ที่มา: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html
การแสดงความคิดเห็น (0)