การทดสอบการเขียนโปรแกรมและคณิตศาสตร์แสดงให้เห็นว่า S1 (ชื่อของโมเดล) มีประสิทธิภาพทัดเทียมกับโมเดล AI ที่ใช้เหตุผลล้ำสมัยเช่น o1 ของ OpenAI และ R1 ของ DeepSeek

ที่น่าสังเกตคือ S1 เป็นโมเดลโอเพ่นซอร์ส ซึ่งใครๆ ก็สามารถเข้าถึงได้บนที่เก็บข้อมูล GitHub

ทีมพัฒนาได้แบ่งปันว่าพวกเขาเริ่มต้นจากโมเดลพื้นฐานที่มีอยู่ จากนั้นจึงปรับปรุงให้ละเอียดขึ้นด้วยการ "กลั่นกรอง" ซึ่งเป็นกระบวนการดึงความสามารถในการ "ใช้เหตุผล" ออกมาจากโมเดล AI อื่นด้วยการฝึกอบรมคำตอบของโมเดลนั้นๆ

โดยเฉพาะอย่างยิ่ง S1 ได้รับการกลั่นมาจากโมเดล Gemini 2.0 Flash Thinking Experimental ของ Google กระบวนการกลั่นจะคล้ายกับสิ่งที่นักวิทยาศาสตร์จากมหาวิทยาลัยเบิร์กลีย์ทำเพื่อสร้างแบบจำลองที่มีต้นทุนประมาณ 450 เหรียญสหรัฐ

เก็ตตี้อิมเมจส์ 1168836247 1.jpg.jpeg
DeepSeek เปิดการแข่งขันพัฒนา AI ราคาถูก ภาพ: TechCrunch

นักวิจัยเบื้องหลัง s1 ได้ค้นพบวิธีที่ง่ายที่สุดในการบรรลุประสิทธิภาพการใช้เหตุผลที่แข็งแกร่งและ "ขยายขนาดระหว่างการทดสอบ" ซึ่งหมายถึงการอนุญาตให้โมเดล AI คิดมากขึ้นก่อนที่จะตอบคำถาม

นี่เป็นหนึ่งในความก้าวหน้าครั้งสำคัญของ o1 ของ OpenAI ซึ่ง DeepSeek และห้องปฏิบัติการ AI อื่นๆ พยายามจำลองโดยใช้เทคนิคต่างๆ

เอกสาร S1 แสดงให้เห็นว่าโมเดลการใช้เหตุผลสามารถกลั่นกรองได้ด้วยชุดข้อมูลขนาดค่อนข้างเล็กผ่านกระบวนการที่เรียกว่าการปรับแต่งอย่างละเอียดภายใต้การดูแล (SFT) ซึ่งโมเดล AI จะได้รับคำสั่งอย่างชัดเจนให้เลียนแบบพฤติกรรมบางอย่างในชุดข้อมูล

โดยทั่วไปแล้ว SFT จะมีราคาถูกกว่าแนวทางการเรียนรู้เชิงเสริมแรงขนาดใหญ่ที่ DeepSeek ใช้ในการฝึกโมเดล R1

Google เปิดให้เข้าถึง Gemini 2.0 Flash Thinking Experimental ฟรีแม้ว่าจะมีการจำกัดความถี่รายวัน ผ่านทางแพลตฟอร์ม Google AI Studio

อย่างไรก็ตาม เงื่อนไขของ Google ห้ามไม่ให้มีการวิศวกรรมย้อนกลับโมเดลเพื่อพัฒนาบริการที่แข่งขันกับผลิตภัณฑ์ AI ของบริษัท

S1 มีพื้นฐานมาจากโมเดล AI ขนาดเล็กที่มีจำหน่ายจากห้องทดลอง AI Qwen ของ Alibaba โดยสามารถดาวน์โหลดได้ฟรี ในการฝึก S1 นักวิจัยได้สร้างชุดข้อมูลคำถามที่คัดเลือกมาอย่างพิถีพิถัน 1,000 ข้อ พร้อมด้วยคำตอบและกระบวนการ "คิด" เบื้องหลังคำตอบแต่ละข้อจาก Gemini 2.0 Flash Thinking Experimental ของ Google

กระบวนการฝึกอบรมนี้ใช้เวลาน้อยกว่า 30 นาทีโดยใช้ GPU Nvidia H100 จำนวน 16 ตัว แต่ยังคงให้ผลลัพธ์ที่แข็งแกร่งในเกณฑ์มาตรฐาน AI หลายรายการ Niklas Muennighoff นักวิจัยจาก Stanford กล่าวว่าค่าเช่าพลังประมวลผลที่จำเป็นอยู่ที่ประมาณ 20 เหรียญเท่านั้น

นักวิจัยใช้เทคนิคเพื่อให้ S1 ตรวจสอบงานของมันและขยาย "ระยะเวลาในการคิด" เช่น การขอให้โมเดลรอโดยการเพิ่มคำว่า "รอ" ลงในกระบวนการคิด ซึ่งช่วยให้โมเดลได้คำตอบที่แม่นยำยิ่งขึ้น

ภายในปี 2025 Meta, Google และ Microsoft วางแผนที่จะลงทุนหลายแสนล้านดอลลาร์ในโครงสร้างพื้นฐาน AI ซึ่งส่วนหนึ่งจะใช้ในการฝึกอบรมโมเดล AI รุ่นถัดไป การลงทุนในระดับนี้อาจยังจำเป็นต่อการขับเคลื่อนการสร้างสรรค์นวัตกรรมด้าน AI

การกลั่นได้รับการพิสูจน์แล้วว่าเป็นวิธีที่ดีในการจำลองความสามารถของโมเดล AI ด้วยต้นทุนต่ำ แต่ไม่ได้สร้างโมเดล AI ใหม่ที่เหนือกว่าสิ่งที่มีอยู่ในปัจจุบัน

(ตามรายงานของ TechCrunch)

Google เปิดตัว Gemini 2.0 อย่างเป็นทางการเพื่อแข่งขันกับ AI ของจีน Google เพิ่งเปิดตัวแชทบอทรุ่นต่อไปอย่างเป็นทางการ นั่นคือ Gemini 2.0 ซึ่งมีเวอร์ชันและการอัปเดตต่างๆ มากมาย