ในเดือนมกราคม บริษัทสตาร์ทอัพจีน DeepSeek ได้เปิดตัวโมเดลอนุมาน R1 โอเพนซอร์ส บริษัทกล่าวว่าโมเดลภาษาขนาดใหญ่ที่อยู่เบื้องหลัง R1 ได้รับการพัฒนาด้วยชิปที่มีประสิทธิภาพน้อยกว่าและมีต้นทุนต่ำกว่าโมเดล AI ของตะวันตกมาก

นักลงทุนตอบสนองต่อข่าวนี้ด้วยการเทขายหุ้นของ Nvidia และบริษัทเทคโนโลยีอื่นๆ ส่งผลให้ Nvidia สูญเสียมูลค่าตลาดไป 600,000 ล้านดอลลาร์ในเวลาแค่วันเดียว อย่างไรก็ตาม บริษัทเซมิคอนดักเตอร์ที่ใหญ่ที่สุดในโลกขณะนี้สามารถฟื้นคืนสิ่งที่สูญเสียไปเกือบทั้งหมดได้แล้ว

ดีพซีค บลูมเบิร์ก
โมเดลภาษาขนาดใหญ่ของ DeepSeek ได้รับการพัฒนาโดยใช้ชิปที่อ่อนแอกว่าและราคาถูกกว่าโมเดลตะวันตกมาก ภาพ : บลูมเบิร์ก

ในวิดีโอล่าสุดของเขา เจนเซ่น หวง โต้แย้งว่าปฏิกิริยาสุดโต่งของตลาดเกิดจากนักลงทุนตีความความคืบหน้าของ DeepSeek ผิด

พวกเขาตั้งคำถามว่าเงินหลายล้านล้านดอลลาร์ที่บริษัทเทคโนโลยียักษ์ใหญ่ทุ่มไปกับโครงสร้างพื้นฐานด้าน AI จำเป็นหรือไม่ หากจำเป็นต้องใช้พลังประมวลผลน้อยลงในการฝึกโมเดล

อย่างไรก็ตาม นายหวงกล่าวว่าอุตสาหกรรมยังคงต้องใช้พลังการประมวลผลสำหรับวิธีการหลังการฝึกอบรม ซึ่งช่วยให้โมเดล AI สามารถดึงข้อสรุปหรือคาดการณ์ได้ภายหลังการฝึกอบรม

เนื่องจากวิธีหลังการฝึกอบรมมีความหลากหลายและก้าวหน้ามากขึ้น ความต้องการพลังการประมวลผลที่ชิป Nvidia มอบให้จึงเพิ่มมากขึ้นตามไปด้วย

ตามที่ CEO ของ Nvidia กล่าว นักลงทุนคิดว่าโลกมีเพียงการฝึกอบรมและการอนุมานเบื้องต้นเท่านั้น (ถามคำถามกับ AI และได้รับคำตอบทันที) แต่หลังการฝึกอบรมเป็นส่วนที่สำคัญที่สุดของ AI นั่นคือจุดที่มันเรียนรู้ที่จะแก้ไขปัญหาเฉพาะทาง

อย่างไรก็ตาม นายหวงไม่ปฏิเสธว่า DeepSeek ได้ “เติม” พลังงานมากขึ้นสู่โลก AI Lisa Su ซีอีโอของ AMD ยังให้ความเห็นว่า DeepSeek กำลังขับเคลื่อนการสร้างสรรค์นวัตกรรมที่ “ดีต่อแอปพลิเคชัน AI” ในการสัมภาษณ์เมื่อต้นเดือนนี้

คำว่าการฝึกอบรมล่วงหน้าหมายถึงขั้นตอนเริ่มต้นของการฝึกโมเดลภาษาขนาดใหญ่ (LLM) โดยที่โมเดลจะเรียนรู้จากชุดข้อมูลขนาดใหญ่และหลากหลาย โดยปกติแล้วมีมากถึงหลายล้านล้านโทเค็น

เป้าหมายที่นี่คือการช่วยให้โมเดลเข้าใจภาษา บริบท และประเภทความรู้ทั่วไปโดยทั่วไป ขั้นตอนนี้มักจะต้องใช้พลังการประมวลผลและข้อมูลจำนวนมหาศาล ซึ่งมีค่าใช้จ่ายหลายร้อยล้านดอลลาร์

คำว่าหลังการฝึกอบรมหรือปรับแต่งละเอียด คือเมื่อคุณใช้โมเดลที่ได้รับการฝึกอบรมไปแล้วก่อนหน้านี้แล้วฝึกอบรมอีกครั้งโดยใช้ชุดข้อมูลที่เฉพาะเจาะจงมากขึ้น ชุดข้อมูลเหล่านี้โดยปกติจะมีขนาดเล็กกว่าและมุ่งเน้นไปที่โดเมนหรืองานเฉพาะอย่างหนึ่ง

จุดประสงค์คือปรับแต่งโมเดลให้ทำงานได้ดีขึ้นในสถานการณ์และงานเฉพาะเจาะจง ซึ่งไม่ได้ครอบคลุมในเชิงลึกระหว่างการฝึกอบรมเบื้องต้น ความรู้ใหม่ที่เพิ่มเข้ามาหลังการฝึกอบรมจะช่วยปรับปรุงประสิทธิภาพของโมเดลได้มากกว่าการขยายความรู้ทั่วไป

(ตามข้อมูลจาก Insider และ Reddit)