เจนเซ่น หวง ซีอีโอของ Nvidia เชื่อว่านักลงทุนเข้าใจผิดเกี่ยวกับความก้าวหน้าด้าน AI ของ DeepSeek ส่งผลให้เกิดการเทขายหุ้นเทคโนโลยีต่างๆ รวมถึง Nvidia
ในเดือนมกราคม บริษัทสตาร์ทอัพจีน DeepSeek ได้เปิดตัวโมเดลอนุมาน R1 โอเพนซอร์ส บริษัทกล่าวว่าโมเดลภาษาขนาดใหญ่ที่อยู่เบื้องหลัง R1 ได้รับการพัฒนาด้วยชิปที่มีประสิทธิภาพน้อยกว่าและมีต้นทุนต่ำกว่าโมเดล AI ของตะวันตกมาก
นักลงทุนตอบสนองต่อข่าวนี้ด้วยการเทขายหุ้นของ Nvidia และบริษัทเทคโนโลยีอื่นๆ ส่งผลให้ Nvidia สูญเสียมูลค่าตลาดไป 600,000 ล้านดอลลาร์ในเวลาแค่วันเดียว อย่างไรก็ตาม บริษัทเซมิคอนดักเตอร์ที่ใหญ่ที่สุดในโลกขณะนี้สามารถฟื้นคืนสิ่งที่สูญเสียไปเกือบทั้งหมดได้แล้ว
ในวิดีโอล่าสุดของเขา เจนเซ่น หวง โต้แย้งว่าปฏิกิริยาสุดโต่งของตลาดเกิดจากนักลงทุนตีความความคืบหน้าของ DeepSeek ผิด
พวกเขาตั้งคำถามว่าเงินหลายล้านล้านดอลลาร์ที่บริษัทเทคโนโลยียักษ์ใหญ่ทุ่มไปกับโครงสร้างพื้นฐานด้าน AI จำเป็นหรือไม่ หากจำเป็นต้องใช้พลังประมวลผลน้อยลงในการฝึกโมเดล
อย่างไรก็ตาม นายหวงกล่าวว่าอุตสาหกรรมยังคงต้องใช้พลังการประมวลผลสำหรับวิธีการหลังการฝึกอบรม ซึ่งช่วยให้โมเดล AI สามารถดึงข้อสรุปหรือคาดการณ์ได้ภายหลังการฝึกอบรม
เนื่องจากวิธีหลังการฝึกอบรมมีความหลากหลายและก้าวหน้ามากขึ้น ความต้องการพลังการประมวลผลที่ชิป Nvidia มอบให้จึงเพิ่มมากขึ้นตามไปด้วย
ตามที่ CEO ของ Nvidia กล่าว นักลงทุนคิดว่าโลกมีเพียงการฝึกอบรมและการอนุมานเบื้องต้นเท่านั้น (ถามคำถามกับ AI และได้รับคำตอบทันที) แต่หลังการฝึกอบรมเป็นส่วนที่สำคัญที่สุดของ AI นั่นคือจุดที่มันเรียนรู้ที่จะแก้ไขปัญหาเฉพาะทาง
อย่างไรก็ตาม นายหวงไม่ปฏิเสธว่า DeepSeek ได้ “เติม” พลังงานมากขึ้นสู่โลก AI Lisa Su ซีอีโอของ AMD ยังให้ความเห็นว่า DeepSeek กำลังขับเคลื่อนการสร้างสรรค์นวัตกรรมที่ “ดีต่อแอปพลิเคชัน AI” ในการสัมภาษณ์เมื่อต้นเดือนนี้
คำว่าการฝึกอบรมล่วงหน้าหมายถึงขั้นตอนเริ่มต้นของการฝึกโมเดลภาษาขนาดใหญ่ (LLM) โดยที่โมเดลจะเรียนรู้จากชุดข้อมูลขนาดใหญ่และหลากหลาย โดยปกติแล้วมีมากถึงหลายล้านล้านโทเค็น
เป้าหมายที่นี่คือการช่วยให้โมเดลเข้าใจภาษา บริบท และประเภทความรู้ทั่วไปโดยทั่วไป ขั้นตอนนี้มักจะต้องใช้พลังการประมวลผลและข้อมูลจำนวนมหาศาล ซึ่งมีค่าใช้จ่ายหลายร้อยล้านดอลลาร์
คำว่าหลังการฝึกอบรมหรือปรับแต่งละเอียด คือเมื่อคุณใช้โมเดลที่ได้รับการฝึกอบรมไปแล้วก่อนหน้านี้แล้วฝึกอบรมอีกครั้งโดยใช้ชุดข้อมูลที่เฉพาะเจาะจงมากขึ้น ชุดข้อมูลเหล่านี้โดยปกติจะมีขนาดเล็กกว่าและมุ่งเน้นไปที่โดเมนหรืองานเฉพาะอย่างหนึ่ง
จุดประสงค์คือปรับแต่งโมเดลให้ทำงานได้ดีขึ้นในสถานการณ์และงานเฉพาะเจาะจง ซึ่งไม่ได้ครอบคลุมในเชิงลึกระหว่างการฝึกอบรมเบื้องต้น ความรู้ใหม่ที่เพิ่มเข้ามาหลังการฝึกอบรมจะช่วยปรับปรุงประสิทธิภาพของโมเดลได้มากกว่าการขยายความรู้ทั่วไป
(ตามข้อมูลจาก Insider และ Reddit)
ที่มา: https://vietnamnet.vn/jensen-huang-nha-dau-tu-sai-lam-khi-ban-thao-co-phieu-nvidia-vi-deepseek-2373687.html
การแสดงความคิดเห็น (0)