ในช่วงปลายเดือนมกราคม DeepSeek เข้ามาสร้างความฮือฮาในโลกเทคโนโลยีระดับโลกด้วยการเปิดตัวโมเดล LLM สองโมเดลที่มีระดับเทียบเท่าผลิตภัณฑ์ของอเมริกาแต่มีราคาเพียงเศษเสี้ยวเดียวเท่านั้น ในจำนวนนั้น โมเดลการใช้เหตุผลโอเพนซอร์ส DeepSeek-R1 สามารถแก้ไขปัญหาทางวิทยาศาสตร์บางส่วนได้เช่นเดียวกับ o1 ซึ่งเป็น LLM ที่ก้าวหน้าที่สุดของ OpenAI
ในขณะที่ทั่วโลกต่างประหลาดใจ นักวิจัยในประเทศกล่าวว่าความสำเร็จนี้เป็นเรื่องที่คาดเดาได้โดยสิ้นเชิง และสอดคล้องกับความทะเยอทะยานของปักกิ่งที่จะก้าวขึ้นเป็นมหาอำนาจชั้นนำในด้านปัญญาประดิษฐ์ (AI)
Yunji Chen นักวิทยาศาสตร์คอมพิวเตอร์จากสถาบันวิทยาการคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์จีน ชี้ให้เห็นว่าเร็วหรือช้า บริษัทอย่าง DeepSeek จะต้องปรากฏตัวในประเทศจีน
เนื่องจากมีเม็ดเงินลงทุนจำนวนมหาศาลที่ไหลเข้าสู่บริษัทพัฒนา LLM และมีจำนวนผู้ที่มีปริญญาเอกในสาขาวิชา STEM (วิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ หรือคณิตศาสตร์) มาก
“ถ้าไม่มี DeepSeek ก็คงจะยังมี LLM ชาวจีนคนอื่นๆ” เฉินกล่าว
นี่เป็นข้อเท็จจริงที่ได้รับการพิสูจน์แล้ว สองวันหลังจากที่เกิด "แผ่นดินไหว" DeepSeek ทาง Alibaba ได้เปิดตัว LLM ที่ล้ำหน้าที่สุดจนถึงปัจจุบัน ซึ่งก็คือ Qwen2.5-Max โดยอ้างว่ามีประสิทธิภาพเหนือกว่า DeepSeek-V3
Moonshot AI และ ByteDance ได้ประกาศเปิดตัวโมเดลอนุมานใหม่ ได้แก่ Kimi 1.5 และ 1.5-pro ซึ่งสามารถทำผลงานได้ดีกว่า o1 ในการทดสอบประสิทธิภาพบางรายการ
ความสำคัญของรัฐบาล
ในปี 2017 รัฐบาลจีนประกาศเจตนารมณ์ที่จะเป็นผู้นำด้าน AI ของโลกภายในปี 2030 จีนตั้งเป้าที่จะบรรลุความก้าวหน้าครั้งสำคัญด้าน AI "เพื่อให้เทคโนโลยีและแอปพลิเคชันไปถึงระดับชั้นนำของโลก" ภายในปี 2025
เพื่อให้บรรลุเป้าหมายดังกล่าว การพัฒนาระบบบุคลากรด้าน AI ถือเป็นเรื่องที่มีความสำคัญสูงสุด ภายในปี 2022 กระทรวงศึกษาธิการของจีนจะอนุญาตให้มหาวิทยาลัย 440 แห่งเสนอสาขาวิชา AI ตามรายงานจากศูนย์ความปลอดภัยและเทคโนโลยีเกิดใหม่ (CSET) ของมหาวิทยาลัยจอร์จทาวน์
ในปีเดียวกันนั้น จีนมีนักวิจัย AI ชั้นนำคิดเป็นครึ่งหนึ่ง ในขณะที่สหรัฐฯ มีส่วนสนับสนุนเพียง 18% ตามข้อมูลของบริษัทที่ปรึกษา MacroPolo

มารินา จาง นักวิจัยด้านนโยบายวิทยาศาสตร์จากมหาวิทยาลัยเทคโนโลยีซิดนีย์ กล่าวว่า DeepSeek น่าจะได้รับประโยชน์จากการลงทุนของรัฐบาลในการฝึกอบรมด้าน AI และการพัฒนาบุคลากร รวมถึงทุนการศึกษา ทุนวิจัย และความร่วมมือระหว่างสถาบันการศึกษาและอุตสาหกรรมมากมาย
ตัวอย่างเช่น โครงการริเริ่มที่ได้รับการสนับสนุนจากรัฐ เช่น ห้องปฏิบัติการวิศวกรรมแห่งชาติสำหรับเทคโนโลยีและแอปพลิเคชันการเรียนรู้เชิงลึก ได้ฝึกอบรมผู้เชี่ยวชาญด้าน AI ไปแล้วหลายพันคน
การหาตัวเลขที่แน่ชัดเกี่ยวกับพนักงานของ DeepSeek นั้นเป็นเรื่องยาก แต่ผู้ก่อตั้ง Liang Wenfeng กล่าวว่าบริษัทแห่งนี้รับสมัครบัณฑิตและนักศึกษาปริญญาเอกจากมหาวิทยาลัยที่ใหญ่ที่สุดของประเทศ
จางกล่าวว่าสมาชิกบางคนในทีมผู้นำมีอายุต่ำกว่า 35 ปี และเติบโตมาพร้อมกับการเติบโตของจีนในฐานะมหาอำนาจทางเทคโนโลยี “พวกเขาได้รับแรงบันดาลใจอย่างมากจากการพึ่งพาตนเองในการสร้างสรรค์นวัตกรรม”
เวินเฟิง อายุ 39 ปี สำเร็จการศึกษาปริญญาตรีวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยเจ้อเจียง เขาเป็นผู้ร่วมก่อตั้งกองทุนป้องกันความเสี่ยง High-Flyer เมื่อเกือบทศวรรษที่แล้วและก่อตั้ง DeepSeek ในปี 2023
นโยบายระดับชาติที่ส่งเสริมระบบนิเวศต้นแบบสำหรับ AI จะช่วยให้บริษัทอย่าง DeepSeek ดึงดูดทั้งเงินทุนและผู้คน ตามที่ Jacob Feldgoise ซึ่งศึกษาบุคลากรด้าน AI ในประเทศจีนที่ CSET กล่าว
แม้ว่าหลักสูตรด้าน AI ในมหาวิทยาลัยต่างๆ จะเพิ่มขึ้น แต่ Feldgoise ยังไม่ชัดเจนว่ามีนักศึกษาจำนวนเท่าใดที่สำเร็จการศึกษาด้วยปริญญาด้าน AI และพวกเขาได้รับการสอนทักษะที่บริษัทต่างๆ ต้องการหรือไม่
ในช่วงไม่กี่ปีที่ผ่านมา บริษัท AI ของจีนบ่นว่าผู้สำเร็จการศึกษาจากหลักสูตรเหล่านี้ไม่ได้เป็นไปตามความคาดหวังของพวกเขา ซึ่งทำให้บางบริษัทหันไปร่วมมือกับมหาวิทยาลัยเพื่อปรับปรุงคุณภาพ
การอบชุบ
นักวิทยาศาสตร์กล่าวว่าองค์ประกอบที่น่าประทับใจที่สุดประการหนึ่งของความสำเร็จของ DeepSeek ก็คือ พวกเขาได้พัฒนา DeepSeek-R1 และ Janus-Pro-7B ในบริบทของการควบคุมการส่งออกของรัฐบาลสหรัฐฯ ซึ่งปิดกั้นการเข้าถึงชิปคอมพิวเตอร์ AI ขั้นสูงตั้งแต่ปี 2022
ตามที่จางกล่าว DeepSeek แสดงให้เห็นถึงแนวทางการสร้างสรรค์สิ่งใหม่ๆ ที่เป็นเอกลักษณ์ของจีน โดยเน้นที่ประสิทธิภาพเมื่อเผชิญกับข้อจำกัดต่างๆ มากมาย
สตาร์ทอัพของ Wenfeng กล่าวว่าได้ใช้ชิป Nvidia H800 ประมาณ 2,000 ตัวเพื่อฝึก DeepSeek-V3 ในทางตรงกันข้าม Llama 3.1 405B ซึ่งเป็น LLM ที่ซับซ้อนซึ่งเปิดตัวโดย Meta ในเดือนกรกฎาคม 2024 ขึ้นอยู่กับชิป Nvidia H100 กว่า 16,000 ตัว

ในโพสต์ WeChat เมื่อปี 2022 High-Flyer กล่าวว่าตนมีชิป A100 รุ่นเก่าของ Nvidia จำนวน 10,000 ตัว “ปัญหาที่เราเผชิญไม่เคยเป็นเรื่องเงิน แต่เป็นเรื่องของการห้ามชิประดับไฮเอนด์” เวินเฟิงกล่าวกับสื่อจีนในเดือนกรกฎาคม พ.ศ. 2567
DeepSeek ใช้หลากหลายวิธีเพื่อเพิ่มประสิทธิภาพของโมเดลต่างๆ ตัวอย่างเช่น การนำสถาปัตยกรรม Mixture of Experts (MoE) มาใช้ ซึ่งเป็นแนวทางการเรียนรู้ของเครื่องที่ฝึกฝนโมเดลได้เร็วขึ้นด้วยพารามิเตอร์ที่น้อยกว่าเทคนิคดั้งเดิม
ช่วยให้ DeepSeek ฝึกอบรมโมเดลด้วยชิปน้อยลง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์แห่งมหาวิทยาลัยซิดนีย์ นาย Chang Xu กล่าว
อีกเทคนิคหนึ่งคือการใส่ใจแฝงหลายหัว (MLA) ซึ่งช่วยให้โมเดลสามารถเก็บข้อมูลได้มากขึ้นโดยใช้หน่วยความจำน้อยลง
ความสำเร็จของ DeepSeek อาจเป็น "ป้ายบอกทาง" สำหรับประเทศต่างๆ ที่มีความทะเยอทะยานในด้าน AI แต่ขาดทรัพยากรทางการเงินและฮาร์ดแวร์ในการฝึกอบรมผู้สำเร็จการศึกษาระดับปริญญาโทสาขาบริหารธุรกิจ (LLM) จำนวนมาก Yanbo Wang นักวิจัยด้านวิทยาศาสตร์นโยบายจากมหาวิทยาลัยฮ่องกงกล่าว
(ตามธรรมชาติ โชคชะตา)
ที่มา: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html
การแสดงความคิดเห็น (0)