ในช่วงปลายเดือนมกราคม DeepSeek เข้ามาสร้างความฮือฮาในโลกเทคโนโลยีระดับโลกด้วยการเปิดตัวโมเดล LLM สองโมเดลที่มีระดับเทียบเท่าผลิตภัณฑ์ของอเมริกาแต่มีราคาเพียงเศษเสี้ยวเดียวเท่านั้น ในจำนวนนั้น โมเดลการใช้เหตุผลโอเพนซอร์ส DeepSeek-R1 สามารถแก้ไขปัญหาทางวิทยาศาสตร์บางส่วนได้เช่นเดียวกับ o1 ซึ่งเป็น LLM ที่ก้าวหน้าที่สุดของ OpenAI

ในขณะที่ทั่วโลกต่างประหลาดใจ นักวิจัยในประเทศกล่าวว่าความสำเร็จนี้เป็นเรื่องที่คาดเดาได้โดยสิ้นเชิง และสอดคล้องกับความทะเยอทะยานของปักกิ่งที่จะก้าวขึ้นเป็นมหาอำนาจชั้นนำในด้านปัญญาประดิษฐ์ (AI)

Yunji Chen นักวิทยาศาสตร์คอมพิวเตอร์จากสถาบันวิทยาการคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์จีน ชี้ให้เห็นว่าเร็วหรือช้า บริษัทอย่าง DeepSeek จะต้องปรากฏตัวในประเทศจีน

เนื่องจากมีเม็ดเงินลงทุนจำนวนมหาศาลที่ไหลเข้าสู่บริษัทพัฒนา LLM และมีจำนวนผู้ที่มีปริญญาเอกในสาขาวิชา STEM (วิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ หรือคณิตศาสตร์) มาก

“ถ้าไม่มี DeepSeek ก็คงจะยังมี LLM ชาวจีนคนอื่นๆ” เฉินกล่าว

นี่เป็นข้อเท็จจริงที่ได้รับการพิสูจน์แล้ว สองวันหลังจากที่เกิด "แผ่นดินไหว" DeepSeek ทาง Alibaba ได้เปิดตัว LLM ที่ล้ำหน้าที่สุดจนถึงปัจจุบัน ซึ่งก็คือ Qwen2.5-Max โดยอ้างว่ามีประสิทธิภาพเหนือกว่า DeepSeek-V3

Moonshot AI และ ByteDance ได้ประกาศเปิดตัวโมเดลอนุมานใหม่ ได้แก่ Kimi 1.5 และ 1.5-pro ซึ่งสามารถทำผลงานได้ดีกว่า o1 ในการทดสอบประสิทธิภาพบางรายการ

ความสำคัญของรัฐบาล

ในปี 2017 รัฐบาลจีนประกาศเจตนารมณ์ที่จะเป็นผู้นำด้าน AI ของโลกภายในปี 2030 จีนตั้งเป้าที่จะบรรลุความก้าวหน้าครั้งสำคัญด้าน AI "เพื่อให้เทคโนโลยีและแอปพลิเคชันไปถึงระดับชั้นนำของโลก" ภายในปี 2025

เพื่อให้บรรลุเป้าหมายดังกล่าว การพัฒนาระบบบุคลากรด้าน AI ถือเป็นเรื่องที่มีความสำคัญสูงสุด ภายในปี 2022 กระทรวงศึกษาธิการของจีนจะอนุญาตให้มหาวิทยาลัย 440 แห่งเสนอสาขาวิชา AI ตามรายงานจากศูนย์ความปลอดภัยและเทคโนโลยีเกิดใหม่ (CSET) ของมหาวิทยาลัยจอร์จทาวน์

ในปีเดียวกันนั้น จีนมีนักวิจัย AI ชั้นนำคิดเป็นครึ่งหนึ่ง ในขณะที่สหรัฐฯ มีส่วนสนับสนุนเพียง 18% ตามข้อมูลของบริษัทที่ปรึกษา MacroPolo

ดีพซีค บลูมเบิร์ก
DeepSeek สร้างความประหลาดใจด้วยโมเดลภาษาประสิทธิภาพสูงและต้นทุนต่ำจำนวนมาก ภาพ : บลูมเบิร์ก

มารินา จาง นักวิจัยด้านนโยบายวิทยาศาสตร์จากมหาวิทยาลัยเทคโนโลยีซิดนีย์ กล่าวว่า DeepSeek น่าจะได้รับประโยชน์จากการลงทุนของรัฐบาลในการฝึกอบรมด้าน AI และการพัฒนาบุคลากร รวมถึงทุนการศึกษา ทุนวิจัย และความร่วมมือระหว่างสถาบันการศึกษาและอุตสาหกรรมมากมาย

ตัวอย่างเช่น โครงการริเริ่มที่ได้รับการสนับสนุนจากรัฐ เช่น ห้องปฏิบัติการวิศวกรรมแห่งชาติสำหรับเทคโนโลยีและแอปพลิเคชันการเรียนรู้เชิงลึก ได้ฝึกอบรมผู้เชี่ยวชาญด้าน AI ไปแล้วหลายพันคน

การหาตัวเลขที่แน่ชัดเกี่ยวกับพนักงานของ DeepSeek นั้นเป็นเรื่องยาก แต่ผู้ก่อตั้ง Liang Wenfeng กล่าวว่าบริษัทแห่งนี้รับสมัครบัณฑิตและนักศึกษาปริญญาเอกจากมหาวิทยาลัยที่ใหญ่ที่สุดของประเทศ

จางกล่าวว่าสมาชิกบางคนในทีมผู้นำมีอายุต่ำกว่า 35 ปี และเติบโตมาพร้อมกับการเติบโตของจีนในฐานะมหาอำนาจทางเทคโนโลยี “พวกเขาได้รับแรงบันดาลใจอย่างมากจากการพึ่งพาตนเองในการสร้างสรรค์นวัตกรรม”

เวินเฟิง อายุ 39 ปี สำเร็จการศึกษาปริญญาตรีวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยเจ้อเจียง เขาเป็นผู้ร่วมก่อตั้งกองทุนป้องกันความเสี่ยง High-Flyer เมื่อเกือบทศวรรษที่แล้วและก่อตั้ง DeepSeek ในปี 2023

นโยบายระดับชาติที่ส่งเสริมระบบนิเวศต้นแบบสำหรับ AI จะช่วยให้บริษัทอย่าง DeepSeek ดึงดูดทั้งเงินทุนและผู้คน ตามที่ Jacob Feldgoise ซึ่งศึกษาบุคลากรด้าน AI ในประเทศจีนที่ CSET กล่าว

แม้ว่าหลักสูตรด้าน AI ในมหาวิทยาลัยต่างๆ จะเพิ่มขึ้น แต่ Feldgoise ยังไม่ชัดเจนว่ามีนักศึกษาจำนวนเท่าใดที่สำเร็จการศึกษาด้วยปริญญาด้าน AI และพวกเขาได้รับการสอนทักษะที่บริษัทต่างๆ ต้องการหรือไม่

ในช่วงไม่กี่ปีที่ผ่านมา บริษัท AI ของจีนบ่นว่าผู้สำเร็จการศึกษาจากหลักสูตรเหล่านี้ไม่ได้เป็นไปตามความคาดหวังของพวกเขา ซึ่งทำให้บางบริษัทหันไปร่วมมือกับมหาวิทยาลัยเพื่อปรับปรุงคุณภาพ

การอบชุบ

นักวิทยาศาสตร์กล่าวว่าองค์ประกอบที่น่าประทับใจที่สุดประการหนึ่งของความสำเร็จของ DeepSeek ก็คือ พวกเขาได้พัฒนา DeepSeek-R1 และ Janus-Pro-7B ในบริบทของการควบคุมการส่งออกของรัฐบาลสหรัฐฯ ซึ่งปิดกั้นการเข้าถึงชิปคอมพิวเตอร์ AI ขั้นสูงตั้งแต่ปี 2022

ตามที่จางกล่าว DeepSeek แสดงให้เห็นถึงแนวทางการสร้างสรรค์สิ่งใหม่ๆ ที่เป็นเอกลักษณ์ของจีน โดยเน้นที่ประสิทธิภาพเมื่อเผชิญกับข้อจำกัดต่างๆ มากมาย

สตาร์ทอัพของ Wenfeng กล่าวว่าได้ใช้ชิป Nvidia H800 ประมาณ 2,000 ตัวเพื่อฝึก DeepSeek-V3 ในทางตรงกันข้าม Llama 3.1 405B ซึ่งเป็น LLM ที่ซับซ้อนซึ่งเปิดตัวโดย Meta ในเดือนกรกฎาคม 2024 ขึ้นอยู่กับชิป Nvidia H100 กว่า 16,000 ตัว

9x Talent ได้รับความสนใจเป็นพิเศษจากนายกรัฐมนตรีจีน หลี่ เชียง 9x Talent ได้รับความสนใจเป็นพิเศษจากนายกรัฐมนตรีจีน หลี่ เชียง

ในโพสต์ WeChat เมื่อปี 2022 High-Flyer กล่าวว่าตนมีชิป A100 รุ่นเก่าของ Nvidia จำนวน 10,000 ตัว “ปัญหาที่เราเผชิญไม่เคยเป็นเรื่องเงิน แต่เป็นเรื่องของการห้ามชิประดับไฮเอนด์” เวินเฟิงกล่าวกับสื่อจีนในเดือนกรกฎาคม พ.ศ. 2567

DeepSeek ใช้หลากหลายวิธีเพื่อเพิ่มประสิทธิภาพของโมเดลต่างๆ ตัวอย่างเช่น การนำสถาปัตยกรรม Mixture of Experts (MoE) มาใช้ ซึ่งเป็นแนวทางการเรียนรู้ของเครื่องที่ฝึกฝนโมเดลได้เร็วขึ้นด้วยพารามิเตอร์ที่น้อยกว่าเทคนิคดั้งเดิม

ช่วยให้ DeepSeek ฝึกอบรมโมเดลด้วยชิปน้อยลง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์แห่งมหาวิทยาลัยซิดนีย์ นาย Chang Xu กล่าว

อีกเทคนิคหนึ่งคือการใส่ใจแฝงหลายหัว (MLA) ซึ่งช่วยให้โมเดลสามารถเก็บข้อมูลได้มากขึ้นโดยใช้หน่วยความจำน้อยลง

ความสำเร็จของ DeepSeek อาจเป็น "ป้ายบอกทาง" สำหรับประเทศต่างๆ ที่มีความทะเยอทะยานในด้าน AI แต่ขาดทรัพยากรทางการเงินและฮาร์ดแวร์ในการฝึกอบรมผู้สำเร็จการศึกษาระดับปริญญาโทสาขาบริหารธุรกิจ (LLM) จำนวนมาก Yanbo Wang นักวิจัยด้านวิทยาศาสตร์นโยบายจากมหาวิทยาลัยฮ่องกงกล่าว

(ตามธรรมชาติ โชคชะตา)

ที่มา: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html