ความลับเบื้องหลัง DeepSeek: จีนสร้างความตกตะลึงให้กับโลกด้วย AI

นโยบายของรัฐบาลที่สนับสนุน เงินทุน และกลุ่มวิศวกร AI จำนวนมากทำให้บริษัทจีนสามารถพัฒนาโมเดลภาษาขนาดใหญ่ขั้นสูง (LLM) เช่น DeepSeek ได้

VietNamNet•15/04/2025

ในช่วงปลายเดือนมกราคม DeepSeek เข้ามาสร้างความฮือฮาในโลกเทคโนโลยีระดับโลกด้วยการเปิดตัวโมเดล LLM สองโมเดลที่มีระดับเทียบเท่าผลิตภัณฑ์ของอเมริกาแต่มีราคาเพียงเศษเสี้ยวเดียวเท่านั้น ในจำนวนนั้น โมเดลการใช้เหตุผลโอเพนซอร์ส DeepSeek-R1 สามารถแก้ไขปัญหาทางวิทยาศาสตร์บางส่วนได้เช่นเดียวกับ o1 ซึ่งเป็น LLM ที่ก้าวหน้าที่สุดของ OpenAI

ในขณะที่ทั่วโลกต่างประหลาดใจ นักวิจัยในประเทศกล่าวว่าความสำเร็จนี้เป็นเรื่องที่คาดเดาได้โดยสิ้นเชิง และสอดคล้องกับความทะเยอทะยานของปักกิ่งที่จะก้าวขึ้นเป็นมหาอำนาจชั้นนำในด้านปัญญาประดิษฐ์ (AI)

Yunji Chen นักวิทยาศาสตร์คอมพิวเตอร์จากสถาบันวิทยาการคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์จีน ชี้ให้เห็นว่าเร็วหรือช้า บริษัทอย่าง DeepSeek จะต้องปรากฏตัวในประเทศจีน

เนื่องจากมีเม็ดเงินลงทุนจำนวนมหาศาลที่ไหลเข้าสู่บริษัทพัฒนา LLM และมีจำนวนผู้ที่มีปริญญาเอกในสาขาวิชา STEM (วิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ หรือคณิตศาสตร์) มาก

“ถ้าไม่มี DeepSeek ก็คงจะยังมี LLM ชาวจีนคนอื่นๆ” เฉินกล่าว

นี่เป็นข้อเท็จจริงที่ได้รับการพิสูจน์แล้ว สองวันหลังจากที่เกิด "แผ่นดินไหว" DeepSeek ทาง Alibaba ได้เปิดตัว LLM ที่ล้ำหน้าที่สุดจนถึงปัจจุบัน ซึ่งก็คือ Qwen2.5-Max โดยอ้างว่ามีประสิทธิภาพเหนือกว่า DeepSeek-V3

Moonshot AI และ ByteDance ได้ประกาศเปิดตัวโมเดลอนุมานใหม่ ได้แก่ Kimi 1.5 และ 1.5-pro ซึ่งสามารถทำผลงานได้ดีกว่า o1 ในการทดสอบประสิทธิภาพบางรายการ

ความสำคัญของรัฐบาล

ในปี 2017 รัฐบาลจีนประกาศเจตนารมณ์ที่จะเป็นผู้นำด้าน AI ของโลกภายในปี 2030 จีนตั้งเป้าที่จะบรรลุความก้าวหน้าครั้งสำคัญด้าน AI "เพื่อให้เทคโนโลยีและแอปพลิเคชันไปถึงระดับชั้นนำของโลก" ภายในปี 2025

เพื่อให้บรรลุเป้าหมายดังกล่าว การพัฒนาระบบบุคลากรด้าน AI ถือเป็นเรื่องที่มีความสำคัญสูงสุด ภายในปี 2022 กระทรวงศึกษาธิการของจีนจะอนุญาตให้มหาวิทยาลัย 440 แห่งเสนอสาขาวิชา AI ตามรายงานจากศูนย์ความปลอดภัยและเทคโนโลยีเกิดใหม่ (CSET) ของมหาวิทยาลัยจอร์จทาวน์

ในปีเดียวกันนั้น จีนมีนักวิจัย AI ชั้นนำคิดเป็นครึ่งหนึ่ง ในขณะที่สหรัฐฯ มีส่วนสนับสนุนเพียง 18% ตามข้อมูลของบริษัทที่ปรึกษา MacroPolo

ดีพซีค บลูมเบิร์ก — DeepSeek สร้างความประหลาดใจด้วยโมเดลภาษาประสิทธิภาพสูงและต้นทุนต่ำจำนวนมาก ภาพ : บลูมเบิร์ก

มารินา จาง นักวิจัยด้านนโยบายวิทยาศาสตร์จากมหาวิทยาลัยเทคโนโลยีซิดนีย์ กล่าวว่า DeepSeek น่าจะได้รับประโยชน์จากการลงทุนของรัฐบาลในการฝึกอบรมด้าน AI และการพัฒนาบุคลากร รวมถึงทุนการศึกษา ทุนวิจัย และความร่วมมือระหว่างสถาบันการศึกษาและอุตสาหกรรมมากมาย

ตัวอย่างเช่น โครงการริเริ่มที่ได้รับการสนับสนุนจากรัฐ เช่น ห้องปฏิบัติการวิศวกรรมแห่งชาติสำหรับเทคโนโลยีและแอปพลิเคชันการเรียนรู้เชิงลึก ได้ฝึกอบรมผู้เชี่ยวชาญด้าน AI ไปแล้วหลายพันคน

การหาตัวเลขที่แน่ชัดเกี่ยวกับพนักงานของ DeepSeek นั้นเป็นเรื่องยาก แต่ผู้ก่อตั้ง Liang Wenfeng กล่าวว่าบริษัทแห่งนี้รับสมัครบัณฑิตและนักศึกษาปริญญาเอกจากมหาวิทยาลัยที่ใหญ่ที่สุดของประเทศ

จางกล่าวว่าสมาชิกบางคนในทีมผู้นำมีอายุต่ำกว่า 35 ปี และเติบโตมาพร้อมกับการเติบโตของจีนในฐานะมหาอำนาจทางเทคโนโลยี “พวกเขาได้รับแรงบันดาลใจอย่างมากจากการพึ่งพาตนเองในการสร้างสรรค์นวัตกรรม”

เวินเฟิง อายุ 39 ปี สำเร็จการศึกษาปริญญาตรีวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยเจ้อเจียง เขาเป็นผู้ร่วมก่อตั้งกองทุนป้องกันความเสี่ยง High-Flyer เมื่อเกือบทศวรรษที่แล้วและก่อตั้ง DeepSeek ในปี 2023

นโยบายระดับชาติที่ส่งเสริมระบบนิเวศต้นแบบสำหรับ AI จะช่วยให้บริษัทอย่าง DeepSeek ดึงดูดทั้งเงินทุนและผู้คน ตามที่ Jacob Feldgoise ซึ่งศึกษาบุคลากรด้าน AI ในประเทศจีนที่ CSET กล่าว

แม้ว่าหลักสูตรด้าน AI ในมหาวิทยาลัยต่างๆ จะเพิ่มขึ้น แต่ Feldgoise ยังไม่ชัดเจนว่ามีนักศึกษาจำนวนเท่าใดที่สำเร็จการศึกษาด้วยปริญญาด้าน AI และพวกเขาได้รับการสอนทักษะที่บริษัทต่างๆ ต้องการหรือไม่

ในช่วงไม่กี่ปีที่ผ่านมา บริษัท AI ของจีนบ่นว่าผู้สำเร็จการศึกษาจากหลักสูตรเหล่านี้ไม่ได้เป็นไปตามความคาดหวังของพวกเขา ซึ่งทำให้บางบริษัทหันไปร่วมมือกับมหาวิทยาลัยเพื่อปรับปรุงคุณภาพ

การอบชุบ

นักวิทยาศาสตร์กล่าวว่าองค์ประกอบที่น่าประทับใจที่สุดประการหนึ่งของความสำเร็จของ DeepSeek ก็คือ พวกเขาได้พัฒนา DeepSeek-R1 และ Janus-Pro-7B ในบริบทของการควบคุมการส่งออกของรัฐบาลสหรัฐฯ ซึ่งปิดกั้นการเข้าถึงชิปคอมพิวเตอร์ AI ขั้นสูงตั้งแต่ปี 2022

ตามที่จางกล่าว DeepSeek แสดงให้เห็นถึงแนวทางการสร้างสรรค์สิ่งใหม่ๆ ที่เป็นเอกลักษณ์ของจีน โดยเน้นที่ประสิทธิภาพเมื่อเผชิญกับข้อจำกัดต่างๆ มากมาย

สตาร์ทอัพของ Wenfeng กล่าวว่าได้ใช้ชิป Nvidia H800 ประมาณ 2,000 ตัวเพื่อฝึก DeepSeek-V3 ในทางตรงกันข้าม Llama 3.1 405B ซึ่งเป็น LLM ที่ซับซ้อนซึ่งเปิดตัวโดย Meta ในเดือนกรกฎาคม 2024 ขึ้นอยู่กับชิป Nvidia H100 กว่า 16,000 ตัว

9x Talent ได้รับความสนใจเป็นพิเศษจากนายกรัฐมนตรีจีน หลี่ เชียง

ในโพสต์ WeChat เมื่อปี 2022 High-Flyer กล่าวว่าตนมีชิป A100 รุ่นเก่าของ Nvidia จำนวน 10,000 ตัว “ปัญหาที่เราเผชิญไม่เคยเป็นเรื่องเงิน แต่เป็นเรื่องของการห้ามชิประดับไฮเอนด์” เวินเฟิงกล่าวกับสื่อจีนในเดือนกรกฎาคม พ.ศ. 2567

DeepSeek ใช้หลากหลายวิธีเพื่อเพิ่มประสิทธิภาพของโมเดลต่างๆ ตัวอย่างเช่น การนำสถาปัตยกรรม Mixture of Experts (MoE) มาใช้ ซึ่งเป็นแนวทางการเรียนรู้ของเครื่องที่ฝึกฝนโมเดลได้เร็วขึ้นด้วยพารามิเตอร์ที่น้อยกว่าเทคนิคดั้งเดิม

ช่วยให้ DeepSeek ฝึกอบรมโมเดลด้วยชิปน้อยลง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์แห่งมหาวิทยาลัยซิดนีย์ นาย Chang Xu กล่าว

อีกเทคนิคหนึ่งคือการใส่ใจแฝงหลายหัว (MLA) ซึ่งช่วยให้โมเดลสามารถเก็บข้อมูลได้มากขึ้นโดยใช้หน่วยความจำน้อยลง

ความสำเร็จของ DeepSeek อาจเป็น "ป้ายบอกทาง" สำหรับประเทศต่างๆ ที่มีความทะเยอทะยานในด้าน AI แต่ขาดทรัพยากรทางการเงินและฮาร์ดแวร์ในการฝึกอบรมผู้สำเร็จการศึกษาระดับปริญญาโทสาขาบริหารธุรกิจ (LLM) จำนวนมาก Yanbo Wang นักวิจัยด้านวิทยาศาสตร์นโยบายจากมหาวิทยาลัยฮ่องกงกล่าว

(ตามธรรมชาติ โชคชะตา)

ที่มา: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html