AI ใหม่ของ DeepSeek ยังคงสร้างความฮือฮาในโลกเทคโนโลยีด้วยประสิทธิภาพที่โดดเด่น ภาพโดย: SCMP |
DeepSeek เปิดตัว DeepSeek V3-0324 อย่างเป็นทางการ ซึ่งเป็นเวอร์ชันล่าสุดในซีรีส์ Large Language Model (LLM) V3
เช่นเดียวกับเวอร์ชันก่อนหน้า รุ่นนี้เปิดตัวเป็นโอเพ่นซอร์สฟรีผ่านแพลตฟอร์ม Hugging Face ซึ่งมีการปรับปรุงที่สำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า โดยเฉพาะอย่างยิ่งในด้านการใช้เหตุผลและการเขียนโปรแกรม
โดยเฉพาะอย่างยิ่ง ตาม OpenRouter DeepSeek V3-0324 ได้รับการสร้างขึ้นโดยใช้ Mixture of Experts (MoE) ซึ่งเป็นวิธีการเรียนรู้ของเครื่องจักรที่ได้รับความนิยมอย่างมากในโมเดล AI ของจีนบางรุ่น และมีพารามิเตอร์ 685 พันล้านรายการ
จากการตรวจสอบเบื้องต้น พบว่าโมเดลนี้มีประสิทธิภาพที่น่าประทับใจในงานหลายประเภท ในขณะเดียวกัน โพสต์บน Reddit แสดงให้เห็นว่า DeepSeek V3-0324 ได้ตามทันโมเดล Sonnet 3.7 ของ Google ในการทดสอบการสร้างโค้ดโปรแกรม
นอกจากนี้ แหล่งข้อมูลยังระบุด้วยว่า DeepSeek V3-0324 สามารถสร้างโค้ดสั้นๆ ยาวๆ ได้โดยไม่มีข้อผิดพลาดใดๆ AI Analytics Vidhya ทดสอบโมเดลนี้และบันทึกความสามารถในการสร้างโค้ด 700 บรรทัดได้อย่างราบรื่น
บน X แอปพลิเคชัน DeepSeek V3-0324 ก็ได้รับความนิยมอย่างมากเช่นกัน เพื่อพิสูจน์สิ่งนี้ Deepanshu Sharma ได้โพสต์วิดีโอที่แสดงให้เห็นว่าโมเดล AI นี้สามารถสร้างเว็บไซต์ที่สมบูรณ์ด้วยโค้ดมากกว่า 800 บรรทัดได้อย่างราบรื่นอย่างไร
DeepSeek กลายเป็นบริษัท AI ที่โดดเด่นที่สุดของจีนในเดือนธันวาคม 2024 เมื่อเปิดตัว DeepSeek-V3 แบบจำลองนี้มีประสิทธิภาพเทียบเท่ากับ GPT-4o แต่ใช้ทรัพยากรการคำนวณเพียงเศษเสี้ยวเดียวเท่านั้น
ไม่นานหลังจากนั้น DeepSeek ยังคงเปิดตัวโมเดลการใช้เหตุผล DeepSeek-R1 ต่อไป ตามข้อมูลของ TechCrunch R1 เอาชนะ o1 ของ OpenAI บนเกณฑ์มาตรฐานเช่น AIME, MATH-500 และ SWE-bench Verified
ในเวลาเดียวกัน ตัวเลข 5.6 ล้านเหรียญสหรัฐ ในการฝึกขั้นตอนสุดท้ายของโมเดล DeepSeek ก็ถือเป็นเรื่องที่น่าตกใจเช่นกัน เมื่อเทียบกับเงินหลายร้อยล้านดอลลาร์ที่บริษัทชั้นนำของสหรัฐอเมริกาต้องเสียไปเพื่อฝึกโมเดลของตน
ที่มา: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html
การแสดงความคิดเห็น (0)