'เวอร์ชันเวียดนามของ ChatGPT' และเรื่องราวของผู้บุกเบิก

ผลิตภัณฑ์นี้สร้างกระแสฮือฮาในชุมชนวิทยาศาสตร์และเทคโนโลยีของเวียดนามได้อย่างรวดเร็ว

เลือกเส้นทางที่ยากลำบากเพื่อแก้ไขปัญหาเวียดนาม

ในช่วงปลายปี 2022 ChatGPT จะสร้าง "บิ๊กแบง" ขึ้น โดยเปิดฉากการแข่งขันพิชิต AI ระหว่างประเทศและยักษ์ใหญ่ในด้านเทคโนโลยี ในเวลานั้น ชุมชนเทคโนโลยีของเวียดนามก็กระตือรือร้นที่จะพัฒนาผลิตภัณฑ์ของเวียดนามให้เป็นอิสระทางเทคโนโลยีและลดการพึ่งพาผลิตภัณฑ์ระดับนานาชาติ อย่างไรก็ตาม ไม่ใช่ทุกหน่วยจะมีความสามารถและความมุ่งมั่นที่จะบรรลุความปรารถนานั้นได้ เช่นเดียวกับ VinBigdata

“AI เชิงสร้างสรรค์นั้นเป็นปัญหาที่ยาก บริษัทใหญ่ๆ เช่น OpenAI หรือ Google จำเป็นต้องลงทุนทรัพยากรและเวลาจำนวนมากในการวิจัยเพื่อสร้างผลิตภัณฑ์เช่นที่เราเห็น ผลิตภัณฑ์เหล่านี้ยอดเยี่ยมมาก แต่บรรดานักวิทยาศาสตร์ยังคงไม่เข้าใจอย่างถ่องแท้ว่าผลิตภัณฑ์เหล่านี้ทำงานอย่างไร ยากที่จะคาดเดาว่าจะล้มเหลวเมื่อใด และจะล้มเหลวอย่างไร การพัฒนาผลิตภัณฑ์ที่คล้ายกับ ChatGPT สำหรับคนเวียดนามภายในเวลาสั้นๆ เพียงไม่ถึงปีนั้นเต็มไปด้วยความท้าทายมากมาย แต่เราเลือกที่จะ “เสี่ยง” เพราะถ้าไม่ใช่คนเวียดนามที่จะสร้าง ChatGPT เวอร์ชันภาษาเวียดนาม แล้วใครล่ะจะทำ” - ศาสตราจารย์ Vu Ha Van ผู้อำนวยการฝ่ายวิทยาศาสตร์ของ VinBigdata กล่าว

ในความเป็นจริง มีบริษัทเพียงไม่กี่แห่งเท่านั้นที่เลือกที่จะสร้าง Large Language Model ของตนเองตั้งแต่ต้น เช่นเดียวกับ GPT 3 ของ OpenAI ที่มีพารามิเตอร์ 175 พันล้านรายการและได้รับการฝึกบนชุดข้อมูลขนาด 45 เทราไบต์และมีค่าใช้จ่าย 4.6 ล้านดอลลาร์ ตามการคำนวณจำนวนเงินในการพัฒนา GPT 4 อาจสูงถึง 100 ล้านเหรียญสหรัฐ “ด้วยจำนวนที่มากมายมหาศาลเช่นนี้ จึงเป็นเรื่องยากที่จะหาบริษัทที่สามารถลงทุนในเทคโนโลยีนี้ได้” ดร. นายเหงียน คิม อันห์ ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ VinBigdata กล่าว

เพื่อให้ธุรกิจในเวียดนามสามารถเข้าถึงเทคโนโลยี AI รุ่นใหม่ที่มีต้นทุนและโครงสร้างพื้นฐานที่เหมาะสม VinBigdata จึงเลือกแนวทางที่แตกต่างไปอย่างสิ้นเชิง นั่นคือการสร้างแบบจำลองภาษาที่มีพารามิเตอร์เพียง 1.6 พันล้านตัว แต่มีความสามารถเทียบเท่ากับแบบจำลองภาษาขนาดใหญ่ที่มีพารามิเตอร์นับพันล้านตัว "ผลลัพธ์แสดงให้เห็นว่าด้วยสถาปัตยกรรมที่พัฒนาโดย VinBigdata เองนั้น เป็นไปได้อย่างสมบูรณ์ที่จะเพิ่มประสิทธิภาพและเร่งกระบวนการฝึกอบรมแบบจำลองภาษา ลดต้นทุนโครงสร้างพื้นฐาน (รวมถึงต้นทุนการฝึกอบรมและต้นทุนการใช้งาน) แต่ยังคงรับประกันคุณภาพของแบบจำลองได้" ดร. เหงียน คิม อันห์ กล่าวเสริม

หลังจากแก้ปัญหาขนาดโมเดลภาษาขนาดใหญ่ ในระหว่างกระบวนการ "คิด" ViGPT หลังจากศึกษาโมเดลต่างประเทศ ทีมงาน VinBigdata ยังได้ตระหนักถึงความท้าทายอีกประการหนึ่ง: "ภาพลวงตา" ที่มาจากธรรมชาติโดยธรรมชาติของโมเดลความน่าจะเป็นทางสถิติ

ด้วยเหตุนี้ โมเดลภาษาที่ใหญ่ที่สุดในโลกจึงมักได้รับการฝึกฝนโดยใช้แหล่งข้อมูลภาษาอังกฤษ ดังนั้นโมเดลนี้จึงไม่เข้าใจและตอบสนองต่อบริบทและวัฒนธรรมของชาวเวียดนามได้อย่างแท้จริง สิ่งนี้ทำให้เกิดภาพหลอนซึ่งทำให้โมเดลภาษาขนาดใหญ่ "สร้าง" คำตอบที่ไม่ถูกต้องขึ้นมา

เพื่อค้นหาโซลูชันที่ดีที่สุดในเวลาอันสั้นที่สุด ทีมประมวลผลภาษาธรรมชาติ (NLP) ของ VinBigdata ถูกแบ่งออกเป็นกลุ่มเล็กๆ เพื่อวิเคราะห์และหารือแนวคิดต่างๆ เพื่อค้นหาแนวทางสุดท้ายที่เหมาะสมที่สุด

“ท้ายที่สุด เราตัดสินใจพัฒนาสถาปัตยกรรมที่แตกต่างจากโมเดลภาษาขนาดใหญ่ในปัจจุบันส่วนใหญ่ และดำเนินการฝึกอบรมบนชุดข้อมูลภาษาเวียดนามที่ปรับแต่งอย่างละเอียดขนาด 600GB เพื่อสร้าง “ผู้ช่วยเสมือนอัจฉริยะ” ที่สามารถเข้าใจและให้คำตอบได้ตามบริบทของคนเวียดนาม” ดร.กล่าว เหงียน คิม อันห์ กล่าวเสริม

ความปรารถนาสำหรับระบบนิเวศเทคโนโลยีของเวียดนาม

ตามผลการประเมินจากมาตรฐานการประเมินความสามารถทางภาษาเวียดนาม (VMLU) ViGPT ได้คะแนนเฉลี่ย 42.24% เป็นรองเพียง ChatGPT (48.54%) ผลลัพธ์นี้ช่วยให้ ViGPT ค้นหาข้อมูลและตอบคำถามเกี่ยวกับหัวข้อเฉพาะที่เกี่ยวข้องกับเวียดนามได้อย่างรวดเร็ว

นอกเหนือจากความสามารถของผู้ช่วยเสมือนแล้ว สิ่งที่ทีมพัฒนาต้องการคือการผสานรวม ViGPT เข้ากับผลิตภัณฑ์ที่คุ้นเคยและใช้ในชีวิตประจำวัน เพื่อสร้างการเปลี่ยนแปลงในชีวิตของชาวเวียดนาม นั่นคือแรงจูงใจที่ผลักดันให้ทีมงาน VinBigdata สร้างระบบนิเวศของผลิตภัณฑ์ภาษาและเสียงโดยใช้ ViGPT - ระบบนิเวศ "Vi" ซึ่งรวมถึง: ViChat, ViVoice, ViVi Virtual Assistant ผลิตภัณฑ์เหล่านี้สามารถใช้ได้ในหลายอุตสาหกรรม ตั้งแต่อุตสาหกรรมยานยนต์ ธนาคาร การเงิน ประกันภัย การขนส่ง และอื่นๆ อีกมากมาย

“ในการทำเทคโนโลยี โดยเฉพาะ AI เราไม่เพียงแต่ต้องการพิชิตแค่ระบบที่น่าสนใจและซับซ้อนซึ่งยากต่อการมองเห็นเท่านั้น เราต้องการสร้างผลิตภัณฑ์ที่จับต้องได้และสามารถนำไปประยุกต์ใช้ได้สูง โดยที่ AI เป็นตัวแทนโดยตรงในการสร้างการเปลี่ยนแปลงในชีวิต" ผู้อำนวยการฝ่ายผลิตภัณฑ์ VinBigdata ยืนยัน

ดังนั้น การพัฒนา ViGPT ที่ประสบความสำเร็จจึงเป็นเพียงก้าวแรกในการเดินทางสู่การนำเทคโนโลยีและข้อมูล "ของเวียดนามแท้ๆ" มาให้บริการชีวิตความเป็นอยู่ของชาวเวียดนามหลายล้านคน ตัวแทน VinBigdata กล่าวว่าหน่วยงานนี้มีเป้าหมายที่จะบูรณาการ ViGPT เข้ากับแพลตฟอร์มปัญญาประดิษฐ์แบบมัลติค็อกนิทีฟ VinBase 2.0 เพื่อมอบโซลูชันที่โดดเด่นให้กับระบบองค์กรและธุรกิจในหลากหลายขนาดและหลายอุตสาหกรรม

ก่อนจะเปิดตัว ViGPT ทีมผู้เชี่ยวชาญและวิศวกรในด้านเทคโนโลยีการประมวลผลภาษาและเสียง VinBigdata ได้สร้างชื่อเสียงด้วยการเปิดตัว ViVi ซึ่งเป็นผู้ช่วยเสมือนภาษาเวียดนามครบวงจรตัวแรก (ประยุกต์ใช้งานบนรถยนต์ไฟฟ้า VinFast, แอปพลิเคชัน Vinhomes Resident และแพลตฟอร์มอีคอมเมิร์ซ Vinhomes Online) พร้อมกันนั้นยังเชี่ยวชาญเทคโนโลยีที่ก้าวหน้าที่สุดในโลกอย่าง Voice Biometrics หรือการโคลนเสียงอย่างครบวงจรอีกด้วย

เทคโนโลยีทั้งหมดนี้ได้รับการพัฒนาขึ้นบนฐานข้อมูลขนาด 3,500 เทราไบต์ โดยมุ่งเน้นไปที่ข้อมูลเฉพาะของเวียดนามเป็นหลัก ซึ่งรวบรวม วิเคราะห์ และปรับปรุงโดย VinBigdata เป้าหมายสูงสุดคือการนำเทคโนโลยีโลกมาสู่ชีวิตชาวเวียดนามโดยใช้ข้อมูลและระบบความรู้ของเวียดนาม

ViGPT คือ "ChatGPT เวอร์ชันภาษาเวียดนามเวอร์ชันแรก" สำหรับผู้ใช้ปลายทางที่สร้างขึ้นจากโมเดลภาษาเวียดนามขนาดใหญ่ (LLM) ที่พัฒนาโดย VinBigdata ViGPT มีคุณสมบัติที่โดดเด่นและได้รับการออกแบบมาให้เหมาะกับความต้องการของชาวเวียดนามมากที่สุด เช่น การสร้างเนื้อหา การค้นหาข้อมูล และการตอบคำถามทั่วไปที่เป็นเรื่องปกติของเวียดนาม ลงทะเบียนและสัมผัสกับ ViGPT ได้ที่: vigpt.vinbigdata.com

ทานฮา

แหล่งที่มา