AI Vietnam แปลภาษาลาว ไทย เขมร... เป็นภาษาเวียดนาม

การแปลโดยเครื่องเป็นหนึ่งในการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ที่ประสบความสำเร็จมากที่สุดในการประมวลผลภาษาธรรมชาติ ระบบแปลภาษาด้วยเครื่องคุณภาพสูง เช่น Google Translate หรือ Bing Translator ของ Microsoft จำเป็นต้องมีชุดข้อมูลสองภาษาขนาดใหญ่ ซึ่งประกอบด้วยคู่ประโยคจำนวนถึงหลายล้านคู่ เพื่อฝึกโมเดล

อย่างไรก็ตาม ภาษาหลายภาษาในโลกยังไม่มีทรัพยากรเพียงพอ ดังนั้น การสร้างแบบจำลองการแปลโดยเครื่องที่มีประสิทธิภาพสำหรับภาษาที่มีทรัพยากรน้อย รวมถึงภาษาในภูมิภาคเอเชียตะวันออกเฉียงใต้ จึงเป็นเรื่องเร่งด่วนและท้าทาย

เมื่อเร็วๆ นี้ สถาบันเทคโนโลยีสารสนเทศ (สถาบันวิทยาศาสตร์และเทคโนโลยีเวียดนาม) ได้ทำการวิจัยและเชี่ยวชาญเทคโนโลยีการแปลด้วยเครื่องจักรที่ล้ำหน้าที่สุดในปัจจุบัน นอกจากนี้หน่วยงานนี้ยังประสบความสำเร็จในการสร้างระบบแปลข้อความหลายภาษาระหว่างภาษาเวียดนามและภาษาในภูมิภาคต่างๆ เช่น ลาว เขมร ไทย มาเลเซีย และอินโดนีเซียอีกด้วย

ตามที่นักพัฒนาได้กล่าวไว้ ภาษาเช่นลาว ไทย และเขมร ก่อให้เกิดความท้าทายครั้งใหญ่เมื่อสร้างโมเดลการแปลโดยเครื่อง ความยากลำบากเกิดขึ้นไม่เพียงแต่จากความขาดแคลนข้อมูลสองภาษาเท่านั้น แต่ยังเป็นเพราะภาษาเหล่านี้มีสัณฐานวิทยาที่หลากหลาย ขาดการแบ่งคำ การแบ่งประโยค และความหมายหลายความหมาย

โมเดล AI ที่พัฒนาโดยสถาบันเทคโนโลยีสารสนเทศได้ "เรียนรู้" วิธี "ปรับตัว" ให้เข้ากับคุณสมบัติพิเศษทั้งหมดของภาษาข้างต้น จากนั้นซอฟต์แวร์จะช่วยให้สามารถเพิ่มภาษาอื่นๆ ได้อย่างรวดเร็วเมื่อจำเป็น โดยมีคุณภาพการแปลเทียบเท่าผลิตภัณฑ์ต่างประเทศขั้นสูง

สิ่งที่พิเศษคือซอฟต์แวร์แปลภาษาหลายภาษาทำงานแยกกัน จัดเก็บข้อมูลในเครื่อง และไม่จำเป็นต้องใช้ API ของผู้ให้บริการรายอื่น ซึ่งช่วยให้มั่นใจถึงความปลอดภัย ความปลอดภัย และไม่มีการรั่วไหลของข้อมูล

ภาพประกอบ-เวียง-ฮัน-ลัม-ไอ-ทรี-ตือ-หนาน-เต่า-1.jpg — ผลิตภัณฑ์ทางวิทยาศาสตร์และเทคโนโลยีบางส่วนของสถาบันวิทยาศาสตร์และเทคโนโลยีเวียดนามจัดแสดงในงาน Vietnam International Innovation Exhibition 2023 ภาพโดย: Trong Dat

ปัญหาประการหนึ่งของระบบแปลเช่น Google Translate หรือ Bing Translator ก็คือความสามารถในการปรับเปลี่ยนเฉพาะโดเมน นั่นคือ สามารถแปลได้ดีสำหรับโดเมนภาษาที่นิยมทั่วไปที่ให้บริการแก่สาธารณชน แต่คุณภาพการแปลจะต่ำสำหรับโดเมนภาษาเฉพาะ เช่น การแพทย์ กฎหมาย ความปลอดภัย ฯลฯ

เพื่อแก้ไขข้อบกพร่องดังกล่าวข้างต้น ทีมวิจัยของสถาบันเทคโนโลยีสารสนเทศได้พัฒนาระบบการแปลที่เน้นภาษาเวียดนาม ซึ่งสามารถแปลสองทางเป็นภาษาที่มีทรัพยากรน้อยและมีคุณภาพดี

โดยเฉพาะอย่างยิ่งซอฟต์แวร์นี้มีคุณภาพเท่ากันหรือสูงกว่า Google Translate สำหรับข้อความเดียวกัน นอกจากนี้ซอฟต์แวร์ไม่ได้จำกัดความยาวของข้อความ

ในช่วงปี พ.ศ. 2565-2566 ระบบจะมุ่งเน้นการใช้เทคนิค Large Language Models (LLMs) โดยให้ความสำคัญกับคู่ภาษาต่อไปนี้: ภาษาเวียดนาม - เขมร, ภาษาเวียดนาม - ลาว, ภาษาเวียดนาม - ไทย, ภาษาเวียดนาม - มาเลย์ และภาษาเวียดนาม - อินโดนีเซีย

ด้วยภาษาอังกฤษ (แหล่งข้อมูลที่มีอยู่มากมายและเป็นจุดแข็งสำคัญของ Google) ซอฟต์แวร์ของสถาบันเทคโนโลยีสารสนเทศจึงรับประกันคุณภาพได้เกือบเทียบเท่า Google Translate โดยเฉพาะอย่างยิ่งระบบมีศักยภาพในการปรับแต่งให้เหมาะกับโดเมนภาษาเฉพาะ เช่น การแพทย์ กฎหมาย ฯลฯ ตามความต้องการเฉพาะของคู่ค้า

ระบบนี้ได้รับการพัฒนาขึ้นโดยทีมวิจัยโดยใช้โครงสร้างพื้นฐานทางเทคนิคที่รองรับการจัดเก็บข้อมูลภาษาขนาดใหญ่และศักยภาพซูเปอร์คอมพิวเตอร์ปัญญาประดิษฐ์/การเรียนรู้ของเครื่องจักร (AI/ML) ที่แข็งแกร่งที่สุดในเวียดนาม

สถาบันเทคโนโลยีสารสนเทศมีความชำนาญด้านเทคโนโลยีที่เกี่ยวข้องอย่างครบวงจร ดังนั้นหน่วยนี้จึงสามารถขยายการใช้งานไปยังภาษาเป้าหมายใหม่ๆ ได้อย่างง่ายดาย รวมถึงภาษาชนกลุ่มน้อยในเวียดนาม (ซึ่งมักมีทรัพยากรข้อมูลน้อยมาก) เช่น ภาษาม้ง ไทย ฯลฯ และภาษาต่างประเทศยอดนิยม เช่น จีน ฝรั่งเศส รัสเซีย ฯลฯ เมื่อจำเป็น

ซอฟต์แวร์แปลภาษาหลายภาษา Made in Vietnam นี้คาดว่าจะเป็นโซลูชันสำหรับปัญหาการเข้าถึงข้อมูลของชนกลุ่มน้อย

ตลาดปัญญาประดิษฐ์ของเวียดนามมีมูลค่า 100 ล้านเหรียญ สหรัฐ ปัจจุบันเทคโนโลยีปัญญาประดิษฐ์ถูกนำไปใช้ในบริการดูแลลูกค้าโดยเฉพาะในระบบธนาคารและในเร็วๆ นี้จะเป็นในระบบประกันภัย

แหล่งที่มา