การแปลโดยเครื่องเป็นหนึ่งในการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ที่ประสบความสำเร็จมากที่สุดในการประมวลผลภาษาธรรมชาติ ระบบแปลภาษาด้วยเครื่องคุณภาพสูง เช่น Google Translate หรือ Bing Translator ของ Microsoft จำเป็นต้องมีชุดข้อมูลสองภาษาขนาดใหญ่ ซึ่งประกอบด้วยคู่ประโยคจำนวนถึงหลายล้านคู่ เพื่อฝึกโมเดล
อย่างไรก็ตาม ภาษาหลายภาษาในโลกยังไม่มีทรัพยากรเพียงพอ ดังนั้น การสร้างแบบจำลองการแปลโดยเครื่องที่มีประสิทธิภาพสำหรับภาษาที่มีทรัพยากรน้อย รวมถึงภาษาในภูมิภาคเอเชียตะวันออกเฉียงใต้ จึงเป็นเรื่องเร่งด่วนและท้าทาย
เมื่อเร็วๆ นี้ สถาบันเทคโนโลยีสารสนเทศ (สถาบันวิทยาศาสตร์และเทคโนโลยีเวียดนาม) ได้ทำการวิจัยและเชี่ยวชาญเทคโนโลยีการแปลด้วยเครื่องจักรที่ล้ำหน้าที่สุดในปัจจุบัน นอกจากนี้หน่วยงานนี้ยังประสบความสำเร็จในการสร้างระบบแปลข้อความหลายภาษาระหว่างภาษาเวียดนามและภาษาในภูมิภาคต่างๆ เช่น ลาว เขมร ไทย มาเลเซีย และอินโดนีเซียอีกด้วย
ตามที่นักพัฒนาได้กล่าวไว้ ภาษาเช่นลาว ไทย และเขมร ก่อให้เกิดความท้าทายครั้งใหญ่เมื่อสร้างโมเดลการแปลโดยเครื่อง ความยากลำบากเกิดขึ้นไม่เพียงแต่จากความขาดแคลนข้อมูลสองภาษาเท่านั้น แต่ยังเป็นเพราะภาษาเหล่านี้มีสัณฐานวิทยาที่หลากหลาย ขาดการแบ่งคำ การแบ่งประโยค และความหมายหลายความหมาย
โมเดล AI ที่พัฒนาโดยสถาบันเทคโนโลยีสารสนเทศได้ "เรียนรู้" วิธี "ปรับตัว" ให้เข้ากับคุณสมบัติพิเศษทั้งหมดของภาษาข้างต้น จากนั้นซอฟต์แวร์จะช่วยให้สามารถเพิ่มภาษาอื่นๆ ได้อย่างรวดเร็วเมื่อจำเป็น โดยมีคุณภาพการแปลเทียบเท่าผลิตภัณฑ์ต่างประเทศขั้นสูง
สิ่งที่พิเศษคือซอฟต์แวร์แปลภาษาหลายภาษาทำงานแยกกัน จัดเก็บข้อมูลในเครื่อง และไม่จำเป็นต้องใช้ API ของผู้ให้บริการรายอื่น ซึ่งช่วยให้มั่นใจถึงความปลอดภัย ความปลอดภัย และไม่มีการรั่วไหลของข้อมูล
ปัญหาประการหนึ่งของระบบแปลเช่น Google Translate หรือ Bing Translator ก็คือความสามารถในการปรับเปลี่ยนเฉพาะโดเมน นั่นคือ สามารถแปลได้ดีสำหรับโดเมนภาษาที่นิยมทั่วไปที่ให้บริการแก่สาธารณชน แต่คุณภาพการแปลจะต่ำสำหรับโดเมนภาษาเฉพาะ เช่น การแพทย์ กฎหมาย ความปลอดภัย ฯลฯ
เพื่อแก้ไขข้อบกพร่องดังกล่าวข้างต้น ทีมวิจัยของสถาบันเทคโนโลยีสารสนเทศได้พัฒนาระบบการแปลที่เน้นภาษาเวียดนาม ซึ่งสามารถแปลสองทางเป็นภาษาที่มีทรัพยากรน้อยและมีคุณภาพดี
โดยเฉพาะอย่างยิ่งซอฟต์แวร์นี้มีคุณภาพเท่ากันหรือสูงกว่า Google Translate สำหรับข้อความเดียวกัน นอกจากนี้ซอฟต์แวร์ไม่ได้จำกัดความยาวของข้อความ
ในช่วงปี พ.ศ. 2565-2566 ระบบจะมุ่งเน้นการใช้เทคนิค Large Language Models (LLMs) โดยให้ความสำคัญกับคู่ภาษาต่อไปนี้: ภาษาเวียดนาม - เขมร, ภาษาเวียดนาม - ลาว, ภาษาเวียดนาม - ไทย, ภาษาเวียดนาม - มาเลย์ และภาษาเวียดนาม - อินโดนีเซีย
ด้วยภาษาอังกฤษ (แหล่งข้อมูลที่มีอยู่มากมายและเป็นจุดแข็งสำคัญของ Google) ซอฟต์แวร์ของสถาบันเทคโนโลยีสารสนเทศจึงรับประกันคุณภาพได้เกือบเทียบเท่า Google Translate โดยเฉพาะอย่างยิ่งระบบมีศักยภาพในการปรับแต่งให้เหมาะกับโดเมนภาษาเฉพาะ เช่น การแพทย์ กฎหมาย ฯลฯ ตามความต้องการเฉพาะของคู่ค้า
ระบบนี้ได้รับการพัฒนาขึ้นโดยทีมวิจัยโดยใช้โครงสร้างพื้นฐานทางเทคนิคที่รองรับการจัดเก็บข้อมูลภาษาขนาดใหญ่และศักยภาพซูเปอร์คอมพิวเตอร์ปัญญาประดิษฐ์/การเรียนรู้ของเครื่องจักร (AI/ML) ที่แข็งแกร่งที่สุดในเวียดนาม
สถาบันเทคโนโลยีสารสนเทศมีความชำนาญด้านเทคโนโลยีที่เกี่ยวข้องอย่างครบวงจร ดังนั้นหน่วยนี้จึงสามารถขยายการใช้งานไปยังภาษาเป้าหมายใหม่ๆ ได้อย่างง่ายดาย รวมถึงภาษาชนกลุ่มน้อยในเวียดนาม (ซึ่งมักมีทรัพยากรข้อมูลน้อยมาก) เช่น ภาษาม้ง ไทย ฯลฯ และภาษาต่างประเทศยอดนิยม เช่น จีน ฝรั่งเศส รัสเซีย ฯลฯ เมื่อจำเป็น
ซอฟต์แวร์แปลภาษาหลายภาษา Made in Vietnam นี้คาดว่าจะเป็นโซลูชันสำหรับปัญหาการเข้าถึงข้อมูลของชนกลุ่มน้อย
แหล่งที่มา
การแสดงความคิดเห็น (0)