โครงการวิจัยเพื่อเพิ่มความแม่นยำของโมเดลการจดจำเสียงพูดแบบเรียลไทม์ (Streaming Automatic Speech Recognition) โดย Le Duy Khanh วิศวกร “GenZ” ของ Zalo AI จะมีการประกาศเป็นครั้งแรกใน งานประชุมวิทยาศาสตร์นานาชาติที่จะจัดขึ้นในประเทศกรีซในเดือนกันยายน พ.ศ. 2567
งานวิจัยของวิศวกร AI ของ Zalo ซึ่งเกิดในปี 2000 ได้รับคะแนนเกือบเต็ม 11/12 คะแนน โดยผ่านรอบการตรวจสอบอันเข้มงวด โดยมี บทความ ที่ผู้เข้าร่วมกว่า 2,000 บทความที่จะนำเสนอในงาน Interspeech Conference ใน รูปแบบ ของเซสชันปากเปล่า โดยมีหัวข้อว่า "การปรับปรุงการจดจำคำพูดแบบสตรีมมิ่งด้วยการใส่ใจบริบทที่เลื่อนเวลาและ การ ปิดบังบริบทด้านขวาแบบไดนามิก"
“ ผมรู้สึกภาคภูมิใจเป็นอย่างยิ่งที่บทความทางวิทยาศาสตร์ชิ้นแรกของผมได้รับการยอมรับจากการประชุมทางวิทยาศาสตร์อันทรงเกียรติ และผมมีโอกาสได้แนะนำความสำเร็จด้านการวิจัยของเวียดนามให้กับบริษัทเทคโนโลยีขนาดใหญ่ ผู้เชี่ยวชาญ และชุมชนนานาชาติได้ รู้จัก” เล ดุย คานห์ กล่าว
ภายใต้การแนะนำของดร. Chau Thanh Duc หัวหน้าแผนกวิจัยและพัฒนาที่ Zalo AI อาจารย์ประจำมหาวิทยาลัยวิทยาศาสตร์ (มหาวิทยาลัยแห่งชาติโฮจิมินห์ซิตี้) คาดว่าโครงการวิจัยนี้จะมีส่วนสนับสนุนอย่างสำคัญในการยกระดับโมเดลการจดจำเสียงพูด เพิ่มความแม่นยำของการบอกด้วยเสียงและการแปลงเสียงเป็นข้อความบนแอปพลิเคชัน Zalo
“ การสังเคราะห์งานวิจัยเชิงปฏิบัติจริงของ Zalo AI ให้เป็นเอกสารทางวิทยาศาสตร์และนำเสนอในงานประชุมนานาชาติที่มีชื่อเสียงนั้นมีความสำคัญอย่างยิ่ง ไม่เพียงแต่แสดงให้เห็นถึงศักยภาพของวิศวกรชาวเวียดนามเท่านั้น แต่ยังแสดงให้เห็นถึงความปรารถนาที่จะแบ่งปันประสบการณ์และมีส่วนสนับสนุนการพัฒนาชุมชน AI ระดับโลกอีกด้วย” ดร. Chau Thanh Duc กล่าว
ก่อนหน้านี้ Zalo ได้บูรณาการการวิจัยนี้เข้ากับแอปพลิเคชันการส่งข้อความตั้งแต่ปลายปี 2023 ซึ่งช่วยเพิ่มความแม่นยำของฟีเจอร์ "การเรียบเรียงข้อความเสียง" อย่างมาก คุณสมบัตินี้ช่วยให้ผู้ใช้สามารถเขียนข้อความด้วยเสียงแทนการพิมพ์ ช่วยประหยัดเวลาและสะดวกสบายยิ่งขึ้นในสถานการณ์การใช้งานต่างๆ มากมาย ในเวลาเดียวกันความแม่นยำของฟีเจอร์นี้ยังสูงถึง 95% ในทางปฏิบัติ อัตราความจำเป็นในการแก้ไขข้อความใหม่หลังจากเรียบเรียงโดยใช้เสียงลดลงจาก 6.4% เหลือเพียง 4.8%
ตามสถิติของ Zalo แม้ว่าฟีเจอร์ดังกล่าวยังอยู่ในขั้นตอนการทดสอบ แต่ฟีเจอร์นี้ก็สามารถสร้างข้อความได้เกือบ 4.5 ล้านข้อความต่อวัน และดึงดูดผู้ใช้รายเดือนได้ประมาณ 3.2 ล้านราย (ข้อมูลอัปเดตจนถึงเดือนมิถุนายน 2024)
นับตั้งแต่เริ่มต้นการเดินทางบุกเบิกในการวิจัย AI ในปี 2017 Zalo เชื่อมั่นเสมอในการ "เสริมพลัง" ให้กับคนรุ่นใหม่ ปัจจุบันพนักงาน Zalo มากถึง 31% เป็นคนรุ่น GenZ ในปี 2021 หัวข้อการวิจัยอื่นๆ สองหัวข้อของทีมวิศวกรรม AI ของ Zalo ที่เกี่ยวข้องกับเทคโนโลยีการประมวลผลเสียงยังได้รับการยอมรับในงานประชุมนานาชาติเอเชียแปซิฟิกว่าด้วยปัญญาประดิษฐ์ (PRICAI 2021) อีกด้วย ที่น่าสังเกตคือผู้เขียนทั้งสองหัวข้อนี้ล้วนเป็นนักวิจัยรุ่นเยาว์ที่มีอายุต่ำกว่า 30 ปี
Interspeech เป็นการประชุมนานาชาติที่มีชื่อเสียง ครอบคลุม และมีมายาวนานในด้านการประมวลผลเสียงพูด ซึ่งจัดโดย International Speech Communication Association ปีนี้การประชุมที่มีหัวข้อว่า “ สุนทรพจน์ และอื่นๆ ” จะจัดขึ้นระหว่างวันที่ 1-5 กันยายน 2024 บนเกาะคอส (ประเทศกรีซ)
การแสดงความคิดเห็น (0)