Công trình nghiên cứu giúp tăng độ chính xác của các mô hình nhận dạng tiếng nói trong thời gian thực (Streaming Automatic Speech Recognition) của Lê Duy Khánh – kỹ sư “GenZ” của Zalo AI – sẽ lần đầu được công bố tại Hội nghị khoa học quốc tế, diễn ra tại Hy Lạp vào tháng 9/2024 tới đây.
Với đề tài “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking (Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động)”, bài nghiên cứu của chàng kỹ sư Zalo AI sinh năm 2000 đã đạt điểm số gần như tuyệt đối – 11/12 điểm, vượt qua vòng xét duyệt khắt khe với hơn 2.000 bài báo tham dự để được trình bày tại Hội nghị Interspeech dưới hình thức thuyết trình (oral session).
“Tôi rất tự hào khi bài báo khoa học đầu tay được công nhận bởi hội nghị khoa học uy tín và có cơ hội giới thiệu thành quả nghiên cứu của Việt Nam đến các big-tech, chuyên gia và cộng đồng quốc tế”, Lê Duy Khánh chia sẻ.
Dưới sự hướng dẫn của TS Châu Thành Đức – Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên (ĐH Quốc gia TP.HCM), công trình nghiên cứu này được kỳ vọng sẽ đóng góp quan trọng vào việc nâng cấp các mô hình nhận dạng tiếng nói, tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.
“Việc tổng hợp các nghiên cứu có giá trị thực tiễn cao của Zalo AI thành bài báo khoa học và giới thiệu tại các hội nghị quốc tế uy tín có ý nghĩa rất lớn. Nó không chỉ chứng minh năng lực của kỹ sư Việt Nam, mà còn thể hiện mong muốn chia sẻ kinh nghiệm và đóng góp vào sự phát triển của cộng đồng AI toàn cầu”, TS. Châu Thành Đức cho biết.
Trước đó, Zalo đã tích hợp nghiên cứu này vào ứng dụng nhắn tin của mình từ cuối năm 2023, giúp cải thiện đáng kể độ chính xác của tính năng “soạn tin nhắn bằng giọng nói”. Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Đồng thời, độ chính xác của tính năng này đã đạt tới 95% trong thực tế; tỷ lệ cần chỉnh sửa lại văn bản sau khi soạn bằng giọng nói giảm từ 6,4% xuống chỉ còn 4,8%.
Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm nhưng đã tạo ra gần 4,5 triệu tin nhắn mỗi ngày và thu hút khoảng 3,2 triệu người dùng hàng tháng (dữ liệu cập nhật đến tháng 6/2024).
Kể từ khi bắt đầu hành trình tiên phong trong nghiên cứu AI vào năm 2017, Zalo luôn tin tưởng “trao quyền” cho thế hệ trẻ. Hiện tại, có đến 31% nhân sự Zalo thuộc thế hệ GenZ. Năm 2021, hai đề tài nghiên cứu khác của nhóm kỹ sư Zalo AI liên quan đến công nghệ xử lý tiếng nói cũng đã được công nhận tại Hội nghị Châu Á – Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI 2021). Đáng chú ý, các tác giả của hai đề tài này đều là những nhà nghiên cứu trẻ với độ tuổi chưa đến 30.
Interspeech là một hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức. Năm nay, hội thảo với chủ đề “Speech and beyond (Tiếng nói và hơn thế nữa)” diễn ra từ ngày 1- 5/9/2024 tại đảo Kos (Hy Lạp).
Nguồn: https://www.vng.com.vn/news/people/ky-su-genz-cua-zalo-ai-gioi-thieu-nghien-cuu-tai-hoi-nghi-khoa-hoc-hang-dau-the-gioi.html