Trang chủKhoa học - Công nghệCông nghệ sốTrí tuệ nhân tạo bước vào thế giới ngôn ngữ tiếng Việt

Trí tuệ nhân tạo bước vào thế giới ngôn ngữ tiếng Việt


Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo còn giúp các hệ thống hỗ trợ lý trí thông minh ngôn ngữ tốt hơn.

Kết hợp AI “dạy” tiếng Việt  

Lãnh đạo của một doanh nghiệp có vốn đầu tư trực tiếp nước ngoài (FDI) tại Việt Nam mong muốn học tiếng Việt nhanh, đọc được 90% nội dung của các văn bản thông thường. Vấn đề là, ông ấy quá bận rộn và chỉ có khoảng thời gian 1 tiếng (từ 12-13h mỗi ngày) để học. Vì vậy, cần áp dụng công nghệ vào phần mềm học ngôn ngữ sao để giúp ông ngoại ngữ nhanh? 

Trên đây là bài toán của vị trí lãnh đạo công ty FDI đặt ra với PGS.TS Đinh Điền, Giám đốc Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia TP.HCM. 

Là người có nhiều đề tài nghiên cứu khoa học và công trình công bố quốc tế về ứng dụng trí tuệ nhân tạo (AI) trong dịch máy, ngôn ngữ học phản bác và dạy tiếng Việt cho người nước ngoài, PGS Điền cho rằng, ứng dụng AI rất cần thiết để giải quyết các vấn đề trong ngôn ngữ học.  

Cụ thể, bước đầu tiên của việc học bất kỳ ngôn ngữ nào là dạy ngôn ngữ âm thanh. Rào cản ở đây là tiếng Việt có thanh điệu, có điệu, khi dạy cho những người học thuộc hệ ngôn ngữ không có thanh điệu như người Anh, người Pháp… sẽ rất khó. Đơn cử, thay vì hỏi: “Bạn đi ngủ chưa?” thì người học sẽ nói “Bạn đi ngu chưa?”, bởi họ không phân biệt được thanh điệu. Cần dạy họ đặt trò chơi ở đâu khi phát âm, khẩu hình ngậm ra sao, phát âm ra đúng hay sai khác nhau như thế nào.  

Lúc này, phần mềm ứng dụng AI trong dạy ngoại ngữ có thể mô phỏng khẩu hình đánh răng, phát âm thanh sẵn để người học bắt chước. Sau đó, người học tập phát lại âm thanh, thu vào phần mềm, sử dụng công nghệ đối chiếu giữa phát âm của người học và phát âm chuẩn từ phần mềm, cải thiện khả năng phát âm nhanh. Tất cả các công đoạn trên đều bắt buộc phải ứng dụng AI.  

Một dẫn chứng khác, theo Từ điển tiếng Việt của Viện Ngôn ngữ học do cố Giáo sư Hoàng Phê chủ biên, vốn từ gốc tiếng Việt có khoảng 34.000 từ, tính toán cho thấy, cần dạy khoảng 10% lượng từ cho máy, tương đương với 3.400 từ thông tin ứng dụng, là máy có thể đọc được khoảng 90% văn bản tiếng Việt thông thường. Để có được bảng thống kê dữ liệu này, PGS Điền buộc phải sử dụng AI, gắn nhãn lên hệ thống từ vựng trong kho ngữ liệu tiếng Việt . 

Có thể nói, AI đã thay đổi cách dạy – học của ngành giáo dục. Thực tế, rất nhiều ứng dụng trí tuệ nhân tạo đã ra đời nhằm hỗ trợ quá trình dạy – học trở nên nhanh chóng, hiệu quả hơn.  

Câu chuyện kết hợp giữa khoa học máy tính và ngôn ngữ học khá thú vị trên cho thấy, quá trình đào tạo, ứng dụng AI vào thực tế là rất cần thiết, song không dễ dàng. Các dữ liệu cần được phân tách theo nhiều lớp định danh, ở mỗi lớp sẽ phải xử lý từng biến số với các định danh cụ thể khác nhau nữa. 

Khi máy móc học ngôn ngữ…  

Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo còn giúp các hệ thống hỗ trợ lý trí thông minh ngôn ngữ tốt hơn. Máy móc được huấn luyện và tiến bộ mỗi ngày.  

Tương tự câu chuyện của PGS Điền, dưới đây lại là dẫn chứng sinh động khác về cách mà một trợ lý thông minh hiểu ngôn ngữ con người.

Đó là quá trình nghiên cứu và phát triển trợ lý giọng nói tiếng Việt Kiki trên ô tô, để nhận dạng tốt giọng nói với nhiều ngữ điệu vùng miền khác nhau. Trong khoa học máy tính, nhận dạng giọng nói là một nhánh quan trọng của trí tuệ nhân tạo (AI), chuyển đổi giọng nói con người thành một định dạng hữu ích và có thể hiểu được bằng các ứng dụng máy tính. Công nghệ này là cầu nối tương tác giữa máy móc và con người. Trợ lý giọng nói đã trở thành ứng dụng không thể thiếu trên toàn thế giới. Phổ biến nhất có thể kể đến như: Siri của Apple, Google Assistant, Amazon Alexa, hay Kiki ở Việt Nam.

Anh Nguyễn Hoàng Khánh Duy, người viết những dòng code đầu tiên cho Kiki chia sẻ, để huấn luyện mô hình AI đủ thông minh khi nhận diện giọng nói, phản hồi thông tin đúng cho người dùng, thì dữ liệu ngôn ngữ đóng vai trò chủ chốt. 

Dẫn chứng, chức năng rất quan trọng với người dùng trợ lý tiếng Việt Kiki trên ôtô là dẫn đường. Do đó, đội ngũ phát triển sản phẩm phải chuẩn bị dữ liệu, vốn từ vựng để hỗ trợ “mượt” cho các câu lệnh từ người dùng. Sau quá trình thu thập dữ liệu, huấn luyện mô hình, chỉ số thể hiện chất lượng nhận diện giọng nói ở phiên bản sau đã cải thiện 40% so với ban đầu.

Việc nhận diện giọng nói trên xe ô tô không chỉ dừng lại ở mỗi bài toán về dẫn đường, địa điểm mà còn nhiều vấn đề khác. 

Ví dụ, đặc thù sử dụng Kiki trên xe ô tô thì tiếng ồn do động cơ, gió hay tiếng phát ra từ các thiết bị giao thông trên đường cũng rất lớn, điều này ảnh hưởng trực tiếp tới chất lượng nhận diện giọng nói của Kiki trên xe. Do đó, yêu cầu đội ngũ Kiki phải cố gắng giải quyết điều kiện ồn ào bằng cách tăng cường dữ liệu bằng cách nói trong điều kiện ồn ào sao cho phù hợp với cuộc sống thực tế nhất.  

Ngoài ra, bằng các kỹ thuật mới trên thế giới như self-supervised (học tự giám sát), Kiki đang cố gắng “học” từ cả những dữ liệu không được gán nhãn, để cải thiện mô hình tốt hơn nữa. Tính ổn định của trợ lý giọng nói tiếng Việt này đang cải thiện với việc không ngừng đào tạo, nâng cấp sản phẩm.

Rõ ràng, tiến bộ của công nghệ đang diễn ra hàng ngày, hàng giờ. ChatGPT ra đời cuối năm 2022 đã trả lời một phần cho câu hỏi về cách dữ liệu lớn vận hành. Công nghệ đang “bước” vào giữa đời sống, đặc biệt, trong giáo dục, ngôn ngữ, những lĩnh vực vốn phụ thuộc nhiều vào con người trước đây. AI tái định nghĩa cách chúng ta học tập, làm việc, sinh hoạt… như những ví dụ cụ thể nêu trên.



Nguồn

Cùng chủ đề

Thử thách Tiếng Việt: ‘Bạc mạng’ hay ‘bạt mạng’?

Ngôn ngữ Tiếng Việt đa dạng và phong phú, khiến nhiều người bối rối giữa những cụm từ có nghĩa tương đồng hoặc phát âm giống nhau. Bạc mạng - bạt mạng là một trong những cặp từ thường gây nhầm lẫn.Trong Tiếng Việt, đây là một tính từ, mang ý nghĩa liều lĩnh, hành động thiếu suy nghĩ, bất chấp tính mạng. Vậy theo bạn đâu mới là từ đúng? Hãy để lại câu trả lời vào box...

‘Ngang tàng’ hay ‘ngang tàn’ mới đúng chính tả?

Nhiều người trong chúng ta không ít lần đọc, viết sai chính tả Tiếng Việt hoặc loay hoay không biết từ nào mới đúng chính tả. Ngang tàng - ngang tàn là một trong số cụm từ như vậy.Trong Tiếng Việt, đây là một tính từ, mang ý nghĩa ngông nghênh, hiên ngang, không nể sợ, không chịu khuất phục. Từ này đồng nghĩa với cứng đầu, cứng rắn, bất khuất.Vậy theo bạn đâu mới là từ đúng?...

Trung Quốc dạy về AI cho học sinh ngay từ tiểu học và trung học

Trung Quốc thúc đẩy giáo dục trí tuệ nhân tạo (AI) ở cấp tiểu học và trung học giữa bối cảnh "chiến tranh công nghệ" diễn biến phức tạp và nhu cầu nhân tài AI tăng cao. Trung Quốc đang kêu gọi các trường...

‘Giàn hàng’ hay ‘dàn hàng’ mới đúng chính tả?

Nhiều người trong chúng ta không ít lần đọc, viết sai chính tả Tiếng Việt hoặc loay hoay không biết từ nào mới đúng chính tả. Giàn hàng - dàn hàng là một trong số cụm từ như vậy.Trong Tiếng Việt, đây động từ dùng để diễn tả hoạt động sắp xếp hoặc đứng thành hàng ngang, thường là để tạo sự đồng đều, thẳng hàng trong một tập thể.Vậy theo bạn đâu mới là từ đúng? Hãy...

Nổi bật

Mới nhất

Cùng tác giả

Đề nghị doanh nghiệp hàng không, quốc phòng Mỹ hợp tác chuyển giao công nghệ

Chiều 18/12, Thủ tướng Phạm Minh Chính tiếp đoàn doanh nghiệp ngành hàng không vũ trụ, quốc phòng, an ninh của Hội đồng Kinh doanh Mỹ - ASEAN (USABC) tham dự Triển lãm Quốc phòng quốc tế lần thứ 2. Tham gia đoàn có đại diện các doanh nghiệp Boeing, Lockheed Martin, Bell Textron, A2G (Air to Ground), AeroVironment, Atmo, Blue Halo, IMSG... Thủ tướng Phạm Minh Chính đánh giá cao đoàn tham gia triển lãm. Quan hệ Đối tác Chiến...

Dự báo thời tiết 19/12/2024: Miền Bắc sáng sớm trời rét, trưa nắng hanh

Dự báo thời tiết 19/12/2024, miền Bắc tiếp tục chìm trong giá rét, vùng núi có nơi rét đậm, rét hại vào đêm. Sáng sớm có sương mù nhẹ, ban ngày trời nắng hanh. Không khí lạnh vẫn tiếp tục bao trùm miền Bắc, mang theo cái rét đặc trưng của mùa đông. So với ngày 18/12, nhiệt độ ngày 19/12 không có nhiều biến động. Thủ đô chìm trong màn sương mờ vào buổi sáng sớm, một khung cảnh quen...

Người trúng đấu giá biển ô tô 30L- 999.99 nộp đủ 12,105 tỷ đồng

Đại diện Cục CSGT (Bộ Công an) cho biết, khách hàng trúng đấu giá biển số ô tô 30L- 999.99 vào ngày 4/12 vừa qua đã nộp đủ số tiền 12,105 tỷ đồng Tối 18/12, trao đổi với PV VietNamNet, đại diện Cục CSGT (Bộ Công an) cho biết, người trúng đấu giá biển số ô tô 30L-999.99 đã hoàn thành nghĩa vụ tài chính. Cụ thể, trong phiên đấu giá vào hồi 10h ngày 4/12, một khách hàng đã trúng...

Tài xế ô tô đấm người túi bụi ở trung tâm TPHCM bị bắt tạm giam 2 tháng

Tài xế ô tô đấm người túi bụi trước cổng Bệnh viện Từ Dũ (TPHCM) bị cơ quan công an khởi tố về tội “Cố ý gây thương tích” và tạm giam 2 tháng. XEM CLIP: Cơ quan CSĐT Công an quận 1, TPHCM vừa tống đạt các quyết định khởi tố vụ án, khởi tố bị can và thi hành lệnh bắt tạm giam 2 tháng đối với Quách Minh Nhựt (33 tuổi, ngụ quận 6) về tội “Cố ý...

Kiểm tra kho chứa 27.000 mỹ phẩm Trung Quốc không có chứng từ ở Bắc Giang

Lực lượng chức năng kiểm tra, phát hiện kho mỹ phẩm lớn trên địa bàn TP Bắc Giang bày bán hơn 27 nghìn đơn vị sản phẩm không có giấy tờ, hóa đơn hợp pháp. Ngày 18/12, Đội Quản lý thị trường số 1 phối hợp với Phòng Nghiệp vụ - Tổng hợp (Cục Quản lý thị trường tỉnh Bắc Giang), Đội Cảnh sát kinh tế (Công an TP Bắc Giang) kiểm tra kho hàng của hộ kinh doanh Lan...

Bài đọc nhiều

Hướng dẫn đăng nhập Facebook Lite trên iOS, Android đơn giản nhất

Facebook Lite là ứng dụng phiên bản nhẹ, được thiết kế dành riêng cho thiết bị cấu hình thấp. Bài viết dưới đây sẽ hướng dẫn bạn chi tiết các bước đăng nhập Facebook Lite trên nền tảng iOS và Android một cách đơn giản nhất.

iPhone 17 Air sẽ có nhiều điểm mới

Một báo cáo từ The Information cho rằng, Apple sẽ phát hành mẫu iPhone siêu mỏng với tên gọi iPhone 17 Air vào năm 2025 để thay thế iPhone 17 Plus với màn hình 6,6 inch, được nâng cấp lên công nghệ ProMotion, tần số quét 120Hz (cao gấp đôi iPhone 16 Plus), đem lại trải nghiệm chơi game và xem phim tốt hơn. Theo các nguồn tin rò rỉ, thế hệ iPhone 17 ra mắt tháng 9/2025 sẽ có nhiều...

Hai tuyến cáp quang biển gặp sự cố, Internet Việt Nam đi quốc tế bị ảnh hưởng

Hai trên năm tuyến cáp quang biển nối Việt Nam đi quốc tế đang gặp sự cố, điều này đã làm ảnh hưởng đáng kể đến tốc độ mạng Internet của người dùng Việt.

Cùng chuyên mục

BIDV triển khai dịch vụ xác thực khách hàng điện tử qua VNeID trên SmartBanking

Sự phối hợp chặt chẽ giữa BIDV và Bộ Công an là minh chứng sống động cho mục tiêu đưa dữ liệu dân cư vào cuộc sống, là bước tiến lớn, không chỉ nâng cao hiệu quả quản lý mà còn góp phần thúc đẩy chuyển đổi số quốc gia.

Vai trò của lãnh đạo và văn hóa số quyết định sự thành công của chuyển đổi số

Ông Lê Doãn Hợp, nguyên Bộ trưởng Bộ Thông tin và Truyền thông cho rằng, sự quyết tâm và dẫn dắt từ các cấp lãnh đạo là yếu tố tiên quyết trong chuyển đổi số. Toàn cảnh Hội thảo "Định hướng chuyển đổi số của Liên hiệp Hội Việt Nam đến 2025, tầm nhìn 2030". (Ảnh: Lê Hồng) ...

Mới nhất

Thắt chặt tình thân và quan hệ đặc biệt giữa Phụ nữ hai nước Việt Nam

(ĐCSVN) - Từ ngày 16 - 18/12, bà Vũ Thị Bích Ngọc, Phu nhân Phó Thủ tướng, Bộ trưởng Ngoại giao Việt Nam Bùi Thanh Sơn, Chủ tịch danh dự Nhóm phụ nữ Cộng đồng ASEAN tại Hà Nội, đã dẫn đầu đoàn cán bộ nữ Bộ Ngoại giao Việt Nam tham gia chương trình trao đổi, giao lưu...

“Vén màn” thủ đoạn bảo kê

(NLĐO) - Phiên tòa đã làm sáng tỏ thủ đoạn của các cán bộ thuế trong việc dung túng và che giấu hoạt động phi pháp của...

Ông Khuất Việt Hùng làm Chủ tịch Hội đồng thành viên Hanoi Metro

Theo đó, từ ngày 18/12, Hà Nội tiếp nhận và bổ nhiệm ông Khuất Việt Hùng - Bí thư Đảng ủy, Viện trưởng Viện Chiến lược và Phát triển giao thông vận tải (Bộ GTVT) đến nhận công tác tại Công ty TNHH Một thành viên Đường sắt Hà Nội (Hanoi Metro), giữ chức vụ Chủ tịch Hội đồng...

Thủ tướng Phạm Minh Chính thăm Học viện Kỹ thuật quân sự

(ĐCSVN) - Chiều 18/12, nhân dịp kỷ niệm 80 năm Ngày thành lập Quân đội nhân dân Việt Nam, 35 năm Ngày Hội quốc phòng toàn dân, Thủ tướng Phạm Minh Chính đã tới thăm Học viện Kỹ thuật quân sự (Bộ Quốc phòng). Cùng dự có lãnh đạo Bộ Quốc phòng, các bộ, ngành, cán bộ, giảng viên,...

Mới nhất