Trang chủKhoa học - Công nghệCông nghệ sốTrí tuệ nhân tạo bước vào thế giới ngôn ngữ tiếng Việt

Trí tuệ nhân tạo bước vào thế giới ngôn ngữ tiếng Việt


Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo còn giúp các hệ thống hỗ trợ lý trí thông minh ngôn ngữ tốt hơn.

Kết hợp AI “dạy” tiếng Việt  

Lãnh đạo của một doanh nghiệp có vốn đầu tư trực tiếp nước ngoài (FDI) tại Việt Nam mong muốn học tiếng Việt nhanh, đọc được 90% nội dung của các văn bản thông thường. Vấn đề là, ông ấy quá bận rộn và chỉ có khoảng thời gian 1 tiếng (từ 12-13h mỗi ngày) để học. Vì vậy, cần áp dụng công nghệ vào phần mềm học ngôn ngữ sao để giúp ông ngoại ngữ nhanh? 

Trên đây là bài toán của vị trí lãnh đạo công ty FDI đặt ra với PGS.TS Đinh Điền, Giám đốc Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia TP.HCM. 

Là người có nhiều đề tài nghiên cứu khoa học và công trình công bố quốc tế về ứng dụng trí tuệ nhân tạo (AI) trong dịch máy, ngôn ngữ học phản bác và dạy tiếng Việt cho người nước ngoài, PGS Điền cho rằng, ứng dụng AI rất cần thiết để giải quyết các vấn đề trong ngôn ngữ học.  

Cụ thể, bước đầu tiên của việc học bất kỳ ngôn ngữ nào là dạy ngôn ngữ âm thanh. Rào cản ở đây là tiếng Việt có thanh điệu, có điệu, khi dạy cho những người học thuộc hệ ngôn ngữ không có thanh điệu như người Anh, người Pháp… sẽ rất khó. Đơn cử, thay vì hỏi: “Bạn đi ngủ chưa?” thì người học sẽ nói “Bạn đi ngu chưa?”, bởi họ không phân biệt được thanh điệu. Cần dạy họ đặt trò chơi ở đâu khi phát âm, khẩu hình ngậm ra sao, phát âm ra đúng hay sai khác nhau như thế nào.  

Lúc này, phần mềm ứng dụng AI trong dạy ngoại ngữ có thể mô phỏng khẩu hình đánh răng, phát âm thanh sẵn để người học bắt chước. Sau đó, người học tập phát lại âm thanh, thu vào phần mềm, sử dụng công nghệ đối chiếu giữa phát âm của người học và phát âm chuẩn từ phần mềm, cải thiện khả năng phát âm nhanh. Tất cả các công đoạn trên đều bắt buộc phải ứng dụng AI.  

Một dẫn chứng khác, theo Từ điển tiếng Việt của Viện Ngôn ngữ học do cố Giáo sư Hoàng Phê chủ biên, vốn từ gốc tiếng Việt có khoảng 34.000 từ, tính toán cho thấy, cần dạy khoảng 10% lượng từ cho máy, tương đương với 3.400 từ thông tin ứng dụng, là máy có thể đọc được khoảng 90% văn bản tiếng Việt thông thường. Để có được bảng thống kê dữ liệu này, PGS Điền buộc phải sử dụng AI, gắn nhãn lên hệ thống từ vựng trong kho ngữ liệu tiếng Việt . 

Có thể nói, AI đã thay đổi cách dạy – học của ngành giáo dục. Thực tế, rất nhiều ứng dụng trí tuệ nhân tạo đã ra đời nhằm hỗ trợ quá trình dạy – học trở nên nhanh chóng, hiệu quả hơn.  

Câu chuyện kết hợp giữa khoa học máy tính và ngôn ngữ học khá thú vị trên cho thấy, quá trình đào tạo, ứng dụng AI vào thực tế là rất cần thiết, song không dễ dàng. Các dữ liệu cần được phân tách theo nhiều lớp định danh, ở mỗi lớp sẽ phải xử lý từng biến số với các định danh cụ thể khác nhau nữa. 

Khi máy móc học ngôn ngữ…  

Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo còn giúp các hệ thống hỗ trợ lý trí thông minh ngôn ngữ tốt hơn. Máy móc được huấn luyện và tiến bộ mỗi ngày.  

Tương tự câu chuyện của PGS Điền, dưới đây lại là dẫn chứng sinh động khác về cách mà một trợ lý thông minh hiểu ngôn ngữ con người.

Đó là quá trình nghiên cứu và phát triển trợ lý giọng nói tiếng Việt Kiki trên ô tô, để nhận dạng tốt giọng nói với nhiều ngữ điệu vùng miền khác nhau. Trong khoa học máy tính, nhận dạng giọng nói là một nhánh quan trọng của trí tuệ nhân tạo (AI), chuyển đổi giọng nói con người thành một định dạng hữu ích và có thể hiểu được bằng các ứng dụng máy tính. Công nghệ này là cầu nối tương tác giữa máy móc và con người. Trợ lý giọng nói đã trở thành ứng dụng không thể thiếu trên toàn thế giới. Phổ biến nhất có thể kể đến như: Siri của Apple, Google Assistant, Amazon Alexa, hay Kiki ở Việt Nam.

Anh Nguyễn Hoàng Khánh Duy, người viết những dòng code đầu tiên cho Kiki chia sẻ, để huấn luyện mô hình AI đủ thông minh khi nhận diện giọng nói, phản hồi thông tin đúng cho người dùng, thì dữ liệu ngôn ngữ đóng vai trò chủ chốt. 

Dẫn chứng, chức năng rất quan trọng với người dùng trợ lý tiếng Việt Kiki trên ôtô là dẫn đường. Do đó, đội ngũ phát triển sản phẩm phải chuẩn bị dữ liệu, vốn từ vựng để hỗ trợ “mượt” cho các câu lệnh từ người dùng. Sau quá trình thu thập dữ liệu, huấn luyện mô hình, chỉ số thể hiện chất lượng nhận diện giọng nói ở phiên bản sau đã cải thiện 40% so với ban đầu.

Việc nhận diện giọng nói trên xe ô tô không chỉ dừng lại ở mỗi bài toán về dẫn đường, địa điểm mà còn nhiều vấn đề khác. 

Ví dụ, đặc thù sử dụng Kiki trên xe ô tô thì tiếng ồn do động cơ, gió hay tiếng phát ra từ các thiết bị giao thông trên đường cũng rất lớn, điều này ảnh hưởng trực tiếp tới chất lượng nhận diện giọng nói của Kiki trên xe. Do đó, yêu cầu đội ngũ Kiki phải cố gắng giải quyết điều kiện ồn ào bằng cách tăng cường dữ liệu bằng cách nói trong điều kiện ồn ào sao cho phù hợp với cuộc sống thực tế nhất.  

Ngoài ra, bằng các kỹ thuật mới trên thế giới như self-supervised (học tự giám sát), Kiki đang cố gắng “học” từ cả những dữ liệu không được gán nhãn, để cải thiện mô hình tốt hơn nữa. Tính ổn định của trợ lý giọng nói tiếng Việt này đang cải thiện với việc không ngừng đào tạo, nâng cấp sản phẩm.

Rõ ràng, tiến bộ của công nghệ đang diễn ra hàng ngày, hàng giờ. ChatGPT ra đời cuối năm 2022 đã trả lời một phần cho câu hỏi về cách dữ liệu lớn vận hành. Công nghệ đang “bước” vào giữa đời sống, đặc biệt, trong giáo dục, ngôn ngữ, những lĩnh vực vốn phụ thuộc nhiều vào con người trước đây. AI tái định nghĩa cách chúng ta học tập, làm việc, sinh hoạt… như những ví dụ cụ thể nêu trên.



Nguồn

Cùng chủ đề

Google mở rộng tính năng dịch thuật, hỗ trợ thêm 15 ngôn ngữ

DNVN - Google vừa thông báo bổ sung thêm 15 ngôn ngữ vào nền tảng dịch thuật của mình, kết nối hơn 300 triệu người tại châu lục này. Hiện nền tảng Google Dịch đã có khả năng dịch từ hơn 94 ngôn ngữ trên toàn cầu sang tổng cộng 25 ngôn ngữ bản...

Chữ viết cổ xưa gây xoắn não nhất mọi thời đại thiên tài cũng bó tay

Những hệ thống chữ viết này vẫn là bí ẩn lớn trong lịch sử nhân loại, và việc giải mã chúng có thể giúp mở rộng hiểu biết về ngôn ngữ, văn hóa và lịch sử của các nền văn minh cổ đại. T.B (tổng hợp) 13:30 - 26/10/2024 Những hệ thống chữ viết này vẫn là bí ẩn lớn trong lịch sử nhân loại, và việc giải mã chúng có thể giúp mở rộng hiểu biết về ngôn...

‘Rong ruổi’ hay ‘dong duổi’, từ nào mới đúng chính tả?

Ngôn ngữ Tiếng Việt đa dạng và phong phú, khiến nhiều người bối rối giữa những cụm từ có ý nghĩa tương đồng hoặc phát âm giống nhau. Rong ruổi - dong duổi là một trong những cặp từ thường gây nhầm lẫn.Trong Tiếng Việt, đây là động từ, có ý nghĩa di chuyển liên tục trên đoạn đường dài, đi có chủ đích nhất định.Vậy theo bạn đâu mới là từ đúng? Hãy để lại câu trả...

Hành trình ly kỳ của chữ Quốc ngữ

Khi thực hiện cuốn sách về lịch sử hình thành chữ Quốc ngữ, TS. Phạm Thị Kiều Ly và hoạ sĩ Tạ Huy Long mong muốn truyền thêm cho người đọc, đặc biệt là các bạn nhỏ tình yêu đối với tiếng Việt - thứ ngôn ngữ đẹp mà chúng ta đang sở hữu.

Thử thách Tiếng Việt: ‘Xiêu lòng’ hay ‘siêu lòng’?

Dù là từ ngữ khá thông dụng, được sử dụng phổ biến trong cuộc sống hằng ngày nhưng khi được hỏi, nhiều người lại băn khoăn, không biết "xiêu lòng" hay "siêu lòng" mới đúng chính tả.Trong Tiếng Việt, từ này thường được sử dụng để diễn tả cảm xúc rung động, không thể kiểm soát mà ngả theo ý của người khác hoặc bị thuyết phục. Vậy theo bạn đâu mới là từ chuẩn Tiếng Việt? Hãy để...

Nổi bật

Mới nhất

Cùng tác giả

Tước vương miện hoa hậu Panama sau khi bị loại khỏi Miss Universe 2024

Tổ chức Miss Universe Panama vừa thông báo tước bỏ ngôi vị hoa hậu của Italy Mora, sau khi cô bất ngờ bị loại khỏi cuộc thi Miss Universe ở Mexico vì vi phạm quy chế. Theo Hola!, quyết định này được đưa ra sau khi Italy Mora liên tục vi phạm hợp đồng với Tổ chức Hoa hậu Panama. "Việc không tuân thủ các quy định mà tổ chức Miss Universe truyền đạt cho từng thí sinh đã dẫn đến...

Phong tỏa DN huy động vốn trả lãi 50%: Nợ hơn 7.500 người, gốc hơn 3.700 tỷ đồng

Kết quả điều tra ban đầu xác định, Công ty GFDI ở Đà Nẵng mất khả năng chi trả cho 7.541 khách hàng với tổng số tiền dư nợ gốc hơn 3.700 tỷ đồng. Chiều 8/11, Phòng Cảnh sát Kinh tế, Công an TP Đà Nẵng đã thông báo thông tin liên quan đến vụ việc tại Công ty TNHH MTV Tư vấn đầu tư GFDI (Công ty GFDI). Theo cơ quan công an, qua công tác nắm tình hình đã...

Vụ đấu giá mỏ cát 1,2 tỷ lên 370 tỷ, Chủ tịch Quảng Nam lệnh tiếp tục điều tra

Chủ tịch UBND tỉnh Quảng Nam yêu cầu rà soát lại quy trình, thủ tục thực hiện đấu giá quyền khai thác khoáng sản trên địa bàn và xử lý nghiêm các hành vi thông đồng, thao túng, làm nhiễu loạn thị trường nhằm trục lợi. Văn phòng UBND tỉnh Quảng Nam vừa ban hành thông báo kết luận của Chủ tịch UBND tỉnh Lê Văn Dũng tại cuộc họp về tăng cường công tác quản lý nhà nước trong...

Thủ tướng thăm di tích Bác Hồ và lãnh đạo Trung Quốc từng hoạt động cách mạng

Chiều 8/11, tại TP Trùng Khánh (Trung Quốc), Thủ tướng Phạm Minh Chính tới thăm Khu di tích lịch sử Hồng Nham, gắn liền với quá trình hoạt động của Chủ tịch Hồ Chí Minh và các nhà cách mạng Trung Quốc. Thủ tướng Phạm Minh Chính đã nghe giới thiệu về đường Thạch Bản, nông trường Đại Hữu, nhà cỏ, khu di tích cũ Nhà cách mạng Nhiễu Quốc Mô - những cái tên gắn liền với quá trình hoạt...

Đồng Nai: Nữ tiếp viên quán karaoke múa thoát y phục vụ khách

Nữ nhân viên bị bắt quả tang khi đang thoát y nhảy múa phục vụ khách tại quán karaoke ở Đồng Nai. Hôm nay (8/11), Công an TP Biên Hòa, tỉnh Đồng Nai cho biết, vừa bắt quả tang nữ nhân viên quán karaoke đang múa thoát y phục vụ khách. Trước đó, khuya 7/11, lực lượng chức năng kiểm tra hành chính địa điểm kinh doanh karaoke “Hoàng Long Châu” thuộc phường Trảng Dài. Tại đây, cảnh sát phát hiện...

Bài đọc nhiều

Chủ sở hữu Facebook Meta phát triển công cụ tìm kiếm AI riêng

Công ty mẹ của Facebook, Meta đang phát triển một công cụ tìm kiếm dựa trên trí tuệ nhân tạo nhằm giảm sự phụ thuộc vào Google của Alphabet và Bing của Microsoft. ...

Hướng dẫn cách chèn file PDF vào Google Sheets đơn giản và hiệu quả

Biết cách chèn file PDF vào Google Sheets giúp bạn quản lý dữ liệu và chia sẻ thông tin dễ dàng hơn. Bài viết hôm nay sẽ hướng dẫn bạn cách chèn file PDF vào Google Sheets đơn giản và hiệu quả nhất.

Cách tắt mã hóa đầu cuối trên Messenger cực đơn giản

Bạn đang tìm cách để tắt mã hóa đầu cuối trên Messenger để tránh các rắc rối do tính năng này gây ra trong quá trình sử dụng. Bài viết hôm nay sẽ hưỡng dẫn chi tiết đến bạn cách tắt mã hóa đầu cuối trên Messenger điện thoại iPhone và Android.

Sắp có mạng truyền dẫn quang đạt tốc độ lên tới 1,2Tb/s tại Việt Nam

Ngày 6/11, Nokia đã công bố Tập đoàn Viettel sẽ sử dụng giải pháp truyền tải quang của Nokia để đáp ứng hiệu quả nhu cầu ngày càng cao về kết nối 5G, kết nối các trung tâm dữ liệu và kết nối quốc tế. Dự án được thực hiện sau khi Viettel thử nghiệm thành công giải pháp truyền dẫn với chipset thế hệ mới PSE-6 của Nokia, với tốc độ truyền dẫn quang lên tới 1,2Tb/s trên...

Apple mất ngôi công ty lớn nhất thế giới vào tay Nvidia

Nvidia là nhà cung cấp các bộ xử lý đồ họa (GPU)- phần cứng dùng để triển khai các phần mềm AI tiên tiến như ChatGPT- số 1 thế giới. Trong 5 năm qua, cổ phiếu của hãng tăng hơn 2.700% và doanh thu đều đặn. Đặc biệt, trong năm 2024, cổ phiếu Nvidia tăng gần gấp 3 giá trị khi các nhà đầu tư tiếp tục đặt trọn niềm tin vào khả năng duy trì tăng trưởng của...

Cùng chuyên mục

Việt Nam được vinh danh tại ASOCIO DX Award 2024

Theo thông tin từ Hiệp hội Phần mềm và Dịch vụ Công nghệ thông tin Việt Nam, Việt Nam có 9 đơn vị, tổ chức và cá nhân được vinh danh tại Giải thưởng ASOCIO DX Award 2024. Giải thưởng ASOCIO DX Award là giải thưởng uy tín, thường niên được trao cho các tổ chức, doanh nghiệp và cá nhân có đóng góp xuất sắc trong thúc đẩy chuyển đổi số, ứng dụng công nghệ trong các lĩnh...

Đề xuất điều chỉnh phương án thu phí và lệ phí tên miền

Theo quy định hiện hành về mức thu nội, quản lý và sử dụng phí duy trì sử dụng tài nguyên Internet, lệ phí phân bổ, cấp tài nguyên Internet, để sử dụng tên miền quốc gia, các doanh nghiệp sẽ phải nộp lệ phí đăng ký sử dụng tên miền ".vn" (thu khi đăng ký lần đầu) và phí duy trì sử dụng tên miền cho từng năm tiếp theo. Theo đó, các doanh nghiệp sẽ phải trả...

iPhone 17 Air sẽ có đối thủ

Smartprix tiết lộ, mẫu Galaxy S25 Slim đã xuất hiện trong cơ sở dữ liệu của FCC của Hàn Quốc. Sản phẩm dự kiến mang số model SM-S937U- điều này cho thấy đây có thể là thành viên thứ tư trong dòng Galaxy S25, bên cạnh Galaxy S25, S25+ và S25 Ultra. Các nguồn tin cho rằng chiếc smartphone siêu mỏng này của Samsung sẽ là câu trả lời cho iPhone 17 Air. Sản phẩm cũng được kỳ vọng...

Bổ nhiệm Cục trưởng Cục Chuyển đổi số quốc gia

Sáng 7/11, Bộ TT-TT tổ chức hội nghị về công tác cán bộ. Tại hội nghị đã công bố quyết định số 1906/QĐ-BTTTT ngày 6/11/2024 về điều động và bổ nhiệm có thời hạn ông Lê Văn Tuấn - Cục trưởng Cục An toàn thông tin giữ chức Cục trưởng Cục Chuyển đổi số quốc gia. Quyết định có hiệu lực kể từ ngày ký. Cùng với đó, Bộ TT-TT trao quyết định số 1908/QĐ-BTTTT ngày 6/11/2024 về việc...

Ngăn chặn thất thoát dữ liệu doanh nghiệp bằng công nghệ cao

DNVN - Fortinet vừa chính thức giới thiệu FortiDLP, một giải pháp ngăn chặn thất thoát dữ liệu thế hệ tiếp theo cũng như tập trung vào quản lý rủi ro nội bộ. ...

Mới nhất

Trường đầu tiên thuộc Đại học Quốc gia TP.HCM công bố phương án tuyển sinh năm 2025

Tối 8-11, Trường đại học Kinh tế - Luật (Đại học Quốc gia TP.HCM) công bố phương án tuyển sinh đại học chính quy năm 2025 với 3 phương thức xét tuyển. ...

Hà Nam tổ chức diễn tập phương án chữa cháy và cứu nạn cứu hộ

Kinhtedothi - Sáng 8/11, UBND tỉnh Hà Nam đã tổ chức diễn tập phương án chữa cháy và cứu nạn, cứu hộ tại Công ty TNHH Neweb, Khu công nghiệp Đồng Văn III, thị xã Duy Tiên, tỉnh Hà Nam. Phát biểu chỉ đạo tại buổi diễn tập, đồng chí Nguyễn Đức Vượng - Tỉnh ủy viên, Phó Chủ tịch...

Trung tướng Lê Quang Minh kiểm tra hoạt động công tác Đảng, công tác chính trị tại Bộ Chỉ huy Quân sự thành phố...

(Bqp.vn) - Sáng 6/11, Đoàn công tác của Tổng cục Chính trị do Trung tướng Lê Quang Minh, Phó Chủ nhiệm Tổng cục Chính trị QĐND Việt Nam làm Trưởng đoàn đã kiểm tra, nắm tình hình hoạt động công tác Đảng, công tác chính trị (CTĐ, CTCT) tại Bộ Chỉ huy Quân sự (CHQS) thành phố Đà...

Bắc Ninh kiểm tra, lập chốt giám sát 24/24h việc vận chuyển phế liệu ra vào làng nghề xã Văn Môn

Ngày 8/11, Đoàn kiểm tra liên ngành tỉnh Bắc Ninh do Đại tá Phạm Văn Lương - Phó Giám đốc Công an tỉnh Bắc Ninh làm Trưởng đoàn đã ra quân...

Ngày hội Việt Nam Xanh 2024 sẵn sàng khai hội từ sáng mai tại Nhà văn hóa Thanh niên

Ngày hội Việt Nam Xanh 2024 đã sẵn sàng chào đón người dân, du khách đến trải nghiệm không gian xanh tại Nhà văn hóa Thanh niên (quận 1, TP.HCM) từ sáng 9-11. ...

Mới nhất