ការបកប្រែតាមម៉ាស៊ីនគឺជាកម្មវិធីជោគជ័យបំផុតមួយនៃបច្ចេកវិទ្យាបញ្ញាសិប្បនិមិត្តក្នុងដំណើរការភាសាធម្មជាតិ។ ប្រព័ន្ធបកប្រែម៉ាស៊ីនដែលមានគុណភាពខ្ពស់ដូចជា Google Translate ឬ Bing Translator របស់ Microsoft ត្រូវការសំណុំទិន្នន័យជាពីរភាសាខ្នាតធំ រហូតដល់រាប់លានគូ ដើម្បីបណ្តុះបណ្តាលគំរូ។
ទោះយ៉ាងណាក៏ដោយ ភាសាជាច្រើននៅលើពិភពលោកមិនមានធនធានគ្រប់គ្រាន់ទេ។ ដូច្នេះហើយ ការកសាងគំរូបកប្រែម៉ាស៊ីនដ៏មានប្រសិទ្ធភាពសម្រាប់ភាសាដែលមិនមានធនធាន រួមទាំងភាសាក្នុងតំបន់អាស៊ីអាគ្នេយ៍ គឺជារឿងបន្ទាន់ និងជាបញ្ហាប្រឈម។
ថ្មីៗនេះ វិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មាន (បណ្ឌិត្យសភាវិទ្យាសាស្ត្រ និងបច្ចេកវិទ្យាវៀតណាម) បានស្រាវជ្រាវ និងស្ទាត់ជំនាញបច្ចេកវិទ្យាបកប្រែម៉ាស៊ីនទំនើបបំផុតនាពេលបច្ចុប្បន្ននេះ។ អង្គភាពនេះក៏បានសាងសង់ដោយជោគជ័យនូវប្រព័ន្ធបកប្រែអត្ថបទពហុភាសារវាងភាសាវៀតណាម និងភាសាក្នុងតំបន់ រួមទាំងឡាវ ខ្មែរ ថៃ ម៉ាឡេស៊ី និងឥណ្ឌូនេស៊ី។
យោងតាមអ្នកអភិវឌ្ឍន៍ ភាសាដូចជា ឡាវ ថៃ និងខ្មែរ បង្កបញ្ហាប្រឈមយ៉ាងខ្លាំងនៅពេលបង្កើតគំរូបកប្រែម៉ាស៊ីន។ ការលំបាកកើតឡើងមិនត្រឹមតែមកពីភាពខ្វះខាតនៃទិន្នន័យពីរភាសាប៉ុណ្ណោះទេ ប៉ុន្តែក៏ដោយសារតែភាសាទាំងនេះសម្បូរទៅដោយ morphologically ខ្វះការបែងចែកពាក្យ ការបែងចែកប្រយោគ និងពហុសេមី។
គំរូ AI ដែលបង្កើតឡើងដោយវិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានបាន "រៀន" ពីរបៀប "សម្រប" ទៅនឹងលក្ខណៈពិសេសទាំងអស់នៃភាសាខាងលើ។ ពីទីនោះ កម្មវិធីអនុញ្ញាតឱ្យបន្ថែមភាសាផ្សេងទៀតយ៉ាងឆាប់រហ័សនៅពេលចាំបាច់ជាមួយនឹងគុណភាពបកប្រែស្មើនឹងផលិតផលបរទេសកម្រិតខ្ពស់។
អ្វីដែលពិសេសនោះគឺថាកម្មវិធីបកប្រែពហុភាសានេះដំណើរការដោយឡែកពីគ្នា រក្សាទុកទិន្នន័យក្នុងមូលដ្ឋាន និងមិនចាំបាច់ប្រើ API របស់អ្នកផ្តល់សេវាផ្សេងទៀតឡើយ។ នេះជួយធានាសុវត្ថិភាព សុវត្ថិភាព និងមិនមានព័ត៌មានលេចធ្លាយ។
បញ្ហាមួយជាមួយប្រព័ន្ធបកប្រែដូចជា Google Translate ឬ Bing Translator គឺការសម្របខ្លួនតាមដែនជាក់លាក់។ នោះគឺពួកគេអាចបកប្រែបានយ៉ាងល្អសម្រាប់ដែនភាសាទូទៅដែលពេញនិយមបម្រើសាធារណៈជន ប៉ុន្តែគុណភាពនៃការបកប្រែគឺខ្សោយនៅក្នុងផ្នែកភាសាឯកទេសដូចជាថ្នាំពេទ្យ ច្បាប់ សន្តិសុខជាដើម។
ដើម្បីជម្នះចំណុចខ្វះខាតខាងលើ ក្រុមស្រាវជ្រាវនៃវិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានបានបង្កើតប្រព័ន្ធបកប្រែភាសាវៀតណាមជាកណ្តាល ដែលមានសមត្ថភាពបកប្រែពីរផ្លូវទៅជាភាសាក្រីក្រធនធានប្រកបដោយគុណភាពល្អ។
ជាពិសេស កម្មវិធីនេះមានគុណភាពដូចគ្នា ឬខ្ពស់ជាង Google Translate សម្រាប់អត្ថបទដូចគ្នា។ លើសពីនេះទៀតកម្មវិធីមិនកំណត់ប្រវែងនៃអត្ថបទទេ។
ក្នុងកំឡុងឆ្នាំ 2022-2023 ប្រព័ន្ធនេះផ្តោតលើការដាក់ឱ្យប្រើប្រាស់នូវបច្ចេកវិជ្ជា Large Language Models (LLMs) ដោយផ្តល់អាទិភាពដល់គូភាសាខាងក្រោម៖ វៀតណាម - ខ្មែរ វៀតណាម - ឡាវ វៀតណាម - ថៃ វៀតណាម - ម៉ាឡេ និង វៀតណាម - ឥណ្ឌូនេស៊ី។
ជាមួយនឹងភាសាអង់គ្លេស (ជាធនធានទិន្នន័យដ៏សម្បូរបែប និងភាពខ្លាំងជាអាទិភាពរបស់ Google) កម្មវិធីរបស់វិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានធានាគុណភាពស្ទើរតែស្មើនឹង Google Translate។ ជាពិសេស ប្រព័ន្ធនេះមានសមត្ថភាពសម្រួលដល់ការសម្របខ្លួនទៅនឹងភាសាឯកទេស ដូចជាថ្នាំពេទ្យ ច្បាប់ជាដើម ទៅតាមតម្រូវការជាក់លាក់របស់ដៃគូ។
ប្រព័ន្ធនេះត្រូវបានអភិវឌ្ឍដោយខ្លួនឯងដោយក្រុមស្រាវជ្រាវ ដោយផ្អែកលើហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកទេសដែលគាំទ្រការផ្ទុកទិន្នន័យភាសាធំ និងសមត្ថភាពកុំព្យូទ័រទំនើបឆ្លាតវៃ/ការរៀនម៉ាស៊ីន (AI/ML) ខ្លាំងបំផុតនៅក្នុងប្រទេសវៀតណាម។
វិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានមានជំនាញពេញលេញនៃបច្ចេកវិទ្យាពាក់ព័ន្ធ។ ដូច្នេះ អង្គភាពនេះអាចពង្រីកកម្មវិធីបានយ៉ាងងាយស្រួលទៅកាន់ភាសាគោលដៅថ្មី រួមទាំងភាសាជនជាតិភាគតិចក្នុងប្រទេសវៀតណាម (ជារឿយៗមានធនធានទិន្នន័យខ្សោយខ្លាំង) ដូចជា មឿង ថៃ ជាដើម ភាសាបរទេសពេញនិយមដូចជា ចិន បារាំង ជាដើម។ ភាសារុស្សី ... នៅពេលចាំបាច់។
កម្មវិធីបកប្រែពហុភាសានេះ Made in Vietnam ត្រូវបានគេរំពឹងថាជាដំណោះស្រាយចំពោះបញ្ហានៃការទទួលបានព័ត៌មានសម្រាប់ជនជាតិភាគតិច។
ប្រភព
Kommentar (0)