ដោយប្រើវិធីសាស្រ្តបណ្តុះបណ្តាលគូប្រជែងដើម្បីអនុញ្ញាតឱ្យ AI បង្កើតទិន្នន័យថ្មី ការស្រាវជ្រាវរបស់និស្សិតពីរនាក់មកពីសាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងហូជីមិញត្រូវបានបោះពុម្ពនៅ AAAI ដែលជាសន្និសីទ AI ឈានមុខគេរបស់ពិភពលោក។
ការស្រាវជ្រាវលើគំរូពហុភាសាដើម្បីបណ្តុះបណ្តាល AI ដើម្បីបង្កើតសទិសន័យដោយ Pham Khanh Trinh និង Le Minh Khoi អាយុ 23 ឆ្នាំត្រូវបានបោះពុម្ពផ្សាយនៅក្នុងឯកសារនៃសន្និសីទ AAAI-24 ស្តីពីបញ្ញាសិប្បនិមិត្តដែលបានធ្វើឡើងនៅចុងខែកុម្ភៈនៅទីក្រុង Vancouver ប្រទេសកាណាដា។
សាស្ត្រាចារ្យរង បណ្ឌិត Quan Thanh Tho ព្រឹទ្ធបុរសរងនៃមហាវិទ្យាល័យវិទ្យាសាស្ត្រកុំព្យូទ័រ និងវិស្វកម្ម នៃសាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងហូជីមិញ បានវាយតម្លៃថា នេះជាលទ្ធផលគួរឲ្យសរសើរ។ លោក ថូ បាននិយាយថា AAAI ត្រូវបានអ្នកស្រាវជ្រាវ និងអ្នកជំនាញចាត់ទុកថាមានគុណភាពកំពូលនៅក្នុងសន្និសីទវិទ្យាសាស្ត្រក្នុងវិស័យវិទ្យាសាស្ត្រកុំព្យូទ័រ និងបញ្ញាសិប្បនិម្មិត ជាមួយនឹងអត្រាទទួលយកអត្ថបទទាបបំផុតនៅឆ្នាំនេះ 23.75% ។
Minh Khoi និង Khanh Trinh (កណ្តាល) កំឡុងពេលបញ្ចប់បរិញ្ញាបត្រការពារនិក្ខេបបទឆ្នាំ ២០២៣។ រូបថត៖ ផ្តល់ដោយតួអង្គ
ដោយចែករំលែកចំណង់ចំណូលចិត្តចំពោះការសិក្សាជ្រៅជ្រះ និងដំណើរការភាសាធម្មជាតិ Trinh និង Khoi បានជ្រើសរើសស្រាវជ្រាវលើគំរូភាសាធំៗ (LLMs)។ អ្នកទាំងពីរចង់ស្វែងរកដែនកំណត់នៃ LLMs និងកែលម្អវា។
លោក Khanh Trinh បាននិយាយថា Chat GPT ឬ LLMs ចាំបាច់ត្រូវទទួលការបណ្តុះបណ្តាលលើទិន្នន័យអត្ថបទដ៏ច្រើន ដើម្បីបង្កើតការឆ្លើយតបត្រឹមត្រូវ និងចម្រុះសម្រាប់អ្នកប្រើប្រាស់។ ក្មេងប្រុសទាំងពីរបានដឹងថាជាមួយនឹងភាសាសាមញ្ញតិចជាងដូចជាហិណ្ឌូ កាហ្សាក់ស្ថាន ឬឥណ្ឌូនេស៊ី ការជជែក GPTs និង LLMs តែងតែផ្តល់លទ្ធផលដែលមិននឹកស្មានដល់ព្រោះពួកគេមិនបានសិក្សាភាសាទាំងនេះច្រើន ឬភាសាទាំងនេះមិនមានទិន្នន័យគ្រប់គ្រាន់សម្រាប់ពួកគេរៀន។
"ហេតុអ្វីបានជាយើងមិនបង្កើតទិន្នន័យអត្ថបទបន្ថែមពី 'ធនធានតិចតួច' នៃភាសាទាំងនោះដើម្បីបណ្តុះបណ្តាល AI បន្ថែមទៀត?" សិស្សប្រុសទាំងពីរបានសួរ។ ពីទីនោះ គំរូ LAMPAT (ការសម្របខ្លួនកម្រិតទាបសម្រាប់ការប្រៀបធៀបពហុភាសាដោយប្រើការបណ្តុះបណ្តាលជាសត្រូវ) - ការបកស្រាយពហុភាសាដោយប្រើវិធីសាស្ត្របណ្តុះបណ្តាលគូបដិបក្ខដែលស្រាវជ្រាវដោយ Trinh និង Khoi បានកើត។
LAMPAT មានសមត្ថភាពបង្កើតប្រយោគមានន័យដូចពីប្រយោគបញ្ចូលដែលមានស្រាប់ ដើម្បីបង្កើតទិន្នន័យអត្ថបទបន្ថែម។ អ្នកពន្យល់ "ការបណ្តុះបណ្តាលគូប្រជែង" គឺជាវិធីសាស្រ្តថ្មីក្នុងការបណ្តុះបណ្តាលគំរូភាសាធំៗ។ នៅពេលផ្តល់ប្រយោគបញ្ចូល ជាមួយនឹងវិធីសាស្ត្របណ្តុះបណ្តាលបែបប្រពៃណី កម្មវិធីនឹងបង្កើតប្រយោគលទ្ធផល។ ប៉ុន្តែជាមួយនឹងការបណ្តុះបណ្តាលគូបដិបក្ខ កម្មវិធីអាចកែតម្រូវដោយខ្លួនឯង កែសម្រួលប្រយោគលទ្ធផល និង "លេងប្រឆាំងនឹងខ្លួនឯង" ដើម្បីបង្កើតប្រយោគបន្ថែមទៀត។
ពហុភាសានៃ LAMPAT ស្ថិតនៅក្នុងការពិតដែលថាគំរូរួមបញ្ចូល 60 ភាសាក្នុងពេលតែមួយ។ ដោយផ្អែកលើសំណុំទិន្នន័យដែលប្រមូលបាន ក្រុមការងារបានបន្តបណ្តុះបណ្តាល LAMPAT ដើម្បីបង្កើតប្រយោគមានន័យដូច។ ចំនួននៃទិន្នន័យអត្ថបទដែលបានបង្កើតពី LAMPAT នឹងបន្តត្រូវបានបណ្តុះបណ្តាលសម្រាប់ LLMs ដូច្នេះគំរូទាំងនេះអាចរៀនពីវិធីផ្សេងគ្នាជាច្រើននៃការបញ្ចេញព័ត៌មានសម្រាប់មាតិកាដូចគ្នា ដោយហេតុនេះផ្តល់នូវការឆ្លើយតបចម្រុះជាមួយនឹងប្រូបាប៊ីលីតេខ្ពស់នៃការត្រឹមត្រូវ។ ជាមួយនឹងលក្ខណៈពិសេសនេះ អ្នកតំណាងក្រុមជឿជាក់ថា LAMPAT អាចត្រូវបានដាក់បញ្ចូលទៅក្នុងកម្មវិធីដូចជា ChatGPT ដើម្បីបំពេញបន្ថែមនូវគំរូនេះ។
លើសពីនេះ ការខ្វះខាតទិន្នន័យសម្រាប់ Chat GPT ឬ LLMs បង្ខំឱ្យក្រុមហ៊ុនមួយចំនួនស្វែងរកប្រភពខាងក្រៅជាច្រើនដូចជា សៀវភៅ កាសែត ប្លក់... ដោយមិនយកចិត្តទុកដាក់លើបញ្ហារក្សាសិទ្ធិ។ ការបង្កើតពាក្យមានន័យដូចគ្នាក៏ជាមធ្យោបាយមួយក្នុងការកំណត់ការលួចចម្លង និងការរំលោភលើសិទ្ធិអ្នកនិពន្ធ នេះបើយោងតាម Khanh Trinh។
Nam Sinh បានផ្តល់ឧទាហរណ៍នៃកម្មវិធីដូចជា Chat GPT នៅពេលដែលអ្នកប្រើប្រាស់ស្នើសុំសេចក្តីសង្ខេបនៃអត្ថបទ A ដែលមានស្រាប់ កម្មវិធីនឹងបង្កើតអត្ថបទសង្ខេប B។ ប្រសិនបើវិធីសាស្រ្តស្រាវជ្រាវរបស់ក្រុមត្រូវបានដាក់បញ្ចូល នៅពេលទទួលបានអត្ថបទ A នោះកម្មវិធីនឹងបង្កើតអត្ថបទជាច្រើនដែលមានខ្លឹមសារដូចគ្នា A1, A2, A3 ដោយផ្អែកលើយន្តការនៃការបង្កើតសទិសន័យ ដែលវានឹងផ្តល់លទ្ធផលជាច្រើនសម្រាប់អ្នកប្រើប្រាស់។
ក្នុងដំណាក់កាលដំបូងនៃការស្រាវជ្រាវ ក្រុមការងារមានការលំបាកក្នុងការរៀបចំទិន្នន័យវាយតម្លៃសម្រាប់ 60 ភាសា។ ដោយសារយើងមិនអាចចូលប្រើទិន្នន័យបានច្រើនគ្រប់គ្រាន់ ក្រុមការងារបានចងក្រងសំណុំទិន្នន័យចម្រុះ និងពេញលេញនៃ 13 ភាសា ដើម្បីវាយតម្លៃជាលក្ខណៈគំរូ រួមមាន វៀតណាម អង់គ្លេស បារាំង អាល្លឺម៉ង់ រុស្ស៊ី ជប៉ុន ចិន អេស្ប៉ាញ ហុងគ្រី ព័រទុយហ្គាល់ ស៊ុយអែត ហ្វាំងឡង់ និងឆេក។ នេះក៏ជាសំណុំទិន្នន័យដែលអាចទុកចិត្តបានសម្រាប់ជំហានចុងក្រោយនៃការវាយតម្លៃមនុស្ស (ការដាក់ពិន្ទុ)។
Minh Khoi (ឆ្វេង) និង Khanh Trinh (ស្តាំ) បានថតរូបអនុស្សាវរីយ៍ជាមួយលោកគ្រូ Quan Thanh Tho នៅថ្ងៃបញ្ចប់ការសិក្សា ខែវិច្ឆិកា ឆ្នាំ 2023។ រូបថត៖ តួអក្សរដែលបានផ្តល់ឱ្យ
សម្រាប់ភាសាអង់គ្លេស វៀតណាម អាល្លឺម៉ង់ បារាំង និងជប៉ុននីមួយៗ ក្រុមការងារបានស្រង់ចេញដោយចៃដន្យ 200 គូប្រយោគ (មួយគូមានប្រយោគលទ្ធផល និងស្លាកត្រឹមត្រូវ) សម្រាប់ការវាយតម្លៃ។ សម្រាប់ភាសានីមួយៗខាងលើ ក្រុមការងារបានស្នើឱ្យអ្នកជំនាញភាសាចំនួន 5 ផ្តល់ពិន្ទុដោយឯករាជ្យ ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យចំនួនបី៖ ការរក្សាពាក្យសំដី; ការជ្រើសរើសពាក្យ និងភាពស្រដៀងគ្នាវាក្យសព្ទ ភាពស្ទាត់ជំនាញ និងភាពស៊ីសង្វាក់គ្នានៃប្រយោគលទ្ធផល។ មាត្រដ្ឋានត្រូវបានគណនាពី 1 ដល់ 5 ។ ជាលទ្ធផល ពិន្ទុវាយតម្លៃជាមធ្យមពីអ្នកជំនាញភាសាក្នុង 5 ភាសានេះ មានចាប់ពី 4.2-4.6/5 ពិន្ទុ។
ឧទាហរណ៍ផ្តល់ឱ្យប្រយោគវៀតណាមមួយគូដែលមានពិន្ទុ 4.4/5 ដែលក្នុងនោះប្រយោគបញ្ចូលគឺ: "គាត់បានពន្យល់បញ្ហាដោយលម្អិត" ហើយប្រយោគលទ្ធផលគឺ: "គាត់បានពន្យល់បញ្ហាដោយលម្អិត" ។
ប៉ុន្តែក៏មានប្រយោគមួយគូដែលមានគុណភាពអន់ និងកំហុសក្នុងន័យធៀបផងដែរ ដូចជាប្រយោគមួយគូ "We eat while the soup is hot - We eat the soup while we are hot" ដែលពិន្ទុត្រឹមតែ 2/5 ប៉ុណ្ណោះ។
លោក Khanh Trinh បាននិយាយថា វាត្រូវចំណាយពេល ៨ ខែ ដើម្បីស្រាវជ្រាវ និងបញ្ចប់គម្រោងនេះ។ នេះក៏ជាប្រធានបទនិក្ខេបបទរបស់ Trinh និង Khoi ផងដែរ។ និក្ខេបបទជាប់ចំណាត់ថ្នាក់លេខ ១ ក្នុងក្រុមប្រឹក្សាវិទ្យាសាស្ត្រកុំព្យូទ័រ ២ ដែលមាន ៩.៧២/១០ ពិន្ទុ។
យោងតាមលោក Quan Thanh Tho ទោះបីជា LAMPAT បានបង្ហាញពីជំនាញរបស់ខ្លួនក្នុងការបង្កើតឃ្លាមានន័យដូចមនុស្សនៅទូទាំងច្រើនភាសាក៏ដោយ ក៏វានៅតែត្រូវការការកែលម្អដើម្បីគ្រប់គ្រងពាក្យសំដី ចម្រៀងប្រជាប្រិយ និងសុភាសិតជាភាសាផ្សេងៗ។
លើសពីនេះ សំណុំទិន្នន័យវាយតម្លៃរបស់ក្រុមមានត្រឹមតែ 13 ភាសាប៉ុណ្ណោះ ដែលនៅតែបន្សល់ទុកជាច្រើន ជាពិសេសភាសាជនជាតិភាគតិច។ ដូច្នេះហើយ ក្រុមត្រូវធ្វើការស្រាវជ្រាវដើម្បីលើកកម្ពស់ និងពង្រីកសមត្ថភាពនៃគំរូការបកស្រាយច្រើនភាសាបច្ចុប្បន្ន។ ពីទីនេះ យើងអាចដកចេញនូវឧបសគ្គភាសារវាងប្រទេស និងប្រជាជន។
នៅចុងឆ្នាំ 2023 Trinh និង Khoi បានបញ្ចប់ថ្នាក់បរិញ្ញាបត្រផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រដោយមានកិត្តិយស និងភាពខុសគ្នា ជាមួយនឹងពិន្ទុមធ្យម (GPA) 3.7 និង 3.9/4 រៀងគ្នា។ អ្នកទាំងពីរមានគម្រោងទៅសិក្សានៅបរទេសសម្រាប់ថ្នាក់អនុបណ្ឌិត និងបន្តការស្រាវជ្រាវផ្នែកបញ្ញាសិប្បនិមិត្ត និងការរៀនម៉ាស៊ីន។
លោក Trinh បានចែករំលែកថា "យើងបន្តស្រាវជ្រាវប្រធានបទនេះ ដោយមានគោលដៅអនុវត្ត LAMPAT បន្ថែមទៀតចំពោះគម្រោងវិទ្យាសាស្ត្រនាពេលខាងមុខ បង្កើតផលិតផលពហុភាសាដែលអាចទុកចិត្តបានសម្រាប់អ្នកប្រើប្រាស់"។
ឡេង ង្វៀន
ប្រភពតំណ
Kommentar (0)