OpenAI មិនបានបង្ហាញច្រើនអំពីរបៀបដែល ChatGPT-4 ត្រូវបានបណ្តុះបណ្តាល។ ទោះជាយ៉ាងណាក៏ដោយ ជាទូទៅគំរូភាសាធំៗ (LLMs) ត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទដែលបានទាញយកពីអ៊ីនធឺណិត ដែលភាសាអង់គ្លេសគឺជាភាសារបារាំង។ ប្រហែល 93% នៃទិន្នន័យបណ្តុះបណ្តាលរបស់ ChatGPT-3 ជាភាសាអង់គ្លេស។

នៅក្នុង Common Crawl គ្រាន់តែជាសំណុំទិន្នន័យមួយដែលគំរូ AI ត្រូវបានបណ្តុះបណ្តាល ភាសាអង់គ្លេសបង្កើតបាន 47% នៃ corpus ជាមួយនឹងភាសាអឺរ៉ុបផ្សេងទៀតបង្កើតបាន 38% បន្ថែមទៀត។ ផ្ទុយ​ទៅ​វិញ ចិន និង​ជប៉ុន​រួម​គ្នា​មាន​ត្រឹម​តែ ៩% ប៉ុណ្ណោះ។

រូបថតអេក្រង់ 2024 01 31 នៅ 151709.png
ទិន្នន័យភាគច្រើនដែលប្រើសម្រាប់ការបណ្តុះបណ្តាល LLM គឺជាភាសាអង់គ្លេស ឬភាសាអឺរ៉ុបផ្សេងទៀត។

ការពិនិត្យឡើងវិញដោយ Nathaniel Robinson អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Johns Hopkins និងសហការីរបស់គាត់បានរកឃើញថាបញ្ហានេះមិនត្រូវបានកំណត់ចំពោះ ChatGPT តែម្នាក់ឯងនោះទេ។ LLMs ទាំងអស់ដំណើរការបានល្អជាមួយភាសា "ធនធានខ្ពស់" ដែលទិន្នន័យបណ្តុះបណ្តាលមានច្រើន ជាងភាសា "ធនធានទាប" ដែលពួកគេខ្វះខាត។

នេះគឺជាបញ្ហាសម្រាប់អ្នកដែលសង្ឃឹមថានឹងនាំយក AI ទៅកាន់ប្រទេសក្រីក្រ ដើម្បីកែលម្អតំបន់ពីការអប់រំដល់ការថែទាំសុខភាព។ ដូច្នេះហើយ អ្នកស្រាវជ្រាវជុំវិញពិភពលោកកំពុងធ្វើការដើម្បីធ្វើឱ្យ AI កាន់តែមានពហុភាសា។

កាល​ពី​ខែ​កញ្ញា​កន្លង​ទៅ រដ្ឋាភិបាល​ឥណ្ឌា​បាន​បើក​ដំណើរការ​ជជែក​កំសាន្ត​ដែល​ជួយ​កសិករ​បន្ត​ធ្វើ​បច្ចុប្បន្នភាព​ជាមួយ​នឹង​ព័ត៌មាន​ដែល​មាន​ប្រយោជន៍​ពី​រដ្ឋ។

Shankar Maruwada នៃមូលនិធិ EkStep ដែលជាអង្គការមិនរកប្រាក់ចំណេញដែលបានជួយបង្កើត chatbot បាននិយាយថា bot ដំណើរការដោយការរួមបញ្ចូលគំរូភាសាពីរប្រភេទជាមួយគ្នា ហើយអ្នកប្រើប្រាស់អាចដាក់សំណួរជាភាសាកំណើតរបស់ពួកគេ។ សំណួរជាភាសាដើមទាំងនេះត្រូវបានបញ្ជូនទៅកម្មវិធីបកប្រែម៉ាស៊ីននៅឯកន្លែងស្រាវជ្រាវឥណ្ឌា ដែលបកប្រែវាជាភាសាអង់គ្លេស មុនពេលបញ្ជូនពួកគេទៅ LLM ដើម្បីដំណើរការការឆ្លើយតប។ ជាចុងក្រោយ ការឆ្លើយតបនឹងត្រូវបានបកប្រែត្រឡប់ទៅជាភាសាកំណើតរបស់អ្នកប្រើប្រាស់វិញ។

ដំណើរការនេះអាចដំណើរការបាន ប៉ុន្តែការបកប្រែសំណួរទៅជាភាសា "ពេញចិត្ត" របស់ LLM គឺជាដំណោះស្រាយដ៏ច្របូកច្របល់។ ភាសាគឺជាមធ្យោបាយឆ្លុះបញ្ចាំងពីវប្បធម៌ និងទស្សនៈពិភពលោក។ ក្រដាសឆ្នាំ 2022 ដោយ Rebecca Johnson អ្នកស្រាវជ្រាវនៅសកលវិទ្យាល័យ Sydney បានរកឃើញថា ChatGPT-3 ផលិតចម្លើយលើប្រធានបទដូចជា ការគ្រប់គ្រងកាំភ្លើង និងគោលនយោបាយជនភៀសខ្លួន ដែលអាចប្រៀបធៀបទៅនឹងតម្លៃរបស់អាមេរិក ដែលបានបង្ហាញនៅក្នុង World Values ​​Survey។

ដូច្នេះ អ្នកស្រាវជ្រាវជាច្រើនកំពុងព្យាយាមធ្វើឱ្យ LLMs ស្ទាត់ជំនាញក្នុងភាសាដែលមិនសូវប្រើ។ តាមបច្ចេកទេស វិធីសាស្រ្តមួយគឺការកែប្រែនិមិត្តសញ្ញានៃភាសា។ ការចាប់ផ្តើមអាជីវកម្មរបស់ឥណ្ឌាដែលមានឈ្មោះថា Sarvam AI បានសរសេរអក្សរសម្ងាត់ដែលធ្វើឱ្យប្រសើរឡើងសម្រាប់ភាសាហិណ្ឌី ឬ OpenHathi - LLM គំរូដែលត្រូវបានធ្វើឱ្យប្រសើរសម្រាប់ភាសាទេវណាហ្គារី (ឥណ្ឌា) ដែលអាចកាត់បន្ថយការចំណាយក្នុងការឆ្លើយសំណួរយ៉ាងច្រើន។

វិធីមួយទៀតគឺធ្វើឱ្យប្រសើរឡើងនូវសំណុំទិន្នន័យដែល LLM ត្រូវបានបណ្តុះបណ្តាល។ នៅក្នុងខែវិច្ឆិកា ក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Mohamed bin Zayed ក្នុងទីក្រុង Abu Dhabi បានចេញផ្សាយកំណែចុងក្រោយនៃគំរូនិយាយភាសាអារ៉ាប់ដែលមានឈ្មោះថា "Jais" ។ វាមាន 1/6 នៃចំនួនប៉ារ៉ាម៉ែត្រនៃ ChatGPT-3 ប៉ុន្តែផ្តល់នូវការប្រៀបធៀបសម្រាប់ភាសាអារ៉ាប់។

Timothy Baldwin អធិការបតីនៃសាកលវិទ្យាល័យ Mohamed bin Zayed បានកត់សម្គាល់ថា ទោះបីជាក្រុមរបស់គាត់បានធ្វើឌីជីថលជាច្រើននៃអត្ថបទអារ៉ាប់ក៏ដោយ គំរូនេះនៅតែរួមបញ្ចូលអត្ថបទភាសាអង់គ្លេសមួយចំនួន។ គោល​គំនិត​ខ្លះ​គឺ​ដូចគ្នា​គ្រប់​ភាសា ហើយ​អាច​រៀន​បាន​គ្រប់​ភាសា។

វិធីសាស្រ្តទីបីគឺការលៃតម្រូវម៉ូដែលបន្ទាប់ពីពួកគេត្រូវបានបណ្តុះបណ្តាល។ ទាំង Jais និង OpenHathi មានសំណួរ និងចម្លើយដែលបង្កើតឡើងដោយមនុស្ស។ ដូចគ្នាដែរចំពោះ chatbots របស់លោកខាងលិច ដើម្បីការពារព័ត៌មានមិនពិត។

Ernie Bot, LLM នៃក្រុមហ៊ុន Baidu ដែលជាក្រុមហ៊ុនបច្ចេកវិទ្យាចិនធំមួយ ត្រូវបានគ្រប់គ្រងដើម្បីកំណត់ការនិយាយដែលអាចប្រមាថដល់រដ្ឋាភិបាល។ ម៉ូដែលក៏អាចរៀនពីមតិកែលម្អរបស់មនុស្ស ដែលអ្នកប្រើប្រាស់វាយតម្លៃចម្លើយរបស់ LLM។ ប៉ុន្តែវាជាការលំបាកក្នុងការធ្វើសម្រាប់ភាសាជាច្រើននៅក្នុងតំបន់ដែលមិនសូវមានការអភិវឌ្ឍន៍ ដោយសារតម្រូវការជួលមនុស្សដែលមានលក្ខណៈសម្បត្តិគ្រប់គ្រាន់ដើម្បីរិះគន់ពីរបៀបដែលម៉ាស៊ីនឆ្លើយតប។

(នេះ​បើ​តាម​អ្នក​សេដ្ឋកិច្ច)

កងទ័ពអាមេរិកប្រើ AI ដើម្បីប៉ាន់ប្រមាណតម្លៃនៃសារធាតុរ៉ែសំខាន់ៗ កងទ័ពអាមេរិកគ្រោងនឹងបង្កើតកម្មវិធីកុំព្យូទ័រដែលមានសមត្ថភាពប៉ាន់ស្មានតម្លៃ និងព្យាករណ៍ការផ្គត់ផ្គង់នីកែល កូបែល និងសារធាតុរ៉ែសំខាន់ៗផ្សេងទៀត។