ហេតុអ្វីបានជាបញ្ញាសិប្បនិមិត្តត្រូវរៀនភាសាថ្មី?

OpenAI មិនបានបង្ហាញច្រើនអំពីរបៀបដែល ChatGPT-4 ត្រូវបានបណ្តុះបណ្តាល។ ទោះជាយ៉ាងណាក៏ដោយ ជាទូទៅគំរូភាសាធំៗ (LLMs) ត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទដែលបានទាញយកពីអ៊ីនធឺណិត ដែលភាសាអង់គ្លេសគឺជាភាសារបារាំង។ ប្រហែល 93% នៃទិន្នន័យបណ្តុះបណ្តាលរបស់ ChatGPT-3 ជាភាសាអង់គ្លេស។

នៅក្នុង Common Crawl គ្រាន់តែជាសំណុំទិន្នន័យមួយដែលគំរូ AI ត្រូវបានបណ្តុះបណ្តាល ភាសាអង់គ្លេសបង្កើតបាន 47% នៃ corpus ជាមួយនឹងភាសាអឺរ៉ុបផ្សេងទៀតបង្កើតបាន 38% បន្ថែមទៀត។ ផ្ទុយទៅវិញ ចិន និងជប៉ុនរួមគ្នាមានត្រឹមតែ ៩% ប៉ុណ្ណោះ។

រូបថតអេក្រង់ 2024 01 31 នៅ 151709.png — ទិន្នន័យភាគច្រើនដែលប្រើសម្រាប់ការបណ្តុះបណ្តាល LLM គឺជាភាសាអង់គ្លេស ឬភាសាអឺរ៉ុបផ្សេងទៀត។

ការពិនិត្យឡើងវិញដោយ Nathaniel Robinson អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Johns Hopkins និងសហការីរបស់គាត់បានរកឃើញថាវាមិនមែនគ្រាន់តែជាបញ្ហាដែលមានកំណត់ចំពោះ ChatGPT ប៉ុណ្ណោះទេ។ LLMs ទាំងអស់ដំណើរការបានល្អជាមួយភាសា "ធនធានខ្ពស់" ដែលទិន្នន័យបណ្តុះបណ្តាលមានច្រើន ជាងភាសា "ធនធានទាប" ដែលពួកគេខ្វះខាត។

នេះគឺជាបញ្ហាសម្រាប់អ្នកដែលសង្ឃឹមថានឹងនាំយក AI ទៅកាន់ប្រទេសក្រីក្រ ដើម្បីកែលម្អតំបន់ពីការអប់រំដល់ការថែទាំសុខភាព។ ដូច្នេះហើយ អ្នកស្រាវជ្រាវជុំវិញពិភពលោកកំពុងធ្វើការដើម្បីធ្វើឱ្យ AI កាន់តែមានពហុភាសា។

កាលពីខែកញ្ញាកន្លងទៅ រដ្ឋាភិបាលឥណ្ឌាបានបើកដំណើរការជជែកកំសាន្តដែលជួយកសិករបន្តធ្វើបច្ចុប្បន្នភាពជាមួយនឹងព័ត៌មានដែលមានប្រយោជន៍ពីរដ្ឋាភិបាល។

Shankar Maruwada នៃមូលនិធិ EkStep ដែលជាអង្គការមិនរកប្រាក់ចំណេញដែលបានជួយបង្កើត chatbot បាននិយាយថា bot ដំណើរការដោយការរួមបញ្ចូលគំរូភាសាពីរប្រភេទជាមួយគ្នា ហើយអ្នកប្រើប្រាស់អាចដាក់សំណួរជាភាសាកំណើតរបស់ពួកគេ។ សំណួរជាភាសាដើមទាំងនេះត្រូវបានបញ្ជូនទៅកម្មវិធីបកប្រែម៉ាស៊ីននៅឯកន្លែងស្រាវជ្រាវឥណ្ឌា ដែលបកប្រែវាជាភាសាអង់គ្លេស មុនពេលបញ្ជូនពួកគេទៅ LLM ដើម្បីដំណើរការការឆ្លើយតប។ ជាចុងក្រោយ ការឆ្លើយតបនឹងត្រូវបានបកប្រែត្រឡប់ទៅជាភាសាកំណើតរបស់អ្នកប្រើប្រាស់វិញ។

ដំណើរការនេះអាចដំណើរការបាន ប៉ុន្តែការបកប្រែសំណួរទៅជាភាសា "ពេញចិត្ត" របស់ LLM គឺជាដំណោះស្រាយដ៏ច្របូកច្របល់។ ភាសាគឺជាមធ្យោបាយឆ្លុះបញ្ចាំងពីវប្បធម៌ និងទស្សនៈពិភពលោក។ ក្រដាសឆ្នាំ 2022 ដោយ Rebecca Johnson អ្នកស្រាវជ្រាវនៅសកលវិទ្យាល័យ Sydney បានរកឃើញថា ChatGPT-3 ផលិតចម្លើយលើប្រធានបទដូចជា ការគ្រប់គ្រងកាំភ្លើង និងគោលនយោបាយជនភៀសខ្លួន ដែលអាចប្រៀបធៀបទៅនឹងតម្លៃរបស់អាមេរិក ដែលបានបង្ហាញនៅក្នុង World Values Survey។

ដូច្នេះ អ្នកស្រាវជ្រាវជាច្រើនកំពុងព្យាយាមធ្វើឱ្យ LLMs ស្ទាត់ជំនាញក្នុងភាសាដែលមិនសូវប្រើ។ តាមបច្ចេកទេស វិធីសាស្រ្តមួយគឺការកែប្រែនិមិត្តសញ្ញានៃភាសា។ ការចាប់ផ្តើមអាជីវកម្មរបស់ឥណ្ឌាមួយឈ្មោះថា Sarvam AI បានសរសេរអក្សរសម្ងាត់ដែលបានធ្វើឱ្យប្រសើរហិណ្ឌូ ឬ OpenHathi - LLM គំរូដែលត្រូវបានធ្វើឱ្យប្រសើរសម្រាប់ភាសាទេវណាហ្គារី (ឥណ្ឌា) ដែលអាចកាត់បន្ថយការចំណាយក្នុងការឆ្លើយសំណួរបានយ៉ាងច្រើន។

វិធីមួយទៀតគឺធ្វើឱ្យប្រសើរឡើងនូវសំណុំទិន្នន័យដែល LLM ត្រូវបានបណ្តុះបណ្តាល។ នៅក្នុងខែវិច្ឆិកា ក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Mohamed bin Zayed ក្នុងទីក្រុង Abu Dhabi បានចេញផ្សាយកំណែចុងក្រោយនៃគំរូនិយាយភាសាអារ៉ាប់ដែលមានឈ្មោះថា "Jais" ។ វាមាន 1/6 នៃចំនួនប៉ារ៉ាម៉ែត្រនៃ ChatGPT-3 ប៉ុន្តែផ្តល់នូវការប្រៀបធៀបសម្រាប់ភាសាអារ៉ាប់។

Timothy Baldwin អធិការបតីនៃសាកលវិទ្យាល័យ Mohamed bin Zayed បានកត់សម្គាល់ថា ទោះបីជាក្រុមរបស់គាត់បានធ្វើឌីជីថលជាច្រើននៃអត្ថបទអារ៉ាប់ក៏ដោយ គំរូនេះនៅតែរួមបញ្ចូលអត្ថបទភាសាអង់គ្លេសមួយចំនួន។ គោលគំនិតខ្លះគឺដូចគ្នាគ្រប់ភាសា ហើយអាចរៀនបានគ្រប់ភាសា។

វិធីសាស្រ្តទីបីគឺការលៃតម្រូវម៉ូដែលបន្ទាប់ពីពួកគេត្រូវបានបណ្តុះបណ្តាល។ ទាំង Jais និង OpenHathi មានសំណួរ និងចម្លើយដែលបង្កើតដោយមនុស្ស។ ដូចគ្នាដែរចំពោះ chatbots របស់លោកខាងលិច ដើម្បីការពារព័ត៌មានមិនពិត។

Ernie Bot, LLM នៃក្រុមហ៊ុន Baidu ដែលជាក្រុមហ៊ុនបច្ចេកវិទ្យាចិនធំមួយ ត្រូវបានគ្រប់គ្រងដើម្បីកំណត់ការនិយាយដែលអាចប្រមាថដល់រដ្ឋាភិបាល។ ម៉ូដែលក៏អាចរៀនពីមតិកែលម្អរបស់មនុស្ស ដែលអ្នកប្រើប្រាស់វាយតម្លៃចម្លើយរបស់ LLM។ ប៉ុន្តែវាជាការលំបាកក្នុងការធ្វើសម្រាប់ភាសាជាច្រើននៅក្នុងតំបន់ដែលមិនសូវមានការអភិវឌ្ឍន៍ ដោយសារតម្រូវការជួលមនុស្សដែលមានលក្ខណៈសម្បត្តិគ្រប់គ្រាន់ដើម្បីរិះគន់ពីរបៀបដែលម៉ាស៊ីនឆ្លើយតប។

(នេះបើតាមអ្នកសេដ្ឋកិច្ច)

កងទ័ពអាមេរិកប្រើ AI ដើម្បីប៉ាន់ប្រមាណតម្លៃនៃសារធាតុរ៉ែសំខាន់ៗ កងទ័ពអាមេរិកគ្រោងនឹងបង្កើតកម្មវិធីកុំព្យូទ័រដែលមានសមត្ថភាពប៉ាន់ស្មានតម្លៃ និងព្យាករណ៍ការផ្គត់ផ្គង់នីកែល កូបែល និងសារធាតុរ៉ែសំខាន់ៗផ្សេងទៀត។

ប្រភព