OpenAI មិនបានបង្ហាញច្រើនអំពីរបៀបដែល ChatGPT-4 ត្រូវបានបណ្តុះបណ្តាល។ ទោះជាយ៉ាងណាក៏ដោយ ជាទូទៅគំរូភាសាធំៗ (LLMs) ត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទដែលបានទាញយកពីអ៊ីនធឺណិត ដែលភាសាអង់គ្លេសគឺជាភាសារបារាំង។ ប្រហែល 93% នៃទិន្នន័យបណ្តុះបណ្តាលរបស់ ChatGPT-3 ជាភាសាអង់គ្លេស។
នៅក្នុង Common Crawl គ្រាន់តែជាសំណុំទិន្នន័យមួយដែលគំរូ AI ត្រូវបានបណ្តុះបណ្តាល ភាសាអង់គ្លេសបង្កើតបាន 47% នៃ corpus ជាមួយនឹងភាសាអឺរ៉ុបផ្សេងទៀតបង្កើតបាន 38% បន្ថែមទៀត។ ផ្ទុយទៅវិញ ចិន និងជប៉ុនរួមគ្នាមានត្រឹមតែ ៩% ប៉ុណ្ណោះ។
ការពិនិត្យឡើងវិញដោយ Nathaniel Robinson អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Johns Hopkins និងសហការីរបស់គាត់បានរកឃើញថាបញ្ហានេះមិនត្រូវបានកំណត់ចំពោះ ChatGPT តែម្នាក់ឯងនោះទេ។ LLMs ទាំងអស់ដំណើរការបានល្អជាមួយភាសា "ធនធានខ្ពស់" ដែលទិន្នន័យបណ្តុះបណ្តាលមានច្រើន ជាងភាសា "ធនធានទាប" ដែលពួកគេខ្វះខាត។
នេះគឺជាបញ្ហាសម្រាប់អ្នកដែលសង្ឃឹមថានឹងនាំយក AI ទៅកាន់ប្រទេសក្រីក្រ ដើម្បីកែលម្អតំបន់ពីការអប់រំដល់ការថែទាំសុខភាព។ ដូច្នេះហើយ អ្នកស្រាវជ្រាវជុំវិញពិភពលោកកំពុងធ្វើការដើម្បីធ្វើឱ្យ AI កាន់តែមានពហុភាសា។
កាលពីខែកញ្ញាកន្លងទៅ រដ្ឋាភិបាលឥណ្ឌាបានបើកដំណើរការជជែកកំសាន្តដែលជួយកសិករបន្តធ្វើបច្ចុប្បន្នភាពជាមួយនឹងព័ត៌មានដែលមានប្រយោជន៍ពីរដ្ឋ។
Shankar Maruwada នៃមូលនិធិ EkStep ដែលជាអង្គការមិនរកប្រាក់ចំណេញដែលបានជួយបង្កើត chatbot បាននិយាយថា bot ដំណើរការដោយការរួមបញ្ចូលគំរូភាសាពីរប្រភេទជាមួយគ្នា ហើយអ្នកប្រើប្រាស់អាចដាក់សំណួរជាភាសាកំណើតរបស់ពួកគេ។ សំណួរជាភាសាដើមទាំងនេះត្រូវបានបញ្ជូនទៅកម្មវិធីបកប្រែម៉ាស៊ីននៅឯកន្លែងស្រាវជ្រាវឥណ្ឌា ដែលបកប្រែវាជាភាសាអង់គ្លេស មុនពេលបញ្ជូនពួកគេទៅ LLM ដើម្បីដំណើរការការឆ្លើយតប។ ជាចុងក្រោយ ការឆ្លើយតបនឹងត្រូវបានបកប្រែត្រឡប់ទៅជាភាសាកំណើតរបស់អ្នកប្រើប្រាស់វិញ។
ដំណើរការនេះអាចដំណើរការបាន ប៉ុន្តែការបកប្រែសំណួរទៅជាភាសា "ពេញចិត្ត" របស់ LLM គឺជាដំណោះស្រាយដ៏ច្របូកច្របល់។ ភាសាគឺជាមធ្យោបាយឆ្លុះបញ្ចាំងពីវប្បធម៌ និងទស្សនៈពិភពលោក។ ក្រដាសឆ្នាំ 2022 ដោយ Rebecca Johnson អ្នកស្រាវជ្រាវនៅសកលវិទ្យាល័យ Sydney បានរកឃើញថា ChatGPT-3 ផលិតចម្លើយលើប្រធានបទដូចជា ការគ្រប់គ្រងកាំភ្លើង និងគោលនយោបាយជនភៀសខ្លួន ដែលអាចប្រៀបធៀបទៅនឹងតម្លៃរបស់អាមេរិក ដែលបានបង្ហាញនៅក្នុង World Values Survey។
ដូច្នេះ អ្នកស្រាវជ្រាវជាច្រើនកំពុងព្យាយាមធ្វើឱ្យ LLMs ស្ទាត់ជំនាញក្នុងភាសាដែលមិនសូវប្រើ។ តាមបច្ចេកទេស វិធីសាស្រ្តមួយគឺការកែប្រែនិមិត្តសញ្ញានៃភាសា។ ការចាប់ផ្តើមអាជីវកម្មរបស់ឥណ្ឌាដែលមានឈ្មោះថា Sarvam AI បានសរសេរអក្សរសម្ងាត់ដែលធ្វើឱ្យប្រសើរឡើងសម្រាប់ភាសាហិណ្ឌី ឬ OpenHathi - LLM គំរូដែលត្រូវបានធ្វើឱ្យប្រសើរសម្រាប់ភាសាទេវណាហ្គារី (ឥណ្ឌា) ដែលអាចកាត់បន្ថយការចំណាយក្នុងការឆ្លើយសំណួរយ៉ាងច្រើន។
វិធីមួយទៀតគឺធ្វើឱ្យប្រសើរឡើងនូវសំណុំទិន្នន័យដែល LLM ត្រូវបានបណ្តុះបណ្តាល។ នៅក្នុងខែវិច្ឆិកា ក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Mohamed bin Zayed ក្នុងទីក្រុង Abu Dhabi បានចេញផ្សាយកំណែចុងក្រោយនៃគំរូនិយាយភាសាអារ៉ាប់ដែលមានឈ្មោះថា "Jais" ។ វាមាន 1/6 នៃចំនួនប៉ារ៉ាម៉ែត្រនៃ ChatGPT-3 ប៉ុន្តែផ្តល់នូវការប្រៀបធៀបសម្រាប់ភាសាអារ៉ាប់។
Timothy Baldwin អធិការបតីនៃសាកលវិទ្យាល័យ Mohamed bin Zayed បានកត់សម្គាល់ថា ទោះបីជាក្រុមរបស់គាត់បានធ្វើឌីជីថលជាច្រើននៃអត្ថបទអារ៉ាប់ក៏ដោយ គំរូនេះនៅតែរួមបញ្ចូលអត្ថបទភាសាអង់គ្លេសមួយចំនួន។ គោលគំនិតខ្លះគឺដូចគ្នាគ្រប់ភាសា ហើយអាចរៀនបានគ្រប់ភាសា។
វិធីសាស្រ្តទីបីគឺការលៃតម្រូវម៉ូដែលបន្ទាប់ពីពួកគេត្រូវបានបណ្តុះបណ្តាល។ ទាំង Jais និង OpenHathi មានសំណួរ និងចម្លើយដែលបង្កើតឡើងដោយមនុស្ស។ ដូចគ្នាដែរចំពោះ chatbots របស់លោកខាងលិច ដើម្បីការពារព័ត៌មានមិនពិត។
Ernie Bot, LLM នៃក្រុមហ៊ុន Baidu ដែលជាក្រុមហ៊ុនបច្ចេកវិទ្យាចិនធំមួយ ត្រូវបានគ្រប់គ្រងដើម្បីកំណត់ការនិយាយដែលអាចប្រមាថដល់រដ្ឋាភិបាល។ ម៉ូដែលក៏អាចរៀនពីមតិកែលម្អរបស់មនុស្ស ដែលអ្នកប្រើប្រាស់វាយតម្លៃចម្លើយរបស់ LLM។ ប៉ុន្តែវាជាការលំបាកក្នុងការធ្វើសម្រាប់ភាសាជាច្រើននៅក្នុងតំបន់ដែលមិនសូវមានការអភិវឌ្ឍន៍ ដោយសារតម្រូវការជួលមនុស្សដែលមានលក្ខណៈសម្បត្តិគ្រប់គ្រាន់ដើម្បីរិះគន់ពីរបៀបដែលម៉ាស៊ីនឆ្លើយតប។
(នេះបើតាមអ្នកសេដ្ឋកិច្ច)
ប្រភព
Kommentar (0)