ເປັນຫຍັງປັນຍາປະດິດຈຶ່ງຕ້ອງຮຽນພາສາໃໝ່?

OpenAI ບໍ່ໄດ້ເປີດເຜີຍຫຼາຍກ່ຽວກັບວິທີການຝຶກອົບຮົມ ChatGPT-4. ຢ່າງໃດກໍຕາມ, ໂດຍທົ່ວໄປແລ້ວຕົວແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ແມ່ນການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ຄວາມທີ່ດຶງມາຈາກອິນເຕີເນັດ, ບ່ອນທີ່ພາສາອັງກິດແມ່ນພາສາຝຣັ່ງ. ປະມານ 93% ຂອງຂໍ້ມູນການຝຶກອົບຮົມຂອງ ChatGPT-3 ເປັນພາສາອັງກິດ.

ໃນ Common Crawl, ພຽງແຕ່ຫນຶ່ງໃນຊຸດຂໍ້ມູນທີ່ຮູບແບບ AI ໄດ້ຮັບການຝຶກອົບຮົມ, ພາສາອັງກິດເຮັດໃຫ້ເຖິງ 47% ຂອງ corpus, ກັບພາສາເອີຣົບອື່ນໆເຮັດໃຫ້ເຖິງ 38%. ກົງກັນຂ້າມ, ຈີນແລະຍີ່ປຸ່ນກວມເອົາພຽງແຕ່ 9%.

screenshot 2024 01 31 ຢູ່ 151709.png — ຂໍ້ມູນສ່ວນໃຫຍ່ທີ່ໃຊ້ສໍາລັບການຝຶກອົບຮົມ LLM ແມ່ນຢູ່ໃນພາສາອັງກິດຫຼືພາສາເອີຣົບອື່ນໆ.

ການທົບທວນຄືນໂດຍ Nathaniel Robinson, ນັກຄົ້ນຄວ້າຢູ່ມະຫາວິທະຍາໄລ Johns Hopkins, ແລະເພື່ອນຮ່ວມງານຂອງລາວພົບວ່າບັນຫາບໍ່ໄດ້ຈໍາກັດຢູ່ໃນ ChatGPT ດຽວ. LLMs ທັງຫມົດປະຕິບັດໄດ້ດີກັບພາສາ "ຊັບພະຍາກອນສູງ" ບ່ອນທີ່ຂໍ້ມູນການຝຶກອົບຮົມມີຄວາມອຸດົມສົມບູນ, ກ່ວາພາສາ "ຊັບພະຍາກອນຕ່ໍາ" ທີ່ພວກເຂົາຂາດແຄນ.

ນີ້ແມ່ນບັນຫາສຳລັບຜູ້ທີ່ຫວັງຈະນຳ AI ໄປສູ່ບັນດາປະເທດທຸກຍາກເພື່ອປັບປຸງບັນດາຂົງເຂດນັບແຕ່ການສຶກສາເຖິງການຮັກສາສຸຂະພາບ. ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າໃນທົ່ວໂລກກໍາລັງເຮັດວຽກເພື່ອເຮັດໃຫ້ AI ຫຼາຍພາສາ.

ເດືອນກັນຍາທີ່ຜ່ານມາ, ລັດຖະບານອິນເດຍໄດ້ເປີດຕົວ chatbot ທີ່ຊ່ວຍໃຫ້ຊາວກະສິກອນປັບປຸງຂໍ້ມູນທີ່ເປັນປະໂຫຍດຈາກລັດ.

Shankar Maruwada ຈາກມູນນິທິ EkStep, ທີ່ບໍ່ຫວັງຜົນກໍາໄລທີ່ຊ່ວຍສ້າງ chatbot, ກ່າວວ່າ bot ເຮັດວຽກໂດຍການລວມເອົາສອງປະເພດຂອງພາສາເຂົ້າກັນ, ແລະຜູ້ໃຊ້ສາມາດສົ່ງຄໍາຖາມເປັນພາສາກໍາເນີດຂອງເຂົາເຈົ້າ. ຄໍາຖາມທີ່ເປັນພາສາກໍາເນີດເຫຼົ່ານີ້ຖືກສົ່ງກັບຊອບແວການແປພາສາເຄື່ອງຢູ່ໃນສະຖານທີ່ຄົ້ນຄ້ວາອິນເດຍ, ເຊິ່ງແປເປັນພາສາອັງກິດກ່ອນທີ່ຈະສົ່ງຕໍ່ໃຫ້ LLM ເພື່ອປະມວນຜົນຄໍາຕອບ. ສຸດທ້າຍ, ຄໍາຕອບຈະຖືກແປເປັນພາສາກໍາເນີດຂອງຜູ້ໃຊ້.

ຂະບວນການນີ້ອາດຈະເຮັດວຽກ, ແຕ່ການແປຄໍາຖາມເຂົ້າໄປໃນພາສາ "ມັກ" ຂອງ LLM ແມ່ນເປັນການແກ້ໄຂ clumsy. ພາສາແມ່ນວິທີການສະທ້ອນວັດທະນະທໍາແລະທັດສະນະຂອງໂລກ. ເອກະສານປີ 2022 ໂດຍ Rebecca Johnson, ນັກຄົ້ນຄວ້າຈາກມະຫາວິທະຍາໄລ Sydney, ພົບວ່າ ChatGPT-3 ໄດ້ຜະລິດຄໍາຕອບກ່ຽວກັບຫົວຂໍ້ຕ່າງໆເຊັ່ນການຄວບຄຸມປືນແລະນະໂຍບາຍການອົບພະຍົບທີ່ປຽບທຽບກັບຄຸນຄ່າຂອງອາເມລິກາທີ່ສະແດງອອກໃນການສໍາຫຼວດມູນຄ່າໂລກ.

ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍກໍາລັງພະຍາຍາມເຮັດໃຫ້ LLMs ຄ່ອງແຄ້ວໃນພາສາທີ່ໃຊ້ຫນ້ອຍລົງ. ທາງດ້ານເຕັກນິກ, ວິທີການຫນຶ່ງແມ່ນການແກ້ໄຂ tokenization ຂອງພາສາ. ການເລີ່ມຕົ້ນຂອງອິນເດຍທີ່ເອີ້ນວ່າ Sarvam AI ໄດ້ຂຽນ tokenizer ທີ່ດີທີ່ສຸດສໍາລັບພາສາຮິນດູ, ຫຼືຮູບແບບ OpenHathi - LLM ເຫມາະສໍາລັບພາສາ Devanagari (ອິນເດຍ) ທີ່ສາມາດຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການຕອບຄໍາຖາມໄດ້ຢ່າງຫຼວງຫຼາຍ.

ອີກວິທີຫນຶ່ງແມ່ນເພື່ອປັບປຸງຊຸດຂໍ້ມູນທີ່ LLM ໄດ້ຮັບການຝຶກອົບຮົມ. ໃນເດືອນພະຈິກ, ທີມງານຂອງນັກຄົ້ນຄວ້າທີ່ມະຫາວິທະຍາໄລ Mohamed bin Zayed, ໃນ Abu Dhabi, ໄດ້ປ່ອຍຕົວແບບທີ່ເວົ້າພາສາອາຫລັບສະບັບຫລ້າສຸດທີ່ເອີ້ນວ່າ "Jais." ມັນມີ 1/6th ຈໍານວນຂອງຕົວກໍານົດການຂອງ ChatGPT-3, ແຕ່ໃຫ້ປະສິດທິພາບປຽບທຽບສໍາລັບ Arabic.

Timothy Baldwin, ອະທິການບໍດີມະຫາວິທະຍາໄລ Mohamed bin Zayed, ໃຫ້ຂໍ້ສັງເກດວ່າ, ເຖິງແມ່ນວ່າທີມງານຂອງລາວຈະສ້າງຕົວເລກຂອງຂໍ້ຄວາມພາສາອາຫລັບຫຼາຍ, ແຕ່ຕົວແບບດັ່ງກ່າວຍັງປະກອບມີຂໍ້ຄວາມພາສາອັງກິດບາງອັນ. ແນວຄວາມຄິດບາງຢ່າງແມ່ນຄືກັນໃນທຸກພາສາແລະສາມາດຮຽນຮູ້ໃນພາສາໃດກໍ່ຕາມ.

ວິທີທີສາມແມ່ນການປບັຕົວແບບຫຼັງຈາກພວກເຂົາໄດ້ຮັບການຝຶກອົບຮົມ. ທັງ Jais ແລະ OpenHathi ມີຄູ່ຄໍາຖາມແລະຄໍາຕອບທີ່ສ້າງຂຶ້ນໂດຍມະນຸດ. ດຽວກັນກັບ chatbots ຕາເວັນຕົກ, ເພື່ອປ້ອງກັນຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ.

Ernie Bot, LLM ຂອງ Baidu, ບໍລິສັດເຕັກໂນໂລຢີໃຫຍ່ຂອງຈີນ, ໄດ້ຖືກຄວບຄຸມເພື່ອຈໍາກັດຄໍາເວົ້າທີ່ອາດຈະເຮັດໃຫ້ລັດຖະບານກະທໍາຜິດ. ຕົວແບບຍັງສາມາດຮຽນຮູ້ຈາກຄວາມຄິດເຫັນຂອງມະນຸດ, ບ່ອນທີ່ຜູ້ໃຊ້ໃຫ້ຄະແນນຄໍາຕອບຂອງ LLM. ແຕ່ມັນເປັນການຍາກທີ່ຈະເຮັດສໍາລັບຫລາຍພາສາໃນພາກພື້ນທີ່ພັດທະນາຫນ້ອຍເນື່ອງຈາກຄວາມຕ້ອງການທີ່ຈະຈ້າງຄົນທີ່ມີຄຸນວຸດທິໃນການວິພາກວິຈານວິທີການທີ່ເຄື່ອງຈັກຕອບສະຫນອງ.

(ອີງຕາມນັກເສດຖະສາດ)

ກອງທັບສະຫະລັດໃຊ້ AI ເພື່ອຄາດຄະເນລາຄາຂອງແຮ່ທາດທີ່ສໍາຄັນ ກອງທັບສະຫະລັດກໍາລັງວາງແຜນທີ່ຈະພັດທະນາໂຄງການຄອມພິວເຕີທີ່ສາມາດຄາດຄະເນລາຄາແລະຄາດຄະເນການສະຫນອງຂອງ nickel, cobalt ແລະແຮ່ທາດທີ່ສໍາຄັນອື່ນໆ.

ທີ່ມາ