រូបភាពនៃអវកាសយានិកជិះសេះគឺជាការរួមបញ្ចូលគ្នានៃគំរូ AI ជំនាន់ពីរប្រភេទ។ រូបថត៖ MIT News
នៅពេលដែលល្បឿន និងគុណភាពលែងមានការដោះដូរ
នៅក្នុងវិស័យរូបភាព AI បច្ចុប្បន្នមានវិធីសាស្រ្តសំខាន់ពីរ៖
ម៉ូដែលចែកចាយអនុញ្ញាតឱ្យមានរូបភាពច្បាស់ និងលម្អិត។ ទោះជាយ៉ាងណាក៏ដោយ ពួកវាមានភាពយឺតយ៉ាវ និងពឹងផ្អែកខ្លាំងលើការគណនា ដោយសារពួកគេត្រូវការជំហានដំណើរការរាប់សិប ដើម្បីដកសំលេងរំខានចេញពីភីកសែលនីមួយៗ។
ម៉្យាងវិញទៀត ម៉ូដែល Autoregressive ដំណើរការលឿនជាងមុន ដោយសារពួកគេអាចទស្សន៍ទាយផ្នែកតូចៗនៃរូបភាពតាមលំដាប់លំដោយ។ ប៉ុន្តែជារឿយៗពួកវាបង្កើតរូបភាពដែលមានព័ត៌មានលម្អិតមិនល្អ ហើយងាយនឹងមានកំហុស។
HART (hybrid autoregressive transformer) រួមបញ្ចូលគ្នាទាំងពីរដោយផ្តល់នូវ "ល្អបំផុតនៃពិភពលោកទាំងពីរ" ។ ដំបូង វាប្រើគំរូ autoregressive ដើម្បីបង្កើតរូបភាពទាំងមូលដោយអ៊ិនកូដវាទៅជាសញ្ញាសម្ងាត់ដាច់ដោយឡែក។ គំរូនៃការសាយភាយទម្ងន់ស្រាល បន្ទាប់មកបន្តបន្ថែមថូខឹនដែលនៅសេសសល់ - ព័ត៌មានលម្អិតដែលបាត់បង់កំឡុងពេលអ៊ិនកូដ។
រូបភាពលទ្ធផលមានគុណភាពអាចប្រៀបធៀប (ឬប្រសើរជាង) ទៅនឹងគំរូនៃការសាយភាយទំនើប ប៉ុន្តែមានដំណើរការលឿនជាង 9 ដង និងប្រើប្រាស់ធនធានគណនាតិចជាង 31%។
វិធីសាស្រ្តថ្មីក្នុងការបង្កើតរូបភាពដែលមានគុណភាពក្នុងល្បឿនលឿន
ការច្នៃប្រឌិតដ៏គួរឱ្យកត់សម្គាល់មួយនៃ HART គឺជារបៀបដែលវាដោះស្រាយបញ្ហានៃការបាត់បង់ព័ត៌មាននៅពេលប្រើម៉ូដែល autoregressive ។ ការបំប្លែងរូបភាពទៅជាសញ្ញាសម្ងាត់ដាច់ពីគ្នា បង្កើនល្បឿនដំណើរការ ប៉ុន្តែក៏បាត់បង់ព័ត៌មានលម្អិតសំខាន់ៗដូចជា គែមវត្ថុ លក្ខណៈផ្ទៃមុខ សក់ ភ្នែក មាត់ជាដើម។
ដំណោះស្រាយរបស់ HART គឺអនុញ្ញាតឱ្យគំរូនៃការសាយភាយផ្តោតតែលើ "ការបិទភ្ជាប់" ព័ត៌មានលម្អិតទាំងនេះតាមរយៈនិមិត្តសញ្ញាដែលនៅសល់។ ហើយចាប់តាំងពីគំរូ autoregressive បានធ្វើកិច្ចការភាគច្រើន ម៉ូដែល diffusion ត្រូវការតែ 8 ជំហានដំណើរការប៉ុណ្ណោះ ជំនួសឱ្យជាង 30 ជំហានដូចពីមុន។
សហអ្នកនិពន្ធ Haotian Tang ពន្យល់ថា "គំរូនៃការសាយភាយកាន់តែងាយស្រួលអនុវត្ត ដែលនាំឱ្យមានប្រសិទ្ធភាពខ្ពស់"។
ជាពិសេស ការរួមបញ្ចូលគ្នានៃម៉ូដែលបំលែងបំរែបំរួលដោយស្វ័យប្រវត្តិដែលមានប៉ារ៉ាម៉ែត្រ 700 លាន និងគំរូនៃការសាយភាយទម្ងន់ស្រាលដែលមានប៉ារ៉ាម៉ែត្រ 37 លានផ្តល់ឱ្យ HART នូវដំណើរការដូចគ្នានឹងគំរូនៃការសាយភាយដែលមានប៉ារ៉ាម៉ែត្ររហូតដល់ 2 ពាន់លាន ប៉ុន្តែលឿនជាងប្រាំបួនដង។
ដំបូង ក្រុមការងារក៏បានព្យាយាមបញ្ចូលគំរូនៃការសាយភាយទៅក្នុងដំណាក់កាលដំបូងនៃការថតរូបភាព ប៉ុន្តែវាបាននាំឱ្យមានកំហុសក្នុងការប្រមូលផ្តុំ។ វិធីសាស្រ្តដ៏មានប្រសិទ្ធភាពបំផុតគឺអនុញ្ញាតឱ្យគំរូនៃការសាយភាយគ្រប់គ្រងជំហានចុងក្រោយ ហើយផ្តោតតែលើផ្នែក "បាត់" នៃរូបភាពប៉ុណ្ណោះ។
ដោះសោអនាគតនៃ Multimedia AI
ទិសដៅបន្ទាប់របស់ក្រុមស្រាវជ្រាវគឺបង្កើតគំរូ AI ដែលមើលឃើញ-ភាសាជំនាន់ថ្មីដោយផ្អែកលើស្ថាបត្យកម្ម HART ។ ដោយសារ HART អាចធ្វើមាត្រដ្ឋានបាន និងអាចសម្របខ្លួនទៅនឹងប្រភេទទិន្នន័យជាច្រើន (ពហុមុខងារ) ពួកគេរំពឹងថានឹងអាចអនុវត្តវាទៅនឹងការបង្កើតវីដេអូ ការទស្សន៍ទាយសំឡេង និងផ្នែកជាច្រើនទៀត។
ការស្រាវជ្រាវនេះត្រូវបានផ្តល់មូលនិធិដោយអង្គការមួយចំនួនរួមមាន MIT-IBM Watson AI Lab, មជ្ឈមណ្ឌលវិទ្យាសាស្ត្រ MIT-Amazon, កម្មវិធី MIT AI Hardware និងមូលនិធិវិទ្យាសាស្ត្រជាតិរបស់សហរដ្ឋអាមេរិក។ NVIDIA ក៏បានបរិច្ចាគហេដ្ឋារចនាសម្ព័ន្ធ GPU ដើម្បីបណ្តុះបណ្តាលម៉ូដែលនេះ។
(នេះបើតាម MIT News)
ប្រភព៖ https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)