សូរ៉ា (OpenAI)
Sora គឺជាឈ្មោះថ្មីបំផុតដែលត្រូវបានប្រកាស ប៉ុន្តែបានធ្វើឱ្យមានការរំជើបរំជួលបំផុត មួយផ្នែកដោយសារតែវាជាផលិតផលរបស់ OpenAI ដែលជាអ្នកបង្កើតកម្មវិធី ChatGPT ដ៏ល្បីល្បាញ ប៉ុន្តែភាគច្រើនដោយសារតែគុណភាពនៃវីដេអូ ដែលកម្មវិធីបង្កើតចេញពីពាក្យបញ្ជាអត្ថបទប៉ុណ្ណោះ។
ភាពជោគជ័យជាមួយ ChatGPT ក៏ផ្តល់ឱ្យក្រុមហ៊ុននូវសមត្ថភាពយល់ដឹងភាសាជ្រៅជ្រះនៃបញ្ញាសិប្បនិម្មិតផងដែរ។ ឃ្លីបដែលបង្ហាញពីសមត្ថភាពរបស់ Sora បង្ហាញពីចលនា និងភាពខុសប្លែកគ្នារបស់តួអង្គយ៉ាងរស់រវើក ដូចជាខ្សែភាពយន្តសកម្មភាពផ្ទាល់។
វីដេអូ "Surrealistic" បង្កើតឡើងដោយ Sora ពីពាក្យបញ្ជាអត្ថបទ
ប៉ុន្តែ Sora មិនទាន់មានលក់នៅលើទីផ្សារនៅឡើយទេ ដោយសារហេតុផលសុវត្ថិភាព។ OpenAI នឹងចាត់វិធានការយ៉ាងប្រុងប្រយ័ត្ន មុនពេលនាំយកផលិតផលនេះទៅកាន់មហាជន ជាពិសេសនៅក្នុងបរិបទនៃបញ្ញាសិប្បនិម្មិតដែលត្រូវបានកេងប្រវ័ញ្ចដោយឧក្រិដ្ឋជនក្នុងគោលបំណងព្យាបាទ ក្លែងបន្លំអ្នកប្រើប្រាស់ ឬខុសច្បាប់។
Lumiere (Google)
Lumiere គឺជាផលិតផលពី Google ដែលមានសមត្ថភាពផលិតវីដេអូពីពាក្យបញ្ជាបញ្ចូលអត្ថបទ ដែលដំណើរការដោយផ្អែកលើគំរូនៃការសាយភាយដែលមានរចនាសម្ព័ន្ធ STUNet (Space-Time-U-Net) ។ Lumiere មិនរញ៉េរញ៉ៃជាមួយនឹងការដេរភ្ជាប់ស៊ុមជាមួយគ្នានោះទេ ផ្ទុយទៅវិញ AI នេះកំណត់ព័ត៌មានលម្អិតនៅក្នុងវីដេអូ (ផ្នែកលំហ) តាមដានពីរបៀបដែលពួកគេផ្លាស់ទី ផ្លាស់ប្តូរក្នុងពេលតែមួយ (ផ្នែកបណ្តោះអាសន្ន) ដោយហេតុនេះជួយឱ្យដំណើរការដំណើរការរលូន។
ដូច Sora ដែរ Lumiere មិនត្រូវបានបញ្ចេញជាសាធារណៈទេ។ ក្រុមហ៊ុនទើបតែណែនាំម៉ូដែលនេះនៅចុងខែមករាឆ្នាំ 2024 បន្ទាប់ពីបានបើកដំណើរការ Gemini ដែលជាគំរូភាសាដ៏ធំមួយដែលថ្មីៗនេះត្រូវបានធ្វើសមកាលកម្មជាមួយ Bard ។
VideoPoet (Google)
គំរូភាសាដ៏ធំនេះ (LLM) ត្រូវបានបណ្តុះបណ្តាលពីឃ្លាំងដ៏ធំនៃវីដេអូ រូបភាព អូឌីយ៉ូ និងអត្ថបទដែលត្រូវបានបង្កើតឡើងដោយ Google Search ក្នុងឆ្នាំ 2023។ VideoPoet អាចបំពេញកិច្ចការផ្សេងៗពីប្រភពបញ្ចូលដូចជា អត្ថបទ រូបភាព វីដេអូ... ដើម្បីបង្កើតវីដេអូ បន្លិចខ្លឹមសារ បំប្លែងវីដេអូទៅជាសំឡេង បង្វែររូបភាពទៅជាចលនា...
គំនិតដើមរបស់ VideoPoet បានមកពីតម្រូវការបំប្លែងគំរូភាសា autoregressive ណាមួយទៅជាប្រព័ន្ធបង្កើតវីដេអូ។ គំរូភាសា autoregressive បច្ចុប្បន្នអាចដំណើរការអត្ថបទ និងកូដសរសេរកម្មវិធីដូចជាមនុស្ស ប៉ុន្តែត្រូវប៉ះជញ្ជាំងនៅពេលនិយាយអំពីវីដេអូ។ VideoPoet ដោះស្រាយវាដោយប្រើសញ្ញាសម្ងាត់ដើម្បីបំប្លែងការបញ្ចូលពីទម្រង់ណាមួយទៅជាភាសាដែលវាអាចយល់បាន។
ឧបករណ៍សម្រាប់បង្កើតវីដេអូពីអត្ថបទភាគច្រើនកំពុងសាកល្បងដែនកំណត់របស់វា។
វីដេអូ Emu (Meta)
ក្រៅពី Google និង OpenAI, Meta ក៏ជាផ្នែកមួយនៃបច្ចេកវិទ្យាធំដែលសកម្មក្នុងការច្នៃប្រឌិត AI ។ ក្រុមហ៊ុនដែលជាម្ចាស់ Facebook ក៏បានបង្កើត AI បង្កើតវីដេអូ ហៅថា Emu Video ដែលអាចបំប្លែងរូបភាពទៅជាអត្ថបទ រួចប្រើវាជាទិន្នន័យដើម្បីបង្កើតឃ្លីប។
Emu Video កំពុងទទួលបានការពិនិត្យវិជ្ជមានពីអ្នកចូលរួមកម្មវិធីសាកល្បង ដោយ 81% ចូលចិត្ត AI នេះជាង Imagen Video (Google)។ ជាង 90% បានជ្រើសរើសម៉ូដែល Meta ជាង PYOCO (Nvidia) សូម្បីតែល្អជាង Meta's Make-A-Video (96% បានជ្រើសរើស)។
CogVideo (សាកលវិទ្យាល័យ Tsinghua ប្រទេសចិន)
មិនដូចម៉ូដែលខាងលើ ដែលសុទ្ធសឹងជាផលិតផលពីក្រុមហ៊ុនបច្ចេកវិទ្យាឈានមុខគេរបស់ពិភពលោក CogVideo គឺជា AI ដែលបង្កើតឡើងដោយក្រុមស្រាវជ្រាវមកពី សាកលវិទ្យាល័យ Tsinghua ដែលជាសាលាដ៏ល្បីល្បាញឈានមុខគេនៅក្នុងប្រទេសចិនក៏ដូចជាអាស៊ីផងដែរ។ កម្មវិធីនេះផ្អែកលើ CogView2 ដែលជាគំរូអត្ថបទទៅរូបភាពដែលបានបណ្តុះបណ្តាលជាមុន។
អ្នកជំនាញផ្នែកសិល្បៈកុំព្យូទ័រលោក Glenn Marshall ដែលបានសាកល្បង CogVideo បាននិយាយថា "អ្នកដឹកនាំអាចបាត់បង់ការងាររបស់ពួកគេ" ។ ឃ្លីបនេះមានឈ្មោះថា The Crow ដែលគាត់បានបង្កើតដោយជំនួយពី CogVideo ទទួលបានការសរសើរខ្ពស់ និងត្រូវបានតែងតាំងសម្រាប់ពានរង្វាន់ British Academy Film Award (BAFTA) ។
ប្រភពតំណ
Kommentar (0)