អត្ថបទទៅវីដេអូ AIs ដូចជា Sora

សូរ៉ា (OpenAI)

Sora គឺជាឈ្មោះថ្មីបំផុតដែលត្រូវបានប្រកាស ប៉ុន្តែបានធ្វើឱ្យមានការរំជើបរំជួលបំផុត មួយផ្នែកដោយសារតែវាជាផលិតផលរបស់ OpenAI ដែលជាអ្នកបង្កើតកម្មវិធី ChatGPT ដ៏ល្បីល្បាញ ប៉ុន្តែភាគច្រើនដោយសារតែគុណភាពនៃវីដេអូ ដែលកម្មវិធីបង្កើតចេញពីពាក្យបញ្ជាអត្ថបទប៉ុណ្ណោះ។

ភាពជោគជ័យជាមួយ ChatGPT ក៏ផ្តល់ឱ្យក្រុមហ៊ុននូវសមត្ថភាពយល់ដឹងភាសាជ្រៅជ្រះនៃបញ្ញាសិប្បនិម្មិតផងដែរ។ ឃ្លីបដែលបង្ហាញពីសមត្ថភាពរបស់ Sora បង្ហាញពីចលនា និងភាពខុសប្លែកគ្នារបស់តួអង្គយ៉ាងរស់រវើក ដូចជាខ្សែភាពយន្តសកម្មភាពផ្ទាល់។

Video "siêu thực" do Sora tạo từ các lệnh văn bản — វីដេអូ "Surrealistic" បង្កើតឡើងដោយ Sora ពីពាក្យបញ្ជាអត្ថបទ

ប៉ុន្តែ Sora មិនទាន់មានលក់នៅលើទីផ្សារនៅឡើយទេ ដោយសារហេតុផលសុវត្ថិភាព។ OpenAI នឹងចាត់វិធានការយ៉ាងប្រុងប្រយ័ត្ន មុនពេលនាំយកផលិតផលនេះទៅកាន់មហាជន ជាពិសេសនៅក្នុងបរិបទនៃបញ្ញាសិប្បនិម្មិតដែលត្រូវបានកេងប្រវ័ញ្ចដោយឧក្រិដ្ឋជនក្នុងគោលបំណងព្យាបាទ ក្លែងបន្លំអ្នកប្រើប្រាស់ ឬខុសច្បាប់។

Lumiere (Google)

Lumiere គឺជាផលិតផលពី Google ដែលមានសមត្ថភាពផលិតវីដេអូពីពាក្យបញ្ជាបញ្ចូលអត្ថបទ ដែលដំណើរការដោយផ្អែកលើគំរូនៃការសាយភាយដែលមានរចនាសម្ព័ន្ធ STUNet (Space-Time-U-Net) ។ Lumiere មិនរញ៉េរញ៉ៃជាមួយនឹងការដេរភ្ជាប់ស៊ុមជាមួយគ្នានោះទេ ផ្ទុយទៅវិញ AI នេះកំណត់ព័ត៌មានលម្អិតនៅក្នុងវីដេអូ (ផ្នែកលំហ) តាមដានពីរបៀបដែលពួកគេផ្លាស់ទី ផ្លាស់ប្តូរក្នុងពេលតែមួយ (ផ្នែកបណ្តោះអាសន្ន) ដោយហេតុនេះជួយឱ្យដំណើរការដំណើរការរលូន។

ដូច Sora ដែរ Lumiere មិនត្រូវបានបញ្ចេញជាសាធារណៈទេ។ ក្រុមហ៊ុនទើបតែណែនាំម៉ូដែលនេះនៅចុងខែមករាឆ្នាំ 2024 បន្ទាប់ពីបានបើកដំណើរការ Gemini ដែលជាគំរូភាសាដ៏ធំមួយដែលថ្មីៗនេះត្រូវបានធ្វើសមកាលកម្មជាមួយ Bard ។

VideoPoet (Google)

គំរូភាសាដ៏ធំនេះ (LLM) ត្រូវបានបណ្តុះបណ្តាលពីឃ្លាំងដ៏ធំនៃវីដេអូ រូបភាព អូឌីយ៉ូ និងអត្ថបទដែលត្រូវបានបង្កើតឡើងដោយ Google Search ក្នុងឆ្នាំ 2023។ VideoPoet អាចបំពេញកិច្ចការផ្សេងៗពីប្រភពបញ្ចូលដូចជា អត្ថបទ រូបភាព វីដេអូ... ដើម្បីបង្កើតវីដេអូ បន្លិចខ្លឹមសារ បំប្លែងវីដេអូទៅជាសំឡេង បង្វែររូបភាពទៅជាចលនា...

គំនិតដើមរបស់ VideoPoet បានមកពីតម្រូវការបំប្លែងគំរូភាសា autoregressive ណាមួយទៅជាប្រព័ន្ធបង្កើតវីដេអូ។ គំរូភាសា autoregressive បច្ចុប្បន្នអាចដំណើរការអត្ថបទ និងកូដសរសេរកម្មវិធីដូចជាមនុស្ស ប៉ុន្តែត្រូវប៉ះជញ្ជាំងនៅពេលនិយាយអំពីវីដេអូ។ VideoPoet ដោះស្រាយវាដោយប្រើសញ្ញាសម្ងាត់ដើម្បីបំប្លែងការបញ្ចូលពីទម្រង់ណាមួយទៅជាភាសាដែលវាអាចយល់បាន។

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — ឧបករណ៍សម្រាប់បង្កើតវីដេអូពីអត្ថបទភាគច្រើនកំពុងសាកល្បងដែនកំណត់របស់វា។

វីដេអូ Emu (Meta)

ក្រៅពី Google និង OpenAI, Meta ក៏ជាផ្នែកមួយនៃបច្ចេកវិទ្យាធំដែលសកម្មក្នុងការច្នៃប្រឌិត AI ។ ក្រុមហ៊ុនដែលជាម្ចាស់ Facebook ក៏បានបង្កើត AI បង្កើតវីដេអូ ដែលមានឈ្មោះថា Emu Video ដែលអាចបំប្លែងរូបភាពទៅជាអត្ថបទ រួចប្រើវាជាទិន្នន័យដើម្បីបង្កើតឃ្លីប។

Emu Video កំពុងទទួលបានការពិនិត្យវិជ្ជមានពីអ្នកចូលរួមកម្មវិធីសាកល្បង ដោយ 81% ចូលចិត្ត AI នេះជាង Imagen Video (Google)។ ជាង 90% បានជ្រើសរើសម៉ូដែល Meta ជាង PYOCO (Nvidia) សូម្បីតែល្អជាង Meta's Make-A-Video (96% បានជ្រើសរើស)។

CogVideo (សាកលវិទ្យាល័យ Tsinghua ប្រទេសចិន)

មិនដូចម៉ូដែលខាងលើ ដែលសុទ្ធសឹងជាផលិតផលពីក្រុមហ៊ុនបច្ចេកវិទ្យាឈានមុខគេរបស់ពិភពលោក CogVideo គឺជា AI ដែលបង្កើតឡើងដោយក្រុមស្រាវជ្រាវមកពី សាកលវិទ្យាល័យ Tsinghua ដែលជាសាកលវិទ្យាល័យដ៏ល្បីល្បាញឈានមុខគេនៅក្នុងប្រទេសចិនក៏ដូចជាអាស៊ីផងដែរ។ កម្មវិធីនេះផ្អែកលើ CogView2 ដែលជាគំរូអត្ថបទទៅរូបភាពដែលបានបណ្តុះបណ្តាលជាមុន។

អ្នកជំនាញផ្នែកសិល្បៈកុំព្យូទ័រលោក Glenn Marshall ដែលបានសាកល្បង CogVideo បាននិយាយថា "អ្នកដឹកនាំអាចបាត់បង់ការងាររបស់ពួកគេ" ។ ឃ្លីបនេះមានឈ្មោះថា The Crow ដែលគាត់បានបង្កើតដោយជំនួយពី CogVideo ទទួលបានការសរសើរខ្ពស់ និងត្រូវបានតែងតាំងសម្រាប់ពានរង្វាន់ British Academy Film Award (BAFTA) ។

ប្រភពតំណ