AI ที่แปลงข้อความเป็นวิดีโอ เช่น Sora

โซระ (OpenAI)

Sora คือชื่อใหม่ล่าสุดที่ถูกประกาศ แต่ได้สร้างความฮือฮาเป็นอย่างมาก ส่วนหนึ่งเป็นเพราะว่ามันเป็นผลิตภัณฑ์ของ OpenAI ซึ่งเป็นผู้พัฒนา ChatGPT ที่มีชื่อเสียง และสาเหตุหลักก็คือคุณภาพของวิดีโอที่โปรแกรมสร้างจากคำสั่งข้อความเพียงอย่างเดียว

ความสำเร็จของ ChatGPT ยังทำให้บริษัทมีความสามารถในการเข้าใจภาษาเชิงลึกโดยใช้ปัญญาประดิษฐ์อีกด้วย คลิปที่อธิบายความสามารถของโซระแสดงให้เห็นการเคลื่อนไหวและเฉดสีของตัวละครได้อย่างชัดเจนราวกับภาพยนตร์ไลฟ์แอ็กชั่น

Video "siêu thực" do Sora tạo từ các lệnh văn bản — วิดีโอ "เหนือจริง" ที่สร้างโดย Sora จากคำสั่งข้อความ

แต่เนื่องด้วยเหตุผลด้านความปลอดภัย Sora ยังไม่วางจำหน่ายในตลาด OpenAI จะใช้มาตรการอย่างรอบคอบก่อนที่จะนำผลิตภัณฑ์นี้ไปสู่สาธารณชน โดยเฉพาะอย่างยิ่งในบริบทของปัญญาประดิษฐ์ที่ถูกอาชญากรใช้ประโยชน์เพื่อวัตถุประสงค์ที่เป็นอันตราย ปลอมตัวเป็นผู้ใช้ หรือผิดกฎหมาย

ลูมิแอร์ (Google)

Lumiere คือผลิตภัณฑ์จาก Google ซึ่งสามารถสร้างวิดีโอจากคำสั่งข้อความอินพุตได้เช่นกัน โดยทำงานบนโมเดลการแพร่กระจายที่มีโครงสร้าง STUNet (Space-Time-U-Net) Lumiere จะไม่ยุ่งยากกับการเย็บเฟรมนิ่งเข้าด้วยกัน แทนที่จะเป็นแบบนั้น AI นี้จะระบุรายละเอียดในวิดีโอ (ส่วนเชิงพื้นที่) ติดตามการเคลื่อนไหว การเปลี่ยนแปลงในเวลาเดียวกัน (ส่วนชั่วคราว) ช่วยให้กระบวนการดำเนินไปอย่างราบรื่น

เช่นเดียวกับโซระ ลูมิแอร์ก็ไม่ได้เปิดตัวต่อสาธารณะ บริษัทเปิดตัวโมเดลนี้เมื่อปลายเดือนมกราคม 2024 หลังจากเปิดตัว Gemini ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่เพิ่งซิงโครไนซ์กับ Bard

VideoPoet (กูเกิล)

โมเดลภาษาขนาดใหญ่ (LLM) นี้ได้รับการฝึกฝนจากคลังวิดีโอ รูปภาพ เสียง และข้อความที่มีจำนวนมหาศาล ซึ่งพัฒนาโดย Google Search ในปี 2023 VideoPoet สามารถทำงานต่างๆ จากแหล่งอินพุต เช่น ข้อความ รูปภาพ วิดีโอ... เพื่อสร้างวิดีโอ เน้นเนื้อหา แปลงวิดีโอเป็นเสียง เปลี่ยนภาพนิ่งเป็นแอนิเมชั่น...

แนวคิดดั้งเดิมของ VideoPoet มาจากความต้องการที่จะแปลงโมเดลภาษาถดถอยอัตโนมัติใดๆ ให้เป็นระบบสร้างวิดีโอ โมเดลภาษาถดถอยอัตโนมัติในปัจจุบันสามารถประมวลผลข้อความและโค้ดโปรแกรมได้เหมือนมนุษย์ แต่ติดขัดเมื่อเป็นวิดีโอ VideoPoet แก้ไขปัญหานี้โดยใช้โทเค็นไนเซชั่นเพื่อแปลงอินพุตจากรูปแบบใดๆ ให้เป็นภาษาที่สามารถเข้าใจได้

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — เครื่องมือสำหรับสร้างวิดีโอจากข้อความส่วนใหญ่กำลังทดสอบขีดจำกัดของพวกเขา

วิดีโอนกอีมู (Meta)

นอกจาก Google และ OpenAI แล้ว Meta ยังเป็นหนึ่งในบริษัทเทคโนโลยียักษ์ใหญ่ที่ดำเนินการด้านนวัตกรรม AI อีกด้วย บริษัทที่เป็นเจ้าของ Facebook ยังได้พัฒนา AI การทำวิดีโอที่เรียกว่า Emu Video ซึ่งสามารถแปลงรูปภาพเป็นข้อความและใช้เป็นข้อมูลเพื่อสร้างคลิปได้

Emu Video ได้รับความคิดเห็นเชิงบวกจากผู้เข้าร่วมโครงการทดสอบ โดย 81% เลือก AI นี้มากกว่า Imagen Video (Google) มากกว่า 90% เลือกโมเดลของ Meta แทน PYOCO (Nvidia) ดีกว่า Make-A-Video ของ Meta เสียอีก (96% เลือก)

CogVideo (มหาวิทยาลัยชิงหัว ประเทศจีน)

ต่างจากรุ่นที่กล่าวมาข้างต้น ซึ่งเป็นผลิตภัณฑ์จากบริษัทเทคโนโลยีชั้นนำของโลกทั้งหมด CogVideo เป็น AI ที่พัฒนาโดยทีมวิจัยจาก มหาวิทยาลัย Tsinghua ซึ่งเป็นมหาวิทยาลัยชั้นนำที่มีชื่อเสียงในประเทศจีนและในเอเชีย โปรแกรมนี้ใช้ CogView2 ซึ่งเป็นโมเดลการแปลงข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมมาแล้ว

Glenn Marshall ผู้เชี่ยวชาญด้านศิลปะคอมพิวเตอร์ ซึ่งเป็นผู้ทดสอบ CogVideo กล่าวว่า "ผู้กำกับอาจจะต้องสูญเสียงานของตน" คลิปที่ชื่อว่า The Crow ซึ่งเขาสร้างขึ้นด้วยความช่วยเหลือจาก CogVideo ได้รับการยกย่องอย่างสูงและได้รับการเสนอชื่อเข้าชิงรางวัล British Academy Film Award (BAFTA)

ลิงค์ที่มา