الذكاء الاصطناعي لتحويل النص إلى فيديو مثل Sora

[إعلان_1]

سورا (OpenAI)

Sora هو أحدث اسم تم الإعلان عنه ولكنه تسبب في أكبر قدر من الضجة، ويرجع ذلك جزئيًا إلى أنه منتج من OpenAI - المطور الشهير لـ ChatGPT، ولكن بشكل أساسي بسبب جودة مقاطع الفيديو التي ينشئها البرنامج من أوامر نصية فقط.

كما أن النجاح مع ChatGPT يمنح الذكاء الاصطناعي للشركة أيضًا القدرة على فهم اللغة العميقة. تُظهر المقاطع التي توضح قدرات سورا حركات الشخصية وتفاصيلها بوضوح شديد، وكأنها فيلم واقعي.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — فيديو "سريالي" من إنتاج سورا من أوامر نصية

ولكن سورا غير متاح في الأسواق بعد لأسباب أمنية. ستتخذ OpenAI تدابير دقيقة قبل طرح هذا المنتج للعامة، خاصة في سياق استغلال الذكاء الاصطناعي من قبل المجرمين لأغراض خبيثة، مثل انتحال هوية المستخدمين أو بشكل غير قانوني.

لوميير (جوجل)

Lumiere هو منتج من Google، قادر أيضًا على إنتاج مقاطع فيديو من أوامر نصية مدخلة، ويعمل على أساس نموذج الانتشار المنظم STUNet (Space-Time-U-Net). لا يعبث Lumiere بربط الإطارات الثابتة معًا، بدلاً من ذلك، تحدد الذكاء الاصطناعي التفاصيل في الفيديو (الجزء المكاني)، وتتبع كيفية تحركها وتغيرها في نفس الوقت (الجزء الزمني)، وبالتالي تساعد العملية على العمل بسلاسة.

كما هو الحال مع سورا، لم يتم إصدار لوميير للعامة. ولم تقدم الشركة هذا النموذج إلا في أواخر يناير 2024 بعد إطلاق Gemini - وهو نموذج لغوي كبير تمت مزامنته مؤخرًا مع Bard.

فيديو بويت (جوجل)

يتم تدريب نموذج اللغة الكبير هذا (LLM) من مستودع ضخم من مقاطع الفيديو والصور والصوت والنص الذي طورته Google Search في عام 2023. يمكن لبرنامج VideoPoet تنفيذ مهام مختلفة من مصادر الإدخال مثل النصوص والصور ومقاطع الفيديو... لإنشاء مقاطع فيديو، وتسليط الضوء على المحتوى، وتحويل مقاطع الفيديو إلى صوت، وتحويل الصور الثابتة إلى رسوم متحركة...

الفكرة الأصلية لـ VideoPoet جاءت من الحاجة إلى تحويل أي نموذج لغوي انحداري تلقائي إلى نظام توليد فيديو. يمكن لنماذج اللغة الانحدارية الحالية معالجة النصوص وأكواد البرمجة مثل البشر، ولكنها تصطدم بجدار عندما يتعلق الأمر بالفيديو. يقوم VideoPoet بحل هذه المشكلة من خلال استخدام التجزئة لتحويل الإدخال من أي تنسيق إلى لغة يمكن أن يفهمها.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — تختبر أدوات إنشاء مقاطع الفيديو من النصوص حدودها في الغالب

فيديو إيمو (ميتا)

إلى جانب Google وOpenAI، تعد Meta أيضًا واحدة من شركات التكنولوجيا الكبرى النشطة في مجال ابتكار الذكاء الاصطناعي. كما طورت الشركة المالكة لفيسبوك أيضًا ذكاء اصطناعيًا لإنشاء مقاطع فيديو يسمى Emu Video، والذي يمكنه تحويل الصور إلى نص ثم استخدامه كبيانات لإنشاء مقاطع.

يحظى Emu Video بتعليقات إيجابية من المشاركين في برنامج الاختبار، حيث يفضل 81% منهم هذا الذكاء الاصطناعي على Imagen Video (Google). أكثر من 90% اختاروا نموذج Meta على PYOCO (Nvidia)، وهو أفضل حتى من نموذج Make-A-Video من Meta (اختاره 96%).

CogVideo (جامعة تسينغهوا، الصين)

على عكس النماذج المذكورة أعلاه، والتي هي كلها منتجات من شركات التكنولوجيا الرائدة في العالم، فإن CogVideo هو الذكاء الاصطناعي الذي طوره فريق بحثي من جامعة تسينغهوا - وهي مدرسة مرموقة رائدة في الصين وكذلك في آسيا. يعتمد البرنامج على CogView2، وهو نموذج تحويل النص إلى صورة تم تدريبه مسبقًا.

وقال خبير فنون الكمبيوتر جلين مارشال، الذي قام باختبار برنامج CogVideo، إن "المخرجين قد يفقدون وظائفهم". حصل المقطع الذي يحمل اسم The Crow ، والذي أنشأه بمساعدة CogVideo، على ثناء كبير وتم ترشيحه لجائزة الأكاديمية البريطانية للأفلام (BAFTA).

[إعلان رقم 2]
رابط المصدر