أداة الذكاء الاصطناعي الجديدة تُنشئ صورًا عالية الجودة، أسرع بـ 9 مرات

نجح علماء من معهد ماساتشوستس للتكنولوجيا وشركة NVIDIA في تطوير HART - وهي أداة تعمل على إنشاء صور عالية الجودة بسرعة فائقة للغاية، مع استهلاك القليل جدًا من الموارد بحيث يمكن تشغيلها مباشرة على جهاز كمبيوتر محمول أو هاتف ذكي.

VietNamNet•26/03/2025

الصورة 1.jpg

صورة رائد الفضاء الذي يمتطي حصانًا هي مزيج من نوعين من نماذج الذكاء الاصطناعي التوليدية. الصورة: أخبار معهد ماساتشوستس للتكنولوجيا

عندما لم تعد السرعة والجودة متناقضتين

في مجال التصوير بالذكاء الاصطناعي، هناك حاليًا طريقتان رئيسيتان:

تسمح نماذج الانتشار بالتقاط صور حادة ومفصلة. ومع ذلك، فهي بطيئة للغاية وتتطلب قدرًا كبيرًا من العمليات الحسابية لأنها تتطلب عشرات من خطوات المعالجة لإزالة الضوضاء من كل بكسل.

من ناحية أخرى، تعمل نماذج الانحدار التلقائي بشكل أسرع بكثير لأنها قادرة على التنبؤ بأجزاء صغيرة من الصورة بشكل تسلسلي. لكنها غالبًا ما تنتج صورًا ذات تفاصيل رديئة وتكون عرضة للأخطاء.

يجمع HART (المحول الانحداري التلقائي الهجين) بين كلا العالمين، مما يوفر "أفضل ما في العالمين". أولاً، يستخدم نموذج الانحدار التلقائي لبناء الصورة بأكملها عن طريق ترميزها إلى رموز منفصلة. ثم ينتقل نموذج الانتشار خفيف الوزن إلى إضافة الرموز المتبقية - المعلومات التفصيلية المفقودة أثناء الترميز.

تتميز الصور الناتجة بجودة مماثلة (أو أفضل) لنماذج الانتشار الحديثة، ولكنها أسرع بـ 9 مرات في المعالجة وتستخدم موارد حسابية أقل بنسبة 31%.

نهج جديد لإنشاء صور عالية الجودة بسرعة عالية

ومن أبرز ابتكارات HART هي قدرتها على حل مشكلة فقدان المعلومات عند استخدام نماذج الانحدار التلقائي. يؤدي تحويل الصور إلى رموز منفصلة إلى تسريع الأمور، ولكن يؤدي أيضًا إلى فقدان تفاصيل مهمة مثل حواف الكائنات وملامح الوجه والشعر والعينين والأفواه وما إلى ذلك.

الحل الذي توصلت إليه شركة HART هو السماح لنموذج الانتشار بالتركيز فقط على "ترقيع" هذه التفاصيل من خلال الرموز المتبقية. وبما أن نموذج الانحدار الذاتي قد قام بمعظم العمل، فإن نموذج الانتشار يحتاج فقط إلى 8 خطوات معالجة بدلاً من أكثر من 30 خطوة كما كان من قبل.

يوضح المؤلف المشارك هاوتيان تانج: "إن نموذج الانتشار أسهل في التنفيذ، مما يؤدي إلى كفاءة أعلى".

على وجه التحديد، فإن الجمع بين نموذج المحول الانحداري التلقائي الذي يحتوي على 700 مليون معلمة ونموذج الانتشار خفيف الوزن الذي يحتوي على 37 مليون معلمة يمنح HART نفس أداء نموذج الانتشار الذي يحتوي على ما يصل إلى 2 مليار معلمة، ولكن أسرع بتسع مرات.

في البداية، حاول الفريق أيضًا دمج نموذج الانتشار في المراحل المبكرة من التصوير، لكن هذا أدى إلى تراكم الأخطاء. الطريقة الأكثر فعالية هي ترك نموذج الانتشار يتعامل مع الخطوة الأخيرة والتركيز فقط على الجزء "المفقود" من الصورة.

إطلاق العنان لمستقبل الذكاء الاصطناعي متعدد الوسائط

الاتجاه التالي لفريق البحث هو بناء نماذج الذكاء الاصطناعي اللغوي البصري من الجيل الجديد استنادًا إلى بنية HART. وبما أن HART قابل للتطوير والتكيف مع العديد من أنواع البيانات (متعددة الوسائط)، فإنهم يتوقعون أن يتمكنوا من تطبيقه على إنشاء الفيديو والتنبؤ بالصوت والعديد من المجالات الأخرى.

تم تمويل هذا البحث من قبل العديد من المنظمات بما في ذلك مختبر MIT-IBM Watson للذكاء الاصطناعي، ومركز MIT-Amazon للعلوم، وبرنامج MIT AI Hardware، والمؤسسة الوطنية للعلوم في الولايات المتحدة. كما تبرعت NVIDIA أيضًا بالبنية الأساسية لوحدة معالجة الرسوميات لتدريب النموذج.

(وفقا لأخبار معهد ماساتشوستس للتكنولوجيا)

المصدر: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html