الصورة001.jpg

وحدة معالجة الرسوميات (GPU) هي عقل الكمبيوتر الذي يعمل بالذكاء الاصطناعي

ببساطة، تعمل وحدة معالجة الرسوميات (GPU) بمثابة عقل الكمبيوتر الذكاء الاصطناعي.

كما تعلمون، وحدة المعالجة المركزية (CPU) هي عقل الكمبيوتر. تتمثل ميزة وحدة معالجة الرسوميات (GPU) في أنها عبارة عن وحدة معالجة مركزية متخصصة في إجراء العمليات الحسابية المعقدة. أسرع طريقة لإجراء هذه العملية الحسابية هي أن تقوم مجموعات من وحدات معالجة الرسوميات بحل نفس المشكلة. ومع ذلك، فإن تدريب نموذج الذكاء الاصطناعي قد يستغرق أسابيع أو حتى أشهر. وبمجرد إنشائه، يتم وضعه في نظام الحوسبة الأمامية ويمكن للمستخدمين طرح الأسئلة على نموذج الذكاء الاصطناعي، وهي عملية تسمى الاستدلال.

كمبيوتر الذكاء الاصطناعي يحتوي على وحدات معالجة رسومية متعددة

أفضل بنية لحل مشاكل الذكاء الاصطناعي هي استخدام مجموعة من وحدات معالجة الرسوميات في رف، متصلة بمفتاح أعلى الرف. يمكن أيضًا توصيل رفوف وحدة معالجة الرسوميات المتعددة في تسلسل هرمي لاتصال الشبكة. مع تزايد تعقيد المشكلات التي يتعين حلها، تزداد أيضًا متطلبات وحدة معالجة الرسومات، وقد تضطر بعض المشاريع إلى نشر مجموعات من آلاف وحدات معالجة الرسومات.

كل مجموعة من الذكاء الاصطناعي عبارة عن شبكة صغيرة

عند بناء مجموعة الذكاء الاصطناعي، من الضروري إنشاء شبكة كمبيوتر صغيرة للاتصال والسماح لوحدات معالجة الرسومات بالعمل معًا ومشاركة البيانات بكفاءة.

الصورة002.jpg
مجموعة الذكاء الاصطناعي

يوضح الشكل أعلاه مجموعة الذكاء الاصطناعي حيث تمثل الدوائر الموجودة في الأسفل سير العمل التي يتم تشغيلها على وحدات معالجة الرسومات. تتصل وحدة معالجة الرسومات (GPU) بالمفاتيح الموجودة في الجزء العلوي من الرف (ToR). تتصل مفاتيح ToR أيضًا بمفاتيح العمود الفقري للشبكة الموضحة أعلى الرسم التخطيطي، مما يوضح التسلسل الهرمي الواضح للشبكة المطلوب عند مشاركة وحدات معالجة رسومية متعددة.

الشبكات تشكل عنق زجاجة في نشر الذكاء الاصطناعي
في الخريف الماضي، خلال القمة العالمية لمشروع الحاسوب المفتوح (OCP)، حيث عمل المندوبون معًا لبناء الجيل القادم من البنية التحتية للذكاء الاصطناعي، أثار المندوب لوي نجوين من شركة مارفيل تكنولوجي نقطة رئيسية: "الشبكات هي عنق الزجاجة الجديد".

من الناحية الفنية، يمكن أن يؤدي تأخير الحزم الكبيرة أو فقدان الحزم بسبب ازدحام الشبكة إلى إعادة إرسال الحزم، مما يؤدي إلى زيادة وقت إكمال المهمة (JCT) بشكل كبير. ونتيجة لذلك، يتم إهدار ملايين أو عشرات الملايين من الدولارات من وحدات معالجة الرسوميات من الشركات بسبب أنظمة الذكاء الاصطناعي غير الفعالة، مما يتسبب في أضرار للشركات من حيث الإيرادات والوقت المستغرق لطرح المنتجات في السوق.

القياس هو شرط أساسي للتشغيل الناجح لشبكات الذكاء الاصطناعي

لتشغيل مجموعة الذكاء الاصطناعي بكفاءة، يجب أن تكون وحدات معالجة الرسومات قادرة على الاستفادة الكاملة من أجل تقصير أوقات التدريب ونشر نماذج التعلم لتحقيق أقصى عائد على الاستثمار. لذلك، من الضروري اختبار وتقييم أداء مجموعة الذكاء الاصطناعي (الشكل 2). ومع ذلك، فإن هذه المهمة ليست سهلة، لأنه من حيث بنية النظام هناك العديد من الإعدادات والعلاقات بين وحدة معالجة الرسومات وهياكل الشبكة التي تحتاج إلى تكامل بعضها البعض للتعامل مع المشكلة.

الصورة005.jpg
منصة اختبار مركز بيانات الذكاء الاصطناعي وكيفية اختبار مجموعات مراكز بيانات الذكاء الاصطناعي

وهذا يخلق العديد من التحديات في قياس شبكات الذكاء الاصطناعي:

- صعوبة إعادة إنتاج شبكات الإنتاج بأكملها في المختبر بسبب القيود في التكلفة والمعدات ونقص مهندسي الذكاء الاصطناعي المتخصصين في الشبكات والمساحة والطاقة ودرجة الحرارة.

- يؤدي القياس على نظام الإنتاج إلى تقليل القدرة المعالجة المتاحة لنظام الإنتاج نفسه.

- صعوبة إعادة إنتاج المشاكل بدقة بسبب الاختلافات في حجم ونطاق المشاكل.

- تعقيد كيفية ربط وحدات معالجة الرسوميات معًا.

ولمعالجة هذه التحديات، يمكن للمؤسسات اختبار مجموعة فرعية من الإعدادات المقترحة في بيئة معملية لقياس معايير رئيسية مثل JCT (وقت إكمال المهمة)، والنطاق الترددي الذي يمكن لفريق الذكاء الاصطناعي تحقيقه، ومقارنته باستخدام منصة التبديل واستخدام ذاكرة التخزين المؤقت. يساعد هذا المعيار على إيجاد التوازن الصحيح بين عبء عمل وحدة معالجة الرسومات/المعالجة وتصميم الشبكة/إعدادها. وبمجرد الرضا عن النتائج، يمكن لمهندسي الكمبيوتر ومهندسي الشبكات تطبيق هذه الإعدادات على الإنتاج وقياس نتائج جديدة.

تعمل مختبرات الأبحاث المؤسسية ومعاهد الأبحاث والجامعات على تحليل كل جانب من جوانب بناء وتشغيل شبكات الذكاء الاصطناعي الفعالة لمعالجة تحديات العمل على الشبكات الكبيرة، خاصة مع استمرار تغير أفضل الممارسات. إن هذا النهج التعاوني القابل للتكرار هو السبيل الوحيد للشركات لإجراء قياسات قابلة للتكرار واختبار سيناريوهات "ماذا لو" بسرعة - الأساس لتحسين الشبكات للذكاء الاصطناعي.

(المصدر: Keysight Technologies)