باستخدام أساليب التدريب التنافسية للسماح للذكاء الاصطناعي بإنشاء بيانات جديدة، تم نشر بحث لطالبين من جامعة مدينة هوشي منه للتكنولوجيا في AAAI - مؤتمر الذكاء الاصطناعي الرائد في العالم .
نُشر البحث حول النماذج متعددة اللغات لتدريب الذكاء الاصطناعي على إنشاء مرادفات بواسطة فام خان ترينه ولي مينه كوي، البالغ من العمر 23 عامًا، في وثائق مؤتمر AAAI-24 حول الذكاء الاصطناعي، الذي عقد في نهاية شهر فبراير في فانكوفر، كندا.
وقد قام الأستاذ المشارك الدكتور كوان ثانه تو، نائب عميد كلية علوم الكمبيوتر والهندسة بجامعة مدينة هوشي منه للتكنولوجيا، بتقييم هذه النتيجة باعتبارها جديرة بالثناء. وقال السيد ثو إن الباحثين والخبراء يعتبرون AAAI من أعلى مستويات الجودة في المؤتمرات العلمية في مجالات علوم الكمبيوتر والذكاء الاصطناعي، مع معدل قبول مقال منخفض للغاية هذا العام بنسبة 23.75٪.
مينه كوي وخان ترينه (في الوسط) أثناء مناقشة أطروحة تخرجهما، عام 2023. الصورة: مقدمة من الشخصية
بسبب شغفهما بمجال التعلم العميق ومعالجة اللغة الطبيعية، اختار ترينه وكوي البحث في نماذج اللغة الكبيرة (LLMs). كلاهما أرادا معرفة حدود الماجستير في القانون وتحسينه.
وقال خان ترينه إن Chat GPT أو LLMs بحاجة إلى التدريب على كمية هائلة من بيانات النصوص لتوليد استجابات دقيقة ومتنوعة للمستخدمين. أدرك الصبيان أنه مع اللغات الأقل شيوعًا مثل الهندية أو الكازاخستانية أو الإندونيسية، غالبًا ما كانت برامج GPT وLLM تعطي نتائج غير متوقعة لأنهم لم يدرسوا هذه اللغات كثيرًا، أو لم تكن هناك بيانات كافية عن هذه اللغات ليتعلموها.
"لماذا لا نقوم بإنشاء المزيد من البيانات النصية من "الموارد الصغيرة" لتلك اللغات لتدريب الذكاء الاصطناعي بشكل أكبر؟"، تساءل الطالبان. ومن هنا، وُلد نموذج LAMPAT (التكيف منخفض الرتبة لإعادة الصياغة المتعددة اللغات باستخدام التدريب التنافسي) - إعادة الصياغة المتعددة اللغات باستخدام أسلوب التدريب التنافسي الذي بحثه ترينه وكوي.
يعد LAMPAT قادرًا على إنشاء جملة مرادفة من جملة إدخال موجودة، وذلك لتوليد بيانات نصية إضافية. يُعد شرح "التدريب التنافسي" نهجًا جديدًا نسبيًا لتدريب نماذج اللغة الكبيرة. عند إعطاء جملة إدخال، باستخدام طرق التدريب التقليدية، يقوم التطبيق بإنشاء جملة إخراج. ولكن باستخدام التدريب التنافسي، يمكن للتطبيق تصحيح نفسه، وتحرير الجملة الناتجة، و"اللعب ضد نفسه" لتوليد المزيد من الجمل.
تتمثل التعددية اللغوية في LAMPAT في حقيقة أن النموذج يدمج 60 لغة في نفس الوقت. وبناءً على مجموعات البيانات التي تم جمعها، واصل الفريق تدريب LAMPAT لتوليد جمل مرادفة. سيتم الاستمرار في تدريب كمية البيانات النصية التي تم إنشاؤها من LAMPAT لـ LLMs حتى تتمكن هذه النماذج من تعلم العديد من الطرق المختلفة للتعبير عن المعلومات لنفس المحتوى، وبالتالي إعطاء استجابات متنوعة ذات احتمالية أعلى لكونها صحيحة. ويعتقد ممثل الفريق أنه من خلال هذه الميزة، يمكن دمج LAMPAT في تطبيقات مثل ChatGPT لتحسين هذا النموذج بشكل أكبر.
بالإضافة إلى ذلك، فإن نقص البيانات الخاصة بـ Chat GPT أو LLMs يجبر بعض الشركات على البحث عن العديد من المصادر الخارجية مثل الكتب والصحف والمدونات،... دون الاهتمام بقضايا حقوق النشر. ويقول خان ترينه إن إنشاء المرادفات يعد أيضًا إحدى الطرق للحد من الانتحال وانتهاك حقوق النشر.
أعطى نام سينه مثالاً لتطبيقات مثل Chat GPT، عندما يطلب المستخدم ملخصًا لنص موجود A، سيقوم التطبيق بإنشاء نص ملخص B. إذا تم دمج طريقة البحث الخاصة بالمجموعة، فعند تلقي النص A، سيقوم التطبيق بإنشاء نصوص متعددة بنفس المحتوى A1، A2، A3 بناءً على آلية إنشاء المرادفات، والتي سيلخص منها النص وينتج العديد من النتائج للمستخدم للاختيار من بينها.
خلال المراحل المبكرة من البحث، واجه الفريق صعوبة في إعداد بيانات التقييم لـ 60 لغة. نظرًا لأننا لم نتمكن من الوصول إلى كمية كبيرة بما يكفي من البيانات، قام الفريق بتجميع مجموعة بيانات متنوعة وكاملة من 13 لغة لتقييم النموذج بشكل موضوعي، بما في ذلك: الفيتنامية، الإنجليزية، الفرنسية، الألمانية، الروسية، اليابانية، الصينية، الإسبانية، المجرية، البرتغالية، السويدية، الفنلندية، والتشيكية. وهذه أيضًا مجموعة بيانات موثوقة لخطوة التقييم البشري النهائية (التسجيل).
التقط مينه كوي (يسار) وخان ترينه (يمين) صورة تذكارية مع المعلم كوان ثانه ثو في يوم التخرج، نوفمبر 2023. الصورة: مقدمة من الشخصية
بالنسبة لكل من اللغات الإنجليزية والفيتنامية والألمانية والفرنسية واليابانية، قام الفريق باستخراج 200 زوج من الجمل بشكل عشوائي (يتكون كل زوج من الجملة الناتجة والعلامة الصحيحة) للتقييم. بالنسبة لكل من اللغات المذكورة أعلاه، طلب الفريق من خمسة خبراء لغويين تقييمها بشكل مستقل، استنادًا إلى ثلاثة معايير: الحفاظ على الدلالة؛ اختيار الكلمات وتشابه المفردات وطلاقة وتماسك الجملة الناتجة. يتم حساب المقياس من 1 إلى 5. ونتيجة لذلك، يتراوح متوسط درجة التقييم من خبراء اللغة في هذه اللغات الخمس من 4.2 إلى 4.6/5 نقاط.
يقدم المثال زوجًا من الجمل الفيتنامية التي حصلت على تقييم 4.4/5، حيث تكون الجملة المدخلة: "لقد شرح المشكلة بالتفصيل"، والجملة الناتجة هي: "لقد شرح المشكلة بالتفصيل".
ولكن هناك أيضًا أزواج من الجمل ذات جودة رديئة وأخطاء دلالية، مثل زوج الجمل "نأكل بينما الحساء ساخن - نأكل الحساء بينما نحن ساخنون"، والتي تحصل فقط على 2/5 نقاط.
وقال خان ترينه إن البحث وإكمال هذا المشروع استغرق 8 أشهر. وهذا هو أيضًا موضوع أطروحة ترينه وخوي. حصلت الرسالة على المركز الأول في مجلس علوم الكمبيوتر 2 بـ 9.72/10 نقاط.
وبحسب السيد كوان ثانه تو، على الرغم من أن LAMPAT أثبت كفاءته في توليد عبارات مرادفة تشبه الإنسان عبر لغات متعددة، إلا أنه لا يزال بحاجة إلى التحسين للتعامل مع التعبيرات الاصطلاحية والأغاني الشعبية والأمثال في لغات مختلفة.
وعلاوة على ذلك، فإن مجموعة بيانات التقييم الخاصة بالفريق تتضمن 13 لغة فقط، وهو ما يستبعد العديد من اللغات، وخاصة لغات الأقليات. ولذلك، تحتاج المجموعة إلى إجراء أبحاث لتعزيز وتوسيع قدرات نماذج الترجمة الفورية المتعددة اللغات الحالية. ومن هنا، يمكننا إزالة الحواجز اللغوية بين البلدان والشعوب.
وفي نهاية عام 2023، حصل ترينه وخوي على درجة البكالوريوس في علوم الكمبيوتر مع مرتبة الشرف والتميز، بمعدل تراكمي بلغ 3.7 و3.9/4 على التوالي. يخطط كلاهما للدراسة في الخارج للحصول على درجة الماجستير ومواصلة البحث في مجال الذكاء الاصطناعي والتعلم الآلي.
"نحن نواصل البحث في هذا الموضوع بهدف تطبيق LAMPAT بشكل أكبر على المشاريع العلمية القادمة، وإنشاء منتج متعدد اللغات موثوق به للمستخدمين"، كما شارك ترينه.
لي نجوين
[إعلان 2]
رابط المصدر
تعليق (0)