لم تكشف OpenAI الكثير عن كيفية تدريب ChatGPT-4. ومع ذلك، عادةً ما يتم تدريب نماذج اللغة الكبيرة (LLMs) على النصوص المسترجعة من الإنترنت، حيث اللغة الإنجليزية هي اللغة المشتركة. حوالي 93% من بيانات تدريب ChatGPT-3 موجودة باللغة الإنجليزية.
في Common Crawl، إحدى مجموعات البيانات التي يتم تدريب نموذج الذكاء الاصطناعي عليها، تشكل اللغة الإنجليزية 47% من المجموعة، مع تشكيل اللغات الأوروبية الأخرى 38% أخرى. وعلى النقيض من ذلك، لا يشكل الصينيون واليابانيون مجتمعين سوى 9%.
توصلت دراسة أجراها ناثانيال روبنسون، الباحث بجامعة جونز هوبكنز، وزملاؤه إلى أن المشكلة لا تقتصر على ChatGPT وحده. تحقق جميع برامج الماجستير في القانون أداءً أفضل مع اللغات "عالية الموارد" حيث تكون بيانات التدريب وفيرة، مقارنة باللغات "منخفضة الموارد" حيث تكون نادرة.
وهذه مشكلة تواجه أولئك الذين يأملون في جلب الذكاء الاصطناعي إلى البلدان الفقيرة لتحسين المجالات من التعليم إلى الرعاية الصحية. ولذلك، يعمل الباحثون في جميع أنحاء العالم على جعل الذكاء الاصطناعي أكثر تعددًا للغات.
في سبتمبر/أيلول الماضي، أطلقت الحكومة الهندية روبوت محادثة يساعد المزارعين على البقاء على اطلاع دائم بالمعلومات المفيدة من الولاية.
وقال شانكار مارووادا من مؤسسة EkStep، وهي المنظمة غير الربحية التي ساعدت في بناء برنامج المحادثة الآلي، إن البرنامج يعمل من خلال الجمع بين نوعين من نماذج اللغة معًا، ويمكن للمستخدمين إرسال الاستفسارات بلغتهم الأم. يتم تمرير هذه الاستفسارات باللغة الأم إلى برنامج الترجمة الآلية في أحد مرافق الأبحاث الهندية، والذي يقوم بترجمتها إلى اللغة الإنجليزية قبل إرسالها إلى برنامج LLM لمعالجة الردود. وأخيرًا، سيتم ترجمة الاستجابة مرة أخرى إلى اللغة الأم للمستخدم.
قد تنجح هذه العملية، ولكن ترجمة الاستعلامات إلى اللغة "المفضلة" للماجستير في القانون هي حل بديل غير عملي. اللغة هي وسيلة لعكس الثقافة ونظرة العالم. توصلت ورقة بحثية أجريت عام 2022 بواسطة ريبيكا جونسون، وهي باحثة في جامعة سيدني، إلى أن ChatGPT-3 أنتج إجابات حول مواضيع مثل مراقبة الأسلحة وسياسة اللاجئين والتي كانت قابلة للمقارنة بالقيم الأمريكية المعبر عنها في استطلاع القيم العالمية.
ولذلك، يحاول العديد من الباحثين جعل طلاب الماجستير في القانون يتقنون اللغات الأقل استخدامًا. من الناحية الفنية، أحد الأساليب هو تعديل رمزية اللغة. قامت شركة هندية ناشئة تدعى Sarvam AI بكتابة نموذج مميز مُحسَّن للغة الهندية، أو نموذج OpenHathi - LLM مُحسَّن للغة الديفاناجاري (الهندية) والذي يمكنه خفض تكلفة الإجابة على الأسئلة بشكل كبير.
هناك طريقة أخرى تتمثل في تحسين مجموعات البيانات التي يتم تدريب LLM عليها. في نوفمبر/تشرين الثاني الماضي، أصدر فريق من الباحثين في جامعة محمد بن زايد في أبوظبي أحدث نسخة من نموذج ناطق باللغة العربية يسمى "جيس". يحتوي على سدس عدد معلمات ChatGPT-3، ولكنه يعطي أداءً مماثلاً للغة العربية.
وأشار تيموثي بالدوين، رئيس جامعة محمد بن زايد، إلى أنه على الرغم من أن فريقه قام برقمنة الكثير من النصوص العربية، إلا أن النموذج لا يزال يتضمن بعض النصوص الإنجليزية. بعض المفاهيم هي نفسها في جميع اللغات ويمكن تعلمها في أي لغة.
النهج الثالث هو ضبط النماذج بعد تدريبها. يحتوي كل من Jais وOpenHathi على عدد من أزواج الأسئلة والأجوبة التي تم إنشاؤها بواسطة الإنسان. وينطبق الأمر نفسه على برامج الدردشة الغربية، لمنع المعلومات المضللة.
تم تنظيم إيرني بوت، الحاصل على شهادة الماجستير في القانون من شركة بايدو، إحدى شركات التكنولوجيا الصينية الكبرى، بهدف الحد من الخطاب الذي قد يسيء إلى الحكومة. يمكن للنماذج أيضًا أن تتعلم من ردود الفعل البشرية، حيث يقوم المستخدمون بتقييم إجابات LLM. ولكن من الصعب القيام بذلك بالنسبة للعديد من اللغات في المناطق الأقل نمواً بسبب الحاجة إلى توظيف أشخاص مؤهلين لانتقاد كيفية استجابة الآلة.
(وفقا لمجلة الإيكونوميست)
[إعلان 2]
مصدر
تعليق (0)