يتمتع نموذجا ChatGPT اللذين تم إطلاقهما حديثًا بمعدل أعلى في تصنيع المعلومات مقارنة بالجيل السابق. الصورة: اليراعات . |
بعد يومين فقط من الإعلان عن GPT-4.1، أطلقت OpenAI رسميًا ليس نموذجًا واحدًا بل نموذجين جديدين، أطلق عليهما o3 وo4-mini. يظهر كلا النموذجين قدرات استدلالية متفوقة مع العديد من التحسينات القوية.
ومع ذلك، وفقًا لموقع TechCrunch ، لا يزال هذا الثنائي الجديد يعاني من "الهلوسة" أو المعلومات التي صنعها بنفسه. بل إنهم "يهلوسون" أكثر من بعض نماذج OpenAI القديمة.
وفقًا لشركة IBM، فإن الهلوسة تحدث عندما يتلقى نموذج لغوي كبير (LLM) - عادةً برنامج محادثة أو أداة رؤية كمبيوترية - أنماط بيانات غير موجودة أو غير قابلة للتعرف عليها من قبل البشر، مما يؤدي إلى نتائج لا معنى لها أو مضللة.
بعبارة أخرى، يطلب المستخدمون في كثير من الأحيان من الذكاء الاصطناعي إنشاء نتائج دقيقة، استنادًا إلى بيانات التدريب. ومع ذلك، في بعض الحالات، لا تعتمد نتائج الذكاء الاصطناعي على بيانات دقيقة، مما يؤدي إلى خلق استجابات "وهمية".
وفي أحدث تقرير لها، وجدت شركة OpenAI أن شركة o3 "أصابها الهلوسة" عند الإجابة على 33% من الأسئلة في PersonQA، وهو المعيار الداخلي للشركة لقياس دقة معرفة النموذج بالبشر.
للمقارنة، هذا هو ضعف معدل "الهلوسة" لنماذج التفكير السابقة لـ OpenAI، o1 و o3-mini، والتي كانت 16% و 14.8% على التوالي. وفي الوقت نفسه، كان أداء نموذج O4-mini أسوأ في اختبار PersonQA، حيث عانى من "الهلوسة" لمدة تصل إلى 48% من مدة الاختبار.
الأمر الأكثر إثارة للقلق هو أن "والد ChatGPT" لا يعرف فعليًا سبب حدوث ذلك. على وجه التحديد، في التقرير الفني حول o3 و o4-mini، كتبت OpenAI أن "المزيد من البحث مطلوب لفهم سبب تفاقم "الوهم"" مع توسيع نطاق نماذج التفكير.
يقدم كل من o3 وo4-mini أداءً أفضل في بعض المجالات، بما في ذلك مهام البرمجة والرياضيات. ومع ذلك، وبسبب الحاجة إلى "إبداء المزيد من الادعاءات بدلاً من التعميم"، فإن كلا النموذجين يعاني من مشكلة إنتاج نتائج تتضمن "ادعاءات أكثر دقة، ولكن أيضًا ادعاءات غير دقيقة".
المصدر: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html
تعليق (0)