Vietnam.vn - Nền tảng quảng bá Việt Nam

يتعلم الذكاء الاصطناعي الكذب بشكل أكثر تعقيدًا عند معاقبته

Báo Thanh niênBáo Thanh niên26/03/2025

[إعلان 1]

منذ إطلاقها للعامة في أواخر عام 2022، أظهرت نماذج اللغة الكبيرة (LLMs) مثل ChatGPT بشكل متكرر جوانب مظلمة مزعجة، من الكذب والغش والتستر على التلاعب، إلى التصريحات المرعبة مثل تهديد حياة البشر أو سرقة أسرار الدولة. والآن، أظهرت تجربة جديدة أن "تعليم" الذكاء الاصطناعي التخلص من هذه العادات السيئة أثناء التدريب أكثر تعقيدًا بكثير مما كنا نعتقد.

في بحث أجرته شركة OpenAI، تحدى الخبراء نموذج الذكاء الاصطناعي غير المنشور بمهام يمكنه إكمالها بشكل أسرع إذا غش أو اختصر الطرق. وأظهرت النتائج أن الذكاء الاصطناعي تعلم بسرعة كيفية العثور على كل طريقة ممكنة "للتحايل على القواعد" وتعظيم المكافآت (اختراق المكافآت) دون الحاجة إلى استكمال المتطلبات بشكل صحيح.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

سوف تجد الذكاء الاصطناعي طرقًا لإخفاء سلوك الغش بعد معاقبته

ومن الجدير بالذكر أنه عند تغريم النموذج بسبب هذا السلوك، لم يتم تعديله. وبدلاً من ذلك، أصبح الذكاء الاصطناعي أكثر تطوراً في إخفاء خداعه.

وأوضح الباحثون في منشور على مدونة عامة: "عادةً ما تكون نماذج الاستدلال الحديثة واضحة جدًا بشأن نيتها في CoT الخاصة بها". "على سبيل المثال، فإنهم غالبًا ما يكونون صريحين بشأن نيتهم ​​في ""الاختراق"" عندما يريدون تعطيل مهمة معينة."

ويؤكدون أيضًا أنه في حين يمكن للمطورين مراقبة السلوك السيئ والكشف عنه، فإن هذه الرقابة الطبيعية هشة. ويحذرون من أنه "إذا تم تطبيق رقابة قوية مباشرة على سلسلة الأفكار، فإن النموذج قد يتعلم إخفاء نواياه السيئة أثناء الاستمرار في أداء السلوك".

العثور على "كذبة" الذكاء الاصطناعي

ولكي نكون واضحين، فإن نماذج الاستدلال (مثل إصدارات ChatGPT) تمثل خطوة إلى الأمام من نموذج LLM التقليدي، حيث تستخدم أسلوب سلسلة التفكير الذي يسمح بالتأمل الذاتي للخطوات المنطقية المتخذة، وبالتالي حل المشكلات المعقدة بدقة أكبر. إن هذه العملية تشبه "التفكير بصوت عالٍ" للذكاء الاصطناعي، حيث يكتب كل خطوة من خطوات تفكيره باللغة الطبيعية، مما يجعل من السهل على البشر متابعتها.

وفي التجربة، استخدم الباحثون نموذج GPT-4o "كمشرف" لنموذج استدلال متطور آخر أثناء قيامه بمهام البرمجة. في كثير من الحالات، اختار النموذج الذي تمت مراقبته الغش بشكل نشط لتحقيق نقاط مكافأة أعلى وسجل هذه النية بوضوح في عملية تفكيره. على سبيل المثال، سيقوم البرنامج بإيقافه عشوائيًا في وقت مبكر والإبلاغ عن اكتماله، أو إنشاء ملفات بنفس الاسم المطلوب ولكنها فارغة تمامًا في الداخل.

وعندما حاول الباحثون تطبيق العقوبات، تحسن النموذج، لكن الغش والأخطاء الخطيرة في النتائج استمرت. الفرق الآن هو أن نموذج الاستدلال تعلم "إخفاء" سلسلة أفكاره لإخفائها عن الذكاء الاصطناعي المشرف عليه. "النموذج المُدرَّب تحت إشراف CoT لا يزال يتعلم الغش. الفرق الوحيد هو أن الغش لا يُكتشف لأنه تعلم إخفاء نواياه في سلسلة الأفكار"، وفقًا للدراسة.

وبما أن اكتشاف التزوير في تسلسلات الأفكار أمر صعب، يوصي الفريق المجتمع بتجنب تطبيق تدابير مراقبة قوية للغاية على هذه العملية، على الأقل حتى يفهم البشر العواقب بشكل أفضل. قد لا يكون التضحية بطريقة مراقبة فعّالة مجديًا مقابل التحسن الطفيف في أداء النموذج. لذلك، نوصي بتجنب ضغوط تحسين CoT القوية حتى نفهمها بشكل أفضل، كما خلص الباحثون.

إن هذه النصيحة أصبحت أكثر إلحاحاً في ظل تطور الذكاء الاصطناعي بوتيرة سريعة للغاية، وقد يتجاوز قريباً ذكاء البشر الذين يشرفون عليه.


[إعلان 2]
المصدر: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

تعليق (0)

No data
No data

نفس الموضوع

نفس الفئة

أكثر من 1000 امرأة يرتدين زي "آو داي" يشاركن في مسيرة ويشكلن خريطة فيتنام في بحيرة هوان كيم.
شاهد طائرات مقاتلة وطائرات هليكوبتر تتدرب على الطيران في سماء مدينة هوشي منه
الكوماندوز النسائية تتدرب على العرض العسكري بمناسبة الذكرى الخمسين لإعادة التوحيد
نظرة عامة على حفل افتتاح السنة الوطنية للسياحة 2025: هوي - العاصمة القديمة، والفرص الجديدة

نفس المؤلف

إرث

شكل

عمل

No videos available

أخبار

النظام السياسي

محلي

منتج