وبناءً على ذلك، حتى نموذج الذكاء الاصطناعي الأفضل أداءً الذي اختبروه، GPT-4-Turbo من OpenAI، لم يحقق سوى معدل إجابة صحيحة بنسبة 79% على الرغم من قراءة الملف الشخصي بالكامل، وغالبًا ما كان يعاني من "هلوسة" لأرقام أو أحداث غير واقعية.
قال أناند كانابان، المؤسس المشارك لشركة Patronus AI: "هذا النوع من نسبة الأداء غير مقبول على الإطلاق". "يجب أن يكون معدل الإجابة الصحيحة أعلى بكثير حتى يتم أتمتته وجاهزيته للإنتاج."
تسلط النتائج الضوء على بعض التحديات التي تواجه نماذج الذكاء الاصطناعي حيث تتطلع الشركات الكبرى، وخاصة في الصناعات الخاضعة للتنظيم الشديد مثل التمويل، إلى دمج التكنولوجيا المتقدمة في عملياتها، سواء كان ذلك في مجال خدمة العملاء أو البحث.
"وهم" البيانات المالية
لقد تم اعتبار القدرة على استخراج الأرقام الرئيسية بسرعة وإجراء تحليل للبيانات المالية واحدة من أكثر التطبيقات الواعدة لروبوتات الدردشة منذ إصدار ChatGPT في أواخر العام الماضي.
تحتوي ملفات لجنة الأوراق المالية والبورصات على بيانات مهمة، وإذا كان الروبوت قادرًا على تلخيص محتوياتها بدقة أو الإجابة بسرعة على الأسئلة المتعلقة بها، فقد يمنح المستخدمين ميزة في الصناعة المالية التنافسية.
على مدار العام الماضي، طورت شركة Bloomberg LP نموذج الذكاء الاصطناعي الخاص بها للبيانات المالية، وكان أساتذة كليات إدارة الأعمال يدرسون ما إذا كان ChatGPT قادرًا على تحليل العناوين المالية.
وفي الوقت نفسه، تعمل جي بي مورجان أيضًا على تطوير أداة استثمار آلية مدعومة بالذكاء الاصطناعي. توقعت شركة ماكينزي في تقريرها الأخير أن الذكاء الاصطناعي التوليدي قد يعزز صناعة الخدمات المصرفية بتريليونات الدولارات سنويا.
ومع ذلك، فإن هذه الرحلة لا تزال بعيدة جداً. عندما أطلقت Microsoft لأول مرة Bing Chat مع تكامل GPT مع OpenAI، استخدمت برنامج المحادثة الآلي لتلخيص البيانات الصحفية الخاصة بالأرباح بسرعة. وأدرك المراقبون سريعًا أن الأرقام التي أجابت عليها الذكاء الاصطناعي كانت منحرفة، أو حتى ملفقة.
نفس البيانات، إجابات مختلفة
إن جزء من التحدي المتمثل في دمج LLM في المنتجات في العالم الحقيقي هو أن الخوارزميات غير حتمية، مما يعني أنه لا يمكن ضمان إعادة نفس النتيجة بالنظر إلى مدخلات متطابقة. وهذا يعني أن الشركات بحاجة إلى إجراء اختبارات أكثر صرامة للتأكد من أن الذكاء الاصطناعي يعمل بدقة، ولا يخرج عن الموضوع، ويقدم نتائج موثوقة.
قامت شركة Patronus AI ببناء مجموعة مكونة من أكثر من 10000 سؤال وإجابة مستمدة من ملفات SEC من شركات كبيرة مدرجة في البورصة، تسمى FinanceBench. تتضمن مجموعة البيانات الإجابات الدقيقة بالإضافة إلى الموقع الدقيق في أي ملف معين للعثور عليها.
لا يمكن أخذ جميع الإجابات مباشرة من النص، وتتطلب بعض الأسئلة الحساب أو التفكير البسيط.
شمل اختبار المجموعة الفرعية المكون من 150 سؤالاً أربعة نماذج LLM: GPT-4 وGPT-4-Turbo من OpenAI، وClaude 2 من Anthropic، وLlama 2 من Meta.
ونتيجة لذلك، لم يحقق GPT-4-Turbo، عندما تم منحه حق الوصول إلى الملفات الأساسية لهيئة الأوراق المالية والبورصات، سوى معدل دقة بلغ 85% (مقارنة بـ 88% عندما لم يكن لديه حق الوصول إلى البيانات)، على الرغم من أن الإنسان أشار بالماوس إلى النص الدقيق حتى يتمكن الذكاء الاصطناعي من العثور على الإجابة.
كان لدى Llama 2، وهو نموذج ذكاء اصطناعي مفتوح المصدر طورته شركة Meta، أعلى عدد من "الهلوسة"، حيث حصل على 70% من الإجابات الخاطئة و19% فقط من الإجابات الصحيحة عندما تم منحه حق الوصول إلى جزء من المستندات الأساسية.
يعمل سؤال Claude 2 من Anthropic بشكل جيد عندما يتم إعطاؤه "سياقًا طويلاً"، حيث يتم تضمين ملف SEC ذي الصلة بالكامل تقريبًا مع السؤال. تمكنت من الإجابة على 75% من الأسئلة المطروحة، وأجابت بشكل خاطئ على 21%، ورفضت الإجابة على 3%. كما أظهر برنامج GPT-4-Turbo أداءً جيدًا مع السياقات الطويلة، حيث أجاب على 79% من الأسئلة بشكل صحيح و17% بشكل غير صحيح.
(وفقا لقناة سي إن بي سي)
سباق شركات التكنولوجيا الكبرى للاستثمار في شركات الذكاء الاصطناعي الناشئة
تقنية الذكاء الاصطناعي تُحدث ثورة في شركات التجارة الإلكترونية الناشئة
الذكاء الاصطناعي ينجح في تحويل الأفكار البشرية إلى صور واقعية لأول مرة
[إعلان رقم 2]
مصدر
تعليق (0)