في الأيام الأخيرة، أحدثت أداة الذكاء الاصطناعي الصينية مانوس ضجة في مجتمع التكنولوجيا العالمي. وبحسب المطور، فإن الأداة قادرة على القيام بمهام معقدة مثل مسح ملفات تعريف المرشحين، وتخطيط برامج السفر، وتحليل الأسهم عندما يقدم لها المستخدمون تعليمات أساسية.

قبل أن يطلق Manus تطبيق AI Agent، قامت شركة OpenAI العملاقة في مجال الذكاء الاصطناعي في الولايات المتحدة بتقديم تطبيق Operator لمستخدمي ChatGPT Pro في الولايات المتحدة. وفقًا لـ OpenAI، يمكن لهذا الوكيل الذكاء الاصطناعي تنفيذ مهام بسيطة نيابة عن مالكه في المتصفح، مثل حجز تذاكر الحفلات الموسيقية أو تقديم طلب عبر الإنترنت.

يعتمد المشغل على نموذج جديد يسمى "الوكيل المستخدم للكمبيوتر" - CUA، والذي تم بناؤه على نموذج اللغة المتعددة الوسائط الكبير GPT-4o. يعترف الباحث في OpenAI ياش كومار بأن المشروع لا يزال في مراحله الأولى وبه بعض العيوب.

على غرار وكلاء الذكاء الاصطناعي الآخرين، يقوم المشغل بالتقاط لقطات شاشة لشاشة الكمبيوتر، ومسح وحدات البكسل لتحديد الإجراءات التي يجب اتخاذها. تم تدريب النموذج الذي يقف وراءه، CUA، للتفاعل مع الواجهات الرسومية مثل الأزرار والقوائم وحوارات النصوص المألوفة للبشر.

وفقًا لريتشيرو ناكانو، وهو عالم آخر في OpenAI، تستخدم النماذج التقليدية البرامج من خلال واجهات برمجة التطبيقات المتخصصة، مما يؤدي إلى العديد من القيود.

كما تقوم CUA بتقسيم العمل إلى خطوات أصغر وتحاول القيام بها واحدة تلو الأخرى، بالإضافة إلى العودة إلى البداية إذا حدث خطأ ما. في الوقت الحالي، لا يستطيع المشغل سوى القيام ببعض الأشياء في متصفحه الخاص.

تخطط OpenAI لتوسيع قدرات CUA في المستقبل من خلال واجهة برمجة التطبيقات (API) التي تسمح للمطورين بكتابة تطبيقاتهم الخاصة بناءً عليها.

كما قامت OpenAI باختبار سلامة CUA، باستخدام فريق أحمر لتحديد ما سيحدث إذا طلب المستخدم من وكيل الذكاء الاصطناعي القيام بمهام غير مقبولة (مثل إنتاج أسلحة بيولوجية).

طلب الصحفي في صحيفة نيويورك تايمز كيفن روز من أوبيريتور القيام بعدد من الأشياء له، بما في ذلك طلب كرات الآيس كريم من خلال أمازون، وشراء اسم نطاق جديد وإعادة تكوينه، وحجز مطعم في 14 فبراير، وجدولة موعد لقص الشعر.

وعلق الكاتب بأن العميل الذكاء الاصطناعي قام بمعظم العمل بنفسه، لكن في بعض الأحيان كان عليه أن "ينقذه" بعد بعض المحاولات الفاشلة.

يصف Roose المشغل بأنه مشابه لبرنامج ChatGPT العادي، إلا أنه عند إعطاء مهمة، سيفتح وكيل الذكاء الاصطناعي نافذة متصفح صغيرة، ويكتب Amazon.com في شريط العناوين، ويبدأ النقر لاتخاذ إجراء.

خلال العملية، سيتم طرح بعض الأسئلة لتوضيح نوايا المالك مثل وقت التسليم... بعد التأكد من الاختيار الصحيح، يتم إرسال تأكيد نهائي، ووضع العنصر في سلة التسوق، ثم الشروع في تقديم الطلب.

النقطة الأهم هنا هي أن المستخدم لا يحتاج إلى مراقبته لأنه يعمل في الخلفية.

ومع ذلك، فشل المشغل أيضًا في بعض المهام الأخرى لأنه تم حظره على بعض المواقع الإلكترونية مثل Reddit أو YouTube أو فشل في اختبار CAPTCHA.

في الوقت الحالي، لا يوجد تعريف "قياسي" لـ AI Agent، ولكن وفقًا لرودينا سيسيري، مؤسس ومدير شركة رأس المال الاستثماري Glasswing، فإن AI Agent هو نظام برمجي ذكي، مصمم لفهم بيئة التشغيل، والتفكير، واتخاذ القرارات، والعمل لتحقيق الأهداف تلقائيًا.

يستخدم AI Agent العديد من تقنيات الذكاء الاصطناعي/التعلم الآلي للقيام بذلك، مثل معالجة اللغة الطبيعية، والتعلم الآلي، ورؤية الكمبيوتر.

ويشير آرون ليفي، مؤسس شركة Box والرئيس التنفيذي لها، إلى أنه مع مرور الوقت، ومع تزايد قدرة الذكاء الاصطناعي، سوف يتمكن وكلاء الذكاء الاصطناعي من القيام بمزيد من العمل للبشر.

يرى جاريد سباتارو، مدير الذكاء الاصطناعي في تسويق العمل بشركة مايكروسوفت، أن وكلاء الذكاء الاصطناعي "تطبيقات جديدة في عالم مدفوع بالذكاء الاصطناعي". إنهم يضيفون ميزات جديدة لمعالجة "أكبر نقاط الألم" التي يعاني منها كل فرد في مكان العمل لتحقيق نتائج أعمال حقيقية.

يأخذ AI Agent قوة الذكاء الاصطناعي التوليدي إلى أبعد من ذلك من خلال عدم مساعدة البشر فحسب، بل أيضًا العمل معهم أو نيابة عنهم. وفقًا لشركة IBM، يتصرف وكلاء الذكاء الاصطناعي بناءً على المعلومات الواردة.

نظرًا لأنه لا يحتوي على قاعدة معرفية شاملة للتعامل مع كل مهمة، فسوف يستخدم الأدوات المتاحة، بما في ذلك مجموعات البيانات الخارجية، وعمليات البحث على الويب، وواجهات برمجة التطبيقات، أو حتى وكلاء الذكاء الاصطناعي الآخرين.

بعد جمع المعلومات المفقودة، يقوم العميل بتحديث معلوماته. وهذا يعني أنه في كل خطوة، سيتم إعادة تقييم خطة العمل وتعديلها ذاتيًا.

من السابق لأوانه الحكم على ما إذا كانت وكلاء الذكاء الاصطناعي يشكلون خطرًا على البشر. ولكن ليس من الصعب أن نتخيل مستقبلًا قريبًا حيث ستمتلئ أجزاء كبيرة من الويب بالروبوتات التي تتحدث مع بعضها البعض، أو تتسوق، أو تكتب رسائل إلكترونية نيابة عن أصحابها.

إن "إنترنت خالٍ من الطائرات بدون طيار" أصبح حقيقة واقعة ببطء، لذا "انقر بينما تستطيع"، كما يختتم الكاتب في صحيفة نيويورك تايمز روس.