قام جيميل بتحديث فلتر البريد العشوائي الخاص به بشكل كبير، وهو الأكبر منذ سنوات.

نشرت جوجل مؤخرًا مقالًا على مدونتها الأمنية يشرح بالتفصيل فلتر البريد العشوائي في جيميل، والذي وصفته الشركة بأنه أحد أهم التحسينات الأمنية في السنوات الأخيرة. وهو نظام جديد لتصنيف النصوص يُسمى مولد متجهات النصوص السريع والفعال (RETVec). وتقول جوجل إن هذا النظام يُساعد في فهم أهمية وخصائص النصوص - رسائل البريد الإلكتروني المليئة بالأحرف الخاصة والرموز التعبيرية والأخطاء الإملائية والرموز غير المرغوب فيها التي كانت قابلة للقراءة من قِبل البشر ولكن يصعب على الآلات فهمها. في السابق، كانت رسائل البريد العشوائي المليئة بالأحرف الخاصة تتجاوز بسهولة دفاعات جيميل.

على الرغم من أن أي مرشح للبريد العشوائي يمكنه تصفية رسائل البريد الإلكتروني التي تقول: "تهانينا! رصيد بقيمة 1000 دولار متاح الآن لحساب الجائزة الكبرى الخاص بك"، فإن الغالبية العظمى من الأحرف في البريد الإلكتروني تقع في أعماق معيار Unicode اللانهائية، حيث يمكن للمستخدمين العثور على أحرف تبدو وكأنها جزء من الأبجدية اللاتينية العادية.

تؤكد جوجل أن تقنية RETVec مصممة لتكون مقاومة للتلاعبات على مستوى الأحرف، بما في ذلك الإضافة والحذف والأخطاء الإملائية والمتجانسات واستبدال LEET، وغيرها. ويُدرَّب نموذج RETVec على نظام ترميز أحرف جديد قادر على ترميز جميع الأحرف والكلمات في مجموعة UTF-8 بكفاءة عالية. لذا، يُحقق RETVec أداءً متميزًا في أكثر من 100 لغة دون الحاجة إلى جداول بحث أو أحجام مفردات ثابتة.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — بفضل تقنية RETVec، أصبح بإمكان Gmail الآن التعرف على الرسائل المزعجة وتصفيتها بشكل أكثر فعالية.

تقول جوجل إن فعالية هذه الأساليب قد تغيرت بشكل جذري. فالأساليب التي تستخدم أحجام مفردات ثابتة أو جداول بحث عن الكلمات المتجانسة تستهلك موارد كثيرة. أما RETVec، من ناحية أخرى، فلا يحتوي إلا على 200 ألف مُعامل بدلاً من ملايين، لذا فرغم أن منصة جوجل السحابية لتصفية البريد العشوائي كبيرة بما يكفي، إلا أنه يمكن تشغيلها على جهاز محلي. RETVec مفتوح المصدر، وتأمل جوجل أن يقضي على الهجمات التي تستخدم الكلمات المتجانسة.

يعمل RETVec بطريقة مشابهة لنموذج التعلم الآلي TensorFlow، حيث يستخدم التشابه البصري لتحديد معاني الكلمات بدلاً من محتواها النصي الفعلي. وقد أدى هذا النهج إلى تحسينات ملحوظة؛ إذ ذكرت جوجل أن استبدال مُصنِّف البريد العشوائي في Gmail بـ RETVec أدى إلى تحسين معدلات اكتشاف البريد العشوائي بنسبة 38% مقارنةً بالوضع الأساسي، وانخفاض النتائج الإيجابية الخاطئة بنسبة 19.4%. كما قلل استخدام RETVec من استهلاك النموذج لوحدات معالجة TPU بنسبة 83%، مما يجعل نشر RETVec أحد أكبر التحسينات في السنوات الأخيرة. وقد اختبرت الشركة RETVec داخليًا على مدار العام الماضي، ونشرته على جميع حسابات Gmail الخاصة بالمستخدمين.

رابط المصدر