Google a récemment publié un article de blog sur la sécurité détaillant le filtre anti-spam de Gmail, que la société considère comme l'une de ses plus grandes mises à niveau de défense de ces dernières années. Il s'agit d'un nouveau système de classification de texte appelé générateur de vecteur de texte flexible et efficace (RETVec). Google affirme que cela peut aider à comprendre la pertinence et la spécificité du texte, qui sont des e-mails remplis de caractères spéciaux, d'émojis, de fautes d'orthographe et de courriers indésirables qui étaient auparavant lisibles par les humains mais pas facilement compris par les machines. Auparavant, les messages de spam remplis de caractères spéciaux contournaient facilement les défenses de Gmail.
Même si n’importe quel filtre anti-spam peut éliminer un e-mail qui dit : « Félicitations ! Un solde de 1 000 $ est disponible pour votre compte jackpot », la grande majorité des lettres contenues dans l’e-mail pénètrent dans les profondeurs infinies de la norme Unicode, où les utilisateurs peuvent trouver des caractères qui semblent faire partie de l’alphabet latin classique.
Google affirme que la technologie RETVec est conçue pour résister aux opérations au niveau des caractères, notamment les insertions, les suppressions, les fautes d'orthographe, les homonymes, les substitutions LEET, etc. Le modèle RETVec est formé sur un nouveau codage de caractères capable de coder efficacement tous les caractères et mots de l'ensemble UTF-8. Par conséquent, RETVec fonctionne exceptionnellement bien dans plus de 100 langues sans avoir besoin de tables de recherche ou de tailles de vocabulaire fixes.
Grâce à RETVec, Gmail peut désormais mieux reconnaître et filtrer le spam
Google affirme que les performances ont radicalement changé. Les méthodes utilisant un vocabulaire de taille fixe ou des tables de recherche d’homonymes nécessitent beaucoup de ressources. Pendant ce temps, RETVec n'a que 200 000 paramètres au lieu de millions, donc même si la plateforme cloud de filtrage du spam de Google est suffisamment grande, elle peut fonctionner sur un appareil local. RETVec est open source et Google espère qu'il éliminera les attaques utilisant des glyphes homonymes.
RETVec fonctionne de manière similaire à la façon dont les modèles d’apprentissage automatique TensorFlow utilisent la similitude visuelle pour déterminer la signification des mots au lieu de leur contenu réel en caractères. Cette approche a conduit à des améliorations majeures, Google affirmant que le remplacement du classificateur de spam de Gmail par RETVec a amélioré les taux de détection de spam par rapport à la référence de 38 % et réduit les faux positifs de 19,4 %. L'utilisation de RETVec a réduit l'utilisation du TPU du modèle de 83 %, faisant de l'implémentation de RETVec l'une des plus grandes mises à niveau de ces dernières années. L'entreprise teste RETVec en interne depuis un an et l'a déployé sur tous les comptes Gmail des utilisateurs.
Lien source
Comment (0)