Google publicó recientemente una entrada en su blog de seguridad que detalla el filtro de spam de Gmail, que la compañía llama una de sus mayores mejoras de defensa en los últimos años. Se trata de un nuevo sistema de clasificación de texto llamado generador de vectores de texto flexible y eficiente (RETVec). Google dice que esto puede ayudar a comprender la relevancia y especificidad del texto, que son correos electrónicos llenos de caracteres especiales, emojis, errores ortográficos y basura que antes eran legibles por humanos pero no fácilmente entendidos por las máquinas. Anteriormente, los mensajes de spam llenos de caracteres especiales eludían fácilmente las defensas de Gmail.
Si bien cualquier filtro de spam puede eliminar un correo electrónico que diga “¡Felicitaciones! Hay un saldo de $1,000 disponible para su cuenta de jackpot”, la gran mayoría de las letras del correo electrónico se dirigen a las infinitas profundidades del estándar Unicode, donde los usuarios pueden encontrar caracteres que parecen ser parte del alfabeto latino regular.
Google afirma que la tecnología RETVec está entrenada para ser resistente a operaciones a nivel de caracteres, incluidas inserciones, eliminaciones, errores ortográficos, homónimos, sustituciones LEET y más. El modelo RETVec está entrenado en una nueva codificación de caracteres que puede codificar de manera eficiente todos los caracteres y palabras del conjunto UTF-8. Como resultado, RETVec funciona excepcionalmente bien en más de 100 idiomas sin necesidad de tablas de búsqueda o tamaños de vocabulario fijos.
Gracias a RETVec, Gmail ahora puede reconocer y filtrar mejor el spam
Google dice que el rendimiento ha cambiado drásticamente. Los métodos que utilizan un tamaño de vocabulario fijo o tablas de búsqueda de homónimos consumen muchos recursos. Mientras tanto, RETVec sólo tiene 200.000 parámetros en lugar de millones, por lo que, aunque la plataforma en la nube de filtrado de spam de Google es lo suficientemente grande, puede ejecutarse en un dispositivo local. RETVec es de código abierto y Google espera que elimine los ataques que utilizan glifos homónimos.
RETVec funciona de manera similar a cómo los modelos de aprendizaje automático de TensorFlow usan la similitud visual para determinar el significado de las palabras en lugar de su contenido de caracteres real. Este enfoque ha dado lugar a mejoras importantes: Google afirma que sustituir el clasificador de spam de Gmail por RETVec mejoró las tasas de detección de spam con respecto a la línea base en un 38% y redujo los falsos positivos en un 19,4%. El uso de RETVec redujo el uso de TPU del modelo en un 83%, lo que convierte la implementación de RETVec en una de las mayores mejoras de los últimos años. La compañía ha estado probando RETVec internamente durante el último año y lo ha implementado en las cuentas de Gmail de todos los usuarios.
Enlace de origen
Kommentar (0)