Google hat vor Kurzem einen Beitrag im Sicherheitsblog veröffentlicht, in dem der Spamfilter von Gmail detailliert beschrieben wird. Das Unternehmen bezeichnet ihn als eine seiner größten Verbesserungen bei der Abwehr der letzten Jahre. Dies ist ein neues Textklassifizierungssystem namens Flexible and Efficient Text Vector Generator (RETVec). Google sagt, dies könne dabei helfen, die Relevanz und Spezifität von Texten zu erkennen. Dabei handelt es sich um E-Mails voller Sonderzeichen, Emojis, Rechtschreibfehler und sonstigem Müll, der bisher zwar für Menschen lesbar, für Maschinen jedoch nicht leicht zu verstehen war. Bisher konnten Spam-Nachrichten voller Sonderzeichen die Abwehrmechanismen von Gmail problemlos umgehen.
Zwar kann jeder Spamfilter eine E-Mail mit dem Inhalt „Herzlichen Glückwunsch! Für Ihr Jackpot-Konto steht ein Guthaben von 1.000 US-Dollar zur Verfügung“ aussortieren, doch die große Mehrheit der Buchstaben in dieser E-Mail landet in den endlosen Tiefen des Unicode-Standards, wo Benutzer Zeichen finden können, die aussehen, als wären sie Teil des normalen lateinischen Alphabets.
Google sagt, dass die RETVec-Technologie so trainiert ist, dass sie widerstandsfähig gegenüber Zeichenoperationen ist, darunter Einfügungen, Löschungen, Rechtschreibfehler, Homonymen, LEET-Ersetzungen und mehr. Das RETVec-Modell ist auf eine neue Zeichenkodierung trainiert, die alle Zeichen und Wörter des UTF-8-Satzes effizient kodieren kann. Dadurch bietet RETVec eine außergewöhnlich gute Leistung in über 100 Sprachen, ohne dass Nachschlagetabellen oder feste Vokabelgrößen erforderlich sind.
Dank RETVec kann Gmail Spam nun besser erkennen und filtern
Google sagt, die Leistung habe sich dramatisch verändert. Methoden, die feste Vokabelgrößen oder Nachschlagetabellen mit Homonymen verwenden, sind ressourcenintensiv. RETVec verfügt inzwischen nur über 200.000 statt Millionen Parameter, sodass die Cloud-Plattform zur Spamfilterung von Google, obwohl sie groß genug ist, auf einem lokalen Gerät ausgeführt werden kann. RETVec ist Open Source und Google hofft, dass es Angriffe durch die Verwendung gleichnamiger Glyphen verhindern wird.
RETVec funktioniert ähnlich wie die maschinellen Lernmodelle von TensorFlow, die visuelle Ähnlichkeiten verwenden, um die Bedeutung von Wörtern anstelle ihres tatsächlichen Zeicheninhalts zu bestimmen. Dieser Ansatz hat zu erheblichen Verbesserungen geführt. Laut Google hat das Ersetzen des Spam-Klassifizierers von Gmail durch RETVec die Spam-Erkennungsraten im Vergleich zum Ausgangswert um 38 % verbessert und die Anzahl falscher Positivmeldungen um 19,4 % reduziert. Durch die Verwendung von RETVec wurde die TPU-Nutzung des Modells um 83 % reduziert, was die RETVec-Implementierung zu einem der größten Upgrades der letzten Jahre macht. Das Unternehmen hat RETVec im vergangenen Jahr intern getestet und es für alle Gmail-Konten der Benutzer eingeführt.
[Anzeige_2]
Quellenlink
Kommentar (0)