Недавно Google опубликовала запись в блоге по безопасности, в которой подробно описывается спам-фильтр Gmail, который компания называет одним из своих крупнейших обновлений защиты за последние годы. Это новая система классификации текста, называемая гибким и эффективным векторным генератором текста (RETVec). По словам Google, это может помочь оценить релевантность и специфику текста, представляющего собой электронные письма, заполненные специальными символами, эмодзи, опечатками и мусором, которые ранее могли читать люди, но не понимались машинами. Раньше спам-сообщения, наполненные специальными символами, легко обходили защиту Gmail.
В то время как любой спам-фильтр может отсеять письмо с текстом «Поздравляем! На вашем счете джекпота доступен баланс в размере 1000 долларов США», подавляющее большинство писем в письме уходят в бесконечные глубины стандарта Unicode, где пользователи могут найти символы, которые выглядят так, как будто они являются частью обычного латинского алфавита.
Google утверждает, что технология RETVec обучена быть устойчивой к операциям на уровне символов, включая вставки, удаления, орфографические ошибки, омонимы, замены LEET и т. д. Модель RETVec обучена на новой кодировке символов, которая может эффективно кодировать все символы и слова набора UTF-8. В результате RETVec работает исключительно хорошо на более чем 100 языках без необходимости использования таблиц поиска или фиксированных размеров словаря.
Благодаря RETVec Gmail теперь может лучше распознавать и фильтровать спам
По данным Google, производительность существенно изменилась. Методы, использующие фиксированный размер словаря или таблицы поиска омонимов, требуют больших ресурсов. Между тем, RETVec имеет всего 200 000 параметров вместо миллионов, поэтому, несмотря на то, что облачная платформа фильтрации спама от Google достаточно велика, она может работать на локальном устройстве. RETVec имеет открытый исходный код, и Google надеется, что он исключит атаки с использованием одноименных глифов.
RETVec работает аналогично тому, как модели машинного обучения TensorFlow используют визуальное сходство для определения значения слов вместо их фактического содержания символов. Такой подход привел к значительным улучшениям: по данным Google, замена классификатора спама Gmail на RETVec повысила показатели обнаружения спама по сравнению с исходным уровнем на 38% и сократила количество ложных срабатываний на 19,4%. Использование RETVec сократило использование TPU модели на 83%, что делает реализацию RETVec одним из крупнейших обновлений за последние годы. В течение прошлого года компания проводила внутреннее тестирование RETVec и внедрила его во все учетные записи Gmail пользователей.
Ссылка на источник
Комментарий (0)