Gmail, 수년 만에 가장 큰 스팸 필터 업그레이드 실시

[광고1]

Google은 최근 Gmail의 스팸 필터에 대해 자세히 설명하는 보안 블로그 게시물을 게시했습니다. 회사 측은 이를 최근 몇 년 동안 진행한 가장 큰 방어 업그레이드 중 하나라고 부릅니다. 이는 유연하고 효율적인 텍스트 벡터 생성기(RETVec)라고 불리는 새로운 텍스트 분류 시스템입니다. 구글에 따르면, 이를 통해 텍스트의 관련성과 특이성을 이해하는 데 도움이 될 수 있습니다. 텍스트란 특수문자, 이모티콘, 철자 오류 및 이전에는 사람이 읽을 수 있었지만 기계가 쉽게 이해할 수 없었던 정크 문자로 채워진 이메일을 말합니다. 이전에는 특수문자가 포함된 스팸 메시지는 Gmail의 방어망을 쉽게 우회했습니다.

모든 스팸 필터가 "축하합니다! 잭팟 계정에 1,000달러의 잔액이 있습니다."라는 이메일을 제거할 수 있지만, 이메일의 대부분 문자는 유니코드 표준의 끝없는 심연으로 들어가며, 사용자는 일반 라틴 알파벳의 일부처럼 보이는 문자를 찾을 수 있습니다.

Google은 RETVec 기술이 삽입, 삭제, 철자 오류, 동음이의어, LEET 대체 등을 포함한 문자 수준 작업에 탄력적으로 대처하도록 훈련되었다고 말합니다. RETVec 모델은 UTF-8 세트의 모든 문자와 단어를 효율적으로 인코딩할 수 있는 새로운 문자 인코딩으로 훈련되었습니다. 결과적으로 RETVec는 조회 테이블이나 고정된 어휘 크기가 필요 없이 100개 이상의 언어에서 매우 뛰어난 성능을 발휘합니다.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — RETVec 덕분에 Gmail은 이제 스팸을 더 잘 인식하고 필터링할 수 있습니다.

구글은 성능이 극적으로 변했다고 밝혔다. 고정된 어휘 크기나 동음이의어 검색 테이블을 사용하는 방법은 많은 리소스를 필요로 합니다. 반면, RETVec의 매개변수는 수백만 개가 아닌 20만 개에 불과하므로, Google의 스팸 필터링 클라우드 플랫폼이 충분히 크더라도 로컬 장치에서 실행할 수 있습니다. RETVec는 오픈 소스이며, 구글은 이를 통해 동일한 문자를 사용하는 공격을 없앨 수 있기를 바라고 있습니다.

RETVec은 TensorFlow 머신 러닝 모델이 실제 문자 내용이 아닌 시각적 유사성을 사용하여 단어의 의미를 판단하는 방식과 비슷하게 작동합니다. 이러한 접근 방식을 통해 엄청난 개선이 이루어졌는데, Google에 따르면 Gmail의 스팸 분류기를 RETVec로 대체한 결과 기준선에 비해 스팸 탐지율이 38% 향상되고 오탐률이 19.4% 감소했습니다. RETVec를 사용하면 모델의 TPU 사용량이 83% 감소하여 RETVec 구현은 최근 몇 년간 가장 큰 업그레이드 중 하나가 되었습니다. 이 회사는 지난 1년 동안 RETVec을 내부적으로 테스트해 왔으며 모든 사용자의 Gmail 계정에 도입했습니다.

[광고2]
소스 링크