Google mới đây đăng bài blog Bảo mật, trong đó nêu chi tiết về bộ lọc thư rác của Gmail mà hãng gọi là một trong những bản nâng cấp về phòng vệ lớn nhất trong những năm gần đây. Đây là hệ thống phân loại văn bản mới có tên bộ tạo vectơ văn bản linh hoạt và hiệu quả (RETVec). Google cho biết điều này có thể giúp hiểu được những sự liên quan và đặc trưng của văn bản, là những email chứa đầy các ký tự đặc biệt, biểu tượng cảm xúc, lỗi chính tả và các ký tự rác mà trước đây con người có thể đọc nhưng máy móc không dễ hiểu. Trước đây, các thư rác chứa đầy các ký tự đặc biệt đã dễ dàng vượt qua hệ thống phòng thủ của Gmail.
Mặc dù bất kỳ bộ lọc thư rác nào cũng có thể loại bỏ email có nội dung: “Xin chúc mừng! Số dư 1.000 USD đã có sẵn cho tài khoản jackpot của bạn”, nhưng phần lớn các chữ cái trong email lại đi vào độ sâu vô tận của tiêu chuẩn Unicode, người dùng có thể tìm thấy các ký tự trông giống như là một phần của bảng chữ cái Latin thông thường.
Google cho biết công nghệ RETVec được đào tạo để có khả năng phục hồi trước các thao tác ở cấp độ ký tự bao gồm chèn, xóa, lỗi chính tả, từ đồng âm, thay thế LEET… Mô hình RETVec được đào tạo dựa trên bộ mã hóa ký tự mới có thể mã hóa tất cả ký tự và từ của bộ UTF-8 một cách hiệu quả. Do đó, RETVec hoạt động vượt trội trên hơn 100 ngôn ngữ mà không cần bảng tra cứu hoặc kích thước từ vựng cố định.
Google cho biết hiệu quả đã thay đổi rõ rệt. Các phương pháp sử dụng kích thước từ vựng cố định hoặc bảng tra cứu các từ đồng âm tốn nhiều tài nguyên. Trong khi đó RETVec chỉ có 200.000 thay vì hàng triệu tham số, vì vậy dù nền đám mây lọc thư rác của Google đủ lớn, nhưng nó có thể chạy trên một thiết bị cục bộ. RETVec là nguồn mở và Google hy vọng nó sẽ loại bỏ các cuộc tấn công bằng các từ hình tượng đồng âm.
RETVec hoạt động giống cách mô hình học máy TensorFlow sử dụng sự tương đồng trực quan để xác định ý nghĩa của các từ thay vì nội dung ký tự thực tế của chúng. Cách tiếp cận này đã dẫn đến những cải tiến lớn, Google cho biết việc thay thế trình phân loại thư rác của Gmail bằng RETVec cho phép cải thiện tỷ lệ phát hiện thư rác so với mức cơ bản lên 38% và giảm tỷ lệ dương tính giả xuống 19,4%. Việc sử dụng RETVec đã giảm 83% mức sử dụng TPU của mô hình, khiến việc triển khai RETVec trở thành một trong những nâng cấp lớn nhất trong những năm gần đây. Hãng thử nghiệm RETVec nội bộ trong một năm qua và đã triển khai cho tất cả tài khoản Gmail của người dùng.