เมื่อเร็วๆ นี้ Google ได้เผยแพร่โพสต์บนบล็อกเกี่ยวกับความปลอดภัยที่ให้รายละเอียดเกี่ยวกับตัวกรองสแปมของ Gmail โดยบริษัทถือว่าการอัปเกรดด้านการป้องกันครั้งนี้เป็นการอัปเกรดครั้งใหญ่ที่สุดครั้งหนึ่งในช่วงไม่กี่ปีที่ผ่านมา นี่คือระบบการจำแนกข้อความใหม่ที่เรียกว่าเครื่องสร้างเวกเตอร์ข้อความที่ยืดหยุ่นและมีประสิทธิภาพ (RETVec) Google กล่าวว่าสิ่งนี้สามารถช่วยทำความเข้าใจความเกี่ยวข้องและความเฉพาะเจาะจงของข้อความ ซึ่งเป็นอีเมลที่เต็มไปด้วยอักขระพิเศษ อิโมจิ การสะกดผิด และข้อความขยะซึ่งก่อนหน้านี้มนุษย์สามารถอ่านได้แต่เครื่องจักรไม่สามารถเข้าใจได้ง่ายนัก ก่อนหน้านี้ ข้อความสแปมที่เต็มไปด้วยอักขระพิเศษสามารถหลีกเลี่ยงการป้องกันของ Gmail ได้อย่างง่ายดาย
แม้ว่าตัวกรองสแปมใดๆ ก็สามารถกำจัดอีเมลที่ระบุว่า “ยินดีด้วย! ยอดเงิน $1,000 พร้อมสำหรับบัญชีแจ็กพอตของคุณ” ได้ แต่ตัวอักษรส่วนใหญ่ในอีเมลจะเข้าไปอยู่ในมาตรฐาน Unicode ที่ไม่มีที่สิ้นสุด ซึ่งผู้ใช้สามารถค้นหาตัวอักษรที่ดูเหมือนเป็นส่วนหนึ่งของอักษรละตินทั่วไปได้
Google กล่าวว่าเทคโนโลยี RETVec ได้รับการฝึกให้ทนทานต่อการดำเนินการในระดับอักขระ รวมถึงการแทรก การลบ การสะกดผิด คำพ้องเสียง การแทนที่ LEET และอื่นๆ อีกมากมาย โมเดล RETVec ได้รับการฝึกบนการเข้ารหัสอักขระใหม่ที่สามารถเข้ารหัสอักขระและคำทั้งหมดในชุด UTF-8 ได้อย่างมีประสิทธิภาพ ผลลัพธ์คือ RETVec ทำงานได้ดีอย่างโดดเด่นในมากกว่า 100 ภาษาโดยไม่จำเป็นต้องใช้ตารางค้นหาหรือขนาดคำศัพท์ที่แน่นอน
ด้วย RETVec Gmail จึงสามารถจดจำและกรองสแปมได้ดีขึ้น
Google กล่าวว่าประสิทธิภาพมีการเปลี่ยนแปลงอย่างมาก วิธีการใช้ขนาดคำศัพท์คงที่หรือตารางค้นหาคำพ้องเสียงนั้นต้องใช้ทรัพยากรมาก ในขณะเดียวกัน RETVec มีพารามิเตอร์เพียง 200,000 ตัวแทนที่จะเป็นล้านตัว ดังนั้น แม้ว่าแพลตฟอร์มคลาวด์สำหรับการกรองสแปมของ Google จะมีขนาดใหญ่เพียงพอ แต่ก็สามารถทำงานบนอุปกรณ์ภายในเครื่องได้ RETVec เป็นโอเพ่นซอร์สและ Google หวังว่าจะกำจัดการโจมตีที่ใช้ภาพสัญลักษณ์ที่เหมือนกันได้
RETVec ทำงานในลักษณะเดียวกับที่โมเดลการเรียนรู้ของเครื่อง TensorFlow ใช้งานความคล้ายคลึงทางภาพเพื่อกำหนดความหมายของคำแทนเนื้อหาอักขระที่แท้จริง แนวทางนี้ทำให้เกิดการปรับปรุงที่สำคัญ โดย Google กล่าวว่าการแทนที่ระบบจำแนกสแปมของ Gmail ด้วย RETVec ช่วยเพิ่มอัตราการตรวจจับสแปมเมื่อเทียบกับค่าพื้นฐานได้ 38% และลดผลบวกปลอมลงได้ 19.4% การใช้ RETVec ช่วยลดการใช้ TPU ของโมเดลลง 83% ทำให้การนำ RETVec ไปใช้เป็นการอัปเกรดที่ใหญ่ที่สุดครั้งหนึ่งในช่วงไม่กี่ปีที่ผ่านมา บริษัทได้ทำการทดสอบ RETVec ภายในองค์กรมาเป็นเวลาหนึ่งปีแล้ว และได้เผยแพร่ไปยังบัญชี Gmail ของผู้ใช้ทุกคนแล้ว
ลิงค์ที่มา
การแสดงความคิดเห็น (0)