Tecnología

Google mejora la detección de spam en Gmail y con ello evitar robo de datos personales

El objetivo es mejorar las condiciones de los clasificadores de texto y hacerlos “más sólidos y eficientes”, como los calificó la empresa

Google mejora la detección de spam en Gmail y con ello evitar robo de datos personales

Google ha anunciado que ha logrado mejorar la detección de ‘spam’ en Gmail en el contenido ‘spam’ gracias a la implementación de una herramienta o vectorizador de texto multilingüe llamado RETVec.

La compañía ha comentado que sistemas como Gmail, YouTube y Google Play se basan en modelos de clasificación de texto para identificar contenido perjudicial para los usuarios, como ataques de ‘phishing’, comentarios dañinos o estafas.

También puedes leer: Microsoft investiga la instalación automática de la app HP Smart en Windows 10 y 11

Estos tipos de textos son más difíciles de clasificar para los modelos de aprendizaje automático, puesto que los malos actores pueden manipular el contenido para evadir este tipo de herramientas, mediante el uso de homoglifos o caracteres invisibles, entre otros ejemplos.

Con el objetivo de mejorar las condiciones de los clasificadores de texto y hacerlos “más sólidos y eficientes”, la firma ha desarrollado un vectorizador de texto multilingüe, “resistente y eficiente”, RETVec, que también es de código abierto.

Con él, se “reduce drásticamente el costo computacional” y se fortalece el clasificador de ‘spam’ del servicio de correo electrónico de Google hasta el punto de que se ha mejorado en un 38% la detección de este tipo de contenido en Gmail.

Asimismo, con RETVec, Google ha reconocido que ha logrado reducir la tasa de falsos positivos en un 19.4%, según ha compartido en un documento en su blog, donde también ha comentado que el uso de RETVec redujo el uso de TPU del modelo en un 83%.

Para Google, estos datos convierten “la implementación de RETVec en una de las mayores actualizaciones de defensa de los últimos años, logrando estas mejoras al combinar “un codificador de caracteres novedoso y altamente compacto, un régimen de entrenamiento basado en aumentos y el uso de aprendizaje métrico”.

Debido a que consta de un arquitectura novedosa, funciona de inmediato en todos los idiomas y caracteres UTF-8 sin necesidad de preprocesamiento de texto, “lo que lo convierte en el candidato ideal para implementaciones de clasificación de texto en dispositivos, web y a gran escala”.

Google también ha matizado que los modelos entrenados con esta herramienta exhiben una velocidad de inferencia más rápida, puesto que precisan de una representación compacta. Además, se puden convertir a TFLite para dispositivos móviles.

DV Player placeholder

Tags


Lo Último