Controlado desde el
19/10/97 por NedStat
|
Inteligencia artificial para luchar contra el SPAM
|
|
VSantivirus No. 1104 Año 7, Miércoles 16 de julio de 2003
Inteligencia artificial para luchar contra el SPAM
http://www.vsantivirus.com/mm-ia-antispam.htm
Nota VSA: Este excelente artículo de Mercè Molist, de setiembre de 2002 (y no publicado antes en VSAntivirus), nos introduce en la teoría de los filtros Bayesianos, y es utilizado como referencia del artículo "Cómo acabar con el SPAM de una vez por todas... o casi",
http://www.vsantivirus.com/filtrosbayes.html.
Inteligencia artificial para luchar contra el correo basura
Por Mercè Molist (*)
colaboradores@videosoft.net.uy
"Es posible parar el 'spam' y los filtros basados en el contenido son la mejor forma. El talón de Aquiles de los 'spammers' es su mensaje. Pueden saltarse todas las barreras que les pongamos, menos ésta". Así presenta el informático Paul Graham su idea para luchar contra el correo basura, que ha hecho correr ríos de bits en la red. Con una técnica de Inteligencia Artificial llamada Lógica Bayesiana, afirma conseguir casi un 100% de efectividad.
La Lógica Bayesiana, creada por el matemático inglés Thomas Bayes en 1763, se basa en las estadísticas y las probabilidades para predecir el futuro. Por ejemplo, la palabra "sexy" es muy probable que aparezca en un correo basura. A partir de aquí, es fácil escribir un algoritmo que filtre los mensajes que contengan palabras 'peligrosas' y aprenda con el tiempo. Otro ejemplo, dice Graham: "Filtrando por la palabra "click" acabaría con el 79,7% del spam que recibo, con sólo un 1,2% de falsos positivos (errores)".
Cuando llega un nuevo mensaje, el programa compara su contenido con la lista de palabras prohibidas, analiza el contexto y calcula las probabilidades de que sea una carta basura: "Se tienen en consideración tanto lo bueno como lo malo: palabras que no suelen aparecer en los 'spams", como "esta noche" o "aparentemente", reducen mucho la probabilidad, mientras otras como "unsubscribe" o "Viagra" la incrementan. Por tanto, una inocente carta que contenga la palabra "sexo" no tiene porqué ser tratada como 'spam'", explica.
La ventaja, ante la mayoría de filtros que sólo tienen en consideración de dónde viene el mensaje (las 'listas negras') o los más nuevos, que se fijan también en el contenido, es que "los filtros bayesianos evolucionan con el 'spam'. Si cambian las palabras, los filtros se dan cuenta automáticamente. Para vencerlos, los 'spammers' deberían hacer sus mensajes indistinguibles del resto, lo que les constreñiría mucho ya que la mayoría tienen intenciones comerciales y usan una jerga para ello", explica.
Según las pruebas hechas por Graham, los filtros bayesianos reconocen el 99,5% de correo basura y son adaptables a cada caso personal. Existen ya dos programas basados en la idea, Bogofilter y Bayespam, para GNU/Linux, en versiones beta. Graham trabaja en Arc, un lenguaje de programación con el que piensa crear un filtro para correo por web. Según recientes estudios, el 'spam' representa el 36% del total de mensajes que reciben los y las internautas. Y subiendo.
Referencias:
"A Plan for Spam"
http://www.paulgraham.com/spam.html
Bogofilter
http://www.tuxedo.org/~esr/bogofilter
Bayespam
http://www.garyarnold.com/projects.php#bayespam
(*) Copyright (C) 2003 Mercè Molist.
Verbatim copying, translation and distribution of this entire article is permitted in any medium, provided this notice is preserved.
Relacionados:
Cómo acabar con el SPAM de una vez por todas... o casi
http://www.vsantivirus.com/filtrosbayes.html
(c) Video Soft - http://www.videosoft.net.uy
(c) VSAntivirus - http://www.vsantivirus.com
|
|
|