Return to search

Clasificación de Phishing Utilizando Minería de Datos Adversarial y Juegos con Información

Actualmente, el fraude por correo electrónico se ha transformado en un problema que afecta la seguridad y la economía global, cuya detección mediante el uso de filtros para correos tradicionales ha sido reconocida como poco efectiva. Si bien se han desarrollado filtros específicos para este tipo de correo, no se han presentado estudios que consideren explícitamente el comportamiento adversarial de quienes cometen fraude por correo electrónico. Por lo general, en sistemas adversariales la calidad de un clasificador disminuye a medida que un adversario aprende cómo derrotarlo. Para esto, la minería de datos adversarial ha sido recientemente propuesta como una solución preliminar, donde la interacción entre un adversario y el clasificador se define a través de un juego entre dos agentes, pero que no logra capturar elementos asociados al dinamismo de esta interacción.
Esta tesis comprende el diseño y desarrollo de una metodología para clasificar mensajes de fraude por correo electrónico considerando su comportamiento adversarial. La interacción entre el perpetrador de fraude y el clasificador fue desarrollada utilizando juegos dinámicos con información incompleta y minería de datos adversarial.
De acuerdo a la metodología propuesta, es necesario considerar componentes que describen la interacción entre agentes, como sus estrategias, tipos y funciones de utilidad. Para determinar lo anterior, es necesario definir propiedades, establecer supuestos y analizar los datos asociados a la aplicación de interés. Para esto, se pueden utilizar distintas técnicas, tanto cualitativas como cuantitativas, para definir los perfiles de estrategias, los tipos a considerar y las funciones de utilidad. Sin embargo, estos elementos son de exclusiva responsabilidad del modelador, y pueden variar significativamente dependiendo de la aplicación. En este trabajo se presenta una primera experiencia que puede ser utilizada de guía para el desarrollo de futuras aplicaciones en un contexto adversarial.
La metodología presentada en este trabajo fue aplicada en una base de datos de correo electrónico con mensajes fraudulentos y regulares, utilizada frecuentemente por investigadores de este tipo de fraude. En términos de la caracterización de los correos de fraude, fueron utilizadas técnicas de análisis semántico latente y minería de datos de texto para potenciar la identificación de elementos cercanos a la ingeniería social, ampliamente presente en este tipo de fraude. Con respecto a los resultados experimentales, el método de caracterización propuesto presentó un rendimiento de clasificación competitivo con respecto a las últimas técnicas de caracterización presentes en la literatura (Bergholz et al., 2010).
En esta tesis se presentan cuatro nuevos algoritmos de clasificación determinados mediante una aproximación del equilibrio secuencial para juegos con información incompleta. Cada uno de ellos actualiza incrementalmente sus parámetros con el objetivo de mejorar su capacidad de predicción en un ambiente de aprendizaje en línea. En términos de los resultados experimentales para los algoritmos de clasificación propuestos, se concluye que la interacción adversarial entre los agentes es capturada satisfactoriamente mejorando resultados obtenidos anteriormente para la predicción en línea (Sculley y Watchman, 2007). Finalmente, los resultados obtenidos en el análisis de sensibilidad de los algoritmos propuestos justifican la robustez de los resultados anteriores.
Este trabajo abre la puerta a futuros desafíos relacionados principalmente con extensiones teóricas del marco de trabajo propuesto y aplicaciones de la metodología desarrollada en otros ámbitos. Además, esta tesis define un marco de trabajo que se puede adecuar al estudio de otras interacciones complejas entre agentes adversariales.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/102301
Date January 2010
CreatorsL'Huillier Chaparro, Gastón
ContributorsWeber Haas, Richard, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ciencias de la Computación; Departamento de Ingeniería Industrial, Hevia Angulo, Alejandro, Figueroa González, Nicolás, Ríos Pérez, Sebastián A.
PublisherUniversidad de Chile, CyberDocs
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsL’huillier Chaparro, Gastón Andrés

Page generated in 0.0017 seconds