• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 180
  • 15
  • 3
  • 1
  • 1
  • Tagged with
  • 200
  • 200
  • 38
  • 36
  • 32
  • 31
  • 31
  • 31
  • 31
  • 31
  • 28
  • 28
  • 27
  • 27
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
121

Análisis de árboles de clasificación para la creación de un modelo que permita describir el perfil de los morosos y no morosos en una entidad financiera de Lima Metropolitana en el 2014

Tafur Tembladera, Edelina Anyela January 2016 (has links)
Publicación a texto completo no autorizada por el autor / Las entidades financieras están desarrollando constantemente modelos que les ayuden a predecir el comportamiento de sus clientes, con el fin de mejorar sus ganancias o de reducir las pérdidas, como el riesgo de “no pago” o de “morosidad”. El objetivo es crear un modelo predictivo de Árboles de Decisión por Clasificación con minería de datos para predecir la morosidad financiera en Lima Metropolitana, describiendo y analizando las variables independientes con el algoritmo CHAID (Detector automático de Chi-cuadrado de interacción) siguiendo la metodología CRISP-DM en una base de datos de una entidad financiera. La principal ventaja de esta metodología es que no está sujeta a supuestos estadísticos, este método es muy usado cuando se busca predecir o clasificar comportamientos de riesgo, como la morosidad, y se cuenta con más variables cualitativas que cuantitativas. La metodología persigue la separación óptima en la muestra, de tal modo que los grupos de la variable respuesta ofrecen distintos perfiles de riesgo. / Trabajo de suficiencia profesional
122

Componentes principales categóricos y modelos de minería de datos, para determinar los factores que más influyen en la percepción de la calidad de vida de los limeños, 2014

Cjahua Ramírez, Christeen Lovisette January 2017 (has links)
Publicación a texto completo no autorizada por el autor / Determinar los factores más importantes en la percepción de la calidad de vida de los limeños mayores de 18 años que residen en la capital del Perú. Con la base de datos de la encuesta Lima Como Vamos 2014 proporcionada por el Observatorio Ciudadano, se construyeron 10 índices sintéticos multivariados para la percepción de la calidad de vida de los limeños, identificación con la ciudad, movilidad y transporte, violencia e inseguridad ciudadana, medio ambiente, vivienda, economía y salud, cultura ciudadana, gestión pública, participación ciudadana, y responsabilidad, y cultura ciudadana. Para la obtención de los resultados se emplearon componentes principales categóricos, clúster k-medias ponderada por entropía y redes neuronales artificiales con función de base radial. Además, se utilizó los softwares IBM SPSS Statistics 24, Rstudio, librería Rattle de R Project for Statistical Computing. Finalmente el resultado fue que los factores que más influyen en la percepción de la calidad de vida de los limeños son: la cultura ciudadana, medio ambiente, educación y salud. / Tesis
123

Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A

López Aravena, Camilo Alberto January 2012 (has links)
Ingeniero Civil Industrial / Ingeniero Civil en Computación / Betazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta.
124

Identificación de las tendencias de reclamos presentes en reclamos.cl y que apunten contra instituciones de educación y organizaciones públicas

Beth Madariaga, Daniel Guillermo January 2012 (has links)
Ingeniero Civil Industrial / En la siguiente memoria se busca corroborar, por medio de una experiencia práctica y aplicada, si a caso el uso de las técnicas de Web Opinion Mining (WOM) y de herramientas informáticas, permiten determinar las tendencias generales que pueden poseer un conjunto de opiniones presentes en la Web. Particularmente, los reclamos publicados en el sitio web Reclamos.cl, y que apuntan contra instituciones pertenecientes a las industrias nacionales de Educación y de Gobierno. En ese sentido, los consumidores cada vez están utilizando más la Web para publicar en ella las apreciaciones positivas y negativas que poseen sobre lo que adquieren en el mercado, situación que hace de esta una mina de oro para diversas instituciones, especialmente para lo que es el identificar las fortalezas y las debilidades de los productos y los servicios que ofrecen, su imagen pública, entre varios otros aspectos. Concretamente, el experimento se realiza a través de la confección y la ejecución de una aplicación informática que integra e implementa conceptos de WOM, tales como Knowledge Discovery from Data (KDD), a modo de marco metodológico para alcanzar el objetivo planteado, y Latent Dirichlet Allocation (LDA), para lo que es la detección de tópicos dentro de los contenidos de los reclamos abordados. También se hace uso de programación orientada a objetos, basada en el lenguaje Python, almacenamiento de datos en bases de datos relacionales, y se incorporan herramientas pre fabricadas con tal de simplificar la realización de ciertas tareas requeridas. La ejecución de la aplicación permitió descargar las páginas web en cuyo interior se encontraban los reclamos de interés para la realización experimento, detectando en ellas 6.460 de estos reclamos; los cueles estaban dirigidos hacia 245 instituciones, y cuya fecha de publicación fue entre el 13 de Julio de 2006 y el 5 de Diciembre de 2011. Así también, la aplicación, mediante el uso de listas de palabras a descartar y de herramientas de lematización, procesó los contenidos de los reclamos, dejando en ellos sólo las versiones canónicas de las palabras que los constituían y que aportasen significado a estos. Con ello, la aplicación llevó a cabo varios análisis LDA sobre estos contenidos, los que arbitrariamente se definieron para ser ejecutados por cada institución detectada, tanto sobre el conjunto total de sus reclamos, como en segmentos de estos agrupados por año de publicación, con tal de generar, por cada uno de estos análisis, resultados compuestos por 20 tópicos de 30 palabras cada uno. Con los resultados de los análisis LDA, y mediante una metodología de lectura e interpretación manual de las palabras que constituían cada uno de los conjuntos de tópicos obtenidos, se procedió a generar frases y oraciones que apuntasen a hilarlas, con tal de obtener una interpretación que reflejase la tendencia a la cual los reclamos, representados en estos resultados, apuntaban. De esto se pudo concluir que es posible detectar las tendencias generales de los reclamos mediante el uso de las técnicas de WOM, pero con observaciones al respecto, pues al surgir la determinación de las tendencias desde un proceso de interpretación manual, se pueden generar subjetividades en torno al objeto al que apuntan dichas tendencias, ya sea por los intereses, las experiencias, entre otros, que posea la persona que realice el ejercicio de interpretación de los resultados.
125

Diseño de una metodología de evaluación de un proyecto que apoya el desarrollo del sector turismo en la Región de Los Lagos

Zamora de la Barra, Nicole Macarena January 2016 (has links)
Ingeniera Civil Industrial / El turismo presenta la segunda mayor tasa de crecimiento de los sectores económicos de Chile (8,8%), representando el 3,2% del PIB Nacional. Por esta razón las organizaciones público privadas se han preocupado por potenciar su desarrollo a través de la formulación de distintos programas que fomenten la promoción y competitividad de los destinos turísticos. Una forma de hacerlo es sacando provecho de las tecnologías de información existentes. Dentro de esta área el nacimiento de la Web 2.0 y la creación de algoritmos de minería de datos ofrecen múltiples posibilidades, pues la web es un excelente medio de promoción de destinos a distancia y la minería permite explotar los datos generados tras la navegación de los usuarios entregando información relevante de su comportamiento. Bajo este escenario es que se ha creado el proyecto WHALE, que consiste en el desarrollo de una herramienta tecnológica que apoya el turismo en la Región de Los Lagos. Ésta es una plataforma integrada por un sitio web, una aplicación móvil y una plataforma de administración. Las dos primeras están orientadas a satisfacer las necesidades de información de los turistas y la última a ofrecer a los empresarios del sector, municipalidades y al Gobierno Regional de Los Lagos información clave respecto de las características de los turistas y su posible demanda de servicios. Dado que se necesita saber si es que los resultados del proyecto son satisfactorios o no para los involucrados es que nace este tema de memoria, que tienen por objetivo diseñar una metodología de evaluación que permita también estudiar la replicabilidad del proyecto en otras regiones y agregar mejoras en él. Para poder plantearla se trabaja en conjunto con las instituciones mandantes con el fin de reconocer sus necesidades de información y determinar los parámetros bajo los que consideran que el proyecto tiene resultados satisfactorios. Es así como se propone el estudio de los principales resultados del proyecto, que son la página web y aplicación móvil, su difusión y masificación entre los turistas y la transferencia tecnológica de la plataforma de administración. Para cada uno de esos aspectos se proponen las herramientas o instrumentos para medirlos y 35 indicadores, que ponderados por factores de importancia dada por los mandantes, resultan en un indicador final de evaluación del proyecto. Como resultado de la aplicación de la metodología se cataloga la solución tecnológica como regular , ya que hay aspectos ligados a la evaluación de la cobertura son deficientes: solo el 4% de los empresarios, 22% de los municipios y 0,4% de los turistas objetivos participaron del proyecto. Lo que indica que se debe trabajar y mejorar la difusión y transferencia tecnológica del proyecto. Por otra parte aspectos relacionados con la evaluación de diseño de la herramientas fueron bien catalogados, pero dejando espacio para ser mejorados principalmente en lo que competente a la arquitectura de información del sitio. En el caso de este proyecto los resultados que se esperaban tener están relacionados con el impacto del proyecto sobre el sector económico/turístico de la Región de Los Lagos y no pudieron ser analizados debido a la falta de información requerida. Es por esto que se recomienda que para el planteamiento de futuros proyectos, se realice y planifique la evaluación de manera conjunta, ya que la medición de los resultados esperados debe ser posible de medir dentro de los horizontes de tiempo en los que se manejan los proyectos.
126

Diseño, desarrollo y evaluación de un algoritmo para detectar sub-comunidades traslapadas usando análisis de redes sociales y minería de datos

Muñoz Cancino, Ricardo Luis January 2013 (has links)
Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / Los sitios de redes sociales virtuales han tenido un enorme crecimiento en la última década. Su principal objetivo es facilitar la creación de vínculos entre personas que, por ejemplo, comparten intereses, actividades, conocimientos, o conexiones en la vida real. La interacción entre los usuarios genera una comunidad en la red social. Existen varios tipos de comunidades, se distinguen las comunidades de interés y práctica. Una comunidad de interés es un grupo de personas interesadas en compartir y discutir un tema de interés particular. En cambio, en una comunidad de práctica las personas comparten una preocupación o pasión por algo que ellos hacen y aprenden cómo hacerlo mejor. Si las interacciones se realizan por internet, se les llama comunidades virtuales (VCoP/VCoI por sus siglas en inglés). Es común que los miembros compartan solo con algunos usuarios formando así subcomunidades, pudiendo pertenecer a más de una. Identificar estas subestructuras es necesario, pues allí se generan las interacciones para la creación y desarrollo del conocimiento de la comunidad. Se han diseñado muchos algoritmos para detectar subcomunidades. Sin embargo, la mayoría de ellos detecta subcomunidades disjuntas y además, no consideran el contenido generado por los miembros de la comunidad. El objetivo principal de este trabajo es diseñar, desarrollar y evaluar un algoritmo para detectar subcomunidades traslapadas mediante el uso de análisis de redes sociales (SNA) y Text Mining. Para ello se utiliza la metodología SNA-KDD propuesta por Ríos et al. [79] que combina Knowledge Discovery in Databases (KDD) y SNA. Ésta fue aplicada sobre dos comunidades virtuales, Plexilandia (VCoP) y The Dark Web Portal (VCoI). En la etapa de KDD se efectuó el preprocesamiento de los posts de los usuarios, para luego aplicar Latent Dirichlet Allocation (LDA), que permite describir cada post en términos de tópicos. En la etapa SNA se construyeron redes filtradas con la información obtenida en la etapa anterior. A continuación se utilizaron dos algoritmos desarrollados en esta tesis, SLTA y TPA, para encontrar subcomunidades traslapadas. Los resultados muestran que SLTA logra un desempeño, en promedio, un 5% superior que el mejor algoritmo existente cuando es aplicado sobre una VCoP. Además, se encontró que la calidad de la estructura de sub-comunidades detectadas aumenta, en promedio, un 64% cuando el filtro semántico es aumentado. Con respecto a TPA, este algoritmo logra, en promedio, una medida de modularidad de 0.33 mientras que el mejor algoritmo existente 0.043 cuando es aplicado sobre una VCoI. Además la aplicación conjunta de nuestros algoritmos parece mostrar una forma de determinar el tipo de comunidad que se está analizando. Sin embargo, esto debe ser comprobado analizando más comunidades virtuales.
127

Análisis estático y dinámico de opiniones en twitter

Bravo Márquez, Felipe January 2013 (has links)
Magíster en Ciencias, Mención COmputación / Los medios de comunicación social y en particular las plataformas de Microblogging se han consolidado como un espacio para el consumo y producción de información. Twitter se ha vuelto una de las plataforma más populares de este estilo y hoy en día tiene millones de usuarios que diariamente publican millones de mensajes personales o ``twiits''. Una parte importante de estos mensajes corresponden a opiniones personales, cuya riqueza y volumen ofrecen una gran oportunidad para el estudio de la opinión pública. Para tabajar con este alto volumen de opiniones digitales, se utilizan un conjunto de herramientas computacionales conocidas como métodos de análisis de sentimiento o minería de opinión. La utilidad de evaluar la opinión pública usando análisis de sentimiento sobre opiniones digitales genera controversia en la comunidad científica. Mientras diversos trabajos declaran que este enfoque permite capturar la opinión pública de una manera similar a medios tradicionales como las encuestas, otros trabajos declaran que este poder esta sobrevalorado. En este contexto, estudiamos el comportamiento estático y dinámico de las opiniones digitales para comprender su naturaleza y determinar las limitaciones de predecir su evolución en el tiempo. En una primera etapa se estudia el problema de identificar de manera automática los tuits que expresan una opinión, para luego inferir si es que esa opinión tiene una connotación positiva o negativa. Se propone una metodología para mejorar la clasificación de sentimiento en Twitter usando atributos basados en distintas dimensiones de sentimiento. Se combinan aspectos como la intensidad de opinión, la emoción y la polaridad, a partir de distintos métodos y recursos existentes para el análisis de sentimiento. La investigación muestra que la combinación de distintas dimensiones de opinión permite mejorar significativamente las tareas de clasificación de sentimientos en Twitter de detección de subjetividad y de polaridad. En la segunda parte del análisis se exploran las propiedades temporales de las opiniones en Twitter mediante el análisis de series temporales de opinión. La idea principal es determinar si es que las series temporales de opinión pueden ser usadas para crear modelos predictivos confiables. Se recuperan en el tiempo mensajes emitidos en Twitter asociados a un grupo definido de tópicos. Luego se calculan indicadores de opinión usando métodos de análisis de sentimiento para luego agregarlos en el tiempo y construir series temporales de opinión. El estudio se basa en modelos ARMA/ARIMA y GARCH para modelar la media y la volatilidad de las series. Se realiza un análisis profundo de las propiedades estadísticas de las series temporales encontrando que éstas presentan propiedades de estacionalidad y volatilidad. Como la volatilidad se relaciona con la incertidumbre, se postula que estas series no debiesen ser usadas para realizar pronósticos en el largo plazo. Los resultados experimentales obtenidos permiten concluir que las opiniones son objetos multidimensionales, donde las distintas dimensiones pueden complementarse para mejorar la clasificación de sentimiento. Por otro lado, podemos decir que las series temporales de opinión deben cumplir con ciertas propiedades estadísticas para poder realizar pronósticos confiables a partir de ellas. Dado que aún no hay suficiente evidencia para validar el supuesto poder predictivo de las opiniones digitales, nuestros resultados indican que una validación más rigurosa de los modelos estáticos y dinámicos que se constuyen a partir de estas opiniones permiten establecer de mejor manera los alcances de la minería de opinión.
128

Diseño e Implementación de una Metodología de Predicción de Fuga de Clientes en una Compañía de Telecomunicaciones

Barrientos Inostroza, Francisco Javier January 2012 (has links)
La minería de datos es una nueva tecnología que está cobrando relevancia en la actualidad, su utilidad para resolver complejos problemas a lo que se enfrentan las empresas (de múltiples variables y casos) ha dado entrada a la aplicación e investigación sobre la misma. Sin embargo, esta tecnología no es una heurística cualquiera, se fundamenta en la rama de las ciencias de la computación denominada inteligencia artificial y las matemáticas mediante la estadística. En un comienzo, las empresas sólo se preocupaban por el almacenamiento de los datos, datos históricos que permitían cálculos matemáticos simples con una finalidad, la generación de reportes. De esta manera, se buscaba responder las preguntas referentes al control del negocio. Posteriormente se profundizaron estas preguntas de control hasta llegar a la creación de un repositorio consolidado, expresado en la tecnología de data warehouse. En la actualidad Las exigencias de los consumidores cada día aumentan más, puesto que la competencia comienza a ser más dinámica, por ende, para establecer una ventaja competitiva, las empresas requieren responder preguntas que van más allá de los datos históricos, es decir, necesitan extraer información que pueda ser útil para el futuro, y de esta manera, dejar el paradigma de una empresa reactiva y pasar a ser una entidad proactiva y preventiva. En este nuevo desafío aparece la tecnología de minería de datos, la cual va inserta en un procedimiento Knowledge Discovery on Databases (KDD), puesto que para obtener información del futuro se debe estar seguro del presente. Esta tecnología se aplica actualmente en variadas empresas, sin embargo, no se vislumbra explícitamente. Las personas son afectadas por ella como parte de un paradigma de consumismo, cuando compran un producto y se le hace un descuento, un aviso publicitario mencionando la promoción de un nuevo producto, cuando se les ofrece un crédito bancario o se les llama telefónicamente para mejorar un servicio que ya tienen contratado, e incluso cuando ingresan a Internet para navegar en sus redes sociales o buscar información. También se ve en los avances biológicos como un diagnóstico rápido y efectivo, una cura basada en la ingeniería genética, entre otros. Actualmente la minería de datos se ha subdivido en múltiples ramas según su aplicación, es así, como se pueden encontrar distintos tipos de minería: Web, de Texto, de Procesos. Estos solamente generan la diferencia en la perspectiva en que se ejecuta el KDD, siendo el último tipo el más reciente. Cabe mencionar que los principales algoritmos de han adaptado según su uso y día a día se implementan mejoras sobre los mismos. Análogamente, también, se desarrollan nuevas formas de valorización sobre sus resultados. Esta memoria busca investigar sobre el KDD y las distintas técnicas que pueden ser utilizadas, para luego aplicarlas a un producto particular en una empresa determinada. En ella se describen todos los procesos por los cuales se transcurrió cada uno visto desde el punto de vista del KDD, por lo que su estructura es como realizar un KDD a un documento de esta índole. Sin embargo, no todo fue la aplicación, puesto que se refinan los modelos y algoritmos tanto de transformaciones como de imputaciones de datos, lo que converge en un aprendizaje incremental, en el que cada intento es expresado como relevante puesto que destaca una etapa particular del KDD. Además, de describir la aplicación del KDD se añade una evaluación comercial utilizando recursos de la compañía y bajo el soporte del área de Aseguramiento de Ingresos y la Vicepresidencia Comercial. En base a esta evaluación comercial, se tiene la evaluación técnica de cada modelo y las peculiaridades que se forman al efectuar el contraste entre ambas. Adicionalmente se evalúa monetariamente los resultados obtenidos desde dos puntos de vista, lo que conlleva al establecimiento de propuestas futuras. Agregado a lo anterior, se presentan problemáticas no documentadas, debido a que su acontecer es propio dentro de lo que es desarrollar un proyecto que tiene al KDD como eje articulador. A su vez, se muestran soluciones y planteamientos para ingresar un proyecto a un área determinada, en otras palabras, se presentan herramientas que ayudan a generar confianza al interior de una empresa para que origine un cambio a nivel organizacional respecto a esta tecnología. Finalmente se concluyen los aprendizajes y las acciones correctivas que debiesen ejecutarse en caso de implementar el piloto a nivel operacional.
129

Diseño del soporte tecnológico y de procesos para la red de intermediación financiera de BancoEstado microempresas

González Coquelet, Angela Ximena January 2009 (has links)
La Filial Microempresas de BancoEstado, con el fin de mejorar sus ventajas competitivas y mantener su liderazgo en un mercado que ha incorporado nuevos actores con agresivas estrategias de captación y fidelización de clientes, ha replanteado su estrategia comercial, migrando a un modelo basado en alianzas de trabajo y colaboración con diferentes gremios, logrando una importante reducción en sus costos de captación de nuevos clientes y colocación de productos a clientes vigentes. Este modelo de negocio se ha denominado “Red de Intermediación Financiera” y sitúa al banco en la cadena de valor de financiamiento de los microempresarios. El proyecto busca potenciar el negocio de Intermediación Financiera dotando de tecnología al proceso de pago y recaudación entre Micro y Pequeños empresarios clientes de una gran empresa a través del pago electrónico en los puntos de venta. Con ello, se busca entregar mayor valor a la relación entre BancoEstado y sus clientes, brindándoles ventajas competitivas a las empresas participantes de la red de intermediación, a través de la optimización de los costos y problemáticas asociadas al proceso de recaudación de los grandes empresarios y financiamiento del capital de trabajo de los microempresarios. Se estima que la incorporación de tecnología al actual proceso será fundamental para transformarlo en un producto masivo, de bajo riesgo y percibido como exclusivo por parte los clientes. La Metodología utilizada para desarrollar el proyecto es la propuesta por el profesor Oscar Barros en su libro "Ingeniería de Negocios", que incorpora el planteamiento estratégico del proyecto, la definición del modelo de negocios, el diseño de la arquitectura de procesos, el diseño detallado de procesos del negocio y el diseño de las aplicaciones TI. El proyecto incorpora también una etapa piloto, donde se probaron y mejoraron tanto el modelo de negocios propuesto, como los procesos y desarrollos tecnológicos asociados. Se evaluaron los indicadores de control, se establecieron planes de mejora para los aspectos deficientes y tras un período de estabilidad con resultados satisfactorios, se aprobó por parte de la dirección de BancoEstado Microempresas el escalamiento del piloto a nuevos clientes. Finalmente, el proyecto incluyó el desarrollo de la generalización del modelo de Intermediación Financiera, la que podrá ser utilizada para realizar micropagos. De esta manera, BancoEstado o cualquier institución financiera que adopte el modelo desarrollado podrá realizar el cobro de la transacción y la distribución de los dineros involucrados en el pago.
130

Clasificación de Phishing Utilizando Minería de Datos Adversarial y Juegos con Información

L'Huillier Chaparro, Gastón January 2010 (has links)
Actualmente, el fraude por correo electrónico se ha transformado en un problema que afecta la seguridad y la economía global, cuya detección mediante el uso de filtros para correos tradicionales ha sido reconocida como poco efectiva. Si bien se han desarrollado filtros específicos para este tipo de correo, no se han presentado estudios que consideren explícitamente el comportamiento adversarial de quienes cometen fraude por correo electrónico. Por lo general, en sistemas adversariales la calidad de un clasificador disminuye a medida que un adversario aprende cómo derrotarlo. Para esto, la minería de datos adversarial ha sido recientemente propuesta como una solución preliminar, donde la interacción entre un adversario y el clasificador se define a través de un juego entre dos agentes, pero que no logra capturar elementos asociados al dinamismo de esta interacción. Esta tesis comprende el diseño y desarrollo de una metodología para clasificar mensajes de fraude por correo electrónico considerando su comportamiento adversarial. La interacción entre el perpetrador de fraude y el clasificador fue desarrollada utilizando juegos dinámicos con información incompleta y minería de datos adversarial. De acuerdo a la metodología propuesta, es necesario considerar componentes que describen la interacción entre agentes, como sus estrategias, tipos y funciones de utilidad. Para determinar lo anterior, es necesario definir propiedades, establecer supuestos y analizar los datos asociados a la aplicación de interés. Para esto, se pueden utilizar distintas técnicas, tanto cualitativas como cuantitativas, para definir los perfiles de estrategias, los tipos a considerar y las funciones de utilidad. Sin embargo, estos elementos son de exclusiva responsabilidad del modelador, y pueden variar significativamente dependiendo de la aplicación. En este trabajo se presenta una primera experiencia que puede ser utilizada de guía para el desarrollo de futuras aplicaciones en un contexto adversarial. La metodología presentada en este trabajo fue aplicada en una base de datos de correo electrónico con mensajes fraudulentos y regulares, utilizada frecuentemente por investigadores de este tipo de fraude. En términos de la caracterización de los correos de fraude, fueron utilizadas técnicas de análisis semántico latente y minería de datos de texto para potenciar la identificación de elementos cercanos a la ingeniería social, ampliamente presente en este tipo de fraude. Con respecto a los resultados experimentales, el método de caracterización propuesto presentó un rendimiento de clasificación competitivo con respecto a las últimas técnicas de caracterización presentes en la literatura (Bergholz et al., 2010). En esta tesis se presentan cuatro nuevos algoritmos de clasificación determinados mediante una aproximación del equilibrio secuencial para juegos con información incompleta. Cada uno de ellos actualiza incrementalmente sus parámetros con el objetivo de mejorar su capacidad de predicción en un ambiente de aprendizaje en línea. En términos de los resultados experimentales para los algoritmos de clasificación propuestos, se concluye que la interacción adversarial entre los agentes es capturada satisfactoriamente mejorando resultados obtenidos anteriormente para la predicción en línea (Sculley y Watchman, 2007). Finalmente, los resultados obtenidos en el análisis de sensibilidad de los algoritmos propuestos justifican la robustez de los resultados anteriores. Este trabajo abre la puerta a futuros desafíos relacionados principalmente con extensiones teóricas del marco de trabajo propuesto y aplicaciones de la metodología desarrollada en otros ámbitos. Además, esta tesis define un marco de trabajo que se puede adecuar al estudio de otras interacciones complejas entre agentes adversariales.

Page generated in 0.0985 seconds