Global ETD Search

131	Detección de Miembros Clave en una Comunidad Virtual de Practica Mediante Análisis de Redes Sociales y Minería de Datos Avanzada Álvarez Gómez, Héctor Ignacio January 2010 (has links) No description available. Ingeniería Gestión de Operaciones Minería de datos Redes sociales, investigaciones Interacción social Comunidades virtuales
132	Caracterización y detección de contribuyentes que presentan facturas falsas al SII mediante técnicas de data minig Castellon González, Pamela Andrea January 2012 (has links) Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / El presente trabajo de título tiene por objetivo identificar patrones de comportamiento de los contribuyentes declarantes de IVA, que transan facturas falsas para evadir impuestos. Para ello se utiliza el proceso KDD, el cual considera una serie de pasos y técnicas que permiten extraer conocimiento oculto a partir de un gran volumen de datos, para encontrar relaciones o patrones asociados a un cierto fenómeno. La utilización y venta de facturas falsas tiene un impacto significativo en la recaudación que percibe el Estado, generando además efectos negativos que ponen en riesgo la competitividad de las empresas. Históricamente, la evasión por este concepto ha representado entre un 20% a un 30% de la evasión en el IVA, alcanzando la cifra de $450 millones de pesos durante la crisis económica de 2009. Adicionalmente, la detección, investigación, sanción y cobro de los impuestos adeudados, provoca un importante costo administrativo, debido a la cantidad de facturas transadas en el año y al tiempo requerido para su detección. En ese contexto, resulta necesario contar con procedimientos sistematizados y efectivos que gestionen la información disponible para detectar potenciales defraudadores de impuestos, focalizando los recursos en aquellos contribuyentes de mayor riesgo tributario. Para la construcción del vector de características se utiliza la información de casos registrados con facturas falsas en el año 2006, considerando información del pago de impuestos en tal período, características particulares, comportamiento histórico en diferentes etapas de su ciclo de vida e indicadores del comportamiento de sus relacionados, entre otros. En una primera instancia, se aplican técnicas de SOM y Gas Neuronal, para analizar el potencial de contribuyentes que tienen un buen o mal comportamiento tributario e identificar sus características más relevantes. Posteriormente, se utilizan Árboles de Decisión, Redes Neuronales y Redes Bayesianas, para identificar aquellas variables que están relacionadas con un comportamiento de fraude y/o no fraude y detectar patrones de conducta, estableciendo en qué medida se pueden predecir estos casos con la información disponible. El resultado indica que las variables que más discriminan entre fraude y no fraude en las micro y pequeñas empresas son el porcentaje de créditos generado por facturas, el resultado de las fiscalizaciones previas, la cantidad de facturas emitidas en el año y su relación con las facturas timbradas en los últimos dos años, el monto de IVA total declarado, la relación entre remanentes y créditos, los delitos e irregularidades históricas asociadas a facturas, y la participación en otras empresas. En las medianas y grandes empresas, en tanto, las variables más relevantes son la cantidad de remanente acumulado, el porcentaje de crédito asociado a facturas, el total de créditos, la relación entre gastos rechazados y activos, el capital efectivo, la cantidad de irregularidades previas asociadas a facturas, la cantidad de fiscalizaciones históricas, y el número de representantes legales. En relación a los modelos predictivos, el mejor resultado se obtuvo con la red neuronal, donde el porcentaje de casos con fraude correctamente asignado fue de un 92% para las micro y pequeñas empresas, y de 89% para las empresas medianas y grandes. De acuerdo a esto y al potencial universo de usuarios de facturas falsas (120.768 empresas), se estima que con los modelos obtenidos se puede generar un potencial de recaudación de $101.446 millones de pesos al año, lo que permitiría reducir la evasión por concepto de IVA de manera significativa. Finalmente, se concluye que es posible caracterizar y predecir contribuyentes que evaden impuestos a través de facturas falsas utilizando técnicas de Data Mining, y que los factores que inciden en la probabilidad que un contribuyente utilice facturas falsas dependen del tamaño o segmento del contribuyente, relación que hasta el momento se establecía sólo de manera intuitiva. Se recomienda, para trabajos futuros, generar nuevas variables de comportamiento históricas relacionadas con fiscalizaciones y cobertura, explorar otros métodos para el preprocesamiento y selección de las variables, con los que eventualmente podrían obtenerse resultados diferentes. Igualmente, sería interesante explorar técnicas de validación cruzada y aplicar otras técnicas de data mining para mejorar la predicción de casos de fraude. Delitos tributarios Evasión de impuestos Minería de datos Redes Bayesianas
133	Análisis de archivos Logs semi-estructurados de ambientes Web usando tecnologías Big-Data Villalobos Luengo, César Alexis January 2016 (has links) Magíster en Tecnologías de la Información / Actualmente el volumen de datos que las empresas generan es mucho más grande del que realmente pueden procesar, por ende existe un gran universo de información que se pierde implícito en estos datos. Este proyecto de tesis logró implementar tecnologías Big Data capaces de extraer información de estos grandes volúmenes de datos existentes en la organización y que no eran utilizados, de tal forma de transformarlos en valor para el negocio. La empresa elegida para este proyecto se dedicada al pago de cotizaciones previsionales de forma electrónica por internet. Su función es ser el medio por el cual se recaudan las cotizaciones de los trabajadores del país. Cada una de estas cotizaciones es informada, rendida y publicada a las instituciones previsionales correspondientes (Mutuales, Cajas de Compensación, AFPs, etc.). Para realizar su función, la organización ha implementado a lo largo de sus 15 años una gran infraestructura de alto rendimiento orientada a servicios web. Actualmente esta arquitectura de servicios genera una gran cantidad de archivos logs que registran los sucesos de las distintas aplicaciones y portales web. Los archivos logs tienen la característica de poseer un gran tamaño y a la vez no tener una estructura rigurosamente definida. Esto ha causado que la organización no realice un eficiente procesamiento de estos datos, ya que las actuales tecnologías de bases de datos relaciones que posee no lo permiten. Por consiguiente, en este proyecto de tesis se buscó diseñar, desarrollar, implementar y validar métodos que sean capaces de procesar eficientemente estos archivos de logs con el objetivo de responder preguntas de negocio que entreguen valor a la compañía. La tecnología Big Data utilizada fue Cloudera, la que se encuentra en el marco que la organización exige, como por ejemplo: Que tenga soporte en el país, que esté dentro de presupuesto del año, etc. De igual forma, Cloudera es líder en el mercado de soluciones Big Data de código abierto, lo cual entrega seguridad y confianza de estar trabajando sobre una herramienta de calidad. Los métodos desarrollados dentro de esta tecnología se basan en el framework de procesamiento MapReduce sobre un sistema de archivos distribuido HDFS. Este proyecto de tesis probó que los métodos implementados tienen la capacidad de escalar horizontalmente a medida que se le agregan nodos de procesamiento a la arquitectura, de forma que la organización tenga la seguridad que en el futuro, cuando los archivos de logs tengan un mayor volumen o una mayor velocidad de generación, la arquitectura seguirá entregando el mismo o mejor rendimiento de procesamiento, todo dependerá del número de nodos que se decidan incorporar. Minería de datos Negocios - Procesamiento de datos Procesamiento electrónico de datos Cloudera BigData MapReduce
134	Modelo de Asignación de Recursos Policiacos en la Vía Pública Jara Aburto, Juan Francisco January 2011 (has links) El objetivo general del presente trabajo de título es proponer un modelo matemático basado en Teoría de Juegos y la metodología para implementarlo, con el fin de establecer prioridades para el uso de los recursos de Carabineros de Chile en materia de vigilancia preventiva y ayudar así a la toma de decisiones sobre la distribución de dichos recursos en la vía pública. En la actualidad, la delincuencia es una de las principales preocupaciones de la ciudadanía, siendo considerada además el problema al cual el gobierno debería dedicarle el mayor esfuerzo en solucionar. La existencia de numerosos delitos en la vía pública y la restricción de recursos policiacos hacen necesario un alto desempeño por parte de Carabineros para disuadir o aprehender a los criminales. Sin embargo, la distribución del personal tiene mucho de intuitivo hoy en día. Por otro lado, la estrategia de Carabineros no contempla indicadores interesantes como la prioridad por tipo de delito y su efecto en la percepción de seguridad, los cuales deben ser considerados para reducir de forma efectiva la sensación de temor de la ciudadanía. El modelo propuesto se basa en el equilibrio de Stackelberg (Modelo Líder-Seguidor) y se calibrará con los datos de la 1ª Comisaría de Santiago mediante técnicas de Data Mining, para así determinar la distribución de Carabineros a pie en ese terreno. Se obtuvo mediante DBSCAN una representación de un 88.23% de los delitos ocurridos en los 2 años de estudio, los cuales fueron catalogados en 9 segmentos relevantes por medio de un wrapper que utiliza forward selection, k-means y Davies-Bouldin, y mediante las características espacio-temporales del lugar del ilícito y del tipo de delito. Los resultados arrojados por el modelo en base a estas simplificaciones reflejan la experiencia sobre cómo distribuir los recursos y presenta un método cuantitativo que permite integrar los diversos factores que influyen en esa decisión. Dentro de las ventajas más importantes que el modelo presenta, en relación a las actuales formas de determinación de la dotación de personal de Carabineros, es la consideración de la prevención situacional como enfoque de solución del problema, la no predictibilidad de la conducta policiaca y el hecho de que los delincuentes pueden percibir en base a su experiencia la estrategia policial en determinado sector. El modelo permite realizar además una serie de análisis sobre el impacto de decisiones que influyen en el desempeño policial, tales como cambios en la cantidad de recursos policiacos, cambios en la percepción del castigo que sufren los delincuentes si son capturados, etc. Siendo los dos ejemplos mencionados los que reportaron un mayor cambio en el desempeño policial óptimo sugerido por el modelo. Ingeniería Carabineros de Chile Seguridad ciudadana, Chile Minería de datos Teoría de los juegos Estrategia del desarrollo
135	Diseño e implementación de una aplicación de web opinion mining para identificar preferencias de usuarios sobre productos turísticos de la X región de Los Lagos Marrese Taylor, Edison January 2013 (has links) Ingeniero Civil Industrial / El objetivo de este trabajo es diseñar e implementar una aplicación de web opinion mining para encontrar preferencias sobre productos turísticos en la X Región de Los Lagos, Chile. Esta aplicación se desarrolló bajo el proyecto FONDEF D10I1198, conocido como WHALE (Web Hypermedia Analysis Long-Term Environment), que aborda la situación de la industria del turismo en Los Lagos, donde los operadores turísticos caracterizan la demanda y definen la oferta usando estudios de alcance limitado. Estos estudios no son capaces de cubrir un número representativo de participantes porque se aplican a grupos específicos de personas, dejando la demanda potencial proveniente de fuera de la región sin estudiar. Dada esta situación, se torna importante considerar métodos alternativos de estudio. Con el explosivo crecimiento de la Web 2.0, la cantidad de información disponible on-line es hoy inmensa. Este trabajo ofrece un enfoque que considera una nueva alternativa para descubrir preferencias de clientes sobre productos turísticos, particularmente hoteles y restaurants, usando opiniones disponibles en la Web en la forma de reviews. Esta tarea presenta desafíos importantes, principalmente por el hecho de que los datos son variables en el tiempo y están frecuentemente dispuestos en una forma semi-estructurada. En este contexto, web opinion mining o WOM ofrece un conjunto de técnicas para analizar datos de opiniones y definir una estructura a partir de ellos. En particular, aspect-based opinion mining propone dividir las opiniones en aspectos, tópicos importantes o representativos que, en el caso de los reviews de productos, se conciben como componenentes o atributos de cada producto con su respectiva orientación sentimental. Este trabajo propone que los reviews en la Web contienen información valiosa sobre productos turísticos y que, mediante la aplicación de algoritmos de aspect-based opinion mining a estos reviews, es posible descubrir las preferencias de los consumidores sobre dichos productos. Esta información, una vez extraída, puede ser usada por diferentes actores en una industria, particularmente, la del turismo en Los Lagos. El diseño de la aplicación propuesta incluyó modelar las opiniones, generar algoritmos específicos para extraer estas opiniones desde los reviews, crear de corpus linguistico para evaluar el desempeño de los algoritmos y proponer una arquitectura de software para la aplicación en sí. La implementación consistió en desarrollar el software propuesto usando Python. Los resultados mostraron que los reviews de productos turísticos disponibles en en sitios web contienen información valiosa sobre las preferencias de los consumidores y que estas pueden encontrarse usando un enfoque de aspect-based opinion mining. Sin embargo, en promedio, los algoritmos sólo fueron capaces de extraer un 35% de los aspectos, aunque mostraron ser muy efectivos en determinar la orientación sentimental, obteniendo una precision y recall promedio de un 90%. Turismo - Chile - Región de los Lagos Preferencia de los consumidores Minería de datos Software computacional - Desarrollo Buscadores de internet
136	Resúmenes semiautomáticos de conocimiento : caso de RDF Garrido García, Camilo Fernando January 2013 (has links) Ingeniero Civil en Computación / En la actualidad, la cantidad de información que se genera en el mundo es inmensa. En el campo científico tenemos, por ejemplo, datos astronómicos con imágenes de las estrellas, los datos de pronósticos meteorológicos, los datos de infomación biológica y genética, etc. No sólo en el mundo científico se produce este fenómeno, por ejemplo, un usuario navegando por Internet produce grandes cantidades de información: Comentarios en foros, participación en redes sociales o simplemente la comunicación a través de la web. Manejar y analizar esta cantidad de información trae grandes problemas y costos. Por ello, antes de realizar un análisis, es conveniente determinar si el conjunto de datos que se posee es adecuado para lo que se desea o si trata sobre los temas que son de nuestro interés. Estas preguntas podrían responderse si se contara con un resumen del conjunto de datos. De aquí surge el problema que esta memoria abarca: Crear resúmenes semi-automáticos de conocimiento formalizado. En esta memoria se diseñó e implementó un método para la obtención de resúmenes semiautomáticos de conjuntos RDF. Dado un grafo RDF se puede obtener un conjunto de nodos, cuyo tamaño es determinado por el usuario, el cual representa y da a entender cuáles son los temas más importantes dentro del conjunto completo. Este método fue diseñado en base a los conjuntos de datos provistos por DBpedia. La selección de recursos dentro del conjunto de datos se hizo utilizando dos métricas usadas ampliamente en otros escenarios: Centralidad de intermediación y grados. Con ellas se detectaron los recursos más importantes en forma global y local. Las pruebas realizadas, las cuales contaron con evaluación de usuarios y evaluación automática, indicaron que el trabajo realizado cumple con el objetivo de realizar resúmenes que den a entender y representen al conjunto de datos. Las pruebas también mostraron que los resúmenes logran un buen balance de los temas generales, temas populares y la distribución respecto al conjunto de datos completo. Ciencia de la computación Minería de datos Linked data DBpedia
137	RDF binario para una publicación, intercambio y consumo escalable en la web de datos Fernández García, Javier David January 2014 (has links) Doctor en Ciencias, Mención Computación / El actual diluvio de datos está inundando la Web con grandes volúmenes de datos representados en RDF, dando lugar a la denominada Web de Datos. En la actualidad, se publican datos abiertos e interrelacionados sobre bioinformática, geografía o sobre redes sociales, entre otros, que forman parte de proyectos tan activos como Linked Open Data. Varias áreas de investigación han emergido de este diluvio; indexación y consulta de RDF (típicamente mediante el lenguaje SPARQL), razonamiento, esquemas de publicación, alineamiento de ontologías, visualización de RDF, etc. Los tópicos de la Web Semántica relacionados con RDF son, de hecho, trending topics en casi cualquier conferencia informática. Sin embargo, podemos discernir tres importantes hechos del actual estado del arte: i) se han realizado aplicaciones e investigaciones apoyándose en datos RDF, pero aún no se ha realizado un trabajo que permita entender la esencia de este modelo de datos, ii) las representaciones clásicas de RDF continúan influenciadas por la visión tradicional de la Web basada en documentos, lo que resulta en sintaxis verbosas, redundantes y, aún, centradas en humanos. Ello conlleva iii) publicaciones pobres y difusas, procesamientos complejos e ineficientes y una falta de escalabilidad para poder desarrollar la Web de Datos en toda su extensión. En esta tesis proponemos, en primer lugar, un estudio profundo de aquellos retos que nos permitan abordar un conocimiento global de la estructura real de los conjuntos de datos RDF. Dicho estudio puede avanzar en la consecución de mejores diseños de conjuntos de datos y mejores y más eficientes estructuras de datos, índices y compresores de RDF. Posteriormente, presentamos nuestra representación binaria de RDF, HDT, que afronta la representación eficiente de grandes volúmenes de datos RDF a través de estructuras optimizadas para su almacenamiento y transmisión en red. HDT representa eficazmente un conjunto de datos RDF a través de su división en tres componentes: La cabecera (Header), el diccionario (Dictionary) y la estructura de sentencias RDF (Triples). A continuación, nos centramos en proveer estructuras eficientes tanto para el diccionario como para dicha estructura de sentencias, ya que forman parte de HDT pero también de la mayoría de aplicaciones sobre grandes volúmenes de datos RDF. Para ello, estudiamos y proponemos nuevas técnicas que permiten disponer de diccionarios e índices de sentencias RDF comprimidos, a la par que altamente funcionales. Por último, planteamos una configuración compacta para explorar y consultar conjuntos de datos codificados en HDT. Esta estructura mantiene la naturaleza compacta de la representación permitiendo el acceso directo a cualquier dato. Web semántica Minería de datos RDF Indexacion de datos
138	Detección y monitorización del consumo y consumo de riesgo de alcohol en usuarios chilenos Twitter Andrioletti Méndez, María Pía January 2017 (has links) Ingeniera Civil Industrial / El consumo de alcohol es algo totalmente normalizado en nuestra sociedad. Es famosa la frase del escritor Charles Bukowski "Si ocurre algo malo, bebes para olvidar, si ocurre algo bueno, bebes para celebrarlo; y si no pasa nada, bebes para que pase algo". El alcohol está presente en cada una de las celebración y forma parte importante de nuestras tradiciones, sin embargo, es el primer factor de riesgo que causa más muerte y discapacidad en Chile, tiene una alta prevalencia en los accidentes de tránsito y se asocia a la violencia y los delitos, esto se traduce en millonarios costos tanto a nivel monetario como sociales, en el año 2006 se estimó el costo que genera el consumo en un 1,14% del PIB de Chile. Estas consecuencias negativas resultan de gran preocupación para las instituciones de salud que buscan hacer frente a este problema de salud pública. La explosión de las redes sociales se presenta como una alternativa factible para poder obtener información relevante a un bajo costo, comparado con otros métodos para monitorizar el comportamiento de la población. Realizar una encuesta implica costos y tiempo: por eso, este trabajo surge de la necesidad de la Unidad de Adicciones del Departamento de Psiquiatría y Salud Mental del Hospital Clínico de la Universidad de Chile de realizar una monitorización en tiempo real del consumo de alcohol. La hipótesis de investigación de este trabajo plantea que es posible identificar el consumo de alcohol en la población y establecer la existencia de consumo de riesgo de alcohol a partir de la información disponible en Twitter y el contenido generado en esta red social. El objetivo principal de esta memoria es diseñar una aplicación utilizando herramientas de Text Mining, Data Mining, Social Network Analysis y Sentiment Analysis, que permitan identificar y cuantificar la prevalencia del consumo de alcohol en la población chilena, así como también la existencia de consumo de riesgo de esta droga, utilizando la información generada en Twitter por usuarios chilenos, y verificar que esta información extraída refleja el comportamiento de la población general en materia de alcohol. Para modelar el consumo de alcohol se diseñaron cuatro modelos. La precision para el caso de la clase de interés para cada uno de los modelos fue: 0,842 para el modelo de consumo de alcohol en tweets, 0,977 para el modelo de mención de políticas en tweets, 0,860 para el de consumo de alcohol en usuarios y 0,600 para el de consumo de riesgo. La principal conclusión de este trabajo es que se comprueba la hipótesis de investigación. Los resultados obtenidos reflejan el comportamiento de la población general en materia de consumo y consumo de riesgo de alcohol y son comparables con la Encuesta Nacional de Drogas. Los modelos mostrados son capaces de modelar y replicar la información obtenida de esta encuesta. Minería de datos Redes sociales - Investigaciones Consumo de bebidas alcohólicas - Chile Investigación cuantitativa
139	Aumento de los ingresos a través del rediseño de procesos de cobro en la Empresa Movix Rodríguez Bustos, Jorge Luis January 2017 (has links) Magíster en Ingeniería de Negocios con Tecnologías de Información / El uso de los dispositivos móviles ha evolucionado, el celular dejó de ser una herramienta de comunicación, para convertirse en un medio de información y entretenimiento; es decir, el equipo y los servicios que prestan, empezaron a convertirse en un elemento social que muestra la personalidad del individuo que lo posee, y éste se identifica a través de la música, las imágenes, los juegos y las aplicaciones que descarga y usa a través del mismo. A raíz de las necesidades de contenido y entretenimiento en los dispositivos móviles surgen los servicios de valor agregado de la telefonía móvil (VAS). Movix realiza alianzas con diferentes empresas del rubro información y entretenimiento para llevar contenidos de televisión, prensa, rostros, radio, etc, al mercado móvil. Para esto Movix utiliza la infraestructura tecnológica propia y opera diversos sistemas con el compromiso constante de evolución, alta disponibilidad, modularidad y escalabilidad. En términos generales, el operador de telefonía móvil proporciona una interfaz (WEB Service o SMPP), mediante la cual se realiza el débito del saldo y sí el usuario posee en su cuenta el monto necesario se le entregará el contenido al cual está suscrito. El principal inconveniente se encuentra en que los proveedores de contenido como Movix compiten por el saldo del usuario con el cobro de los productos del operador y de otros proveedores, con lo cual, la optimización de los procesos de cobro representa una ventaja competitiva para la empresa y a su vez el resultado obtenido por la mejora del proceso ayudará a la compañía a cumplir con los objetivos financieros. Actualmente, las bases de datos de Movix almacenan gigas de datos que poseen información relevante del proceso, lo cual genera la motivación de realizar investigación del proceso y de la forma de generar conocimiento a través del uso de la información histórica que poseen los sistemas de información de Movix, con el objetivo de aumentar la efectividad de cobro El presente documento presenta el desarrollo del proyecto de optimización del proceso de cobro de la compañía, a través del uso de herramientas de data mining. Para lo cual, se realiza una descripción de la arquitectura de procesos de Movix y se instancian los procesos relevantes en el marco del proyecto. De igual forma, se identifica y explica problema de negocio al cuál se quiere dar solución mediante el proyecto en mención; el marco conceptual y metodológico del proyecto serán más claros para el lector después de haber comprendido en términos generales el contexto que rodea a Movix. A través de uso de la metodología de negocios, se pudo determinar las variables relevantes y las herramientas tecnológicas adecuadas que permitieron obtener como resultado una versión optimizada del proceso de cobro, con el cual se obtuvo la mejora de casi 1% de la efectividad de cobro en los pilotos realizados. Telefonía celular Minería de datos Cobro de cuentas Gestión de negocios - Chile Servicios de valor agregado
140	Propuesta de analytics a los patrones de comportamiento en el proceso de clasificación socioeconómica en el MIDIS / Proposal of Analytics to behavior patterns in the socioeconomic classification process in the MIDIS Atalaya Tello, Karina, Flores Aedo, Nancy, Flores Alvarado, Ángela 21 January 2019 (has links) El proceso de clasificación socioeconómica, realizado por el Ministerio de Desarrollo e Inclusión Social (MIDIS), permite asignar el nivel socioeconómico a los hogares y sus integrantes, principalmente, a través de mecanismos de evaluación del hogar en base a sus características socioeconómicas, demográficas y de condición de vida. Esta evaluación permite identificar a hogares y personas en situación de pobreza, vulnerabilidad o exclusión, como potenciales beneficiarios de los programas y subsidios del Estado. La aplicación de Analytics y de la minería de datos, a través de técnicas como la clusterización, para la búsqueda de patrones mediante la identificación de agrupaciones con características similares, y la clasificación, para catalogar nuevos registros, permitió determinar la clasificación socioeconómica de los hogares y de sus integrantes; así como establecer la clasificación socioeconómica de nuevos registros de hogares. Para la aplicación de estas técnicas de minería de datos se siguieron las fases establecidas en la metodología CRISP-DM. Se recopiló información desde los formatos de recojo de información de las características de los hogares, procediéndose a considerar las variables más relevantes para la construcción del modelo o patrón. El presente trabajo tiene por finalidad hallar un patrón de comportamiento para el proceso de clasificación socioeconómica de la población, a través de la aplicación de Analytics, buscando contribuir con la reducción del porcentaje de filtración de hogares que reciben apoyo de los programas sociales sin corresponderles, para así a tener una política de apoyo social efectiva. / The socioeconomic classification process made by Ministry of development and social inclusion (MIDIS), allows socioeconomic level assignment to households and their members, mainly through household assessment mechanisms base on their socioeconomic, demographic and social characteristics. This evaluation allows it possible to identify households and people in situations of poverty, vulnerability or exclusion, as potential beneficiaries of State programs and subsidies. The application of analytics and data mining, through techniques such as clustering, for the search of patterns by identifying clusters with similar characteristics, and classification, to catalog new records, allowed determining the socioeconomic classification of households; as well as establishing the socioeconomic classification of new household registers. For the application of these data mining techniques, the CRISP-DM methodology was used. Used Information was collected from the information collection formats of the characteristics of the households and the most relevant variables were considered for the model construction. The purpose of this paper is to find a pattern of behavior for the socioeconomic classification process, through the application of Analytics, seeking to contribute to the reduction of the percentage of households that receive support from social programs without corresponding them, in order to have an effective social support policy. / Trabajo de investigación Pobreza Niveles socioeconómicos Análisis clúster Minería de datos Perú

Search results