Global ETD Search

41	Modelo predictivo del no pago de giros relacionados con el Formulario 29 para el Servicio de Impuestos Internos de Chile Cifuentes Moreira, Javiera Ignacia January 2016 (has links) Ingeniera Civil Industrial / El Servicio de Impuestos Internos es la institución encargada de velar por el cumplimiento tributario en Chile. Uno de sus deberes es fiscalizar el pago de impuestos y emitir cobros llamados giros de impuestos, cuando el pago no se realiza en forma correcta. En el último tiempo, estos giros no han tenido buenas tasas de pago, lo que preocupa y motiva a generar acciones para mejorarlas con el fin de aumentar la recaudación fiscal. El objetivo de este trabajo de memoria es construir un modelo que permita predecir la probabilidad de no pago de un giro específico generado por una declaración y pago incorrecto del formulario F29 para los segmentos de Micro y Pequeña Empresa, con el que el SII pueda tomar decisiones como la priorización o mayor uso de recursos en acciones preventivas y/o paliativas del no pago. Para lograr este objetivo, primero se estudia el caso y se recopilan variables de los contribuyentes, sus negocios y sus pagos del F29, existentes en la base de datos del SII, y se generan otras nuevas, totalizando 50 variables, que se anexan a una base de giros. Luego de una limpieza de datos quedan 292.940 giros, y con el 60% de ellos se entrenan diferentes modelos predictivos de árboles de decisión, incluyendo modelos Random Forest, y regresiones logísticas. De la comparación de sus resultados, se escoge un modelo CHAID por su facilidad de interpretación y aplicabilidad. Este modelo cuenta con un Accuracy de 78,2%, una Precisión de 83,1% y 65,6% de Especificidad, mientras que las variables más importantes para describir el no pago son en mayor medida el tipo de giro que se está pagando, la cantidad de veces que el valor del giro representa el pago mensual promedio de impuestos, y luego el valor de la deuda. Con el entendimiento de las reglas del árbol se generan propuestas acción para el SII. Para los giros con mayor probabilidad de no pago se recomienda generar estudios para verificar la existencia de malas prácticas contables, y para los de baja probabilidad, se recomienda prevenir los giros mediante campañas educativas. En relación a la cobranza de los giros, se propone que la Tesorería General de la República, institución encargada de ello, priorice los giros con mayor propensión a no ser pagados ya que el resto podrían ser pagados en los plazos estipulados. El beneficio económico de esta cobranza es positivo, sumando 1.300 millones extras a la recaudación actual. Finalmente, como trabajo futuro se proyecta la aplicación de las propuestas y la medición de su efectividad a través del desarrollo de diseños experimentales. / 13-10-2021 Minería de datos Evasión de impuestos Modelos logísticos Árboles de decisión
42	Diseño y desarrollo de un módulo de clasificación de páginas Web en base a las características de su contenido utilizando técnicas de minería de datos Falloux Costa, Gonzalo Alejandro January 2016 (has links) Ingeniero Civil Industrial / Este trabajo de título tiene por objetivo principal diseñar y desarrollar un módulo de clasificación de páginas web en base a las características de su contenido utilizando técnicas de minería de datos, lo que se traduce en la utilización de contenido HTML, análisis de texto visible de la página web y la incorporación de una variable que refleja la seguridad web según SSL como variables predictivas para la clasificación de páginas web. El trabajo se realiza enmarcado en el proyecto AKORI del Web Intelligence Centre de la Facultad de Ciencias Matemáticas de la Universidad de Chile, el cual pretende desarrollar una plataforma computacional para mejorar el diseño y contenido de sitios web mediante el estudio de variables fisiológicas y la aplicación de minería de datos. La plataforma consiste en la implementación de un modelo que sea capaz de predecir mapas tanto de fijación ocular como de dilatación pupilar de manera rápida y precisa. En esta etapa del proyecto AKORI es necesario mejorar el desempeño de las predicciones descritas, las cuales son realizadas en sitios web reales, de diseño y contenido muy variado. Además el comportamiento que se desea predecir es sobre usuarios de los que se desconoce su motivación para la navegación, lo cual a su vez altera tanto el comportamiento ocular como sus patrones de navegación. Dado lo anterior se propone como hipótesis de investigación: Es posible clasificar páginas web en base a las características de su contenido para solucionar dos problemas fundamentales, por un lado la clasificación agrupa páginas web maximizando la varianza de páginas web entre clases y minimizando la varianza intra clase, lo cual debiese mejorar considerablemente el desempeño del modelo, puesto que predecir dentro de una clase en la cual los ejemplos tienen mayor similitud disminuye el rango de error, disminuyendo, a su vez el error estándar en la predicción. Por otro lado entrega información sobre la motivación del usuario en la web si se conoce el servicio que ofrece la página web, lo que si bien no es información completa para describir el comportamiento del usuario, puede ser una importante variable de apoyo. Para el desarrollo del modelo se utiliza un juego de datos de 138 páginas web, escogidas según tráfico de usuarios Chilenos y luego se implementan cinco algoritmos de minería de datos para clasificar entre siete clases de páginas web. El algoritmo Naive Bayes obtiene el mejor desempeño, logrando un accuracy de 78.67%, lo que permite validar la hipótesis de investigación. Finalmente se concluye que se cumplen todos los resultados esperados y la hipótesis de investigación con resultados satisfactorios considerando la investigación actual. Minería de datos Sitios Web Web mining Eye tracking AKORI
43	Framework para evaluación de modelos predictivos en señales electrocardiográficas con aplicación en la detección de arritmias Avilés Segovia, Gustavo Emilio January 2016 (has links) Ingeniero Civil Industrial / Se ha demostrado que la supervisión remota, automática y no automática, puede influir positivamente en la disminución de la taza de hospitalizaciones y en el caso de que el paciente sea hospitalizado, disminuir la duración de esta. Comúnmente se utiliza en finanzas, meteorología, oceanografía, entre otros el uso, de técnicas de análisis de predicción de estado usando datos históricos, de esta forma se analizan diferentes implementaciones de minería de datos sobre estados o situaciones reales para luego comparar las predicciones con la realidad gestada. Sin embargo, a pesar de la existencia de una vasta documentación sobre como diferentes modelos y técnicas de minería de datos que son capaces de identificar problemas como arritmias, fibrilaciones auriculares, entre otros, esta tecnología no ha sido masificada, a pesar de su existencia en salas de emergencia, cuidados intermedios e intensivos. En el contexto descrito anteriormente que se gesta el proyecto de aplicar técnicas de minería de datos sobre mediciones fisiológicas, para la detección remota de problemas en pacientes. Y con esto la necesidad del desarrollo de un sistema de pruebas, que simule la aplicación en tiempo real de minería de datos sobre signos vitales capturados en tiempo real. Para esto se fue necesario crear un modelo de aprendizaje profundo, el que detectara el punto R del latido y clasificara éste como normal o anormal. Los resultados obtenidos luego del entrenamiento y prueba del modelo, muestran que es capaz de determinar certeramente cuando un latido es normal, sin embargo el modelo no entrega la misma seguridad al momento de clasificar un latido como anormal, ya que en ocasiones éste latido es normal. Por lo que no se pudo demostrar la hipótesis de que se pueden aplicar técnicas redes neuronales diseñadas para la detección de objetos en imágenes, sirvan para la clasificación de latidos cardíacos. Finalmente, tras el estudio de requerimientos del framework, la creación de un prototipo y su uso, se llegó a las siguientes conclusiones, el utilizar el framework posee notables falencias en el rendimiento en la etapa de entrenamiento y evaluación del modelo, el costo de elaboración y mantención de los requerimientos no cubiertos por el prototipo no se pueden justificar, haciendo el proyecto inviable, debido a la aparición de una alternativa gratuita de código libre que cubre gran parte de los beneficios del framework. Control de procesos Minería de datos Arritmia Atención al paciente Framework
44	Aplicación de la minería de datos distribuida usando algoritmo de clustering k-means para mejorar la calidad de servicios de las organizaciones modernas caso: Poder judicial Mamani Rodríguez, Zoraida Emperatriz January 2015 (has links) La minería de datos distribuida está contemplada en el campo de la investigación que implica la aplicación del proceso de extracción de conocimiento sobre grandes volúmenes de información almacenados en bases de datos distribuidas. Las organizaciones modernas requieren de herramientas que realicen tareas de predicción, pronósticos, clasificación entre otros y en línea, sobre sus bases de datos que se ubican en diferentes nodos interconectados a través de internet, de manera que les permita mejorar la calidad de sus servicios. En ese contexto, el presente trabajo realiza una revisión bibliográfica de las técnicas clustering k-means, elabora una propuesta concreta, desarrolla un prototipo de aplicación y concluye fundamentando los beneficios que obtendrían las organizaciones con su implementación. Minería de Datos Distribuida Algoritmo Clustering K-means Detección de Patrones
45	Aplicación de técnicas de minería de datos para mejorar el proceso de control de gestión de ENTEL Martínez Álvarez, Clemente Antonio January 2012 (has links) Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / El presente estudio se enfoca en el análisis de ingresos no percibidos en la empresa de telecomunicaciones ENTEL, dentro del proceso de provisión de servicios privados de telefonía, internet y comunicaciones a los clientes de mercados no residenciales. Dicho proceso es controlado mediante indicadores de gestión, obtenidos a partir de la transformación de datos de clientes y servicios. La generación de estos indicadores demanda tiempo y esfuerzo por parte de los analistas de la empresa, debido a que es un trabajo realizado en forma manual. El objetivo principal de esta tesis consiste en reducir el tiempo de cálculo de los indicadores de servicios privados de ENTEL, para lo cual se aplicó modelamiento multidimensional, técnicas de minería de datos y automatización de procesos, y de este modo poder entregar información más oportunamente. La metodología de este trabajo se basa principalmente en las etapas del proceso conocido como Knowledge Discovery in Databases (KDD), implementadas de acuerdo a la metodología CRISP-DM, la cual es usada para el desarrollo de proyectos de minería de datos. Para comenzar, se hizo un levantamiento de las métricas existentes para la gestión de la provisión de servicios. Luego, se seleccionaron y procesaron las fuentes de datos para el estudio de forma automática, almacenando las variables más relevantes en un repositorio multidimensional (Data Mart), reduciendo drásticamente el tiempo de cálculo de indicadores y liberando recursos humanos altamente calificados. A partir de lo anterior, se aplicaron técnicas de clustering para obtener grupos de elementos con datos de clientes y servicios cuyas características fueran similares, asociándoles un valor de precio según información histórica de consumo. Por último, se generó un modelo de clasificación que asignara, de acuerdo a una medida de similitud, elementos que no habían sido facturados a los grupos previamente definidos, y de esta manera estimar los ingresos no percibidos. Con ayuda de minería de datos se logró diseñar nuevas métricas para el proceso e identificar a los clientes y servicios más críticos, lo que permite llegar a valores más exactos de los ingresos perdidos en cada segmento, y aplicar estrategias diferenciadas para hacer el cobro a sus clientes. El trabajo realizado permitió una reducción del tiempo de obtención de los indicadores en un 78%, pasando de un total de 14 horas inicialmente a tan sólo 3 horas, logrando además estimar los ingresos perdidos mensualmente por servicios no facturados en un monto de MM $ 210, con un error de la estimación menor al 5%. Se espera que, con ayuda de este estudio, la empresa pueda tomar decisiones informadas y mejorar su capacidad de control del proceso de provisión de servicios privados, con el fin de regularizar su flujo de ingreso mensual. Entel (Chile) Minería de datos Data warehousing Gestión de negocios Data Mart
46	Métodos para estimar riesgo crediticio en base a minería de datos y teoría de juegos Bravo Román, Cristián Danilo January 2012 (has links) Doctor en Sistemas de Ingeniería / Medir la probabilidad de no pago de un gran número de solicitantes de crédito, el llamado riesgo de crédito a consumidores, es un problema clásico de la gestión financiera. Este problema requiere de una gran cantidad de herramientas estadísticas que lo hacen idóneo para su estudio por el área de Business Analytics. Su análisis se justifica en el fuerte impacto que los créditos a consumidores tienen en el mercado, pues por ejemplo en Chile más del 50% de los créditos se encuentran en carteras masivas, y en el resto del mundo se estima que superan a los créditos comerciales en más de un 50%. Esta tesis estudia este problema en base a la formalización de lo que se conoce sobre las determinantes del no pago (default) y la transformación de ese conocimiento en herramientas estadísticas para la medición del riesgo. Para lo anterior, durante el doctorado desarrollé una sucesión de publicaciones con el fin de unir el modelamiento económico con la práctica estadística predictiva, formalizando el conocido hecho que existen no pagadores por razones de falta de capacidad de pago, y por problemas en voluntad de pago. El trabajo comenzó generando un modelo económico que captura las utilidades de los solicitantes y la entidad prestamista, utilizando esta nueva definición de no pagadores, resultando en una serie de restricciones que definen un espacio de créditos factibles. Luego, los no pagadores son asignados a estas dos clases utilizando un nuevo método de clustering semi-supervisado que los agrupa tanto por sus características estadísticas como por su comportamiento económico, reflejado a través de las restricciones generadas previamente. El fin último de esta separación es mejorar la clasificación de los créditos y la comprensión del default, por lo que el siguiente paso correspondió al estudio de métodos de clasificación con múltiples clases. Para ello se exploró inicialmente la regresión logística multinomial, y luego se profundizó en el análisis de supervivencia, estudiando teóricamente los métodos de riesgos en competencia y los modelos mixtos, y desarrollando herramientas computacionales liberadas públicamente para apoyar futuras aplicaciones. Los métodos propuestos mejoran entre 1%-10% la discriminación por sobre los métodos clásicos en bases de datos reales, y enriquecen fuertemente la comprensión del default a través de las nuevas variables significativas y los patrones encontrados. Más aún, los modelos y herramientas desarrollados pueden ser perfectamente extrapolados a otras disciplinas, pues este trabajo ha mostrado cómo se puede enriquecer la clasificación donde típicamente se cuenta con dos clases, por la vía de añadir conocimiento adicional acerca de comportamientos económicos observados. Créditos Minería de datos Teoría de los juegos Credit scoring
47	Contribuciones a la predicción de la deserción universitaria a través de minería de datos Albán Taipe, Mayra Susana January 2019 (has links) Identifica una limitada producción científica que analiza factores de deserción desde la perspectiva del estudiante, que es el actor principal de la deserción, y la construcción de modelos híbridos de predicción que permitan comprender mejor manera el problema de la deserción en las universidades. El objetivo consiste en contribuir al proceso de predicción de la deserción estudiantil universitaria a través del estudio integral de factores, técnicas y herramientas de minería de datos usados con este fin. Se concluye que la predicción de la deserción en las universidades puede variar, ya que dependerá de los factores de ingreso, del contexto educativo estudiado, del entorno de educación aplicado, y de los antecedentes de los estudios para los que fueron usados. Por otro lado, se considera importante determinar si es suficiente con predecir la deserción o si se requiere incorporar estudios que establezcan estrategias para mitigar la deserción en las instituciones de educación superior. / Tesis Minería de datos Deserción universitaria - Perú Predicciones Ingeniería de Sistemas y Comunicaciones
48	Revisión sistemática sobre la aplicación de ontologías de dominio en el análisis de sentimiento Olivares Poggi, César Augusto 26 November 2016 (has links) El análisis de sentimiento es un área de creciente investigación en los campos del procesamiento de lenguaje natural y la recuperación de información. En los últimos años ha habido un aumento en la aplicación de técnicas semánticas en el análisis de sentimiento, en particular con el apoyo de la aplicación de ontologías de dominio. Sin embargo, en la literatura actual no se cuenta con un estudio que reporte de manera sistemática los beneficios alcanzados con la aplicación de ontologías de dominio al análisis de sentimiento. Esta revisión sistemática tiene por objetivos realizar dicha síntesis, reportar el grado de generalización de las investigaciones realizadas, verificar el aprovechamiento de la riqueza expresiva de las ontologías de dominio y señalar el estado del arte actual en la representación de las emociones humanas por medio de ontologías de dominio en su aplicación al análisis de sentimiento. Se identificó 9 distintos problemas del análisis del sentimiento a los que se aplicó ontologías de dominio y un total de 22 beneficios de dicha aplicación. Los beneficios más reportados son: (1) el soporte para una representación estructurada de las opiniones y la vinculación de datos; (2) mayor precisión y exhaustividad en la clasificación de la polaridad; y (3) soporte para la representación de modelos emocionales. Como investigación futura se sugiere profundizar en el empleo de ontologías de dominios para analizar el sentimiento a nivel de conceptos, modelar el proceso de análisis de sentimiento, estandarizar la elaboración de ontologías de productos e integrar diversos modelos emocionales, así como aprovechar mejor la expresividad semántica y capacidad de razonamiento de las ontologías de dominio. / Tesis Ontología Emociones--Ontología Minería de datos
49	Proceso de descubrimiento de conocimiento para predecir el abandono de tratamiento en una entidad de salud pública Candela Cáceres, Julio Christians 04 June 2015 (has links) El presente proyecto académico de fin de carrera tiene como objetivo mostrar el proceso automatizado de cada etapa del proceso de descubrimiento con el fin de predecir el abandono en los tratamientos de cáncer de una entidad de salud pública con una precisión eficiente basándose en características o factores determinados en la etapa de análisis junto con los miembros de la institución. La información resultante servirá de apoyo para que los administradores de la entidad de salud puedan plantear las políticas y estrategias personalizadas de retención de pacientes. Como se mencionó anteriormente, se tomaron en cuenta todas las etapas del proceso de descubrimiento de conocimiento - análisis, extracción, pre-procesamiento, estimación del modelo e interpretación - para que la información resultante pueda ser confiable y oportuna para la toma de decisiones. Adicionalmente, como parte de la etapa de extracción de datos, se encontró la necesidad de diseñar un DataMart que organice y facilite el análisis de información, no solo para el proyecto actual, sino para otras necesidades que puedan surgir en el futuro. Cada etapa tuvo apoyo de herramientas de software y metodologías que han sido ampliamente usadas con éxito en este tipo de proyectos. Se escogieron herramientas gratuitas que tendrían mayor apoyo a los requerimientos del proyecto como la automatización de los procesos, diseño del DataMart y el proceso general de Minería de Datos. En conclusión, el proyecto culminó con éxito cumpliendo los estipulado en cada uno de los resultados esperados, por lo cual, se puede determinar que el proceso automatizado podrá ser útil para determinar que pacientes abandonan su tratamiento y brindar la información oportuna a los encargados de tomar las decisiones. / Tesis Minería de datos Bases de datos--Administración Servicios de salud--Planificación Cáncer--Pacientes.
50	Aproximaciones eficientes de consultas conjuntivas Romero Orth, Miguel January 2012 (has links) Cuando encontrar la respuesta exacta a una consulta sobre una base de datos muy grande es intratable, es natural aproximar la consulta por otra más eficiente que pertenezca a una clase con buenas cotas en la complejidad de evaluación de consultas. En esta tesis estudiamos tales aproximaciones para consultas conjuntivas. Estas consultas son de especial interés en base de datos, y además sabemos muy bien qué clases de consultas admiten una evaluación eficiente, como las consultas acíclicas, o las de (hyper)treewidth acotado. Definimos una aproximación a una consulta Q como una consulta de una de esas clases que discrepa con Q lo menos posible. Nos concentramos en aproximaciones que siempre entregan respuestas correctas. Probamos que para las clases tratables de consultas conjuntivas mencionadas anteriormente, siempre existen aproximaciones y sus tamaños son a lo más polinomiales en el tamaño de la consulta original. Esto se sigue de resultados generales obtenidos que relacionan propiedades de clausura de clases de consultas conjuntivas con la existencia de aproximaciones. Además, probamos que en muchos casos el tamaño de la aproximación es a lo más el tamaño de la consulta original. Presentamos una serie de resultados sobre cómo ciertas propiedades combinatoriales de las consultas afectan a sus aproximaciones y estudiamos cotas en la cantidad de aproximaciones, al igual que la complejidad de encontrar e identificar aproximaciones. Finalmente, consideramos aproximaciones que entregan todas las respuestas correctas y estudiamos sus propiedades. Minería de datos Homomorfismos (Matemáticas) Conjuctive query Query approximation

Search results