Global ETD Search

1	Detección temprana de riesgo cardiovascular usando text mining en los campos de texto no estructurado del registro clínico electrónico Molina Espinoza, Cristián Ignacio January 2014 (has links) Ingeniero Civil Industrial / Objetivo: Generar un modelo predictivo, basado en Machine Learning (ML) y Natural Language Processing (NLP), que a partir de signos y síntomas detectados en los campos de texto no estructurados del Registro Clínico Electrónico, pueda predecir niveles altos de riesgo cardiovascular de una persona. Contexto: Detectar con anticipación el riesgo cardiovascular podría mejorar de gran manera el bien estar de las personas y disminuir los costos asociados su tratamiento. Actualmente, se usa el criterio de Framingham para detectar riesgo cardiovascular. Problema: El médico puede utilizar muy poco tiempo en un paciente en la atención primaria de salud pública, por lo que no puede "sintetizar" toda la información de la historia clínica para evaluar el riesgo cardiovascular. Además, hay una tendencia a la baja en la cobertura de de los programas preventivos, donde se aplica el formulario Framingham. Luego, existe una alta probabilidad que a un gran número de personas no se les comunique a tiempo su nivel alto de riesgo cardiovascular. Hipótesis: Existe información valiosa en los campos de texto no estructurado del registro clínico electrónico, para detectar de forma temprana Riesgo Cardiovascular. Diseño: Se propone sintetizar de forma automática los registros de todas las atenciones de un paciente, y detectar los signos y síntomas registrados en los campos de texto no estructurado del registro clínico electrónico que permita evaluar y predecir el riesgo cardiovascular de una persona aplicando técnicas de minería de datos (text mining). Se calibró un modelo Logistic Regression, para realizar la predicción sobre Riesgo Cardiovascular. Resultado: Se evaluó el desempeño del modelo de acuerdo a la medida AUC= 0.968 y F-Measure= 88.6%. Además, se agrega valor al detectar riesgo cardiovascular en personas que no pertenecen al PSCV o estaban clasificados con nivel de riesgo moderado o bajo. Conclusión: Es posible validar que existe información valiosa en los campos de texto no estructurado del registro clínico electrónico, que permite detectar de forma temprana el riesgo cardiovascular. Minería de datos Enfermedades cardiovasculares
2	Modelo para la automatización del proceso de determinación de riesgo de deserción en alumnos universitarios Fischer Angúlo, Erwin Sergio January 2012 (has links) Magíster en Tecnología de la Información / A pesar de los esfuerzos en políticas públicas para brindar acceso a la universidad, la deserción universitaria se ha convertido en un problema prioritario a ser investigado y tratado. La tasa de deserción ha llegado a constituir uno de los principales indicadores de eficiencia interna dentro de cualquier institución de educación superior. Invertir más tiempo en diagnósticos de las causas de la deserción con metodologías adecuadas que permitan predecir ésta con mayor efectividad, contribuye a mejorar la relación efectividad-costo en la gestión de la unidad académica. El objetivo del presente proyecto consiste en investigar y proponer una metodología que permita identificar en forma automática a los estudiantes con mayor riesgo de deserción de las carreras de Ingeniería de la Universidad de Las Américas. Para la implementación de este proyecto se adoptó la metodología CRISP-DM que estructura el proceso de minería de datos en seis fases, que interactúan entre ellas de forma iterativa. Se aplicaron los modelos de Redes Neuronales, Árboles de decisión y Cluster K-medianas para analizar el comportamiento de los estudiantes, evaluando factores como el puntaje promedio obtenido en la Prueba de Selección Universitaria (PSU), el promedio de notas obtenido en la enseñanza media, La edad a la fecha de Ingreso a la institución y el género de los estudiantes. La exactitud de los modelos es calculada a partir del conjunto de datos de pruebas, los cuales indican que ningún modelo predictivo arrojó resultados positivos, debido a esto se analizó el proceso y se llegó a la conclusión que es muy probable que los datos de entrada no eran suficientemente confiables. Dado que dentro de los límites de este trabajo era imposible conseguir datos fidedignos y completos, esta tesis propone una metodología para enfrentar estudios de minería de datos educativa donde se eviten los problemas descritos Como trabajo futuro se propone implementar un proceso de captura de variables relevantes para la investigación, al momento del ingreso del estudiante a la institución superior, de tal manera de facilitar la generación de un almacén de datos para ayudar a la toma de decisiones. Minería de datos Deserción universitaria
3	Modelo de predicción de demanda de la población penal a través de minería de datos y dinámica de sistemas Lemus Henríquez, Pablo January 2014 (has links) Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / El problema de Sobrepoblación penal en las cárceles de Chile es una realidad que Gendarmería de Chile ha tenido que enfrentar en los últimos años. El tener una buena predicción de la población penal permite tener información con la cual tomar mejores decisiones (planificación de cárceles considerando la demanda futura por ejemplo) para enfrentar esta situación. Con el fin de modelar este problema se utilizó la metodología KDD para la construcción de un modelo de flujos de la población penal con alcance regional (usando como caso de estudios la región metropolitana). Dada la existencia de variables estacionarias y no estacionarias, la naturaleza cíclica del problema y también el desarrollar un nuevo enfoque científico para la predicción es que se propone crear una herramienta híbrida de minería de datos (para predecir la variable no estacionaria) y simulación de dinámica de sistemas. La variable no estacionaria (Aprehendidos Mayores de Edad) se predijo evaluando diversas técnicas de minería de datos, obteniéndose la mejor predicción con la técnica Support Vector Machine con Kernel Radial, la cual tuvo un error medio porcentual igual a 4,53%. Luego, se simuló el modelo mediante Dinámica de Sistemas y Eventos Discretos, comparando los escenarios con y sin reincidencia. Se obtuvo mejores resultados con la simulación de dinámica de sistema considerando la reincidencia, con un error medio porcentual en la predicción con horizonte de 1 año menor a un 4% para la población de Condenados, y menor a un 2% para la población de Imputados. Se evaluaron las siguientes estrategias para disminuir el tamaño de la población penal: Reducir en un 5% la reincidencia y deportar 500 Condenados de nacionalidad extranjera a sus países de origen. Donde la primera estrategia muestra un resultado con resultados entre corto y mediano plazo pero que se estabiliza para el mediano plazo; y la segunda estrategia muestra una solución instantánea pero que se estabiliza en el mediano plazo, y que entrega resultados menos óptimos que la primera estrategia para el mediano plazo. Los resultados muestran el considerar la reincidencia al predecir la población penal se obtienen mejores resultados, Siendo posible generar una herramienta flexible, capaz de ser remodelada y servir de utilidad para diversas instituciones, en función de generar estrategias óptimas y efectivas en torno a la disminución de la sobrepoblación penal. Minería de datos Prisiones KDD
4	Desarrollo de un modelo algorítmico basado en árboles de decisión para la predicción de la permanencia de un paciente en un proceso psicoterapéutico Leon Atiquipa, Heli Eliaquin 11 April 2018 (has links) En la actualidad existe una creciente necesidad de atención psicológica en nuestro país, por lo que existen muchas instituciones públicas y privadas que ofrecen esto servicios profesionales. La psicoterapia es parte de estos servicios y quienes lo brindan son profesionales especializados en la materia, los cuales atienden a pacientes de diferentes edades y estratos socioeconómicos. Estos tratamientos suelen durar mucho tiempo, por lo que muchos pacientes, por diferentes circunstancias, abandonan el proceso al poco tiempo de haberlo iniciado. La institución, el cual es el caso de estudio, maneja ciertos niveles de deserción medibles durante el tiempo. Estos niveles son manejables en el grado en el que se dan, sin embargo, un creciente aumento del mismo podría generar costos para mantener el equilibrio, el cual deberá ser aplicado a los pacientes, los cuales podrían sentir incomodidad y afectar el proceso terapéutico. La necesidad de tener un mayor control sobre los niveles de deserción y reducirlos ayudaría en gran medida a mejorar la calidad de los servicios que se brindan en la institución. Para la institución, la incertidumbre del abandono en el proceso no permite aplicar medidas correctivas que permitan mejorar los niveles de deserción, sin embargo, la información contenida en la base de datos institucional permite, por cuestiones de investigación, estudiar y analizar los patrones que conllevan al abandono del proceso. Realizar este tipo de análisis sobre una gran cantidad de información implica utilizar métodos computacionales que permitan ayudar a analizar la información de una forma rápida y eficiente. Es por ello, que surge la necesidad de apoyarnos en las ciencias de la computación, específicamente en la minería de datos, para identificar los patrones que permitan predecir y determinar la permanencia de los pacientes durante el proceso. El presente proyecto de fin de carrera pretende entender las causales de la deserción en un proceso psicoterapéutico con el fin de poder predecir, desde el primer contacto entre el paciente y la institución, la permanencia del paciente. Para esto, se plantea el desarrollo de un prototipo funcional que permita predecir la permanencia de los pacientes haciendo uso de algoritmos de árboles de decisión para la predicción. Para la elaboración del prototipo funcional y el cumplimiento de los objetivos, se hizo uso de la herramienta Weka, el cual permitió analizar y seleccionar el algoritmo a usar para la implementación del prototipo. El desbalanceo de clases dificulto el proceso de análisis algorítmico, por tal motivo, se aplicaron métodos de minería de datos para analizar los conjuntos de datos desbalanceados. El lenguaje de programación usado fue Java y los algoritmos que permitieron la predicción fueron incorporados desde las librerías del API de Weka. Los resultados obtenidos fueron satisfactorios, en base a los datos que fueron extraídos de la base de datos institucional. / Tesis Algoritmos--Aplicaciones Minería de datos
5	Herramienta de visualización y agrupación de imágenes para twitter Vásquez Laval, Juan Ignacio January 2012 (has links) Ingeniero Civil en Computación / Este informe detalla el proceso de investigaci on y desarrollo de un prototipo de aplicación WEB que, a partir de los mensajes de la red social Twitter que se muestran a un usuario, genera un collage con im agenes que representan visualmente la información. Para lograr esto se aprovecha el hecho de que un gran n umero de los mensajes desplegados contienen un v nculo hacia alguna p agina WEB y a su vez, estas contienen una imagen relevante a la informaci on transmitida, ya sea un logo corporativo o una ilustraci on. Utilizando la API de Twitter y una serie de librer as externas, se logra obtener estos mensajes junto con sus respectivas im agenes para generar su posterior procesamiento. El contenido descargado es agrupado autom aticamente haciendo uso de herramientas de minería de datos. El objetivo de este proceso es generar una agrupaci on por t opicos y una selección de mensajes representativos de cada grupo con la nalidad de hacer m as simple la visualización de la información. Por último, el prototipo generado es evaluado en cuanto a rendimiento y percepción por parte de los usuarios. Los resultados y sus conclusiones son discutidos en este informe. Minería de datos Imágenes Comunidades virtuales
6	Identification and characterization of high impact news events on twitter Quezada Veas, Mauricio Daniel January 2014 (has links) Magíster en Ciencias, Mención Computación / Motivación: El problema de manejar grandes cantidades de datos producidos por usuarios de los llamados sitios de social media ya no parece ser nuevo. Por ejemplo, en la red social online Twitter cada día se publica más de 400 millones de mensajes. Y este diluvio de datos está afectando a cada vez más escenarios. En particular, el problema de comprender qué está pasando en el mundo se vuelve un problema cada vez más difícil, debido a la gran cantidad de fuentes de noticias. Breaking News corresponde a noticias que interrumpen el flujo normal de radio y televisión. En las redes sociales son un fenómeno más complicado de estudiar, debido a un paradigma distinto: la producción y el consumo descentralizado de datos en modo streaming. Comprender el impacto de las noticias en las redes sociales online es un problema difícil e interesante de investigar. Propósito: El objetivo principal de este proyecto es responder a la pregunta: ¿Es posible predecir si un evento noticioso causará impacto en las redes sociales online, poco después de su publicación? Se utiliza Twitter como la fuente de datos. Contribuciones: Se define la noción de impacto, basado en la tasa de llegada de los tweets que discuten los eventos. Luego, se predice el impacto de los eventos usando características de los mensajes, como el número de veces que son compartidos, el puntaje de sentimiento, etc. La tarea de predicción tiene buenos resultados de clasificación incluso usando el primer 5% de los datos, y aunque mejora al agregar más datos, F-score y accuracy decrecen al usar el 100%. Además, se caracterizan los eventos en Twitter, encontrando propiedades distintivas entre eventos de alto y bajo impacto. En los eventos de alto impacto la información se propaga a una mayor velocidad y escala. Además, son más focalizados en términos de vocabulario, y muestran mayor puntaje de sentimiento. Eventos de bajo impacto son más conversacionales: los usuarios que hablan acerca de esos eventos usan un vocabulario más extenso y comparten más recursos, como URLs o hashtags. Metodología: Se propone y desarrolla una metodología de recolección de datos e identificación de eventos. El conjunto de datos final contiene 9,000 eventos y 45 millones de tweets, aproximadamente. Para asignar la categoría de impacto de un evento, se usan métodos de clustering para aprender una representación multidimensional de éstos. Luego, se distingue entre eventos de alto y bajo impacto. Usando un clasificador de regresión logística sobre porciones de los datos, se clasifican eventos para predecir su categoría de impacto, usando la representación multidimensional como base para la evaluación. Valor: El valor de este trabajo yace en sus posibles aplicaciones: puede apoyar el trabajo periodístico, sirve para generar resúmenes automáticos valiosos, desarrollar sistemas de recomendación, publicidad focalizada, encontrar contenido relevante, entre otras. Minería de datos Redes sociales Twitter
7	Implantación de un sistema de ventas que emplea una herramienta de data mining Berrospi Ramírez, Miguel Angel 02 December 2013 (has links) El proyecto que se presenta en este documento tiene como objetivo exponer el flujo de procesos o serie de pasos que se realiza en un proceso de implantación de un ERP y en un proceso algorítmico de Data Mining; se realiza lo antes mencionado porque la empresa a la que se aplicará ambos conjuntos de procesos necesita ordenar su información en el área de ventas y obtener información que beneficie a la empresa respecto a cómo se comportan sus clientes cuando compran en todo un periodo de tiempo. Para que el objetivo final del proyecto se cumpla, se usaron herramientas de software, herramientas de planificación y de organización, estas últimas se usaron porque son herramientas estandarizadas y aceptadas internacionalmente en sus respectivos campos; además, sirvieron eficientemente para su propósito porque son una guía de pasos detalladas y específicas para cada actividad que se necesitaba en el proyecto. Con respecto a las herramientas software usadas, estas fueron seleccionadas mediante una comparación de criterios, las cuales eran necesarias por los requerimientos y necesidades planteadas en la justificación y viabilidad del proyecto. En conclusión, el proyecto se llevó a cabo con éxito previniendo los efectos negativos o eventos inoportunos que puedan generarse durante su ejecución mediante un plan de riesgos ya incluido previamente en la planificación. Esta planificación y el planteamiento de objetivos generales y específicos con sus respectivos métodos y actividades, ayudaron a mantener una idea clara y concisa de lo que se pretendía realizar desde los inicios del proyecto. / Tesis Minería de datos Sistemas de información Ventas
8	Proceso de extracción de patrones secuenciales para la caracterización de fenómenos espacio-temporales Maldonado Cadenillas, Rodrigo Ricardo 30 May 2016 (has links) El objetivo de este trabajo de fin de carrera es realizar un proceso de extracción de patrones secuenciales basado en KDD, empleando el algoritmo de minería de patrones secuenciales PrefixSpan para prever el comportamiento de fenómenos representados por eventos que cambian con el tiempo y el espacio. Estos tipos de fenómenos son llamados fenómenos espacio-temporales, los cuales son un conjunto de eventos o hechos perceptibles por el hombre. Además, están compuestos por un componente espacial (la ubicación donde sucede el fenómeno), un componente temporal (el momento o intervalo de tiempo en el que ocurre el fenómeno) y un componente de análisis (el conjunto de características que describen el comportamiento del fenómeno). En el mundo, se pueden observar una gran diversidad de fenómenos espaciotemporales; sin embargo, el presente trabajo de fin de carrera se centra en los fenómenos naturales, tomando como caso de prueba el fenómeno espacio-temporal de la contaminación de los ríos en Reino Unido. Por lo tanto, con el fin de realizar un estudio completo sobre este fenómeno, se utiliza KDD (Knowledge Discovery in Databases) para la extracción del conocimiento a través de la generación de patrones novedosos y útiles dentro de esquemas sistemáticos complejos. Además, se utilizan métodos de Minería de Datos para extraer información útil a partir de grandes conjuntos de datos. Así mismo, se utilizan patrones secuenciales, los cuales son eventos frecuentes que ocurren en el tiempo y que permiten descubrir correlaciones entre eventos y revelar relaciones de “antes” y “después”. En resumen, el presente trabajo de fin de carrera se trata de un proceso para mejorar el estudio del comportamiento de los fenómenos gracias al uso de patrones secuenciales. De esta manera, se brinda una alternativa adicional para mejorar el entendimiento de los fenómenos espacio-temporales; y a su vez, el conocimiento previo de sus factores causantes y consecuentes que se puedan desencadenar, lo cual permitiría lanzar alertas tempranas ante posibles acontecimientos atípicos. / Tesis Procesamiento secuencial (Computación) Minería de datos
9	Implementación de un sistema reconocedor de eventos en videos, con un clasificador K-NN Onofri Soto, Ranato Vicenzo January 2014 (has links) Ingeniero Civil en Computación / Hoy en día el fácil acceso a la tecnología permite al ser humano registrar, con un mínimo esfuerzo, eventos de interés en su vida. Como consecuencia se genera una gran cantidad de información multimedia, en particular videos, cuyo análisis de contenido es muy difícil de automatizar, siendo deseable el uso de técnicas de minería de datos y visión computacional para aprovechar esta oportunidad. En este contexto, surge la inquietud de clasificar dichos objetos en base a los eventos presentes en ellos, y de esa forma generar una herramienta predictiva que pueda ser usada posteriormente en aplicaciones de diversas áreas, como por ejemplo, en la publicidad. El presente trabajo de título da cuenta de la implementación de un sistema reconocedor de eventos en video, además de la experimentación con el mismo, la posterior modificación de su componente de clasificación, y la comparación de ambas versiones en términos de eficacia. El tipo de datos que emplea el sistema corresponde a videos de consumidor, los que fueron recolectados por una comunidad científica y agrupados en un dataset de uso público. El sistema se basa en un reconocedor de eventos planteado en un artículo, y está formado por descriptores de características, un módulo de clasificación SVM y un módulo de creación de histogramas. La modificación planteada consiste en cambiar SVM por un clasificador K-NN. Para cumplir con los objetivos mencionados anteriormente, se sigue la implementación propuesta en el artículo, esto significa que, primero se descarga el dataset y se implementan los descriptores escogidos, posteriormente, se implementa el clasificador SVM y se compara el sistema preliminar con las mediciones de eficacia del artículo, se repite el proceso hasta obtener valores similares y considerar que el sistema ha sido ajustado correctamente. Finalmente, se implementa el módulo K-NN y se comparan ambos sistemas en base a las métricas de rendimiento. A partir de los resultados de eficacia de las dos versiones, se muestra que el clasificador SVM es una mejor alternativa que K-NN para enfrentar el problema de reconocimiento de eventos en videos de consumidor. Esto es válido para los descriptores con los que se probó el sistema, pero puede no ser cierto si se utiliza otro conjunto de descriptores. Además, se deja en evidencia la dificultad que presenta el manejo de grandes volúmenes de información, y la necesidad de soluciones para su procesamiento. Videograbaciones Procesamiento de imagen Minería de datos Visión computacional
10	Reglas de asociación para líneas espectrales Miranda Castillo, Nicolás Martín January 2015 (has links) Ingeniero Civil en Computación / Parte importante de la labor astronómica consiste en analizar observaciones de radiaciones electromagnéticas en la forma de espectros de frecuencia, procedentes del espacio y emitidas por objetos tales como estrellas, galaxias y otros. A partir de estos espectros se puede identificar una serie de propiedades y características de los objetos de los cuales provienen; en particular, las líneas espectrales (tanto de emisión como de absorción) presentes resultan ser un indicador de las especies (átomos, moléculas, isótopos, etc.) presentes en su composición química. En el presente trabajo se llevó a cabo con el fin de obtener un cierto tipo de asociaciones lógicas, llamadas reglas de asociación, entre líneas espectrales presentes a lo largo de distintos espectros de frecuencia. En particular, se busca aplicar a conjuntos de espectros de frecuencia obtenidos a partir de datos de observaciones astronómicas, para así obtener información de las relaciones existentes entre estas líneas bajo distintas medidas de interés y relevancia estadística. Para ello se llevó a cabo, en el lenguaje de programación Python, una implementación de algoritmos de Aprendizaje de Reglas de asociación, o Association Rule Learning (ARL); en particular los algoritmos Apriori y FP-Growth. La aplicación final, que hace uso de estos algoritmos, permite al usuario observar las reglas obtenidas bajo requerimientos mínimos de soporte y confianza de ellas, ordenarlas según estas dos medidas junto con su lift, y mostrar las que posean un cierto elemento en particular en su antecedente, consecuente o en ambos. La aplicación y sus algoritmos se probaron sobre datos simulados y, posteriormente, sobre datos reales de observaciones en el espectro visible obtenidas del Sloan Digital Sky Survey (SDSS), previo un pre-procesamiento adecuado de estos. Los resultados obtenidos muestran un considerable mejor desempeño (de por lo menos la mitad del tiempo total de ejecución) por parte del algoritmo Apriori por sobre FP-Growth para valores pequeños de soporte (cercanos a 0.15). Esto puede deberse, principalmente, al tamaño reducido del universo de ítems (lineas espectrales detectadas) posibles presentes en cada transacción (espectro de frecuencias); lo cual hace perder sustancialmente la ventaja comparativa que posee FP-Growth al utilizar una estructura de datos tipo árbol. Se espera a futuro poder realizar el proceso de ARL a partir datos en otras frecuencias del espectro electromagnético; como por ejemplo, los datos radioastronómicos del Atacama Large Millimeter/submillimeter Array (ALMA). Junto con esto, se espera más adelante poder mejorar la aplicación en términos de su interfaz gráfica y usabilidad. Minería de datos Astronomía Aprendizaje de reglas de asociación

Search results