Spelling suggestions: "subject:"minería dde datos"" "subject:"minería dde ratos""
151 |
Integración de técnicas cualitativas y cuantitativas en los sistemas de recomendaciónBriguez, Cristian Emanuel 16 December 2019 (has links)
Los sistemas de recomendación se han hecho cada vez más frecuentes en los últimos años, ya que ayudan a los usuarios a acceder a elementos relevantes del vasto universo de posibilidades disponibles en estos días. La mayoría de las investigaciones existentes en el área se basan puramente en aspectos cuantitativos, tales como índices de popularidad o medidas de similitud entre elementos o usuarios.
En esta tesis se desarrollaron distintos modelos para la implementación de sistemas de recomendación, que incorporan aspectos que difieren de los más clásicos de un recomendador. Uno de los modelos desarrollados incorpora la noción de confiabilidad, mientras que otro fomenta la transparencia de la recomendación para los usuarios y la flexibilidad para instanciar las preferencias de recomendación en un sistema de recomendación. Los modelos propuestos incorporan el uso de argumentos a favor o en contra de las recomendaciones para determinar si una sugerencia debe ser presentada o no a un usuario. Para lograr esto, se adopta la Programación Lógica Rebatible (DeLP, del inglés, Defeasible Logic Programming) como el formalismo subyacente para modelar hechos y reglas sobre el dominio de recomendación y para computar el proceso de argumentación.
Este enfoque tiene varias ventajas sobre otras técnicas de recomendación existentes. En particular, las recomendaciones se pueden refinar fácilmente en cualquier momento agregando nuevas reglas pulidas. También, queda en evidencia la capacidad de inferencia de los modelos propuestos. Lo más importante es que las explicaciones que apoyan cada recomendación pueden proporcionarse de una manera que sea fácil de entender para el usuario, por medio de los argumentos calculados. / Recommender systems have become prevalent in recent years as they help users to access relevant items from the vast universe of possibilities available these days. Most existing research in this area is based purely on quantitative aspects such as indices of popularity or measures of similarity between items or users.
In this thesis, different models were developed for the implementation of recommendation systems, which incorporate aspects that differ from those classically found in a recommender. One of the models developed incorporate the notion of trust, while another promotes the transparency of the recommendation for users and the flexibility to instantiate recommendation preferences in a recommendation system. The proposed models incorporate the use of arguments in favor or against recommendations to determine if a suggestion should be presented or not to a user. In order to accomplish this, Defeasible Logic Programming (DeLP) is adopted as the underlying formalism to model facts and rules about the recommendation domain and to compute the argumentation process.
This approach has a number of advantages over other existing recommendation techniques. In particular, recommendations can be easily refined at any time by adding new polished rules. Also, the inference capability of the proposed models is evident. Most importantly, explanations supporting each recommendation can be provided in a way that is easily understood by the user, by means of the computed arguments.
|
152 |
Desarrollo de técnicas de computación evolutiva para soporte en minería de datos y textoCecchini, Rocío L. 13 April 2010 (has links)
La obtención de información a partir de un conjunto de datos o minería de datos es una tarea compleja que involucra varias etapas, tal como sucede en la minería de texto. Esta puede ser considerada como un caso particular de minería de datos donde los datos contemplan la incorporación de texto. Ambos procesos de minería se vuelven aun más complejos cuando nos encontramos ante grandes cúmulos de datos o texto. Es común encontrar conjuntos de datos grandes, complejos y ricos en información en áreas como medicina, comercio, ingeniería y ciencias de la computación. Simultáneamente, los avances tecnológicos han dado lugar a la acumulación de sustanciosas cantidades de documentos, artículos y texto; el ejemplo más contundente de esta clase de material es la Web, la cual se estima que alcanza más de 8.05 billones de páginas. La propuesta de esta tesis es el uso de herramientas evolutivas mono- y multi-objetivo como un soporte para algunas de las etapas de este proceso. En particular, las etapas que implican optimización y búsqueda dentro de estos grandes espacios en los cuales otros métodos serían inviables. A lo largo de la investigación se desarrollaron, evaluaron y compararon algoritmos evolutivos mono y multi-objetivo tanto para la rama de minería de datos como para la rama de minería
de texto. Como caso particular dentro de minería de datos, se contempló el problema de encontrar las relaciones más relevantes entre variables dentro de distintos conjuntos
de datos. Dichas relaciones, no son visibles para un experto cuando se encuentra frente a la base de datos original cruda, la cual puede contemplar miles de variables y miles de instan-cias. Para resolver este problema se propuso una metodología de dos fases. Los algoritmos desarrollados en este contexto se integraron a la primera fase de la arquitectura y fueron exitosamente utilizados como mecanismo de búsqueda masiva. Por otra parte, en el caso de minería de texto se abordó el problema de recuperar información relacionada y novedosa con respecto a un tópico de interés. Para este problema se propuso, implementó y evaluó una arquitectura que, partiendo de una descripción para el tópico de interés, evoluciona varios conjuntos de términos hacia conjuntos que logren obtener mejores documentos con respecto a dicho tema de interés y con respecto a los objetivos propuestos (por ejemplo: simi-litud, precisión, cobertura). Dentro de las técnicas evolutivas multi-objetivo propuestas, se diseñaron adaptaciones de los algoritmos basados en Pareto más prometedores reportados por la literatura y se propusieron versiones multi-objetivo agregativas. Ambos enfoques, los basados en Pareto y los agregativos, demostraron ser claramente competentes tanto para minería de datos como para minería de texto. / Data mining comprises the capture of information from data, which is a complex task that involves many stages. The same applies to text mining that can be considered as a special case of data mining where the data include text. As data and text sets increase, both mining processes become even more complicated. Large, complex and rich information data sets arise in many common research elds like medicine, commerce,
engineering and computer science. Simultaneously, techno-logical advances have led to theaccumulation of substantial amounts of documents, articles and text; the clearest example
of this kind of material is the Web, which is estimated to have reached more than 8.05 billion pages. This thesis proposes the use of mono- and multi-objective evolutionary tools
as support in some of the stages of the data and text mining processes. In particular, those stages which imply optimiza-tion and search in wide search spaces where other methods could be unfeasible. In this research work, several mono- and multi-objective evolutionary algorithms were developed, evaluated and compared for both, data and text mining research areas. As a particular case in data mining, the problem of finding the most relevant relationship among variables from the data was considered. These relations,
are not obvious for experts when they are faced with the original raw database, which can include thousands of variables and thousand of samples. In order to solve this problem, a two-phase methodology was proposed. In this context, the developed algorithms were integrated into the first phase and were succesfully used as massive search mechanisms. On the other hand, as a particular case of the text mining research area, the problem of retrieving novel material that is related to a search context was considered. In order to overcome this problem, an architecture was proposed, implemented and evaluated. Starting from a description for the topic of interest, this architecture evolves several sets of terms towards sets which can obtain better documents with respect to both, the topic of interest and the proposed objectives (e.g., similarity, precision, recall). Among
the proposed multi-objetive evolutionary techniques, adap-tations of the more promising reported Pareto-based evolutionary algorithms were designed and new multi-objective
aggregative schemes were proposed. Both approaches- i.e., the Pareto-based strategy and the aggregative techniques- proved to be clearly competent for both research areas: data
and text mining.
|
153 |
Modelo algorítmico para la clasificación de una hoja de planta en base a sus características de forma y texturaMalca Bulnes, Susana Milagros 05 June 2015 (has links)
A lo largo de los años, las plantas han sido consideradas parte vital e indispensable del
ecosistema, ya que están presentes en todos los lugares donde vivimos y también
donde no lo hacemos. Su estudio es realizado por la ciencia de la botánica, la cual se
encargar del estudio de la diversidad y estructura de las mismas. La disminución y
extinción de la variedad de las plantas es un tema serio, por lo cual ante el
descubrimiento de nuevas especies, se propone una rápida identificación y clasificación
a fin de poder monitorearlas, protegerlas y usarlas en el futuro.
El problema de la clasificación de hojas es una tarea que siempre ha estado presente
en la labor diaria de los botánicos, debido al gran volumen de familias y clases que
existen en el ecosistema y a las nuevas especies que van apareciendo. En las últimas
décadas, se han desarrollado disciplinas que necesitan de esta tarea. Por ejemplo, en
la realización de estudios de impacto ambiental y en el establecimiento de niveles de
biodiversidad, es de gran importancia el inventariado de las especies encontradas.
Por este motivo, el presente proyecto de fin de carrera pretende obtener un modelo
algorítmico mediante la comparación de cuatro modelos de clasificación de Minería de
Datos, J48 Árbol de Decisión, Red Neuronal, K-Vecino más cercano y Naive Bayes o
Red Bayesiana, los cuales fueron adaptados y evaluados para obtener valores de
precisión. Estos valores son necesarios para realizar la comparación de los modelos
mediante el método de Área bajo la curva ROC (AUC), resultando la Red Bayesiana
como el modelo más apto para solucionar el problema de la Clasificación de Hojas.
|
154 |
Modelo algorítmico para la clasificación de documentos de carácter judicial en lenguaje portugués según su contenidoPinto Valdiviezo, Luis Alejandro 18 August 2015 (has links)
En los últimos años la generación de información virtual ha aumentado
considerablemente. Parte de esa información se encuentra almacenada en bases de
datos de instituciones públicas y privadas. Sin embargo, no toda la información
almacenada de forma electrónica tiene una estructura definida, tal es el caso de los
documentos donde encontramos secuencias de palabras no estructuradas, los cuales
según estudios representan el 80% de la información de las empresas.
La tarea de clasificar automáticamente documentos tiene como motivo principal brindar
una herramienta de mejora en la gestión de la información, la cual es considerada como
condición indispensable para el éxito de cualquiera empresa.
Ante esto, en el propósito del proyecto se propone la obtención de un modelo algorítmico
para la clasificación automática de documentos de carácter judicial en lenguaje portugués
según su contenido con el fin de automatizar las labores manuales involucradas en el
proceso, y con ello disminuir los recursos implicados en la tarea de clasificación. La
colección de documentos será brindada por una empresa en Brasil encargada de la
clasificación manual de intimaciones a través de especialistas, llamados procuradores.
Las intimaciones son documentos que son enviados desde los tribunales hacia las
procuradurías durante un proceso de juicio.
|
155 |
Implantación de un sistema de ventas que emplea una herramienta de data miningBerrospi Ramírez, Miguel Angel 02 December 2013 (has links)
El proyecto que se presenta en este documento tiene como objetivo exponer el flujo
de procesos o serie de pasos que se realiza en un proceso de implantación de un
ERP y en un proceso algorítmico de Data Mining; se realiza lo antes mencionado
porque la empresa a la que se aplicará ambos conjuntos de procesos necesita
ordenar su información en el área de ventas y obtener información que beneficie a
la empresa respecto a cómo se comportan sus clientes cuando compran en todo un
periodo de tiempo.
Para que el objetivo final del proyecto se cumpla, se usaron herramientas de
software, herramientas de planificación y de organización, estas últimas se usaron
porque son herramientas estandarizadas y aceptadas internacionalmente en sus
respectivos campos; además, sirvieron eficientemente para su propósito porque son
una guía de pasos detalladas y específicas para cada actividad que se necesitaba
en el proyecto. Con respecto a las herramientas software usadas, estas fueron
seleccionadas mediante una comparación de criterios, las cuales eran necesarias
por los requerimientos y necesidades planteadas en la justificación y viabilidad del
proyecto.
En conclusión, el proyecto se llevó a cabo con éxito previniendo los efectos
negativos o eventos inoportunos que puedan generarse durante su ejecución
mediante un plan de riesgos ya incluido previamente en la planificación. Esta
planificación y el planteamiento de objetivos generales y específicos con sus
respectivos métodos y actividades, ayudaron a mantener una idea clara y concisa
de lo que se pretendía realizar desde los inicios del proyecto.
|
156 |
Proceso de extracción de patrones secuenciales para la caracterización de fenómenos espacio-temporalesMaldonado Cadenillas, Rodrigo Ricardo 30 May 2016 (has links)
El objetivo de este trabajo de fin de carrera es realizar un proceso de extracción de
patrones secuenciales basado en KDD, empleando el algoritmo de minería de
patrones secuenciales PrefixSpan para prever el comportamiento de fenómenos
representados por eventos que cambian con el tiempo y el espacio.
Estos tipos de fenómenos son llamados fenómenos espacio-temporales, los cuales
son un conjunto de eventos o hechos perceptibles por el hombre. Además, están
compuestos por un componente espacial (la ubicación donde sucede el fenómeno),
un componente temporal (el momento o intervalo de tiempo en el que ocurre el
fenómeno) y un componente de análisis (el conjunto de características que describen
el comportamiento del fenómeno).
En el mundo, se pueden observar una gran diversidad de fenómenos espaciotemporales;
sin embargo, el presente trabajo de fin de carrera se centra en los
fenómenos naturales, tomando como caso de prueba el fenómeno espacio-temporal
de la contaminación de los ríos en Reino Unido.
Por lo tanto, con el fin de realizar un estudio completo sobre este fenómeno, se utiliza
KDD (Knowledge Discovery in Databases) para la extracción del conocimiento a
través de la generación de patrones novedosos y útiles dentro de esquemas
sistemáticos complejos. Además, se utilizan métodos de Minería de Datos para
extraer información útil a partir de grandes conjuntos de datos. Así mismo, se utilizan
patrones secuenciales, los cuales son eventos frecuentes que ocurren en el tiempo
y que permiten descubrir correlaciones entre eventos y revelar relaciones de “antes”
y “después”.
En resumen, el presente trabajo de fin de carrera se trata de un proceso para mejorar
el estudio del comportamiento de los fenómenos gracias al uso de patrones
secuenciales. De esta manera, se brinda una alternativa adicional para mejorar el
entendimiento de los fenómenos espacio-temporales; y a su vez, el conocimiento
previo de sus factores causantes y consecuentes que se puedan desencadenar, lo
cual permitiría lanzar alertas tempranas ante posibles acontecimientos atípicos.
|
157 |
Desarrollo de un modelo algorítmico basado en árboles de decisión para la predicción de la permanencia de un paciente en un proceso psicoterapéuticoLeon Atiquipa, Heli Eliaquin 11 April 2018 (has links)
En la actualidad existe una creciente necesidad de atención psicológica en nuestro
país, por lo que existen muchas instituciones públicas y privadas que ofrecen esto
servicios profesionales. La psicoterapia es parte de estos servicios y quienes lo
brindan son profesionales especializados en la materia, los cuales atienden a
pacientes de diferentes edades y estratos socioeconómicos. Estos tratamientos
suelen durar mucho tiempo, por lo que muchos pacientes, por diferentes
circunstancias, abandonan el proceso al poco tiempo de haberlo iniciado.
La institución, el cual es el caso de estudio, maneja ciertos niveles de deserción
medibles durante el tiempo. Estos niveles son manejables en el grado en el que se
dan, sin embargo, un creciente aumento del mismo podría generar costos para
mantener el equilibrio, el cual deberá ser aplicado a los pacientes, los cuales podrían
sentir incomodidad y afectar el proceso terapéutico. La necesidad de tener un mayor
control sobre los niveles de deserción y reducirlos ayudaría en gran medida a mejorar
la calidad de los servicios que se brindan en la institución.
Para la institución, la incertidumbre del abandono en el proceso no permite aplicar
medidas correctivas que permitan mejorar los niveles de deserción, sin embargo, la
información contenida en la base de datos institucional permite, por cuestiones de
investigación, estudiar y analizar los patrones que conllevan al abandono del
proceso. Realizar este tipo de análisis sobre una gran cantidad de información implica
utilizar métodos computacionales que permitan ayudar a analizar la información de
una forma rápida y eficiente. Es por ello, que surge la necesidad de apoyarnos en las
ciencias de la computación, específicamente en la minería de datos, para identificar
los patrones que permitan predecir y determinar la permanencia de los pacientes
durante el proceso.
El presente proyecto de fin de carrera pretende entender las causales de la deserción
en un proceso psicoterapéutico con el fin de poder predecir, desde el primer contacto
entre el paciente y la institución, la permanencia del paciente. Para esto, se plantea
el desarrollo de un prototipo funcional que permita predecir la permanencia de los
pacientes haciendo uso de algoritmos de árboles de decisión para la predicción.
Para la elaboración del prototipo funcional y el cumplimiento de los objetivos, se hizo
uso de la herramienta Weka, el cual permitió analizar y seleccionar el algoritmo a usar para la implementación del prototipo. El desbalanceo de clases dificulto el
proceso de análisis algorítmico, por tal motivo, se aplicaron métodos de minería de
datos para analizar los conjuntos de datos desbalanceados. El lenguaje de
programación usado fue Java y los algoritmos que permitieron la predicción fueron
incorporados desde las librerías del API de Weka. Los resultados obtenidos fueron
satisfactorios, en base a los datos que fueron extraídos de la base de datos
institucional.
|
158 |
Diseño de un proceso computacional basado en técnicas de minería de datos para el análisis del fenómeno de "El Niño"Díaz Barriga, Oscar Antonio 19 January 2018 (has links)
El Perú es afectado recurrentemente por el fenómeno El Niño, el cual es un fenómeno climático que consiste en el aumento de la temperatura del mar en el Pacifico Ecuatorial. Este a su vez forma parte del ENSO (El Niño - Oscilación del Sur) que tiene un periodo de actuación de 2 a 7 años, con una fase cálida conocida como El Niño y una fase fría, La Niña. En la actualidad mediante un juicio experto se analizan las diversas fuentes de datos heterogéneas para poder encontrar posibles correlaciones útiles entre ellos. En el presente trabajo se propone un proceso computacional basado en técnicas de minería de datos que permita determinar la existencia de correlaciones espacio-temporales en relación a la temperatura superficial del mar y las variables meteorológicas pertenecientes a las regiones de la costa norte del Perú, en el periodo 2015 al 2016, último intervalo de tiempo en el que se presentó El Nino. Para esto se utiliza una metodología basada en KDD (Knowledge Discovery in Database), la cual está conformada por una serie de pasos como: la recolección de diferentes fuentes de datos, la integración en una base de datos explotable, limpieza y pretratamiento de los datos, creación de escenarios que permitan validar las posibles correlaciones, extracción de patrones mediante la librería SPMF y finalmente una propuesta de visualización, de los patrones encontrados, que permita comprender mejor el fenómeno. Los resultados obtenidos muestran la existencia de correlaciones espaciotemporales en las regiones del norte del Perú principalmente entre la temperatura de la superficie del mar y el caudal de los ríos de la costa, siendo estas correlaciones validadas por un experto miembro del IGP. / Tesis
|
159 |
Marco teórico y estudios de caso para la mejora en la optimización de la red de agencias de una empresa bancaria en Lima MetropolitanaBriones Gallegos, Fernando David 15 June 2021 (has links)
La investigación toma sustento debido al proceso importante de transformación digital que están afrontando los bancos, lo cual implica una nueva estrategia de canales y educar a sus clientes a usar más aplicativos digitales. Esto es clave si estas organizaciones desean mantener una supervivencia en el mediano plazo debido a que hoy están saliendo nuevos competidores en el mercado. El objetivo de la investigación es identificar las fuentes teóricas que ayuden a plantear la mejor solución para la problemática identificada al momento de realizar un diagnóstico de los procesos en el Banco ABC: mejora del proceso de optimización de canales físicos usando marketing analytics y minería de datos. Como sustentos teóricos, toma como base algoritmos de machine learning de clustering relacionados a los modelos k-means y regresión multivariada.
El procedimiento consiste en investigar en distintas fuentes académicas herramientas de diagnóstico de procesos, herramientas de la propuesta de mejora como conceptos de marketing analytics y minería de datos o algoritmos como regresiones y clustering. Finalmente, se analiza 3 casos que plantean problemáticas similares a la que se desea abordar en distintas industrias para poder comparar metodologías a seguir. Como resultados, se pudo consolidar una lista completa de conceptos sólidos del marco teórico que ayuden a sustentar la solución planteada, además, en los 3 casos planteados se identificó que existe un procedimiento claro de cómo abordar un problema de clustering. Como conclusión principal, se resume en que hoy existe mucha información sobre estos temas y casos prácticos como los que se abordan para poder sustentar cualquier propuesta de marketing analytics para una problemática en especifica. Se sugiere a los lectores manejar conceptos teóricos previos de estadística aplicada y algoritmos más sencillos como regresiones lineales para que pueda ser fácilmente entendible la teoría abordada al momento de buscar información de este tipo.
|
160 |
Recommender systems using temporal restricted sequential patternsSamamé Jimenez, Hilda Ana 12 April 2021 (has links)
Recommendation systems are algorithms for suggesting relevant items to users. Generally, the recommendations are expressed in what will be recommended and a value representing the recommendation's relevance. However, forecasting if the user will buy the recommended item in the next day, week, or month is crucial for companies. The present study describes a process to suggest items from sequential patterns under temporal restrictions. / Tesis
|
Page generated in 0.0546 seconds