Spelling suggestions: "subject:"minería dde datos"" "subject:"minería dee datos""
101 |
Modelo computacional de minería de microblogs para el análisis del comportamiento del consumidor de telefonía celularApaza Delgado, Santiago Hernán 26 November 2016 (has links)
Los mensajes de Twitter están siendo cada vez más usados para determinar el sentimiento
de los consumidores de servicios o productos. Para ello se hacen uso de diversas técnicas
computacionales, desde las tradicionales adaptadas de problemas de clasificación de textos
y las recientes que usan modelos de aprendizaje de máquina. En ambos enfoques se debe
desarrollar una serie de etapas que van desde el pre–procesamiento hasta la evaluación.
El presente documento muestra el resultado del proceso de aplicación de diversas técnicas
de Análisis de Sentimiento para poder asignar una polaridad positiva, negativa o neutral a
los tweets de los consumidores de telefonía celular en el Perú, con la finalidad de poder
identificar cual es el comportamiento que presentan los clientes de las empresas de telefonía
celular representado en opiniones vertidas en la red social Twitter.
Para ello se extrajeron 26,917,539 publicaciones de la red social Twiter durante 2 periodos,
cada uno de 30 días. Estas publicaciones corresponden a los tweets de los seguidores de tres
empresas de telefonía celular en el Perú, incluyendo una relativamente nueva en el mercado
peruano. El procedimiento seguido comprendió las siguientes tareas: a) Recolección de
tweets de los seguidores de las empresas de telefonía celular; b) Pre–procesamiento de la
data obtenida para poder identificar elementos importantes de cada tweet; c) Filtrado de
elementos poco relevantes, o ruido; y d) Clasificación de cada publicación basado en las
características obtenidas en etapas previas.
Los resultados obtenidos nos muestran que la introducción de un diccionario de lexicones
incrementó el número de términos que pueden ser considerados para la clasificación. Así
mismo, el uso de este diccionario al cual se le aumento nuevos términos permitió incrementar
la tasa de clasificación en un 0,75%. Finalmente, gracias a estas técnicas de análisis
de sentimiento, es posible explotar el contenido de redes sociales de manera que puedan
servir a las corporaciones para la toma de decisiones, especialmente de servicio a sus usuarios. / Tesis
|
102 |
Modelos de Selección de Atributos para Support Vector MachinesMaldonado Alarcón, Sebastián Alejandro January 2011 (has links)
Doctor de Sistemas de Ingeniería / Recientemente los datos se han incrementado en todas las áreas del conocimiento, tanto en el
número de instancias como en el de atributos. Bases de datos actuales pueden contar con decenas
e incluso cientos de miles de variables con un alto grado de información tanto irrelevante como
redundante. Esta gran cantidad de datos causa serios problemas a muchos algoritmos de minería de
datos en términos de escalabilidad y rendimiento. Dentro de las áreas de investigación en selección
de atributos se incluyen el análisis de chips de ADN, procesamiento de documentos provenientes
de internet y modelos de administración de riesgo en el sector financiero. El objetivo de esta tarea
es triple: mejorar el desempeño predictivo de los modelos, implementar soluciones más rápidas y
menos costosas, y proveer de un mejor entendimiento del proceso subyacente que generó los datos.
Dentro de las técnicas de minería de datos, el método llamado Support Vector Machines (SVMs)
ha ganado popularidad gracias a su capacidad de generalización frente a nuevos objetos y de construir
complejas funciones no lineales. Estas características permiten obtener mejores resultados que
otros métodos predictivos. Sin embargo, una limitación de este método es que no está diseñado para
identificar los atributos importantes para construir la regla discriminante. El presente trabajo tiene
como objetivo desarrollar técnicas que permitan incorporar la selección de atributos en la formulación
de SVMs no lineal, aportando eficiencia y comprensibilidad al método. Se desarrollaron dos
metodologías: un algoritmo wrapper (HO-SVM) que utiliza el número de errores en un conjunto
de validación como medida para decidir qué atributo eliminar en cada iteración, y un método
embedded (KP-SVM) que optimiza la forma de un kernel Gaussiano no isotrópico, penalizando la
utilización de atributos en la función de clasificación.
Los algoritmos propuestos fueron probados en bases de datos de de diversa dimensionalidad,
que van desde decenas a miles de atributos, y en problemas reales de asignación de créditos para
entidades financieras nacionales. De los resultados se obtiene que SVMs no lineal con kernel Gaussiano
muestra un mejor desempeño que con las funciones de kernel lineal y polinomial. Asimismo,
los métodos de selección de atributos propuestos permiten mantener o incluso mejorar el desempeño
predictivo de SVMs no lineal, logrando además una reducción significativa en la utilización de
atributos. Para las bases de mayor dimensionalidad se reduce de miles a decenas de atributos seleccionados,
logrando un desempeño predictivo significativamente mejor que los enfoques alternativos
de selección de atributos para SVMs. Se concluye que los enfoques presentados representan la alternativa
más efectiva dentro de las estudiadas para resolver el problema de selección de atributos en
modelos de aprendizaje computacional. Como trabajo futuro se propone adaptar las metodologías
propuestas para problemas con desbalance de clases, donde se requiere una evaluación distinta del
desempeño del modelo considerando costos por error de clasificación asimétricos, una problemática
común en aplicaciones como detección de fuga y riesgo crediticio.
|
103 |
Modelo de integración de conocimiento huérfano descubierto mediante minería de datosWilford Rivera, Ingrid 10 December 2010 (has links)
No description available.
|
104 |
Estudio del abandono agrícola mediante el uso de minería de datos y tecnologías de la información geográficaZaragozí Zaragozí, Benito Manuel 07 November 2012 (has links)
No description available.
|
105 |
Extracción de conocimiento en grandes bases de datos utilizando estrategias adaptativasHasperué, Waldo 27 March 2012 (has links)
El objetivo general de esta tesis es el desarrollo de una técnica adaptativa para la extracción de conocimiento en grandes bases de datos. Hoy en día, la tecnología posibilita el almacenamiento de enormes volúmenes de información. Por tal motivo, resulta de interés contar con técnicas que permitan, en una primera etapa, analizar tal información y obtener conocimiento que pueda ser expresado como reglas de clasificación. Sin embargo, es de esperar que la información disponible se modifique o incremente a lo largo del tiempo y por lo tanto, en una segunda etapa, sería relevante poder adaptar el conocimiento adquirido a los cambios o variaciones que ocurran en el conjunto de datos original. El aporte de la tesis está centrado en la definición de una técnica adaptativa que permite extraer conocimiento de grandes bases de datos a partir de un modelo dinámico capaz de adaptarse a los cambios de la información, obteniendo así una técnica de minería de datos que sea capaz de generar conocimiento útil, produciendo resultados que sean de provecho al usuario final. Los resultados de esta investigación pueden aplicarse en áreas tales como análisis de suelos, análisis genético, biología, robótica, economía, medicina, detección de fallas en plantas y comunicación de sistemas móviles. En estos casos es importante la obtención de un resultado óptimo, de modo de mejorar la calidad de las decisiones que se toman a partir del procesamiento. Desde el punto de vista informático estos problemas son un desafío interesante debido al volumen y distribución de los datos a analizar (incluso su complejidad) para obtener el conocimiento buscado.
|
106 |
Metodologías para el descubrimiento de conocimiento en bases de datos: un estudio comparativoMoine, Juan Miguel 23 September 2013 (has links)
Para llevar a cabo en forma sistemática el proceso de descubrimiento de conocimiento en bases de datos, conocido como minería de datos, es necesaria la implementación de una metodología.
Actualmente las metodologías para minería de datos se encuentran en etapas tempranas de madurez, aunque algunas como CRISP-DM ya están siendo utilizadas exitosamente por los equipos de trabajo para la gestión de sus proyectos.
En este trabajo se establece un análisis comparativo entre las metodologías de minería de datos más difundidas en la actualidad. Para lograr dicha tarea, y como aporte de esta tesis, se ha propuesto un marco comparativo que explicita las características que se deberían tener en cuenta al momento de efectuar esta confrontación.
|
107 |
Detección de fraudes usando técnicas de clusteringRantes García, Mónica Tahiz, Cruz Quispe, Lizbeth María January 2010 (has links)
El fraude con tarjetas de crédito es uno de los problemas más importantes a los que se enfrentan actualmente las entidades financieras. Si bien la tecnología ha permitido aumentar la seguridad en las tarjetas de crédito con el uso de claves PIN, la introducción de chips en las tarjetas, el uso de claves adicionales como tokens y mejoras en la reglamentación de su uso, también es una necesidad para las entidades bancarias, actuar de manera preventiva frente a este crimen. Para actuar de manera preventiva es necesario monitorear en tiempo real las operaciones que se realizan y tener la capacidad de reaccionar oportunamente frente a alguna operación dudosa que se realice. La técnica de Clustering frente a esta problemática es un método muy utilizado puesto que permite la agrupación de datos lo que permitiría clasificarlos por su similitud de acuerdo a alguna métrica, esta medida de similaridad está basada en los atributos que describen a los objetos. Además esta técnica es muy sensible a la herramienta Outlier que se caracteriza por el impacto que causa sobre el estadístico cuando va a analizar los datos. / The credit card fraud is one of the most important problems currently facing financial institutions. While technology has enhanced security in credit cards with the use of PINs, the introduction of chips on the cards, the use of additional keys as tokens and improvements in the regulation of their use, is also a need for banks, act preemptively against this crime. To act proactively need real-time monitoring operations are carried out and have the ability to react promptly against any questionable transaction that takes place. Clustering technique tackle this problem is a common method since it allows the grouping of data allowing classifying them by their similarity according to some metric, this measure of similarity is based on the attributes that describe the objects. Moreover, this technique is very sensitive to Outlier tool that is characterized by the impact they cause on the statistic when going to analyze the data.
|
108 |
Mejora del proceso de producción de estimaciones de inscripciones de alumnos para Instituciones de Educación SuperiorBidegain Rivera, Imanol Gabriel January 2017 (has links)
Magíster en Ingeniería de Negocios con Tecnologías de Información.
Ingeniero Civil Industrial
|
109 |
Análisis de publicaciones en una red social de microblogging para la detección automática de sucesos violentos durante manifestaciones públicasOncevay Marcos, Félix Arturo 04 May 2017 (has links)
El activismo social en el Perú se encuentra en crecimiento, principalmente en las zonas
urbanas y en los sectores de ingresos medios, donde las redes sociales han llegado a influir
en las diversas acciones de la población, y en el modo de informar, influir y convocar a
las personas. Es por ello que se han observado casos recientes como las marchas contra la
Ley Laboral Juvenil o ‘Ley Pulpín’, donde se movilizó una gran cantidad de personas, y
se podían observar dos manifestaciones en paralelo pero afines: en la calle y en las redes
sociales, principalmente en Twitter. Sin embargo, a pesar de ser convocada como marcha
pacífica, sucedieron actos de violencia y enfrentamientos, los cuales lamentablemente son
frecuentes en la realidad peruana.
En este contexto, se propone el desarrollo de un mecanismo para analizar los mensajes
publicados en Twitter durante una manifestación real. El objetivo principal es identificar
y caracterizar automáticamente los diferentes sucesos de violencia que pueden ocurrir
durante la protesta. Para esto, luego de recolectar publicaciones de Twitter durante
manifestaciones reales, se analizarán cuáles son las mejores técnicas a aplicar para el
tratamiento y transformación de estos mensajes a información relevante para nuestro
objetivo. El enfoque de esta investigación se plantea desde las áreas de la ingeniería
del conocimiento (análisis del dominio del conocimiento sobre violencia), la minería de
textos (detección, resumen y descripción de eventos a partir de textos) y el procesamiento
de lenguaje natural. Finalmente, se calcularán métricas de evaluación sobre los sucesos
violentos identificados, para validar la eficacia del procedimiento propuesto. / Tesis
|
110 |
Rediseño del Proceso Posventa Presencial en las Sucursales de Bancoestado (SAC) Incluyendo la Venta Proactiva de Seguros Voluntarios Basado en un Modelo de Minería de DatosRojas Rodríguez, Leidy Johanna January 2010 (has links)
BancoEstado espera convertirse en una de las entidades más competitivas de la industria
bancaria, para lo cual está transformando sus principales procesos de negocio. Este es el
caso del canal de atención de servicio posventa presencial, uno de los más visitados por
los clientes y a la vez el peor evaluado por los mismos. Debido a lo anterior, este proyecto
busca brindar un servicio posventa de excelencia, convirtiendo el tiempo de espera del
cliente en la fila, en un tiempo disponible para él mediante atención programada por el
anfitrión. Además, se usará este punto masivo y de contacto directo con el cliente, como una
oportunidad de generación de venta proactiva y focalizada de seguros de vida e invalidez
a través de la gestión comercial en la posventa.
La metodología empleada se basa en el rediseño de procesos propuesto por la
Ingeniería de Negocios y su concepto de Arquitectura Empresarial de O. Barros (2008).
Primero, se uso una visión holística de estrategia, modelo de negocio y estructura
organizacional, a partir de la cual se seleccionó el proceso de negocio a rediseñar. Segundo,
se rediseñó el proceso posventa fundamentado en los patrones de proceso de negocio.
Posteriormente, como instrumento para generar la lógica de los procesos se uso la teoría
de líneas de espera para lograr la eficacia operacional del proceso y la metodología KDD
para encontrar las reglas de decisión de clientes propensos a comprar seguros de vida
e invalidez. Para validar el modelo predictivo, previamente a su implementación en la
plataforma de posventa presencial, se realizó una prueba de concepto con datos históricos
y un piloto a través de una campaña de telemarketing.
Como resultado, para el rediseño del proceso se simuló tanto el proceso actual como
el rediseñado y al comparar la información provista por éstos, se logró una disminución
del 55,5% en el promedio de tiempo de espera del cliente en la fila. Por otra parte, el
promedio de tiempo del cliente en el sistema disminuyó en 34,89%. En cuanto al modelo de
propensión de compra de seguros de vida e invalidez para el año 2009, se obtuvo un 6.1%
de efectividad de venta reactiva del total de clientes que compraron el producto sobre el total
de potenciales compradores. Posteriormente, al realizar una prueba de concepto con datos
históricos y aplicar el modelo de propensión de compra se incrementó la efectividad de venta
a 10,1%. Finalmente, el piloto de telemarketing supero el resultado teórico alcanzando un
17,7% de efectividad de venta.
De acuerdo con los resultados obtenidos, se comprueba la viabilidad del proyecto y
se propone que además del canal posventa, la información generada por el modelo de
propensión de compra sea usada por otros canales presenciales, como los ejecutivos IT.
Además, se recomienda evaluar la factibilidad económica de realizar acciones de marketing
para la venta de este producto a través de canales remotos, como por ejemplo, call center,
email, internet, entre otros.
|
Page generated in 0.0819 seconds