Spelling suggestions: "subject:"minería dde datos"" "subject:"minería dee datos""
81 |
Identificación de la presencia de ironía en el texto generado por usuarios de Twitter utilizando técnicas de Opinion Mining y Machine LearningHernández Martínez, Víctor Alejandro January 2015 (has links)
Ingeniero Civil Industrial / El siguiente trabajo tiene como objetivo general dise~nar e implementar un módulo clasificador de texto que permita identificar la presencia de ironía en el contenido generado por
usuarios de Twitter, mediante el uso de herramientas asociadas a Opinion Mining y Machine
Learning. La ironía es un fenómeno que forma parte del contenido generado por las personas
en la Web, y representa un campo de estudio nuevo que ha atraído la atención de algunos
investigadores del área de Opinion Mining debido a su complejidad y al impacto que puede
tener en el desempeño de las aplicaciones de Análisis de Sentimientos actuales. Este trabajo
de título se desarrolla dentro del marco de OpinionZoom, proyecto CORFO código 13IDL2-23170 titulado "OpinionZoom: Plataforma de análisis de sentimientos e ironía a partir de
la información textual en redes sociales para la caracterización de la demanda de productos
y servicios" desarrollado en el Web Intelligence Centre del Departamento de Ingeniería Industrial de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile, el cual
busca generar un sistema avanzado para analizar datos extraídos desde redes sociales para
obtener información relevante para las empresas en relación a sus productos y servicios.
La hipótesis de investigación de este trabajo dice que es posible detectar la presencia de
ironía en texto en idioma Español con cierto nivel de precisión, utilizando una adaptación
de la metodología propuesta por Reyes et al. (2013) en [5] la cual involucra la construcción
de un corpus en función de la estructura de Twitter junto con la capacidad de las personas
para detectar ironía.
El modelo utilizado se compone de 11 atributos entre los cuales se rescatan características
sintácticas, semánticas y emocionales o psicológicas, con el objetivo de poder describir ironía
en texto. Para esto, se genera un corpus de casos irónicos y no irónicos a partir de una
selección semiautomática utilizando una serie de hashtags en Twitter, para luego validar su
etiquetado utilizando evaluadores humanos. Además, esto se complementa con la inclusión
de textos objetivos como parte del set de casos no irónicos. Luego, utilizando este corpus, se
pretende realizar el entrenamiento de un algoritmo de aprendizaje supervisado para realizar
la posterior clasificación de texto. Para ésto, se implementa un módulo de extracción de
atributos que transforma cada texto en un vector representativo de los atributo. Finalmente,
se utilizan los vectores obtenidos para implementar un módulo clasificador de texto, el cual
permite realizar una clasificación entre tipos irónicos y no irónicos de texto. Para probar su
desempe~no, se realizan dos pruebas. La primera utiliza como casos no irónicos los textos objetivos y la segunda utiliza como casos no irónicos aquellos textos evaluados por personas como
tales. La primera obtuvo un alto nivel de precisión, mientras que la segunda fue insuficiente.
En base a los resultados se concluye que esta implementación no es una solución absoluta.
Existen algunas limitaciones asociadas a la construcción del corpus, las herramientas utilizadas e incluso el modelo, sin embargo, los resultados muestran que bajo ciertos escenarios
de comparación, es posible detectar ironía en texto por lo que se cumple la hipótesis. Se
sugiere ampliar la investigación, mejorar la obtención del corpus, utilizar herramientas más
desarrolladas y analizar aquellos elementos que el modelo no puede capturar.
|
82 |
Análisis de datos y búsqueda de patrones en aplicaciones médicasGarcía Ubilla, Arnol David January 2015 (has links)
Ingeniero Civil Matemático / El suicidio en Chile se ha convertido en uno de los problemas más necesarios de hacer frente en salud pública, más aún, si consideramos que la enorme mayoría de las personas que mueren por suicidio presentan algún diagnóstico psiquiátrico y han consultado a un especialista los meses antes de cometer suicidio. Esto, motiva la creación de indicadores y alertas para detectar de forma eficaz y oportuna cuando una persona ingresa a una zona de riesgo suicida.
En el presente trabajo se aborda este problema, definiendo una zona o espectro de riesgo suicida, y generando modelos matemáticos y estadísticos para la detección de pacientes en esta zona de riesgo. Para esto, se utiliza una base de datos de 707 pacientes, consultantes de salud mental, de tres centros de salud distintos de la región metropolitana. La base de datos a su vez contempla 343 variables, incluyendo tanto información sociodemográfica de cada paciente, como también sus respuestas en siete instrumentos clínicos utilizados habitualmente en salud mental (DEQ, STAXI, OQ, RFL, APGAR, PBI Madre y PBI Padre).
Inicialmente la base de datos es depurada eliminando aquellos campos y/o registros con gran porcentaje de valores nulos, mientras que la imputación de valores perdidos se realiza mediante técnicas tradicionales y en algunos casos según el criterio experto, donde se utiliza un método de imputación según valor de subescala para los distintos instrumentos clínicos. Posteriormente, se realiza una reducción de atributos mediante el uso de herramientas estadísticas y provenientes del machine learning. Con esta información, se generan cinco modelos utilizando distintas técnicas y herramientas del ámbito de la minería de datos y machine learning mediante aprendizaje supervisado. Los modelos son generados y calibrados usando el lenguaje estadístico R, y se comparan sus resultados mediante cuatro métricas distintas: precisión (o accuracy), sensibilidad, especificidad, y mediante su representación en el espacio ROC.
El modelo o clasificador finalmente propuesto corresponde a un modelo de support vector machine, que permite discriminar cuando un paciente se encuentra en una zona de riesgo suicida. El modelo fue entrenado utilizando un kernel de tipo RBF, y utiliza tan sólo 22 variables predictoras, entregando una precisión aproximada del $78%, calculada mediante k-validación cruzada de n-folds con k=100 y n=10.
|
83 |
Diseño y construcción de un sistema web de análisis de opiniones en Twitter integrando algoritmos de data miningCórdova Galleguillos, Andrés Alejandro January 2015 (has links)
Ingeniero Civil Industrial / El objetivo General de esta memoria de título es "Diseñar y Construir un prototipo funcional de sistema de análisis de opiniones en Twitter integrando algoritmos de Data Mining".
Este trabajo se enmarca en el proyecto "OpinionZoom " Plataforma de análisis de sentimientos e ironía a partir de información textual en redes sociales para la caracterización de la demanda de productos y servicios". Este es un proyecto de I+D aplicada concursado por InnovaChile de CORFO dirigido por el Web Intelligence Centre (WIC) de la Universidad de Chile.
Este proyecto intenta satisfacer una necesidad de las organizaciones; la de conocer mejor a su público demandante y a sus opiniones con respecto a la marca, los productos o servicios que ofrece, o sobre algún tópico en particular. Si bien es frecuente que se hagan estudios de mercado para intentar resolver estas inquietudes, éstos resultan caros y presentan sesgos de distintas clases.
Por otro lado, existe mucho contenido en la Web generado por usuarios de diferentes servicios, y a cada minuto se agregan miles de gigabytes de este tipo de datos. Solo en Twitter, red social de microblogging, se generan aproximadamente 340.000 \textit{tweets} por minuto. Si se consideran las poderosas herramientas desarrolladas en el último tiempo en el campo de Data Mining, existe un gran costo de oportunidad al no aprovechar las información de primera fuente que se puede obtener de allí para responder a las búsquedas de las organizaciones.
Esta memoria de título pretende comprobar que es posible crear un sistema de análisis de opiniones en Twitter integrando algoritmos de Data Mining que por separado detecten entre otras cosas la orientación sentimental de una opinión, la influencia de los usuarios de Twitter y los intereses de estos usuarios.
La solución a implementar es un prototipo funcional que permite revisar y proyectar la funcionalidad de la aplicación final que tendrá el proyecto en cuestión. Una de las novedades de este trabajo es la construcción de un Data Warehouse para colectar las opiniones vertidas en Twitter y proveer de información útil para la gestión al usuario del sistema.
Se logran los objetivos al diseñar y construir un sistema de análisis de opiniones en Twitter integrando algoritmos de Data Mining a nivel de prototipo, mostrando resultados coherentes y satisfactorios, que instan a nuevas mejoras con vistas a un producto final. Se valida de esta forma la hipótesis y se aporta con una novedosa aplicación de un Data Warehouse que ocupe los datos que gratuitamente otorga Twitter para la mejor gestión de productos y servicios de una organización.
|
84 |
Optimización en la negociación de campañas publicitarias en InternetHaye León, Cristóbal Elías January 2016 (has links)
Ingeniero Civil Industrial / La publicidad toma una innumerable cantidad de formas y tamaños, pasando por medios convencionales como la calle y la televisión. Hoy en día existe una fuerte tendencia en el crecimiento de publicidad en la internet por diversas razones, en particular porque es un medio que llega a una gran masa de personas con un costo relativo por persona mucho menor que la televisión o prensa escrita.
La relevancia del impacto del internet en la publicidad se ve fuertemente reflejada en un aumento desde 0% en el 2002 hasta un 10% en el 2014 en el gasto total en publicidad en Chile, llegando a órdenes de magnitud de 2.000 MM de pesos chilenos. Es por esta razón que nace la necesidad de optimizar la manera de invertir el dinero con el fin de tener mejores resultados en las campañas publicitarias.
El cliente del trabajo de titulo es una empresa que provee el servicio de compra programática, la cual consiste en la compra de espacios publicitarios en la web, a los clientes de la empresa de publicidad Grupo Havas, que estén interesados en hacer avisaje a través de internet. La empresa Affiperf implementa, para estos clientes, campañas publicitarias en internet a través de plataformas diseñadas para participar en la compra en tiempo real de espacios publicitarios obteniendo un margen en la compra.
Las campañas publicitarias en la web tienen la particularidad de que es posible medir el rendimiento de las campañas en base a distintas métricas, entre las cuales están el costo por mil impresiones (CPM), costo por realizar un clic (CPC) y el ratio clics e impresiones (CTR). Por esto, cada avisaje tiene un objetivo concreto basado en estos indicadores los cuales pretenden distribuir de la mejor manera posible la compra de espacios publicitarios en internet para tener un mejor retorno sobre la inversión en base a estas métricas.
Los costos incurridos en la elaboración de sus servicios es significativo y no siempre se logran los objetivos de las campañas debido a que asume la variabilidad del comportamiento del usuario de internet. Esto da pie al caso de estudio, el cual consiste en proponer un modelo de regresión basado en los datos históricos de la empresa proveedora del servicio de compra programática, para optimizar negociaciones sobre las métricas de rendimiento en las campañas publicitarias con los avisadores.
Los resultados del modelo propuesto presentan una mejor predicción del CTR de un 3,8% por sobre lo realizado por Affiperf lo que tiene un valor estimado de 124,3 [UM] en la negociación para la realización de campañas publicitarias. Por otro lado, la predicción del CPC no obtiene resultados debido al alto nivel de variabilidad del indicador.
|
85 |
Diseño e implementación de un sistema para monitorear el consumo y opinión sobre la marihuana en TwitterCortés Sánchez, Víctor David January 2016 (has links)
Ingeniero Civil Industrial / Este trabajo tiene como objetivo diseñar e implementar una aplicación que recolecte información de los usuarios chilenos de Twitter para monitorear el consumo y opinión sobre la marihuana dentro del mismo contexto, y evaluar los resultados con respecto a los valores reales de la población nacional.
La aplicación se sostiene como rama de investigación del proyecto CORFO, "OpinionZoom". El cual está enfocado en explorar grandes bases de datos generadas gratuitamente para recopilar, organizar y extraer conocimiento. Es por esto que fue contactado por la Unidad de Adicciones del Hospital Clínico de la Universidad de Chile para aplicar este enfoque en el estudio de drogas en Chile. Especialmente en la marihuana, cuyo consumo ha evidenciado un crecimiento promedio sostenido durante los últimos años, aumentando los costos asociados a la droga. Por esta razón, se buscan nuevas herramientas que puedan explicar el comportamiento reciente.
La cantidad total de información digital ha explotado en los últimos años, siendo conformada en su mayoría por datos no estructurados. Esto se explica por la mayor participación de los usuarios de sitios web en la creación de contenido. Particularmente, Twitter brinda un ambiente donde pueden compartir libremente, lo cual genera gran cantidad de información relacionada con la vida de sus usuarios.
La aplicación de Text Mining, Data Mining y Web Opinion Mining habilita la extracción de patrones desde datos estructurados y no estructurados para obtener información relevante que apoye la toma de decisiones. La clasificación de textos y los sentimientos emitidos por ellos pueden ser combinados con la estructura de las relaciones entre usuarios para replicar el alto poder predictivo del contorno social con respecto al consumo de marihuana.
La implementación de la aplicación fue realizada en código Java, utilizando el paradigma de programación modular. La aplicación permite extraer tweets relacionados con marihuana, clasificarlos con respecto a categorías, extraerles la polaridad y combinarlos con medidas de Análisis de Redes Sociales para predecir el consumo de marihuana. Los resultados señalaron que la combinación de modelos con rendimientos medianamente buenos es útil para predecir el consumo de marihuana a nivel individual. A nivel agregado se obtuvieron resultados prometedoras, pero aún faltan datos para la validación estadística, dejando los resultados a la interpretación del cliente. Se concluye que la información generada en Twitter representa una herramienta poderosa para comprender el comportamiento de las personas y ayudar a la toma de decisiones del estado con respecto a políticas públicas.
|
86 |
Minería de datos aplicada a teoría de juegos: Teoría y aplicación a la industria financieraBravo Román, Cristian Danilo January 2009 (has links)
No description available.
|
87 |
Diseño y Aplicación de una Metodología para el Mejoramiento del Contenido de Sitios Web Mediante la Identificación de Website KeyobjectsDujovne Fischman, Luis January 2010 (has links)
No description available.
|
88 |
Predicción de fuga de clientes desde un enfoque de competenciaLópez Herrera, Leonardo Andrés January 2013 (has links)
Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / Las firmas requieren contar con herramientas que les permitan estimar probabilidades de fuga para su cartera de clientes y así decidir sobre qué clientes concentrar sus esfuerzos de retención. Este problema ha sido estudiado profundamente a través de métodos estadísticos tradicionales, como por ejemplo la Regresión Logística.
En esta tesis se propone estimar las probabilidades de fuga de clientes a partir de la forma funcional utilizada en modelos de Regresión Logística, pero imponiendo que los parámetros del modelo cumplan con las condiciones de equilibrio de un modelo de Teoría de Juegos, donde las firmas utilizan sus herramientas competitivas para atraer a los clientes y los clientes escogen fugarse o no según estas mismas probabilidades estimadas endógenamente. Para esto se plantea un problema de optimización no lineal cuya función objetivo corresponde a maximizar la función de verosimilitud del modelo tradicional de Regresión Logística y cuyas restricciones corresponden al sistema de ecuaciones que determinan las condiciones de equilibrio del juego. Se plantean tres modelos de Teoría de Juegos para abordar la estimación a través del esquema propuesto: el primero, donde las firmas compiten solamente en precios; el segundo, donde las firmas compiten en precios y descuentos; y finalmente, uno donde las firmas compiten en precios, descuentos y esfuerzos en marketing.
Se propone un método de solución numérica para la metodología planteada y luego es aplicada a un problema con datos reales. Los modelos propuestos modifican la importancia relativa de las variables permitiendo mejorar la interpretación de los resultados y los niveles de significancia de las variables que son consideradas endógenas en los respectivos juegos. Los resultados muestran que el modelo tradicional siempre supera a los modelos propuestos en las bases de entrenamiento y de prueba. Esto sucede porque estos últimos imponen condiciones sobre los parámetros estimados buscando que estos además satisfagan las condiciones de equilibrio del juego subyacente. Sin embargo, se observa que los modelos propuestos superan los resultados del enfoque tradicional en particular en la base de validación. Lo anterior es relevante ya que esta base corresponde a una muestra fuera del periodo temporal utilizado en la determinación de los modelos, lo que indica que los modelos propuestos se adaptan mejor a cambios en las condiciones de mercado con respecto a la situación bajo la que se estiman sus parámetros.
En definitiva los modelos propuestos sacrifican precisión en la estimación de sus parámetros para mejorar su capacidad de entender el comportamiento de compra de los clientes, recogiendo efectos de largo plazo de la base de datos y siendo consistentes con la racionalidad de los jugadores. Como línea de trabajo futuro se recomienda la aplicación de la metodología propuesta a cualquier otro problema de Clasificación Binaria donde los agentes se comporten de forma estratégica y donde se pueda caracterizar un juego de competencia subyacente al problema estadístico estudiado.
|
89 |
Implementación de un modelo predictivo basado en data mining y soportado por sap predictive analytics en retailsCastro Porras, Alexandra Pollette, Hernández Nunahuanca, Juan Pedro 01 September 2016 (has links)
El proyecto tiene como objetivo implementar un modelo predictivo en empresas retail en base a data mining utilizando la herramienta SAP Predictive Analytics, enfocándonos principalmente en un proceso del área de Planeamiento Comercial, este modelo ayuda a disminuir pérdidas monetarias en la empresa retail prediciendo las ventas. Para el desarrollo del proyecto se realiza una investigación sobre la evolución de SAP Predictive Analytics, información relacionada a la implementación y configuración de la herramienta y casos de éxitos resaltantes de su implementación alrededor del mundo. Después de esto, se analiza y comprende la información consolidada para luego configurar e implementar el modelo predictivo en la empresa retail con información real de sus ventas, y basándonos en algoritmos de predicción que la herramienta nos brinda. Asimismo, se realiza las validaciones correspondientes en base a una serie de indicadores. Para el presente proyecto, se consideran los siguientes entregables: Un plan de proyecto, el cual contiene los riesgos, supuestos y restricciones identificadas en el proyecto, una memoria final de proyecto en el cual presentamos el modelo predictivo y dashboard resultado de la implementación de SAP Predictive Analytics en empresas retail y un paper de investigación. Finalmente, los entregables mencionados son evaluados y aprobados por el Comité de Proyecto, el Gerente Profesor de la empresa ITPyme y el Profesor Cliente. / This project’s objective is to implement data mining technology in retail companies based on SAP Predictive Analysis, focusing mainly in a process of the Business Planning’s area, this model help to reduce monetary losses in the retail company predicting sales. To project's development, we realize an investigation about the evolution of SAP Predictive Analysis, information related to the implementation and configuration of the tool and salient cases of success of its implementation around the world. After that, we analyze and understand the consolidated information to then configure and deploy the predictive model in the retail company with real information of sales, and basing in prediction algorithms that the software offer us. Also, it is performed the corresponding validations based on a number of indicators. For this project, we consider the following deliverables: A project plan, which will contain the risks, assumptions and constraints identified in the project, a final project’s memory in which we present the dashboard result of the implementation of SAP Predictive Analysis in retail companies and a research paper Finally, the above deliverables are evaluated and approved by the Project Committee, Professor Manager of IT-Pyme and Professor Client. / Tesis
|
90 |
Análisis estático del sistema de medios noticiosos chilenos en Twitter / Static analysis of the chilean news media system in TwitterBahamonde Vega, Jorge Andrés January 2017 (has links)
Magíster en Ciencias, Mención Computación / A medida que el nivel de uso de redes sociales en línea tales como Facebook y
Twitter ha aumentado, los medios noticiosos tradicionales se han vuelto
involucrados en ellas. Diversos diarios, canales de televisión y otros medios
poseen cuentas en diferentes redes sociales, usándolas para diseminar
información noticiosa. Además, se ha posibilitado la existencia de medios
noticiosos completamente electrónicos, así como la participación activa de los
usuarios en la difusión de las noticias. La creciente disponibilidad
de datos provenientes de estas plataformas vuelve factible la posibilidad de
estudiar fenómenos como la propagación y el cambio en la composición de las
noticias.
La democracia necesita ciudadanos informados, así como una esfera pública
inclusiva y pluralista. Los medios noticiosos juegan un rol fundamental en este
ecosistema: la diversidad y el pluralismo de medios han sido llamados un pilar
básico de las democracias saludables. Los estudios sobre estos
conceptos usualmente tienen un foco en la propiedad de los medios y su
regulación; sin embargo, el nivel en el que estos aspectos influencian la
diversidad del contenido publicado no es completamente certero. De esta forma,
el estudio de la diversidad de contenido producido por los medios noticiosos se
vuelve una problemática importante.
Esta tesis apunta a caracterizar los medios noticiosos chilenos en base al
contenido que publican en la plataforma de microblogging Twitter. Se propone una
metodología para la exploración de la diversidad de contenido en medios
noticiosos, y se aplica para obtener una visión panorámica de los medios
chilenos. Esta metodología consiste en la definición de similitudes basadas en
contenido y su aplicación al contenido publicado por medios noticiosos.
Luego de estos pasos, se realiza la detección de grupos de medios similares,
mediante técnicas de Minería de Datos y Recuperación de la Información. Estos
grupos son caracterizados y comparados con características externas de los
medios correspondientes, como su propiedad y su audiencia.
Las contribuciones de este trabajo incluyen tanto la metodología utilizada como los
resultados obtenidos. Se observa una falta de diversidad en los medios
noticiosos, particularmente en el caso de medios locales reportando sobre
noticias de escala nacional. Además, su comportamiento se encuentra
correlacionado con su propiedad, lo que sugiere que estos medios poseen una
fuente común para noticias de este tipo. Se observa, también, que la audiencia
de los medios se ve relacionada con el foco geográfico que los medios muestran.
Este trabajo provee una visión de la diversidad de medios que complementa las
metodologías tradicionales. Se presentan, además de estos resultados,
visualizaciones que muestran cómo la metodología aplicada puede ayudar a los
usuarios a diversificar el contenido que consumen. / Este trabajo ha sido parcialmente financiado por CONICYT-PCHA/Magíster Nacional/2015-22151202 y por Proyecto FONDECYT 11121511 de Dra. Poblete
|
Page generated in 0.0819 seconds