Ingeniero Civil Industrial / Los contenidos disponibles en la Web están creciendo a velocidades que hacen que la tarea de analizarlos sea humanamente imposible. Una de las disciplinas que hace frente a este problema es la Minería de Opiniones, también conocida como el Análisis de Sentimientos, responsable de procesar texto automáticamente, con el fin de extraer y analizar las opiniones que contiene para generar información valiosa y accionable.
El objetivo principal de este trabajo es crear una aplicación de Minería de Opiniones capaz de explotar tweets en español que mencionen a la empresa de retail Falabella. En primer lugar, se investigó el impacto que las redes sociales tienen en Chile. En segundo lugar, se elaboró un estado del arte que englobara los últimos avances en Minería de Opiniones y en Procesamiento del Lenguaje Natural. En tercer lugar, se creó un Web Crawler capaz de obtener los tweets que mencionanaran a la compañía. Posteriormente se implementó varios algoritmos de Procesamiento del Lenguaje Natural para pre-procesar los tweets previamente mencionados, e incorporar los datos resultantes al proceso de extracción de opiniones. Este proceso se desarrolló como un enfoque de Minería de Opiniones no supervisado basado en lexicones, dependiente de un analizador de dependencias encargado de detectar ciertas estructuras gramaticales que permitieran identificar fenómenos linguísticos comunes, tales como la negación, intensificación, y oraciones subordinadas adversativas. La identificación de dichos fenómenos permitió mejorar la calidad de la clasificación. Finalmente se creó una página Web para mostrar los resultados que luego fueron utilizados para realizar un análisis exploratorio de la compañía.
Adicionalmente, los algoritmos fueron validados con el corpus TASS, obteniendo valores-F de un 61,88% negativo y 71,88% positivo. A pesar de que el rendimiento de los algoritmos no fue tan alto como una aplicación en producción lo requeriría, se consideró lo suficientemente bueno como para realizar el análisis exploratorio. Con éste fue posible confirmar la intuición de que las cuentas corporativas suelen publicar contenido positivo, las cuentas de noticias contenido neutral, y los usuarios comunes contenido irrelevante o quejas. Además fue posible probar que los usuarios más activos frecuentemente publican contenido totalmente irrelevante. Por otra parte, se logró replicar varios resultados obtenidos por instituciones nacionales reconocidas, entre los cuales destaca el hecho que el momento más controversial del año para Falabella fue cuando se intentó llevar a cabo el Cyber Monday, período en el cual el sentimiento generalizado en Twitter alcanzó los niveles más negativos. Dicho todo esto, la aplicación desarrollada demostró ser útil al momento de utilizar una gran cantidad de datos para extraer información que podría ser potencialmente útil para la firma de retail.
Finalmente, el desarrollo de la aplicación permitió crear un artículo que contuviera parte considerable del transfondo teórico en el cual ésta se basó, además de beneficiar a otros estudiantes en el desarrollo de sus memorias.
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/137769 |
Date | January 2015 |
Creators | Balazs Thenot, Jorge-Andrés Jean-Michel |
Contributors | Velásquez Silva, Juan Domingo, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Industrial, Molina Jara, Francisco, Marrese Taylor, Edison |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Atribución-NoComercial-SinDerivadas 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0021 seconds