Return to search

Extracción de conocimiento nuevo desde los reclamos recibidos en el Servicio Nacional del Consumidor mediante técnicas de text mining

Ingeniera Civil Industrial / El Servicio Nacional del Consumidor (SERNAC) es el organismo estatal que se encarga de que se cumpla la Ley del Consumidor. Para esto, media los conflictos entre consumidores y proveedores tramitando los reclamos de los primeros. Desde el 2010 a la fecha posee más de 1 millón de reclamos, los cuales son utilizados para realizar estudios que establecen las políticas institucionales de los próximos años.
Se considera que SERNAC tiene valiosa información para analizar profundamente permitiéndole mejorar sus funciones y disminuir los tiempos que tardan los estudios. Dado esto, el objetivo de este trabajo es extraer conocimiento nuevo y específico de los reclamos de SERNAC utilizando técnicas de minería de textos.
En la literatura existen muchas técnicas para realizar minería de textos. En este trabajo se utilizaron modelos de tópicos por su capacidad de encontrar semántica subyacente dentro de una colección de documentos. Dado que no queda claro cuál modelo de tópicos es mejor, se compararon 4 de ellos: Latent Dirichlet Allocation (LDA), Pitman-Yor Topic Model (PYTM), Latent Semantic Analysis (LSA) y Non-Negative Matrix Factorization (NMF).
Primero se validó el uso de modelo de tópicos experimentando con LDA. Se logró extraer problemas comunes entre los consumidores, temas de contingencia nacional, problemas específicos de productos o servicios y caracterizar el comportamiento de empresas y consumidores frente a ciertas problemáticas. Esto fue validado por los miembros de SERNAC, definiendo que un tema agrega valor si entrega información específica o revela información no observada.
Después, se fijó un conjunto de datos para trabajar con los modelos (reclamos de tarjetas de multitiendas). Los temas encontrados por cada modelo fueron evaluados por SERNAC en términos de valor. Además, fueron encuestados a opinión popular para ver si eran fáciles de entender y se les calculó su grado de coherencia con respecto a los otros temas del modelo.
Comparando los resultados por modelo se concluye que tanto LSA como NMF son modelos difíciles de interpretar debido a las palabras que utilizan para caracterizar los temas. Los modelos bayesianos en cambio (LDA y PYTM) no poseen ese inconveniente. En particular PYTM logro extraer temas valiosos más específicos para SERNAC que LDA, por lo cual fue el modelo finalmente escogido. Sin embargo, se considera que las métricas utilizadas en este trabajo no son suficientes para realizar una buena comparación del valor (y calidad) de un modelo. Se propone el continuar la investigación en encontrar métricas que logren este objetivo.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/131301
Date January 2014
CreatorsContreras Piña, Constanza Daniela
ContributorsRíos Pérez, Sebastián, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Industrial, Facultad de Ciencias Físicas y Matemáticas, Aguilera Valenzuela, Felipe, Sauré Valenzuela, Denis
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAtribución-NoComercial-SinDerivadas 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0022 seconds