• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 179
  • 15
  • 3
  • 1
  • 1
  • Tagged with
  • 199
  • 199
  • 38
  • 36
  • 31
  • 31
  • 30
  • 30
  • 30
  • 30
  • 28
  • 28
  • 27
  • 27
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Análisis estático del sistema de medios noticiosos chilenos en Twitter / Static analysis of the chilean news media system in Twitter

Bahamonde Vega, Jorge Andrés January 2017 (has links)
Magíster en Ciencias, Mención Computación / A medida que el nivel de uso de redes sociales en línea tales como Facebook y Twitter ha aumentado, los medios noticiosos tradicionales se han vuelto involucrados en ellas. Diversos diarios, canales de televisión y otros medios poseen cuentas en diferentes redes sociales, usándolas para diseminar información noticiosa. Además, se ha posibilitado la existencia de medios noticiosos completamente electrónicos, así como la participación activa de los usuarios en la difusión de las noticias. La creciente disponibilidad de datos provenientes de estas plataformas vuelve factible la posibilidad de estudiar fenómenos como la propagación y el cambio en la composición de las noticias. La democracia necesita ciudadanos informados, así como una esfera pública inclusiva y pluralista. Los medios noticiosos juegan un rol fundamental en este ecosistema: la diversidad y el pluralismo de medios han sido llamados un pilar básico de las democracias saludables. Los estudios sobre estos conceptos usualmente tienen un foco en la propiedad de los medios y su regulación; sin embargo, el nivel en el que estos aspectos influencian la diversidad del contenido publicado no es completamente certero. De esta forma, el estudio de la diversidad de contenido producido por los medios noticiosos se vuelve una problemática importante. Esta tesis apunta a caracterizar los medios noticiosos chilenos en base al contenido que publican en la plataforma de microblogging Twitter. Se propone una metodología para la exploración de la diversidad de contenido en medios noticiosos, y se aplica para obtener una visión panorámica de los medios chilenos. Esta metodología consiste en la definición de similitudes basadas en contenido y su aplicación al contenido publicado por medios noticiosos. Luego de estos pasos, se realiza la detección de grupos de medios similares, mediante técnicas de Minería de Datos y Recuperación de la Información. Estos grupos son caracterizados y comparados con características externas de los medios correspondientes, como su propiedad y su audiencia. Las contribuciones de este trabajo incluyen tanto la metodología utilizada como los resultados obtenidos. Se observa una falta de diversidad en los medios noticiosos, particularmente en el caso de medios locales reportando sobre noticias de escala nacional. Además, su comportamiento se encuentra correlacionado con su propiedad, lo que sugiere que estos medios poseen una fuente común para noticias de este tipo. Se observa, también, que la audiencia de los medios se ve relacionada con el foco geográfico que los medios muestran. Este trabajo provee una visión de la diversidad de medios que complementa las metodologías tradicionales. Se presentan, además de estos resultados, visualizaciones que muestran cómo la metodología aplicada puede ayudar a los usuarios a diversificar el contenido que consumen. / Este trabajo ha sido parcialmente financiado por CONICYT-PCHA/Magíster Nacional/2015-22151202 y por Proyecto FONDECYT 11121511 de Dra. Poblete
92

Verificación de autoría, modelos intrínsecos basados en semejanza

Castro, Daniel 28 January 2019 (has links)
El Análisis de Autoría (AA) es una subtarea en el campo de la Minería de Datos (MD), donde se persigue el propósito de minar un estilo o patrón de redacción correspondiente y característico de un autor, a partir de los documentos redactados por el mismo. Una de las aplicaciones o enfoques más analizados en la comunidad internacional se corresponde con determinar el autor de un documento anónimo o uno cuyo autor esté en duda. Para esto es necesario intentar inferir características del estilo de redacción del autor a través de los documentos escritos por él, estas características nos permitirán conformar un modelo del estilo de este autor y medir qué tan similar puede ser un documento cualquiera a los documentos escritos por dicho autor. Un caso de estudio práctico en las ciencias forenses se manifiesta cuando el perito debe evaluar la autoría de un documento desconocido y solo cuenta con muestras certificadas de un autor, para lo cual debe responder si fue redactado o no por el consiguiente autor, se puede abstener o en qué grado pudo ser redactado, entre otros elementos, atendiendo a la semejanza con las muestras conocidas. Este caso de estudio se corresponde con las investigaciones realizadas en la Verificación de Autoría (VA). Al proceso que trata de determinar la autoría de un documento digital a partir de las muestras digitales conocidas de uno o más autores se conoce como Verificación de Autoría Intrínseca (VAI). La propuesta se centra en el diseño y la implementación de métodos supervisados de VAI orientado a una sola clase, donde solo se empleen muestras conocidas de un autor y se analicen las características contenidas en la redacción de cada documento (enfoque basado en instancias) y otra variante donde a partir de las muestras conocidas de autor se crea un nuevo documento ficticio que contiene información de todos los documentos (enfoque basado en prototipo). Los resultados obtenidos son alentadores y permiten evaluar la utilidad y generalización de nuestra propuesta ante diferentes escenarios y dominios de aplicación. En lo fundamental se manifiesta la importancia de disponer de más de una muestra conocida para cada autor que se desee analizar. Los mejores resultados se obtienen para las colecciones con mayor promedio de palabras por documentos y número de muestras por autores. Se aprecia que la combinación de los resultados en las decisiones permite obtener una mayor efectividad que si solo se empleara una función de comparación y una representación de los documentos empleando un solo tipo de rasgo.
93

Propuesta de un modelo analítico de datos para la retención de estudiantes del instituto Cibertec – Sede Norte / Proposed analytical data model for the retention of students of the Cibertec Institute - North Headquarters

Ana Natalia, Palacios Zavala, Victor, Chavez Bardales, Lizarzaburu Li, Harold Vladimir, Santos Navarro, Alexander, Chavez Bardales, Víctor Isaac 07 January 2020 (has links)
La presente tesis tiene por objetivo encontrar un patrón de comportamiento que nos permita definir perfiles de estudiantes, a través de la aplicación de analytics, lo cual permita identificar a tiempo el mayor grado de deserción y aplicar estrategias que permitan aumentar el nivel de retención de los estudiantes. Inclusive se analizarán aspectos económicos, que nos permiten demostrar el costo beneficio de la aplicación para la institución. / The objective of this research is to find those patterns that can define a student profile, for this we are going to apply data analytics, after that we can be able to proposed some strategies to reduce attrition. / Tesis
94

Herramientas para el análisis de grandes volúmenes de datos en iniciativas de participación ciudadana

Hubert, Rocío Betsabé 06 December 2021 (has links)
La adopción de nuevas tecnologías por parte de la sociedad, como el acceso a banda ancha y el uso de celulares, brinda nuevos canales para que los ciudadanos puedan expresar sus opiniones y conocimientos sobre distintas cuestiones de interés para la sociedad y los gobiernos. Estos nuevos canales no se limitan a las redes sociales, sino que incluyen también otros espacios como la sección de comentarios en periódicos digitales. Toda esta información resulta muy valiosa en los procesos de toma de decisiones de los gobiernos, ya que pueden utilizarla en diversas cuestiones de interés, que pueden variar desde el control y mantenimiento de servicios públicos al monitoreo de la opinión ciudadana sobre temas de políticas públicas. Las instituciones públicas tienen herramientas que permiten al ciudadano reportar problemáticas o realizar peticiones; sin embargo, no poseen soluciones tecnológicas que permitan buscar información relevante, procesarla y visualizarla eficientemente. En particular, existe una carencia de herramientas adecuadas que busquen y consoliden información distribuida en varias fuentes, que consideren la semántica de las opiniones ciudadanas, realizando procesamiento de texto y análisis de sentimiento. En esta tesis se presentan tres herramientas. Una para el análisis visual de peticiones, quejas y reclamos ciudadanos realizados en un municipio, utilizando algoritmos de agrupaciones y diferentes técnicas de visualización. Otra herramienta para la recopilación, visualización y análisis de interacciones gobierno-ciudadanos en Twitter, realizando análisis de sentimiento y ofreciendo diferentes técnicas de visualización. La tercera herramienta es para la recuperación de información e identificación de ítems de información relevantes para el usuario, obteniendo información de Google Noticias, Reddit y Twitter, y mejorando los resultados utilizando un ciclo de aprendizaje activo. Las contribuciones de esta tesis incluyen 1) un resumen de las iniciativas de participación ciudadana reflejadas en trabajos científicos, junto a un análisis y método de clasificación de las mismas; 2) el desarrollo de una plataforma para el análisis de peticiones, quejas y reclamos ciudadanos; 3) el desarrollo de una herramienta para recuperar datos de redes sociales y analizar la actividad de cuentas de gobierno y la interacción de las mismas con los ciudadanos; y 4) el desarrollo de una plataforma para la recuperación de información de diferentes fuentes y la identificación de aquellos documentos más relevantes para el usuario. El desarrollo de estas herramientas y su validación mediante casos de estudio relevantes al área, tuvo como objetivo la identificación de técnicas de minería de datos, de análisis de sentimientos y de visualización adecuadas para la aplicación en el ´área de participación ciudadana. / The adoption of new technologies by society, such as broadband access and smartphones, provides new channels for citizens to express their opinions and share their knowledge on various topics of interest to society and governments. These new channels include, but are not limited to, social networks, blogs and the comments section in digital newspapers. All this information is highly valuable in the government’s decision-making processes since it can be used in various matters of interest, which can vary from the control and maintenance of public services to the monitoring of citizen opinion on public policy issues. Public institutions have tools that allow citizens to report problems or make requests; however, they do not have technological solutions that allow them to search for relevant information, process it and visualize it efficiently. In particular, there is a lack of adequate tools to search and consolidate information distributed in various sources that consider the semantic of citizens’ opinions, performing text processing and sentiment analysis. Three tools are presented in this thesis. One of these tools incorporates the visual analysis of citizen requests, complaints and claims made in a municipality, using clustering algorithms and different visualization techniques. Another tool provides mechanisms for the collection, visualization and analysis of government-citizen interactions on Twitter, performing sentiment analysis and offering different visualization techniques. The third tool was developed for information retrieval and identification of relevant documents for the user. The information is recovered from Google News, Reddit and Twitter, and the results are improved by an active learning cycle. The contributions of this thesis include 1) a summary of the citizen participation initiatives reflected in scientific works, together with their analysis and classification methods; 2) the development of a platform for the analysis of citizen requests, complaints and claims; 3) the development of a tool with the capability of retrieving data from social networks and analyzing the activity of government accounts and their interaction with citizens; and 4) the development of a platform for the retrieval of information from different sources and the identification of the most relevant documents for the user. The development of these tools and their validation through case studies relevant to the area, were aimed at identifying techniques for data mining, sentiment analysis and visualization suitable for its application in the area of citizen participation.
95

Identificación de líderes de opinión mediante el modelo PROV-DM y técnicas de minería de grafos

Leon Payano, Mauro Antonio 04 September 2019 (has links)
El análisis de la influencia social nos permite estudiar la manera de determinar la opinión de las personas utilizando como medio el intercambio de información. Dentro de esta disciplina, la identificación líderes de opinión tiene como finalidad identificar a las personas que ejercen un mayor nivel de influencia. La identificación de líderes de opinión se usa en campañas de marketing viral, sistemas de recomendación de productos y en sistemas de detección de anómalas en redes de telefonía móvil. Debido a que los medios sociales se han transformado en la fuente de datos más representativa y relevante para entender el comportamiento de las personas, el análisis de influencia se ha convertido en una de las tecnologías más importantes en las industrias modernas de información y servicios. Existen diversos métodos para identificar a los líderes de opinión. En este trabajo se plantea un algoritmo híbrido para cuantificar la influencia de acuerdo a atributos estáticos y de interacción de los usuarios pertenecientes a una red social. Los algoritmos híbridos requieren la representación de las interacciones de los usuarios mediante grafos. Por ello, se implementó un algoritmo de construcción, de segmentación y de visualización de grafos con el objeto de abordar los desafíos que involucra identificar y cuantificar la influencia de los usuarios en grandes redes sociales. El procedimiento fue aplicado en mensajes que tratan sobre el calentamiento global, recolectados desde la plataforma de Twitter con el objetivo de representar en un grafo, a los usuarios interesados en el tema. Los líderes de opinión seleccionados a partir del algoritmo propuesto representan mejor la influencia ganada a través del proceso de difusión. Este documento consta de 6 Capítulos: El capítulo 1 busca venir el problema y el enfoque adoptado en este trabajo. El Capítulo 2 describe los diversos conceptos, métodos, procesos y herramientas utilizados en el análisis de influencia social tanto en el presente trabajo y estudios relacionados. El Capítulo 3 describe los trabajos previos que busquen identificar líderes de opinión en grandes redes sociales. El Capítulo 4 describe el procedimiento de análisis de influencia social desarrollado. El Capítulo 5 describe los resultados obtenidos en la ejecución del procedimiento propuesto. Finalmente, el Capítulo 6 presentamos las conclusiones y recomendaciones obtenidas producto de trabajo realizado. / Tesis
96

Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A

López Aravena, Camilo Alberto January 2012 (has links)
Betazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta.
97

Diseño e implementación de un sistema para la clasificación de tweets según su polaridad

Tapia Caro, Pablo Andrés January 2014 (has links)
Ingeniero Civil Indusrial / La alta penetración de Twitter en Chile ha favorecido que esta red social sea utilizada por empresas, políticos y organizaciones como un medio para obtener información adicional de las opiniones de usuarios acerca de sus productos, servicios o ellos mismos. Al ser los comentarios en Twitter, por defecto, de carácter público, se pueden analizar con el fin de extraer información accionable. En particular las empresas además de estar interesadas en la información cuantitativa, les interesa saber bajo qué polaridad se efectúan estas menciones, por cuanto una variación positiva en el número de comentarios puede deberse a un mayor número de menciones tanto positivas como negativas. Si bien existen un número considerable de softwares que vienen con la funcionalidad de detección de polaridad de sentimientos, estos no son de mucha utilidad ya que la forma en que interactúa el usuario chileno con esta plataforma está llena de modismos propios de nuestro lenguaje local y abreviaciones que se deben principalmente a la limitación de caracteres de Twitter. Al ser esta una industria inmadura en Chile, la tarea de detección de polaridad de sentimientos, se está realizando de forma manual por agencias publicitarias y otro tipo de empresas, pero dado el gran número de comentarios que se producen minuto a minuto, esta tarea resulta muy demandante en tiempo y dinero. Para resolver este tipo de problemáticas se utilizan técnicas de aprendizaje automático con el fin de entrenar un algoritmo que luego pueda determinar si un comentario es positivo, negativo o neutro, campo que se conoce como sentiment analysis. Mientras más datos sean procesados para el entrenamiento del algoritmo, mejor es el desempeño del clasificador y como en Twitter es sencillo obtener comentarios mediante su API, a diferencia de la web, se han formulado técnicas para generar automáticamente la corpora que contiene los tweets de entrenamiento para cada una de las clases y así sacar provecho de esta propiedad. En este trabajo se profundiza el uso de una metodología semiautomática basada en emoticons para la generación de una corpora de tweets para la detección de polaridad de sentimientos en Twitter. Esto se realiza introduciendo un nuevo enfoque para la consolidación de los datos de entrenamiento mediante filtros que mejoran el etiquetado automático. Esto permite prevenir la aparición de comentarios erráticos y que causan ruido en las fases de entrenamiento y clasificación. Además se introduce una nueva clase de tweets que no se había considerado anteriormente, que consiste de tweets que carecen de información suficiente para clasificarlos como positivos, negativos o neutros, por lo que clasificarlos en alguna de estas clases disminuye la precisión del sistema. Evaluaciones experimentales mostraron que el uso de esta cuarta clase denominada irrelevante con el criterio de filtros presentado para la generación de la corpora, mejora el desempeño del sistema. Además se comprobó experimentalmente que el uso de una corpora generada en base a tweets chilenos clasifican mejor a los comentarios originados por usuarios locales.
98

Nuevo sistema empírico de apoyo a la toma de decisiones de compraventa de acciones

Moreno Aracena, Luis Ignacio January 2014 (has links)
Ingeniero Civil Eléctrico / En el mundo financiero, la decisión de compraventa de activos se suele asentar en el análisis fundamental a largo plazo, combinado con análisis técnico a corto plazo; con el objetivo de establecer un momento adecuado para la adquisición y enajenación de activos. En la última década, se ha verificado un crecimiento exponencial en la capacidad de procesamiento y de manejo de bases de datos; siendo la minería de estos vastamente estudiada y aplicada exitosamente en distintos campos, entre los cuales se encuentran las finanzas. En el presente trabajo, se estudia la existencia de estructura con capacidad predictiva en activos financieros, con el fin de anticipar cambios de tendencia y así obtener retornos por sobre el mercado. Para esto, se desarrolla a cabalidad el proceso de extracción de conocimiento de bases de datos, el que considera desde la generación de variables, hasta la obtención de información, a partir de los datos transaccionales de las acciones que componen el Índice de Precios Selectivo de Acciones (IPSA) 2013. En este sentido, es importante precisar que la metodología clásica en la predicción de series de tiempo, se basa en la utilización de precios anteriores para así predecir el precio futuro, utilizando ventanas de tiempo estáticas. En este trabajo se estudia un método nuevo, donde la variable objetivo, en vez de ser retornos en ventanas temporales, son tanto retornos como ventanas dinámicas, extraídas a partir de extensiones no causales de retracciones porcentuales del precio (indicador ZigZag) de las acciones, las que representan mínimos y máximos locales de la serie de tiempo; evitando así sobreajuste temporal y acomodándose a los cambios de ciclo del activo en estudio. Se generan variables independientes a partir de datos de transacciones realizadas por parte de miembros de las compañías (Insiders) e indicadores técnicos tales como cruces, divergencias y zonas de agotamiento a partir de Medias Móviles Convergentes/Divergentes, Índice de fuerza Relativa y Oscilador Estocástico. Se realiza selección de características mediante Forward Selection y Backward Elimination, para encontrar un subconjunto de atributos adecuado y analizar su impacto predictivo. Se aplican algoritmos de aprendizaje supervisado con capacidad de extraer patrones altamente no lineales, destacando Redes Neuronales de Retropropagación, Máquinas de Soporte Vectorial y Métodos Basados en Similitud. Con el fin de determinar el ciclo del mercado al que mejor se ajustan los atributos extraídos y el mejor modelo predictor sobre la base de datos no balanceada, se evalúa la combinación de predicciones de compraventa (anticipaciones de cambio de tendencia) utilizando clasificador Bayesiano ingenuo y operadores lógicos. Finalmente, se realiza una evaluación tanto cualitativa (visual) como cuantitativa (mediante un simulador de inversiones) del comportamiento de las recomendaciones de compraventa; analizando la distribución de retorno, drawdown y tiempo de apertura de las operaciones. De lo anterior puede concluirse que dentro de lo caótico del mercado bursátil, subyace estructura altamente no lineal con poder anticipativo de cambios de tendencia de los activos; la cual se puede atribuir a que, en Chile, el mercado es poco profundo, ilíquido o ineficiente.
99

Mejoramiento de un modelo de targeting de clientes de telefonía móvil usando análisis de redes sociales y minería de datos

Hermosilla Martelli, Gonzalo Ignacio January 2015 (has links)
Ingeniero Civil Industrial / En los últimos años, la industria de las telecomunicaciones se ha ido desarrollando en un escenario muy competitivo, lo que ha llevado a las compañías a enfocarse en lograr una relación rentable y de largo plazo con sus clientes. El problema surge cuando se quiere decidir con qué clientes construir dicha relación, cuya solución se basa en el concepto de targeting, el cual tiene por objetivo identificar a los clientes sobre quienes se realizarán acciones para retener e incrementar su valor. En este caso se quiere estudiar, en términos de adopción y rentabilidad, el desempeño de un modelo que selecciona el conjunto de clientes a quienes, a través de una campaña telefónica, se les ofrece un producto de telefonía móvil. Las compañías han utilizado el enfoque de selección basándose en los atributos sociodemográficos y comerciales de sus clientes, sin considerar el efecto que podrían tener sobre las decisiones de éstos sus amigos, familiares o cercanos. Es por esto que se plantea un modelo de targeting que incorpore atributos sociales extraídos de la red de teléfonos móviles de ca- da cliente. Adicionalmente, se propone estudiar la influencia que podrían tener adopciones previas de sus amigos sobre la adopción propia del cliente en estudio. Los modelos de targeting social fueron construidos en base a diversas técnicas de clasificación y diferentes configuraciones del conjunto de entrenamiento, estructuras que son probadas a través de una serie de experimentos que permiten comparar los resultados y establecer cuál es el modelo con la mayor capacidad para resolver este problema. La calidad de dichos modelos se evalúa en dos etapas diferentes. En una primera instancia se comparan los resultados obtenidos con los entregados por el modelo base que no incorpora atributos sociales, comparación que se realiza a través del número de aciertos acumulados que logra cada modelo en los cortes del ranking de clientes. Por otro lado, en una segunda fase se busca identificar la técnica de clasificación utilizada que mejores resultados entrega y la configuración del conjunto de entrenamiento que resulta en la mejor capacidad de predicción de adopciones. El hecho de que la incorporación de los atributos sociales de los clientes no mejore por sí mismo el poder de predicción de los modelos de targeting, pero que sí lo haga la combinación de los resultados del modelo social con los del modelo base de comparación, resultó ser el mayor descubrimiento de este trabajo. Esto deriva en que para lograr modelos de selección efectivos es necesario combinar algunos de ellos que estén construidos en base a diferentes técnicas de clasificación, ya que éstas permiten identificar clientes de diversos perfiles, ele- vando la capacidad de predicción de los mismos. En este caso, la agregación de datos en el conjunto de entrenamiento y la combinación de aciertos de los modelos permiten incrementar en promedio en un 8 % el desempeño del modelo, alcanzando un nivel de aciertos de un 89 %.
100

Improvement of recommendation system for a wholesale store chain using advanced data mining techniques

Videla Cavieres, Iván Fernando January 2015 (has links)
Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / En las empresas de Retail, las áreas de Customer Intelligence tienen muchas oportunidades de mejorar sus decisiones estratégicas a partir de la información que podrían obtener de los registros de interacciones con sus clientes. Sin embargo se ha convertido en un desafío poder procesar estos grandes volúmenes de datos. Uno de los problemas que se enfrentan día a día es segmentar o agrupar clientes. La mayoría de las empresas generan agrupaciones según nivel de gasto, no por similitud en sus canastas de compra, como propone la literatura. Otro desafío de estas empresas es aumentar las ventas en cada visita del cliente y fidelizar. Una de las técnicas utilizadas para lograrlo es usar sistemas de recomendación. En este trabajo se proceso ́ alrededor de medio billón de registros transaccionales de una cadena de supermercados mayorista. Al aplicar las técnicas tradicionales de Clustering y Market Basket Analysis los resultados son de baja calidad, haciendo muy difícil la interpretación, además no se logra identificar grupos que permitan clasificar a un cliente de acuerdo a sus compras históricas. Entendiendo que la presencia simultánea de dos productos en una misma boleta implica una relación entre ellos, se usó un método de graph mining basado en redes sociales que permitió obtener grupos de productos identificables que denominamos comunidades, a las que puede pertenecer un cliente. La robustez del modelo se comprueba por la estabilidad de los grupos generados en distintos periodos de tiempo. Bajo las mismas restricciones que la empresa exige, se generan recomendaciones basadas en las compras históricas y en la pertenencia de los clientes a los distintos grupos de productos. De esta manera, los clientes reciben recomendaciones mucho más pertinentes y no solo son basadas en los que otros clientes también compraron. La novedosa forma de resolver el problema de segmentar clientes ayuda a mejorar en un 140% el actual método de recomendaciones que utiliza la cadena Chilena de supermercados mayoristas. Esto se traduce en un aumento de más de 430% de los ingresos posibles.

Page generated in 0.0679 seconds