Tesis para optar al grado de Magíster en Gestión de Operaciones / Memoria para optar al título de Ingeniero Civil Industrial / En el presente proyecto de tesis se aborda el problema de extraer atributos y valores de atributos de productos a partir de descripciones no estructuradas de estos. Por ejemplo, el producto con descripción Notebook Lenovo i5 8 GB 500 GB posee, entre otros, un atributo Marca con valor Lenovo y un atributo Memoria RAM con valor 8 gigabytes . Así, se puede representar un producto p, en un formato estructurado, mediante un conjunto de atributos {a1, a2, ..., an} y un conjunto valores de atributos {v1, v2, ..., vn}, de la forma p = {a1 : v1,a2 : v2,...,an : vn}.
Para cualquier sitio e-commerce, contar con datos estructurados de los atributos y valores de atributos de sus productos es una ventaja clave. Permite, por un lado, mejorar la experiencia del usuario a través de, por ejemplo, la implementación de filtros de búsqueda por atributos. Por otro lado, permite facilitar y sofisticar cualquier análisis que el sitio quiera realizar a partir de sus datos: desde identificar productos sustitutos hasta segmentar clientes en base a sus preferencias. A pesar de las ventajas que presentan estos datos estructurados, son pocos los e-commerce que cuentan con ellos para todos sus productos. Esto se debe principalmente a que la labor de extraer atributos y valores de atributos es difícil de automatizar, por lo que generalmente se realiza de forma manual. Para un ecommerce con un amplio catalogo de productos, esto se vuelve infactible.
La solución propuesta consiste en un software de aplicación, al cual se denomina sistema de catalogación, que hace posible que equipos pequeños de persona puedan mantener grandes catálogos de productos con información estructurada de sus atributos y valores. Para lograr lo anterior, el sistema combina algoritmos de machine learning con técnicas de procesamiento de lenguaje natural (NLP), junto a supervisión humana. A grandes rasgos, el sistema funciona realizando predicciones sobre los atributos y valores de atributos de un producto, las cuales tienen un nivel de confianza asociado. Las predicciones con alto nivel de confianza son validadas automáticamente, mientras que aquellas con bajo nivel de confianza deben ser validadas de forma manual por una persona, mediante preguntas de selección múltiple generadas automáticamente por el sistema. Estas preguntas se diseñan de manera que sean fáciles de responder por cualquier persona con un leve conocimiento del rubro de los productos, lo que permite externalizar la validación manual a plataformas de crowdsourcing.
A través de pruebas realizadas con datos de múltiples e-commerce nacionales, junto a aplicaciones concretas llevadas a cabo en la tienda (e-commerce) de ChileCompra Express, se exhibe el correcto funcionamiento sistema. Gracias a la arquitectura utilizada, que incluye supervisión humana constante, el sistema logra detectar los atributos y valores de atributos de los productos con una alta precisión de sobre un 80 %.
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/170306 |
Date | January 2019 |
Creators | Guerra López, Rodrigo Andrés |
Contributors | Olivares Acuña, Marcelo, Weber Haas, Richard, Weintraub Yadlin, Gabriel |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0019 seconds