The ability to extract useful information from texts and present them in the form of structured attributes is an important step towards making product comparison algorithm in fashion smarter and better. Some previous work exploits statistical features like the word frequency and graph models to predict keyphrases. In recent years, deep neural networks have proved to be the state-of-the-art methods to handle language modeling. Successful examples include Long Short Term Memory (LSTM), Gated Recurrent Units (GRU), Bidirectional Encoder Representations from Transformers(BERT) and their variations. In addition, some word embedding techniques like word2vec[1] are also helpful to improve the performance. Besides these techniques, a high-quality dataset is also important to the effectiveness of models. In this project, we aim to develop reliable and efficient machine learning models for keyphrase extraction. At Norna AB, we have a collection of product descriptions from different vendors without keyphrase annotations, which motivates the use of unsupervised methods. They should be capable of extracting useful keyphrases that capture the features of a product. To further explore the power of deep neural networks, we also implement several deep learning models. The dataset has two parts, the first part is called the fashion dataset where keyphrases are extracted by our unsupervised method. The second part is a public dataset in the domain of news. We find that deep learning models are also capable of extracting meaningful keyphrases and outperform the unsupervised model. Precision, recall and F1 score are used as evaluation metrics. The result shows that the model that uses LSTM and CRF achieves the optimal performance. We also compare the performance of different models with respect to keyphrase lengths and keyphrase numbers. The result indicates that all models perform better on predicting short keyphrases. We also show that our refined model has the advantage of predicting long keyphrases, which is challenging in this field. / Förmågan att extrahera användbar information från texter och presentera den i form av strukturerade attribut är ett viktigt steg mot att göra produktjämförelsesalgoritmen på ett smartare och bättre sätt. Vissa tidigare arbeten utnyttjar statistiska funktioner som ordfrekvens och grafmodeller för att förutsäga nyckelfraser. Under de senaste åren har djupa neurala nätverk visat sig vara de senaste metoderna för att hantera språkmodellering. Framgångsrika exempel inkluderar Long Short Term Memory (LSTM), Gated Recurrent Units (GRU), Bidirectional Encoder Representations from Transformers (BERT) och deras variationer. Dessutom kan vissa ordinbäddningstekniker som word2vec[1] också vara till hjälp för att förbättra prestandan. Förutom dessa tekniker är en datauppsättning av hög kvalitet också viktig för modellernas effektivitet. I detta projekt strävar vi efter att utveckla pålitliga och effektiva maskininlärningsmodeller för utvinning av nyckelfraser. På Norna AB har vi en samling produktbeskrivningar från olika leverantörer utan nyckelfrasnoteringar, vilket motiverar användningen av metoder utan tillsyn. De bör kunna extrahera användbara nyckelfraser som fångar funktionerna i en produkt. För att ytterligare utforska kraften i djupa neurala nätverk implementerar vi också flera modeller för djupinlärning. Datasetet har två delar, den första delen kallas modedataset där nyckelfraser extraheras med vår metod utan tillsyn. Den andra delen är en offentlig dataset i nyhetsdomänen. Vi finner att deep learning-modeller också kan extrahera meningsfulla nyckelfraser och överträffa den oövervakade modellen. Precision, återkallning och F1-poäng används som utvärderingsmått. Resultatet visar att modellen som använder LSTM och CRF uppnår optimal prestanda. Vi jämför också prestanda för olika modeller med avseende på keyphrase längder och nyckelfras nummer. Resultatet indikerar att alla modeller presterar bättre på att förutsäga korta tangentfraser. Vi visar också att vår raffinerade modell har fördelen att förutsäga långa tangentfraser, vilket är utmanande inom detta område.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-290158 |
Date | January 2020 |
Creators | Lin, Yuhao |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2020:911 |
Page generated in 0.0028 seconds