Return to search

CE Standard Documents Keyword Extraction and Comparison Between Different MachineLearning Methods

Conformité Européenne (CE) approval is a complex task for producers in Europe. The producers need to search for necessary standard documents and do the tests by themselves. CE-CHECK is a website which provides document searching service, and the company engineers want to use machine learning methods to analysis the documents and the results can improve the searching system. The first task is to construct an auto keyword extraction system to analysis the standard documents. This paper performed three different machine learning methods: Conditional Random Field (CRF), joint-layer Recurrent Neural Network (RNN), and double directional Long Short-Term Memory network (Bi-LSTM), for this task and tested their performances. CRF is a traditional probabilistic model which is widely used in sequential processing. RNN and LSTM are neural network models which show impressive performance on Natural Language processing in recent years. The result of the tests was that Bi-LSTM had the best performance: the keyword extraction recall was 76.97% while RNN was 72.99% and CRF was 70.18%. In conclusion, Bi-LSTM is the best model for this keyword extraction task, and the accuracy is high enough to provide a reliable result. The model also has good robustness that it have excellent performance on documents in different fields. Bi-LSTM model can analysis all documents in less than five minutes while manual works need months, so it saved both time and cost. The results can be used in searching system and further document analysis. / Att få Conformité Européenne (CE)-godkännande är en komplicerad process för producenter i Europa. Producenterna måste söka efter nödvändiga dokument för standarder samt utföra olika tester själva. CE-CHECK är en hemsida som erbjuder söktjänster för dokument. Företagets ingenjörer vill använda maskininlärningsmetoder för att analysera dokumenten då resultaten kan förbättra söksystemet. Den första uppgiften är att konstruera ett system som automatiskt extraherar nyckelord för att analysera dokument för standarder. Detta examensarbete använde tre olika maskininlärningsmetoder och testade deras prestanda: Conditional Random Field (CRF), joint-layer Recurrent Neural Network (RNN), samt Double directional Long Short-Term Memory network (Bi-LSTM). CRF är en traditionell probabilistisk modell som ofta används inom behandling av sekventiella data. RNN och LSTM är neurala nätverksmodeller som har visat imponerande resultat inom språkteknologi de senaste åren. Resultatet av undersökningen var att Bi-LSTM presterade bäst. Modellen lyckades extrahera 76.97% av nyckelorden medan resultatet för RNN var 72.99% och för CRF var det 70.18%. Slutsatsen blev således att Bi-LSTM är det bästa valet av modell för denna uppgift och dess exakthet är tillräckligt god för att producera pålitliga resultat. Modellen är även robust då den visar goda resultat på dokument från olika forskningsområden. Bi-LSTM kan analysera alla dokument på mindre än fem minuter medan manuellt arbete skulle kräva månader. Den minskar således både tidsåtgång och kostnad. Resultaten kan användas både i söksystem samt i vidare analys av dokument.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-236481
Date January 2018
CreatorsHuang, Junhao
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:682

Page generated in 0.0023 seconds