Return to search

Analysis of Remarks Using Clustering and Keyword Extraction : Clustering Remarks on Electrical Installations and Identifying the Clusters by Extracting Keywords / Analys av anmärkningar med hjälp av klustring och extrahering av nyckelord : Klustring av anmärkningar på elektriska installationer och identifiering av klustren med hjälp av extrahering av nyckelord

Nowadays it is common for companies to sit on and gather a lot of data related to their business. The size of this data is often too large to be analyzed by hand and it is therefore becoming more and more common to automate this analysis e.g. by running machine learning methods on this data. In this project we attempt at analyzing an unstructured dataset consisting of remarks, found by inspectors, on electrical installations. This is done by firstly clustering the dataset with the goal of having each cluster representing a specific type of error found in the field and then extracting ten keywords from each cluster. We investigate whether these keywords can be used for representing the clusters’ contents in a way that could be useful for a future end-user application. The solution developed in this project was evaluated by constructing a form where the respondents were shown example remarks from a random subset of clusters and got to evaluate both how well the extracted keywords matched the examples and to what degree the example remarks from the same cluster represented the same kind of error. We got a total of 22 responses consisting of 8 professional inspectors and 14 laymen. Our results show that the keyword extraction make sense in connection to the example remarks from the form and that the keywords show promise in describing the content of a cluster. Also, for a majority of the clusters a clear consensus can be seen between the respondents on what keywords they considered as relevant. However the average number of keywords that the respondents considered relevant for each remark (1.40) was deemed too low for us to be able to recommend the solution. Additionally the clustering quality follows the same pattern in showing promise but not quite giving satisfactory results in this study. For future work a larger study should be conducted where several combinations of clustering and keyword extraction methods could be evaluated more thoroughly to be able to draw more decisive conclusions. / Nuförtiden är det vanligt att företag samlar in och sitter på en mängd data kopplad till sin verksamhet. Denna datamängd är ofta för stor för att kunna analyseras för hand. Därför har det blivit allt vanligare att automatisera denna analys genom att köra maskininlärningsmetoder på datan. I detta projekt analyseras ett dataset bestående av fritext-poster innehållande anmärkningar på elinstallationer. Detta görs genom att först klustra datan med målet att varje kluster ska representera en viss typ av anmärkning från fältet för att sedan extrahera 10 st nyckelord från varje kluster. Vår undersökning går sedan ut på att undersöka till vilken grad dessa nyckelord kan sägas representera klustrens innehåll på ett sätt som skulle vara användbart för en applikation för slutanvändare. Den lösning som togs fram i projektet utvärderades genom en enkät där de svarande visades exempel på anmärkningar från ett antal slumpvist valda kluster och sedan fick ta ställning till hur väl nyckelorden passade in på exemplen och också till vilken grad exemplen från samma kluster representerade samma typ av anmärkning. Totalt fick vi in svar från 22 personer, nämligen 8 besiktningsingenjörer och 14 st lekmän. Resultaten visar att de extraherade nyckelorden hade en naturlig koppling till de respektive anmärkningarna från enkäten och att de har potential att förklara innehållet i klustren. Hos en majoritet av klustern kunde vi också se en tydlig samstämmighet bland de svarande i vilka specifika nyckelord som ansågs relevanta. Dock var det genomsnittliga antalet nyckelord som ansågs relevanta för ett anmärkningsexempel (1,40) för lågt för att vi ska kunna rekommendera den utvärderade lösningen. På ett liknande sätt visar våra resultat att klustringen av datan var lovande, men att den inte blev helt tillfredsställande. I ett fortsatt arbete borde en större undersökning göras där flera kombinationer av metoder för klustring och extrahering av nyckelord jämförs grundligare så att säkrare slutsatser kan dras.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233200
Date January 2018
CreatorsStiff, Philip
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:502

Page generated in 0.0023 seconds