Global ETD Search

Return to search

Mapping of open-answers using machine learning / Kartläggning av öppna svar med hjälp av maskininlärning

This thesis investigates if a model can be created to map misspelled answers from open-ended questions to a ﬁnite set of brands. The data used for the paper comes from the company Nepa that uses open-questions to measure brand-awareness and consists of misspelled answers and brands to be mapped to. A data structure called match candidate was created and consists of a misspelled answer and brand that it poten-tially be mapped to. Features for the match candidates were engineered and based on the edited distances, posterior probability and common misspellings among other. Multiple machine learning models were tested for classifying the match candidates as positive if the mapping was correct and negative otherwise. The model was tested in two scenarios, one when the answers in the training and testing data came from the same questions and secondly when they came from diﬀerent ones. Among the classiﬁers tested, the random forest model performed best in terms of PPV as well as sensitivity. The resulting mapping identiﬁed on average 92% of the misspelled answers and map then with 98% accuracy in the ﬁrst scenario. While in the second scenario 70% of the answers were identiﬁed with 95% conﬁdence in the mapping on average. / Detta examensarbete undersöker huruvida en modell kan skapas för att kartlägga fel-stavade svar till öppna frågor till ett ﬁnit set av företagsnamn. Datan till denna uppsats kommer ifrån företaget Nepa som använder öppna frågor för att mäta märkesmedvetenhet. Denna data består av öppna svar samt företagsnamn som dessa kan matchas till. En datastruktur skapades som kallas för match candidate och består av ett felstavat svar samt ett företagsnamn som svaret kan matchas med. Attribut skapades till match candidate och bygger bland annat på sträng likhet, aposteriorisan-nolikhet samt vanliga fel stavningar med mera. Ett ﬂertal maskininlärningsmodeller testades för att klassiﬁera match candidates som korrekt om och endast om svaret och företagsnamnet matchade och inkorrekt annars. Modellen testades i två olika scenarior. I det första kom datan som modellen tränade och testade på ifrån samma frågor. I det andra scenariot var det olika frågor som tränings och test data byggdes på. Av de maskininlärningsmodeller som testades så presterade radom forest modellen bäst i avseende på PPV och sensitivity. Den resulterande kartläggningen lyckades i genomsnitt identiﬁera 92% av alla felstavade svar och matchades i 98% till korrekt företagsnamn i det första scenariot. I det andra scenariot identiﬁera 70% av alla felstavade svar och matchades i 95% till korrekt företagsnamn i genomsnitt.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-228616

Mathematical Analysis

Matematisk analys

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-228616
Date	January 2018
Creators	Björk Friström, Viking
Publisher	KTH, Matematisk statistik
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-SCI-GRU ; 2018:173

Page generated in 0.0137 seconds

Mapping of open-answers using machine learning / Kartläggning av öppna svar med hjälp av maskininlärning

Description

Links & Downloads

Tags

Additional Fields