Automatiskt rättning av korta texter är ett område som spänner allt från naturlig språkbehandling till maskininlärning. Projektet behandlar maskininlärning för att förutsäga korrektheten av svar i fritext. Naturlig språkbehandling används för att analysera text och utvinna viktiga underliggande relationer i texten. Det finns idag flera approximativa lösningar för automatiskt rättning av korta svar i fritext. Två framstående metoder är maskininlärning och regelbaserad metod. Vi kommer att framföra en alternativ metod som kombinerar maskininlärning med en regelbaserad metod för att approximativt lösa förenämnda problemet. Studien handlar om att implementera en regelbaserad metod, maskininlärning metod och en slutgiltig kombination av båda dessa metoder. Utvärderingen av den kombinerade metoden utförs genom att titta på de relativa ändringarna i prestanda då vi jämför med den regelbaserade och maskininlärning metoden. De erhållna resultaten har visat att det inte finns någon ökning av noggrannheten hos den kombinerade metoden jämfört med endast maskininlärning metoden. Den kombinerade metoden använder emellertid en liten mängd märkta data med en noggrannhet som är nästan lika metoden med maskininlärning, vilket är positivt. Ytterligare undersökning inom detta område behövs, denna uppsats är bara ett litet bidrag till nya metoder i automatisk rättning. / Automatic correction of short text answers is an area that involves everything from natural language processing to machine learning. Our project deals with machine learning for predicting the correctness of candidate answers and natural language processing to analyse text and extract important underlying relationships in the text. Given that today there are several approximative solutions for automatically correcting short answers, ranging from rule-based methods to machine learning methods. We intend to look at how automatic answer scoring can be solved through a clever combination of both machine learning methods and rule-based method for a given dataset. The study is about implementing a rule-based method, a machine learning method and a final combination of both these methods. The evaluation of the combined method is done by measuring its relative performance compared to the rule-based method and machine learning method. The results obtained have shown that there is no increase in the accuracy of the combined method compared to the machine learning method alone. However, the combined method uses a small amount of labeled data with an accuracy almost equal to the machine learning, which is positive. Further investigation in this area is needed, this thesis is only a small contribution, with a new approaches and methods in automatic short answer scoring.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-232070 |
Date | January 2018 |
Creators | Pihlqvist, Fredrik, Mulongo, Benedith |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:148 |
Page generated in 0.0177 seconds