Return to search

Övervakad namntaggning med domänspecifik träningsdata / Supervised named-entity recognition with domain-specific training data

Övervakad maskininlärning har gett goda resultat för automatisk namntaggning. Detta kräver dock manuellt annoterad träningsdata, vilket är krävande att ta fram. Studier har visat att likhet mellan träningsdata och testdata är viktigt för att uppnå bra resultat, men normalt sett tränas system alltid med så mycket data som möjligt, utan hänsyn till dess relevans. Syftet med denna studie är att undersöka om bättre namntaggning kan uppnås genom att utesluta de delar av träningsdatan som inte tillhör samma textdomän som testdatan. För att genomföra detta konstrueras ett system med multinomial logistisk regression som tränas och testas på Stockholm-Umeå Corpus enligt både traditionell och föreslagen metod. Undersökningen visar en liten men signifikant försämring vid användning av enbart domänspecifik träningsdata, ett resultat som dock inte är genomgående för alla delar av undersökningen. Den stora fördelen av att reducera träningsdatan är dock att det ökar maskininlärningens hastighet. För att kunna utnyttja detta föreslås att namntaggning föregås av textklassificering.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:su-130904
Date January 2016
CreatorsPersson, Adam
PublisherStockholms universitet, Institutionen för lingvistik
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds