Den här uppsatsen undersöker hur väl annoteringsverktyget Swegram utför analysdelen ordklassbestämning, så kallad ordklasstaggning, av elevtexter i svenska och svenska som andraspråk. Syftet är att undersöka tillförlitligheten i verktyget och om avvikelser i ordklasstaggningen finns från manualen till SUC (Ejerhed et al 1992) samt från traditionell grammatisk ordklassanalys enligt SAOL vill jag undersöka i hur stor omfattning det sker och i vilka ordklasser det är mest frekvent. Studien ämnar ge svar på om vissa ordklasser är mer problematiska att ordklasstagga än andra, om vissa ord har egenskaper som ger upphov till feltaggning och om det är skillnad på verktygets förmåga att känna igen och ange ordklasser i texter skrivna av elever med svenska som andraspråk i jämförelse med texter skrivna av elever med svenska som modersmål. Materialet består av tio elevtexter i ämnet svenska som andraspråk och 10 texter i ämnet svenska för årskurs 9. För att få fram statistik på avvikelser i ordklasstaggningen används beräkningar för precision och recall samt för medelvärdet F-score. Resultatet visar att feltecknade ord ger upphov till feltaggningar, vilka det också finns fler av i andraspråkstexterna, liksom ordklasser som delar många ordformer. För övrigt visar sig inga anmärkningsvärda skillnader i verktygets precision mellan andraspråkstexter och texter i svenska.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-326630 |
Date | January 2017 |
Creators | Josefsson, Eva |
Publisher | Uppsala universitet, Institutionen för nordiska språk |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0187 seconds