Ibland används i två dialekter olika ord för samma sak. Syftet med denna studie är att visa vad somkan automatiseras i sökandet efter ord-isoglosser. Detta undersöks genom att skriva och utvärdera ettprogram som genom att analasyera bloggtext söker efter ordisoglosser i Sverige. En isogloss är engeografisk gräns mellan två olika språkliga egenskaper, till exempel prosodi eller betoning, eller som idetta fall ord. Programmet mappar skribentens kommun till orden från bloggtexterna i en databas. Lagttill detta låter programmet användaren söka efter antingen hur vanligt ett ord är i Sveriges kommunerjämfört med riksgenomsnittet; eller vilket av två olika ord som är vanligast inom varje kommun, enligtett två-sidigt proportionstest. Resultatet av de gjorda sökningarna skrevs till en fil och plottades sedanmanuellt. Utvärderingen visar att programmet kan hitta några ordisoglosser mellan kommuner, och attkartorna i viss utsträckning stämmer överrens med de resultat som Parkvall (Parkvall, 2011; Parkvall,2012) påvisar. Detta indikerar att programmet är en bra början för liknande studier. Förbättringar avprogrammet är att användaren tillåts använda reguljära uttryck för att få bort ambuigitet.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:su-81531 |
Date | January 2012 |
Creators | Engdahl, Johan |
Publisher | Stockholms universitet, Avdelningen för datorlingvistik |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0015 seconds