Spelling suggestions: "subject:"bible corpus"" "subject:"cible corpus""
1 |
Finding case through personal names in parallel textsFinnveden, Gustav January 2019 (has links)
The aim of this study is to evaluate whether the ‘richness’ of the marking on personal names is an adequate indirect measure of a language’s case usage. The method uses parallel texts to identify, and group by lemma, names in over a thousand languages. These groupings are compared with data for case usage from a typological database for those languages for which it is available. This material is then used to test a method for assessing whether a language uses case or not. Results indicate that the maximum number of word types a proprial lemma is attested with in a text is a useful tool for inferring case usage. However, it only yielded clear results for a subset of the languages tested. It was not particularly useful for inferring the absence of case usage. Estimation of number of case categories was also performed. An entropy measure based on word types that a personal name lemma is attested with and the occurrences of these word types was used. It was found to be a fair indicator of number of case categories for languages, if somewhat inaccurate. Markings on languages which had no case were investigated. They were found to be of several types: pragmatic markers, non-case grammatical markers and case-like markers. Two languages with few markings on personal names and with case were investigated. They were found to not use any case marking on their personal names, but still use such markers on common nouns. This contrasts with a tentative generalization that this study is based on: ‘No languages have case marking exclusively in the domain of [personal names] or [common nouns].’ (Handschuh, 2017). / Denna studies syfte är att utvärdera om ’formrikedomen’ hos personnamnslexem är ett fungerande indirekt sätt att undersöka språks kasussystem. Parallella texter användes för att namnen hitta personnamn och gruppera dem efter lexem i över ett tusen språk. För den delmängd av språken där data om deras kasussystem fanns tillgänglig så jämfördes denna med grupperingarna. Resultaten indikerar att det maximala antalet ordformstyper som ett namnlemma observerades i är ett användbart verktyg för att hitta språk som använder kasus, men bara för en delmängd av testade språk. Det var däremot sämre på att hitta språk som inte använder kasus. En entropiuppskattning som var baserat på antalet ordformstyper ett personnamnslemma hittades med och antalet förekomster av dessa ordformstyper användes. Det var en okej indikator för antalet kasuskategorier, dock med något bristande träffsäkerhet. Personnamnsmarkeringar på språk utan kasus undersöktes. De funna typerna av markeringar var pragmatiska, kasuslika, och grammatiska icke-kasus. Två språk med kasus, men med få personnamns, undersöktes. De använder inte kasusmarkering på personnamn, men på sina substantiv, vilket bröt mot en hypotetisk generalisering som denna studie baserades på: Att inga språk har kasusmarkeringar endast på personnamn eller endast på substantiv.
|
Page generated in 0.0399 seconds