Return to search

Automatic Segmentation of Swedish Medical Words with Greek and Latin Morphemes : A Computational Morphological Analysis

Raw text data online has increased the need for designing artificial systems capable of processing raw data efficiently and at a low cost in the field of natural language processing (NLP). A well-developed morphological analysis is an important cornerstone of NLP, in particular when word look-up is an important stage of processing. Morphological analysis has many advantages, including reducing the number of word forms to be stored computationally, as well as being cost-efficient and time-efficient. NLP is relevant in the field of medicine, especially in automatic text analysis, which is a relatively young field in Swedish medical texts. Much of the stored information is highly unstructured and disorganized. Using raw corpora, this paper aims to contribute to automatic morphological segmentation by experimenting with state-of-art-tools for unsupervised and semi-supervised word segmentation of Swedish words in medical texts. The results show that a reasonable segmentation is more dependent on a high number of word types, rather than a special type of corpora. The results also show that semi-supervised word segmentation in the form of annotated training data greatly increases the performance. / Rå textdata online har ökat behovet för artificiella system som klarar av att processa rå data effektivt och till en låg kostnad inom språkteknologi (NLP). En välutvecklad morfologisk analys är en viktig hörnsten inom NLP, speciellt när ordprocessning är ett viktigt steg. Morfologisk analys har många fördelar, bland annat reducerar den antalet ordformer som ska lagras teknologiskt, samt så är det kostnadseffektivt och tidseffektivt. NLP är av relevans för det medicinska ämnet, speciellt inom textanalys som är ett relativt ungt område inom svenska medicinska texter. Mycket av den lagrade informationen är väldigt ostrukturerat och oorganiserat. Genom att använda råa korpusar ämnar denna uppsats att bidra till automatisk morfologisk segmentering genom att experimentera med de för närvarande bästa verktygen för oövervakad och semi-övervakad ordsegmentering av svenska ord i medicinska texter. Resultaten visar att en acceptabel segmentering beror mer på ett högt antal ordtyper, och inte en speciell sorts korpus. Resultaten visar också att semi-övervakad ordsegmentering, dvs. annoterad träningsdata, ökar prestandan markant.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:su-121650
Date January 2015
CreatorsLindström, Mathias
PublisherStockholms universitet, Avdelningen för datorlingvistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds