Denna avhandling behandlar en sorts vektorrumsmodell som jag kallar ”Latent Semantic Vector Model”, eller LSVM, framtagen med tekniken ”Latent Semantic Indexing”. En LSVM har många användningsområden men jag har i första hand tittat på en direkt tillämpning: dokumentsökning. Det en LSVM kan tillföra dokumentsökning är möjligheten att söka efter innehåll snarare än specifika sökord. Att använda sig av en LSVM i ett dokumentsökningssystem har visat sig förbättra kvaliteten på de returnerade dokumentlistorna – det blir lättare för användaren att hitta den information han eller hon är ute efter. Det problem som angrips i det här arbetet är att en LSVM i normalfallet bara innehåller enkla ord, medan termer man söker efter ofta är flerordsuttryck. Jag har försökt träna upp modeller som är konfigurerade på olika sätt med avseende på parametrar som träningsdata, vokabulär, matrisstorlek, kontextstorlek och inte minst olika sätt att få in flerordsuttryck direkt i modellerna. Syftet har varit att avgöra hur prestanda för en LSVM påverkas då man går från en ordbaserad modell till en som innehåller både ord och flerordsuttryck. För att kunna mäta förändringen har två utvärderingsmetoder använts: synonymtest och dokumentsökning. Synonymtestningen har gjorts för svenska och dokumentsökningen för svenska och engelska. Resultaten förbättras för synonymtestningen men försämras för dokumentsökning. För engelsk dokumentsökning är förändringen inte signifikant. Arbetet har även resulterat i två nya resurser som är mycket användbara för utvärdering av flera typer av modeller: utvärderingsmängden SweHP560, innehållande 560 svenska synonym-uppgifter från Högskoleprovet, och de nya måtten RankEff och WRS för utvärdering av dokumentsökningssystem, som tar bättre hand om problemet med ofullständigt facit i utvärderingsdata än existerande mått som MAP och bpref. / This thesis deals with a kind of vector space model called “Latent Semantic Vector Model”, or LSVM, calculated by the technique “Latent Semantic Indexing”. An LSVM can be used for many things, but I have mainly looked at one direct application: document retrieval. What we can gain from an LSVM is the possibility of searching for content rather than specific keywords. Using an LSVM in a document retrieval system has been shown to improve the quality of the returned document lists, which makes it easier for the user to find the information he or she wants. The problem attacked in this thesis is that an LSVM in the normal case contains just single words, while the terms one searches for in many cases are multi-word expressions. LSVMs have been trained with various parameter settings for training data, vocabulary, matrix size, context size, and last but not least, different ways to include multi-word expressions directly into the models. The aim has been to determine how the performance of an LSVM changes when we go from a word-based model to a model containing both words and multi-word expressions. To be able to measure the changes, two evaluation methods have been used: synonym tests and document retrieval. Synonym testing has been performed for Swedish and document retrieval for both Swedish and English. The results are improved when multi-word expressions are added for the synonym test task, but change for the worse for document retrieval. For English, the latter change is not significant. This work has also resulted in two new resources, well suited for evaluation of various models: the evaluation set SweHP560, containing 560 Swedish synonym test queries from “Högskoleprovet”, and the new metrics RankEff and WRS for document retrieval evaluation, which handle the problem of an incomplete gold standard in a better way than existing metrics like MAP and bpref.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:vxu-932 |
Date | January 2006 |
Creators | Grönqvist, Leif |
Publisher | Växjö universitet, Matematiska och systemtekniska institutionen, Växjö : Matematiska och systemtekniska institutionen |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Doctoral thesis, monograph, info:eu-repo/semantics/doctoralThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | Acta Wexionensia, 1404-4307 ; 100/2006 |
Page generated in 0.0018 seconds