Return to search

Perspectives on the utility of linguistic knowledge in English word prediction

Abstract

The problem addressed in the present thesis is the utility of linguistic knowledge in one domain of language technology, word prediction. An important characteristic of any practical language technology application is its level of performance, and it is therefore essential to be able to measure this quantitatively. The main questions in the present thesis are the following: (1) how can a significant improvement in performance be obtained in practical language technology products, and (2) what is the cost of improved performance in terms of the sources of linguistic knowledge that should be incorporated in them? On a more general level, the major findings suggest that the practical utility of linguistic knowledge in language technology should generally be evaluated from at least three larger perspectives: (1) language, (2) technology, and (3) the user of the application. From these three perspectives, a variety of constraints can be identified which either increase or decrease the usefulness of linguistic knowledge in practical language technology applications. A statistical state-of-the-art word prediction system was developed and tested in the empirical part of this work, and testing the performance of a few prediction methods that utilise sources of linguistic knowledge showed that they can perform just as well as some existing state-of-the-art statistical prediction methods. When the syllable-initial characters of the words to be predicted were used, for example, the expected length of the search key in a running text with a prediction list of ten tokens was only 1.59 characters, while the use of information on the parts of speech of the word tokens to be predicted in a system with five lists representing five parts of speech resulted only in a three percent improvement in performance. One of the practical implications of these results for the field of language technology is that a significant improvement in the performance of a word prediction system may be achieved only incrementally. The simultaneous use of several techniques may in turn dilute the real-time operation of the prediction system, so that it is unable to suggest candidate words quickly enough for the user. It can also affect some performance aspects such as the average percentage of keystrokes/characters saved. / Abstrakti

Tässä työssä tutkittiin lingvistisen tiedon hyödyllisyyttä kieliteknologian yhdellä sovellusalueella eli sanan ennakointia englannin kielessä. Sovellus pyrkii ennakoimaan sanan, jota käyttäjä kirjoittaa parhaillaan tai aikoo kirjoittaa seuraavaksi. Nämä sovellukset ovat hyödyllisiä esim. pienissä päätelaitteissa, joissa tekstin tuottaminen on hankalaa. Eräs kieliteknologiasovellusten tärkeimmistä ominaisuuksista on niiden tehokas toiminta ja suorituskyky, jonka tulisi olla kvantitatiivisesti mitattavissa. Oleellisin tutkimuskysymys on näin ollen: (1) miten käytännön kieliteknologiasovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla ja (2) mitä tämä vaatii käytännössä? Yleisellä tasolla tutkimuksen tärkeimmät tulokset ovat seuraavat: lingvistisen tiedon käytännön hyödyllisyyttä pitäisi arvioida ainakin kolmesta näkökulmasta, jotka ovat: (1) kielen näkökulma, (2) teknologian näkökulma ja (3) sovelluksen käyttäjän näkökulma. Näiden kolmen näkökulman avulla voidaan määrittää joukko tekijöitä, jotka joko lisäävät tai vähentävät lingvistisen tiedon hyödyllisyyttä käytännön kieliteknologiasovelluksissa. Työn empiirisessä osassa kehitettiin tilastollinen sananennakointisovellus englannin kieleen hyödyntäen parhaiten toimivia ennakointitekniikoita yhdessä ja samassa järjestelmässä. Kehitetyssä järjestelmässä suorituskyky vastaa täysin aiempien järjestelmien suorituskykyä. Työssä testattiin myös joitakin uusia, lingvististä tietoa hyödyntäviä ennakointitekniikoita, joiden suorituskyky vastasi tiettyjen tilastollisten ennakointimenetelmien suorituskykyä. Tutkimuksen tuloksista voidaan päätellä muun muassa, että sananennakointisovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla vain käyttämällä samanaikaisesti useita lingvistisen tiedon lähteitä. Tämä taas saattaa hidastaa sovelluksen reaaliaikaista toimintaa ja vaikuttaa sovelluksen suorituskykyyn silloin kun se mitataan näppäinsäästönä merkkisäästön asemesta.

Identiferoai:union.ndltd.org:oulo.fi/oai:oulu.fi:isbn951-42-7850-X
Date11 November 2005
CreatorsVäyrynen, P. (Pertti)
PublisherUniversity of Oulu
Source SetsUniversity of Oulu
LanguageEnglish
Detected LanguageFinnish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess, © University of Oulu, 2005
Relationinfo:eu-repo/semantics/altIdentifier/pissn/0355-3205, info:eu-repo/semantics/altIdentifier/eissn/1796-2218

Page generated in 0.0032 seconds