Return to search

Pääosin ohjaamaton sanaston poiminta rakenteettomasta tekstistä

Sanaston kattavuudella on suuri merkitys monille luonnollista kieltä käsitteleville algoritmeille. Sanaston puute vaikeuttaa tällaisten algoritmien soveltamista esimerkiksi vähemmistökieliin liittyviin ongelmiin. Sanastojen tuottaminen ja laajentaminen perinteisin menetelmin on työlästä ja kallista, joten on tarve kehittää automaattisia, yleiskäyttöisiä ja kieliriippumattomia sanaston kerääjiä.

Automaattisia sanaston kerääjiä on olemassa muutamia, mutta niiden yleiskäyttöisyyttä, laatua ja soveltamista useille kielille voidaan vielä parantaa. Kehittyneeseen sanaston keräämiseen voidaan soveltaa uusimpia ohjaamattomia sanojen erottelun, morfologian induktion, ja sanaluokan induktion menetelmiä. Monet kiinnostavimmista menetelmistä hyödyntävät Bayesin menetelmää.

Tässä diplomityössä toteutettiin pääosin ohjaamaton, useaa kieltä tukeva sanaston kerääjä. Se otti syötteenä merkitsemättömän korpuksen ja tuotti listan sanoja ja niiden sanaluokkia. Järjestelmän kaikki tärkeimmät osat pohjautuivat ei-parametriseen Bayesin menetelmään: sanojen erottelu ja morfologian induktio toteutettiin hierarkkisella Pitman-Yor-prosesseilla ja sanaluokan induktio Pitman-Yor-prosessin mikstuurimallilla.

Toteutus saavutti 16%:n tarkkuuden suomenkielisten sanojen perusmuotojen poiminnassa, kun sanaluokkatietoa ei huomioitu. Sanojen perusmuotojen ja sanaluokkien yhdistelmien poiminnassa tarkkuus oli 3%:a. Toiminnan arvioitiin olevan samaa tasoa englannilla ja japanilla.

Ratkaisun eri aliosien suorituskyvyt olivat heikkoja vastaavien osien uusimpiin toteutuksiin verrattuna. Etenkin morfologian ja sanaluokan induktion suorituskykyä voitaisiin kehittää huomattavasti. Parempia tuloksia voitaisiin saavuttaa myös sulauttamalla järjestelmän aliosia tiiviimmin yhteen. / The coverage of the lexicon has great implications on the performance of a number of natural language processing algorithms. Insufficient vocabulary complicates the application of these algorithms on problems that involve, for example, minority languages. Producing and extending lexicons with traditional means is both slow and expensive so there is a need to develop automatic, generic purpose, language independent lexicon acquisition systems.

Automatic lexicon acquisition systems exist in small numbers, but there is room to improve their flexibility, quality and applicability to multiple languages. Advanced lexicon acquisition systems can be developed by applying the state-of-the-art methods from word segmentation, morphology induction, and part-of-speech induction to the problem. Many of the most interesting methods are based on the Bayesian approach.

In this Master’s thesis, a mostly-unsupervised, multilingual lexicon acquisition system was developed. It accepted as an input an unannotated corpus and generated a list of words and their part-of-speech tags. All the important parts of the system relied on non-parametric Bayesian methods: word segmentation and morphology induction used nested Pitman-Yor processes and part-of-speech induction used a Pitman-Yor process mixture model.

The implementation achieved 16% precision in the acquisition task of base forms of Finnish words without part-of-speech tags. With finnish base form and part-of-speech tag combinations, the precision was 3%. The results were estimated to be of the same quality in English and Japanese.

The individual parts of the system had poor performance compared to the state-of-the-art. Especially morfology and part-of-speech induction could be improved significantly. Better results could also be improved by integrating the parts of the system more deeply with each other.

Identiferoai:union.ndltd.org:oulo.fi/oai:oulu.fi:nbnfioulu-201404081248
Date10 April 2014
CreatorsMustonen, A. (Ari)
PublisherUniversity of Oulu
Source SetsUniversity of Oulu
LanguageFinnish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/masterThesis, info:eu-repo/semantics/publishedVersion
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess, © Ari Mustonen, 2014

Page generated in 0.0021 seconds