Return to search

Crosslingual implementation of linguistic taggers using parallel corpora

This thesis addresses the problem of creating linguistic taggers for resource-poor languages using existing taggers in resource rich languages. Linguistic taggers are classifiers that map individual words or phrases from a sentence to a set of tags. Part of speech tagging and named entity extraction are two examples of linguistic tagging. Linguistic taggers are usually trained using supervised learning algorithms. This requires the existence of labeled training data, which is not available for many languages. We describe an approach for assigning linguistic tags to sentences in a target (resource-poor) language by exploiting a linguistic tagger that has been configured in a source (resource-rich) language. The approach does not require that the input sentence be translated into the source language. Instead, projection of linguistic tags is accomplished through the use of a parallel corpus, which is a collection of texts that are available in a source language and a target language. The correspondence between words of the source and target language allows us to project tags from source to target language words. The projected tags are further processed to compute the final tags of the target language words. A system for part of speech (POS) tagging of French language sentences using an English language POS tagger and an English/French parallel corpus has been implemented and evaluated using this approach. A parallel corpus of the source and target languages might not be readily available for many language pairs. To deal with this problem, we describe a system for automatic acquisition of aligned, bilingual corpora from pre-specified domains on the World Wide Web. The system involves automatic indexing of a given domain using a web crawler, identifying pairs of pages that are translations of one another, and aligning bilingual texts at the sentence level. Using this approach we create a 40,000,000 word English-French parallel corpus from the Government of Canada d / Le sujet de cette thèse est la création de marqueurs linguistiques pour les langues qui sont pauvres en ressources en utilisant les marqueurs des langues riches en ressources. Les marqueurs linguistiques sont des classificateurs qui conjuguent des mots ou des collections des mots d'une phrase à un ensemble d'étiquettes. La description de nature grammatical et l'extraction des entités nommées sont deux exemples de marquage linguistique. L'apprentissage supervisé est l'outil principal utilisé pour créer des marqueurs linguistiques. Cela exige l'existence de données de formation marqués qui n'est pas disponible dans plusieurs langues. Nous décrivons une approche pour étiquer les phrases d'une langue cible qui est pauvre en ressources en utilisant un marqueur linguistique qui a été configuré dans une langue d'origine qui est riche en ressources. Cette approche n'exige pas que la phrase entrée doit être traduite dans la langue d'origine. Au lieu de cela, les étiquettes linguistiques sont projetées grâce à l'utilisation d'un corpus parallèle (une collection de textes qui sont disponibles dans plus d'une langues) entre la langue cible et la langue d'origine. La correspondence entre les mots de la langue cible et la langue d'origine nous permet de projeter les étiquettes entre les phrases de ces deux langues. Les étiquettes projetées sont traitées pour calculer l'étiquage finale de la phrase de la langue cible. Pour tester cette approche, un descripteur de nature grammaticale de langue française a été mis en oeuvre et évalué en utilisant un descripteur de nature grammaticale de langue anglaise et un corpus parallèle Anglais/Français. Un corpus parallèle entre la langue d'origine et la langue cible n'est pas toujours disponible pour plusieurs langues. Pour résoudre ce problème, nous décrivons un système d'acquisition automatique d'un corpus parallèle à partir du Web. Le corpus est extrait d'un domaine spécifique et automatiquem

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.22000
Date January 2008
CreatorsSafadi, Hani
ContributorsDoina Precup (Internal/Supervisor), Richard Rose (Internal/Cosupervisor2)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageMaster of Science (School of Computer Science)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses.

Page generated in 0.0023 seconds