Ce mémoire décrit les recherches en informatique linguistique menées par l'auteur dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé. Le point de départ pour toutes les recherches présentées a été le système de traitement automatique de grands corpus, INTEX. Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes : Comment ce recensement peut être effectué ? Est-il utile de le réaliser ? La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous analysons la morphologie flexionnelle des noms composés en trois langues : le français, l'anglais et le polonais. Nous proposons une méthode formelle de description du comportement flexionnel des composés, ainsi qu'un algorithme qui génère automatiquement leurs formes fléchies. Nous décrivons la construction de deux dictionnaires électroniques : l'un pour les mots composés de l'anglais général, l'autre pour les termes simples et composés anglais du domaine de l'informatique. Nous présentons une bibliothèque d'automates et de transducteurs finis pour la reconnaissance des déterminants numéraux cardinaux et ordinaux de l'anglais. L'intérêt de la création de bases lexicales pour les mots composés est vérifié dans deux types d'applications du TALN. Premièrement, nous présentons une méthode d'acquisition de terminologie, basée sur l'emploi de ressources terminologiques initiales. Deuxièmement, nous proposons un algorithme de correction orthographique des mots simples et composés, basé sur la consultation d'un dictionnaire sous format d'automate fini.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00626257 |
Date | 14 December 2000 |
Creators | Savary, Agata |
Publisher | Université Paris-Est |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.003 seconds