Global ETD Search

Return to search

Outils d'exploration de corpus et désambiguïsation lexicale automatique

Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque \texttt{C\fup{++}} qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des \emph{méta-expressions régulières}. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes.

Désambiguïsation lexicale automatique

traitement automatique des langues

con\-cordancier

analyseur

expression régulière

corpus lexicalement étiqueté

apprentissage supervisé

cooccurrences

n-grammes

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00095469
Date	15 December 2003
Creators	Audibert, Laurent
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0016 seconds

Outils d'exploration de corpus et désambiguïsation lexicale automatique

Description

Links & Downloads

Tags

Additional Fields