Spelling suggestions: "subject:"< br /> catalyseur""
1 |
Outils d'exploration de corpus et désambiguïsation lexicale automatiqueAudibert, Laurent 15 December 2003 (has links) (PDF)
Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de<br />méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de<br />puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous<br />avons développé une bibliothèque \texttt{C\fup{++}} qui implémente un langage élaboré et expressif<br />d'interrogation de corpus, basé sur des \emph{méta-expressions régulières}. Dans une seconde<br />partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite<br />pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation,<br />basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à<br />l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression<br />des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de<br />meilleurs résultats que les unigrammes.
|
Page generated in 0.0639 seconds