• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Outils d'exploration de corpus et désambiguïsation lexicale automatique

Audibert, Laurent 15 December 2003 (has links) (PDF)
Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de<br />méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de<br />puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous<br />avons développé une bibliothèque \texttt{C\fup{++}} qui implémente un langage élaboré et expressif<br />d'interrogation de corpus, basé sur des \emph{méta-expressions régulières}. Dans une seconde<br />partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite<br />pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation,<br />basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à<br />l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression<br />des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de<br />meilleurs résultats que les unigrammes.

Page generated in 0.081 seconds