Return to search

Forces et faiblesses de l'utilisation de trigrams dans l'étiquetage automatique du français. Exploration à partir des homographes de type verbe-substantif

Ce mémoire porte sur l’étiquetage automatique de texte français, c’est-à-dire l’attribution, par un programme informatique appelé étiqueteur, de la nature grammaticale des mots d’un texte français. En particulier, ce mémoire explore les forces et les faiblesses de l’utilisation du modèle mathématique des trigrams pour cette tâche. L’efficacité du modèle des trigrams est évaluée à l’aide d’observations sur la désambiguïsation des homographes de type verbe/substantif en français, c’est-à-dire, des mots dont la graphie est la même selon qu’ils soient verbe ou substantif (ex. : ferme).
Ce mémoire tente de répondre à trois questions :
1. Pourquoi les étiqueteurs à modèle mathématique comme les trigrams réussissent-ils à 95%?
2. Qu’est-ce qui empêche d’améliorer ces performances?
3. Comment des connaissances linguistiques peuvent-elles permettre d’améliorer ces performances?

En rapport à ces questions, les résultats obtenus lors de ces travaux montrent que :
1. les structures syntaxiques sont suffisamment récurrentes pour permettre aux trigrams de saisir en grande partie les règles syntaxiques nécessaires à la désambiguïsation;
2. le calcul d’un taux de succès général dissimule, d’un point de vue linguistique, des décisions incohérentes du modèle des trigrams qu’ils seraient difficile de rectifier simplement en modifiant les trigrams;
3. la connaissance de contraintes syntaxiques permet d’analyser plus en détail le comportement du modèle des trigrams et de suggérer, en conséquence, des solutions pour améliorer le taux de succès d’un étiqueteur.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QQLA.2004/22111
Date10 1900
CreatorsBrault, Frédérick
ContributorsAuger, Pierre
PublisherUniversité Laval
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formattext/html, application/pdf
Rights© Frédérick Brault, 2004

Page generated in 0.0016 seconds