Spelling suggestions: "subject:"français (langue) -- homonymes"" "subject:"français (langue) -- toponymes""
1 |
Forces et faiblesses de l'utilisation de trigrams dans l'étiquetage automatique du français : exploration à partir des homographes de type verbe-substantifBrault, Frédérick 11 April 2018 (has links)
Ce mémoire porte sur l'étiquetage automatique de texte français, c'est-à-dire l'attribution, par un programme informatique appelé étiqueteur, de la nature grammaticale des mots d'un texte français. En particulier, ce mémoire explore les forces et les faiblesses de l'utilisation du modèle mathématique des trigrams pour cette tâche. L'efficacité du modèle des trigrams est évaluée à l'aide d'observations sur la désambiguïsation des homographes de type verbe/substantif en français, c'est-à-dire, des mots dont la graphie est la même selon qu'ils soient verbe ou substantif (ex. : ferme). Ce mémoire tente de répondre à trois questions : 1. Pourquoi les étiqueteurs à modèle mathématique comme les trigrams réussissent-ils à 95%? 2. Qu'est-ce qui empêche d'améliorer ces performances? 3. Comment des connaissances linguistiques peuvent-elles permettre d'améliorer ces performances? / En rapport à ces questions, les résultats obtenus lors de ces travaux montrent que : 1. les structures syntaxiques sont suffisamment récurrentes pour permettre aux trigrams de saisir en grande partie les règles syntaxiques nécessaires à la désambiguïsation; 2. le calcul d'un taux de succès général dissimule, d'un point de vue linguistique, des décisions incohérentes du modèle des trigrams qu'ils seraient difficile de rectifier simplement en modifiant les trigrams; 3. la connaissance de contraintes syntaxiques permet d'analyser plus en détail le comportement du modèle des trigrams et de suggérer, en conséquence, des solutions pour améliorer le taux de succès d'un étiqueteur.
|
Page generated in 0.3118 seconds