Les marqueurs illocutoires (MI) sont des unités lexicales indépendantes syntaxiquement qui réalisent des actes illocutoires expressifs, directifs ou assertifs. Ces mots-phrases, comme wow, coudon, franchement! et mon dieu!, nous apparaissent comme une des clés de l'expression de la subjectivité à l'oral en contexte de conversation.
L'analyse automatique de ces unités, leur identification et la détermination de leur sens par un système informatique, soulève des problèmes particuliers liés à leur polysémie, à leur comportement syntaxique et à leur relative faible fréquence dans les corpus actuellement disponibles. Dans cette thèse, nous cherchons à résoudre ces problèmes à l'aide du Corpus de français parlé au Québec (CFPQ) comme source de données, des librairies en Python du Natural Language Toolkit (NLTK) et de scikit-learn comme outils informatiques et des travaux réalisés dans les cadres de la Métalangue sémantique naturelle (MSN) et de la théorie Sens-Texte (TST) comme outils théoriques.
Suite à un état de la question au sujet des MI et du traitement automatique des marqueurs discursifs en général, nous présentons les résultats d'une expérience au sujet de l'identification automatique des MI ambigus présents dans le CFPQ. L'identification de certains MI est triviale parce que ceux-ci se présentent sous des formes qui ne sont pas ambiguës (chut et coudon, par exemple). L'identification des MI qui sont homonymes avec d'autres classes grammaticales (comme regarde et sérieux) est plus difficile. Nous voyons qu'il est possible de repérer ceux-ci à l'aide de méthodes automatiques qui obtiennent des f-mesures variant entre 75% et 100% selon les unités, avec une moyenne de 93,98% pour la meilleure méthode. Un étiqueteur à n-grammes et un classifieur de type SVM (support vector machine) sont les principaux outils informatiques utilisés par ces méthodes. L'étiqueteur à n-grammes est entraîné sur un ensemble d'étiquettes spécifiquement conçu pour favoriser l'identification des MI. Le classifieur SVM base principalement son entraînement et son analyse sur l'observation des textes et des résultats de l'étiqueteur à n-grammes.
Nous proposons ensuite un système de description sémantique modulaire des MI qui nous permet de décrire leurs signifiés par la combinaison de 17 paraphrases simples en langue naturelle.
Nous terminons notre étude par la présentation d'un exemple d'analyse de texte à l'aide du système d'identification et d'interprétation des MI développé au cours de la thèse.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/11579 |
Date | January 2017 |
Creators | Lapointe, Francis |
Contributors | Dostie, Gaétane, Lareau, François |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | French |
Detected Language | French |
Type | Thèse |
Rights | © Francis Lapointe, Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 2.5 Canada, http://creativecommons.org/licenses/by-nc-sa/2.5/ca/ |
Page generated in 0.0021 seconds