L'exploration de corpus à travers des requêtes fait aujourd'hui partie de la routine de nombreux chercheurs adoptant une approche empirique de la langue, mais aussi de non-spécialistes qui utilisent des moteurs de recherche ou des concordanciers dans le cadre de l'apprentissage d'une langue. Si les requêtes ainsi basées sur des mots-clés sont communes, les non-spécialistes semblent encore peu enclins à explorer des constructions syntaxiques. En effet, les requêtes syntaxiques requièrent souvent des connaissances spécifiques comme la maîtrise des expressions régulières, le langage de requête de l'outil utilisé, ou même simplement le jeu d'étiquettes morpho-syntaxiques du corpus étudié.Pour permettre aux apprenants de langue de se concentrer sur l'analyse des données langagières plutôt que sur la formulation de requêtes, nous proposons une méthodologie incluant un analyseur syntaxique et utilisant des mesures de similarité classiques pour comparer des séquences d'étiquettes syntaxiques ainsi obtenues de manière automatique. / Using queries to explore corpora is today part of the routine of not only researchers of various fields with an empirical approach to discourse, but also of non-specialists who use search engines or concordancers for language learning purposes. If keyword-based queries are quite common, non-specialists still seem to be less likely to explore syntactic constructions. Indeed, syntax-based queries usually require the use of regular expressions with grammatical words combined with morphosyntactic tags, which imply that users master both the query language of the tool and the tagset of the annotated corpus. However, non-specialists like language learners might want to focus on the output rather than spend time and efforts on mastering a query language.To address this shortcoming, we propose a methodology including a syntactic parser and using common similarity measures to compare sequences of morphosyntactic tags automatically provided.
Identifer | oai:union.ndltd.org:theses.fr/2017PA100092 |
Date | 17 October 2017 |
Creators | Wang, Ilaine |
Contributors | Paris 10, Kahane, Sylvain, Tellier, Isabelle |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0027 seconds