• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Distributional models of multiword expression compositionality prediction / Modèles distributionnels pour la prédiction de compositionnalité d’expressions polylexicales

Cordeiro, Silvio Ricardo 18 December 2017 (has links)
Les systèmes de traitement automatique des langues reposent souvent sur l'idée que le langage est compositionnel, c'est-à-dire que le sens d'une entité linguistique peut être déduite à partir du sens de ses parties. Cette supposition ne s’avère pas vraie dans le cas des expressions polylexicales (EPLs). Par exemple, une "poule mouillée" n'est ni une poule, ni nécessairement mouillée. Les techniques pour déduire le sens des mots en fonction de leur distribution dans le texte ont obtenu de bons résultats sur plusieurs tâches, en particulier depuis l'apparition des word embeddings. Cependant, la représentation des EPLs reste toujours un problème non résolu. En particulier, on ne sait pas comment prédire avec précision, à partir des corpus, si une EPL donnée doit être traitée comme une unité indivisible (p.ex. "carton plein") ou comme une combinaison du sens de ses parties (p.ex. "eau potable"). Cette thèse propose un cadre méthodologique pour la prédiction de compositionnalité d'EPLs fondé sur des représentations de la sémantique distributionnelle, que nous instancions à partir d’une variété de paramètres. Nous présenterons une évaluation complète de l'impact de ces paramètres sur trois nouveaux ensembles de données modélisant la compositionnalité d'EPLs, en anglais, français et portugais. Finalement, nous présenterons une évaluation extrinsèque des niveaux de compositionnalité prédits par le modèle dans le contexte d’un système d'identification d'EPLs. Les résultats suggèrent que le choix spécifique de modèle distributionnel et de paramètres de corpus peut produire des prédictions de compositionnalité qui sont comparables à celles présentées dans l'état de l'art. / Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a "sitting duck" is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. "nut case") or as some combination of the meaning of its parts (e.g. "engine room"). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art.
2

Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes

Constant, Matthieu 03 December 2012 (has links) (PDF)
Dans ce mémoire, nous nous attachons à retracer les différents travaux de recherche que nous avons menés depuis plus de 10 ans. L'un de nos objectifs principaux a été d'améliorer la finesse linguistique de différentes tâches du TAL en prenant en compte les expressions multi-mots. En particulier, notre idée directrice a été d'exploiter des ressources lexicales riches et de les coupler à différents modèles probabilistes ou différentes procédures hybrides. Nos travaux peuvent se découper en trois axes. Le premier axe porte sur l'étiquetage morphosyntaxique et l'analyse syntaxique. L'intégration de la reconnaissance des expressions multi-mots dans telles tâches a essentiellement consisté à adapter divers modèles probabilistes dédiés à ces tâches. Comme ces expressions sont, par définition, difficilement prédictibles, l'exploitation de ressources lexicales est primordiale pour leur reconnaissance. Nous avons donc été amené à trouver des stratégies d'intégration de ressources symboliques externes dans nos modèles. Le deuxième axe consiste à intégrer la reconnaissance d'expressions multi-mots dans des applications. Nous avons, en particulier, développé des applications liées au monde privé (extraction d'informations, classification) ou liées au monde académique (aide à la construction de lexiques bilingues ou à des études linguistiques). Dans tous les cas, nous nous sommes basé sur des prétraitements fins alimentés par des ressources lexicales riches. Le troisième axe concerne la construction de ressources linguistiques. En effet, le développement des outils décrits ci-dessus n'est possible que grâce à l'existence de ressources (corpus annotés ou lexiques). Or, les ressources autour des expressions multi-mots manquent cruellement ou sont incomplètes. Pour toutes les ressources développées, nous avons mené des études linguistiques fines et systématiques. Nous avons également mis en place un outillage informatique pour les gérer et les appliquer à des textes.

Page generated in 0.1165 seconds