Spelling suggestions: "subject:"3analyse distributionnelle"" "subject:"analanalyse distributionnelle""
1 |
Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatique / Evaluation of resources provided by automatic distributional analysis : a linguistic approachMorlane-Hondère, François 10 July 2013 (has links)
Dans cette thèse, nous abordons du point de vue linguistique la question de l'évaluation des bases lexicales extraites par analyse distributionnelle automatique (ADA). Les méthodes d'évaluation de ces ressources qui sont actuellement mises en œuvre (comparaison à des lexiques de référence, évaluation par la tâche, test du TOEFL...) relèvent en effet d'une approche quantitative des données qui ne laisse que peu de place à l'interprétation des rapprochements générés. De ce fait, les conditions qui font que certains couples de mots sont extraits alors que d'autres ne le sont pas restent mal connues. Notre travail vise une meilleure compréhension des fonctionnements en corpus qui régissent les rapprochements distributionnels. Pour cela, nous avons dans un premier temps adopté une approche quantitative qui a consisté à comparer plusieurs ressources distributionnelles calculées sur des corpus différents à des lexiques de références (le Dictionnaire électronique des synonymes du CRISCO et le réseau lexical JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une estimation globale du contenu de nos ressources, et, deuxièmement, de sélectionner des échantillons de couples de mots à étudier d'un point de vue qualitatif. Cette deuxième étape constitue le cœur de la thèse. Nous avons choisi de nous focaliser sur les relations lexico-sémantiques que sont la synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons en mettant en place quatre protocoles différents. En nous appuyant sur les relations contenues dans les lexiques de référence, nous avons comparé les propriétés distributionnelles des couples de synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour plusieurs phénomènes qui favorisent ou bloquent la substituabilité des couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont considérés au regard de paramètres comme la nature du corpus qui a permis de générer les bases distributionnelles étudiées (corpus encyclopédique, journalistique ou littéraire) ou les limites des lexiques de référence. Ainsi, en même temps qu'il questionne les méthodes d'évaluation des bases distributionnelles actuellement employées, ce travail de thèse illustre l'intérêt qu'il y a à considérer ces ressources comme des objets d'études linguistiques à part entière. Les bases distributionnelles sont en effet le résultat d'une mise en œuvre à grande échelle du principe de substituabilité, ce qui en fait un matériau de choix pour la description des relations lexico-sémantiques. / In this thesis, we address the question of the evaluation of distributional thesauri from a linguistic point of view. The most current ways to evaluate distributional methods rely on the comparison with gold standards like WordNet or semantic tasks like the TOEFL test. However, these evaluation methods are quantitative and thus restrict the possibility of performing a linguistic analysis of the distributional neighbours. Our work aims at a better understanding of the distributional behaviors of words in texts through the study of distributional thesauri. First, we take a quantitative approach based on a comparison of several distributional thesauri with gold standards (the DES - a dictionary of synonyms - and JeuxDeMots - a crowdsourced lexical network). This step allowed us to have an overview of the nature of the semantic relations extracted in our distributional thesauri. In a second step, we relied on this comparison to select samples of distributional neighbours for a qualitative study. We focused on "classical" semantic relations, e.g. synonymy, antonymy, hypernymy and meronymy. We considered several protocols to compare the properties of the couples of distributional neighbours which were found in the gold standards and the others. Thus, taking into account parameters like the nature of the corpora from which were generated our distributional thesauri, we explain why some synonyms, hypernyms, etc. can be substituted in texts while others cannot. The purpose of this work is twofold. First, it questions the traditional evaluation methods, then it shows how distributional thesauri can be used for the study of semantic relations.
|
2 |
Voisinage lexical pour l'analyse du discours / Lexical neighbours for discourse analysisAdam, Clémentine 28 September 2012 (has links)
Cette thèse s'intéresse au rôle de la cohésion lexicale dans différentes approches de l'analyse du discours. Nous yexplorons deux hypothèses principales:- l'analyse distributionnelle, qui permet de rapprocher des unités lexicales sur la base des contextes syntaxiques qu'ellespartagent, met au jour des relations sémantiques variées pouvant être exploitées pour la détection de la cohésion lexicaledes textes;- les indices lexicaux constituent des éléments de signalisation de l'organisation du discours pouvant être exploités aussibien à un niveau local (identification de relations rhétoriques entre constituants élémentaires du discours) qu'à un niveauglobal (repérage ou caractérisation de segments de niveau supérieur dotés d'une fonction rhétorique et garantissant lacohérence et la lisibilité du texte, par exemple passages à unité thématique).Concernant le premier point, nous montrons la pertinence d'une ressource distributionnelle pour l'appréhension d'une largegamme de relations impliquées dans la cohésion lexicale des textes. Nous présentons les méthodes de projection et defiltrage que nous avons mises en œuvre pour la production de sorties exploitables.Concernant le second point, nous fournissons une série d'éclairages qui montrent l'apport d'une prise en compte réfléchiede la cohésion lexicale pour une grande variété de problématiques liées à l'étude et au repérage automatique del'organisation textuelle: segmentation thématique de textes, caractérisation des structures énumératives, étude de lacorrélation entre lexique et structure rhétorique du discours et enfin détection de réalisations d'une relation de discoursparticulière, la relation d'élaboration. / This thesis considers the role of lexical cohesion in various approaches of discourse analysis. Two main hypotheses arestudied:- distributional analysis, which allows to bring together lexical units based on the syntactic contexts they share, highlightsdiverse semantic relations which can be employed in the detection of lexical cohesion in texts;- lexical cues are involved in discourse signalization and can be used both at a local level (identification of rhetoricalrelations between elementary discourse units) and at a global level (detection or characterization of higher levelsegments).In reference to the first hypothesis, we show that a distributional resource is strongly relevant in the analysis of a widepanel of relations having lexical cohesion roles in texts. We introduce projection and filtering methods for thisdistributional resource.In reference to the second hypothesis, we provide a series of outlooks showing the improvement brought by carefulconsideration of lexical cohesion in a large panel of settings within the study of textual organisation and its automaticdetection: thematic segmentation of texts, enumerative structures characterization, study of the correlation betweenlexicon and the rhetorical structure of discourse, and finally detection of realisations of a specific discourse relation, theElaboration relation.
|
3 |
Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatiqueMorlane-Hondère, François 10 July 2013 (has links) (PDF)
Dans cette thèse, nous abordons du point de vue linguistique la question de l'évaluation des bases lexicales extraites par analyse distributionnelle automatique (ADA). Les méthodes d'évaluation de ces ressources qui sont actuellement mises en œuvre (comparaison à des lexiques de référence, évaluation par la tâche, test du TOEFL...) relèvent en effet d'une approche quantitative des données qui ne laisse que peu de place à l'interprétation des rapprochements générés. De ce fait, les conditions qui font que certains couples de mots sont extraits alors que d'autres ne le sont pas restent mal connues. Notre travail vise une meilleure compréhension des fonctionnements en corpus qui régissent les rapprochements distributionnels. Pour cela, nous avons dans un premier temps adopté une approche quantitative qui a consisté à comparer plusieurs ressources distributionnelles calculées sur des corpus différents à des lexiques de références (le Dictionnaire électronique des synonymes du CRISCO et le réseau lexical JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une estimation globale du contenu de nos ressources, et, deuxièmement, de sélectionner des échantillons de couples de mots à étudier d'un point de vue qualitatif. Cette deuxième étape constitue le cœur de la thèse. Nous avons choisi de nous focaliser sur les relations lexico-sémantiques que sont la synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons en mettant en place quatre protocoles différents. En nous appuyant sur les relations contenues dans les lexiques de référence, nous avons comparé les propriétés distributionnelles des couples de synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour plusieurs phénomènes qui favorisent ou bloquent la substituabilité des couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont considérés au regard de paramètres comme la nature du corpus qui a permis de générer les bases distributionnelles étudiées (corpus encyclopédique, journalistique ou littéraire) ou les limites des lexiques de référence. Ainsi, en même temps qu'il questionne les méthodes d'évaluation des bases distributionnelles actuellement employées, ce travail de thèse illustre l'intérêt qu'il y a à considérer ces ressources comme des objets d'études linguistiques à part entière. Les bases distributionnelles sont en effet le résultat d'une mise en œuvre à grande échelle du principe de substituabilité, ce qui en fait un matériau de choix pour la description des relations lexico-sémantiques.
|
4 |
Voisinage lexical pour l'analyse du discoursAdam, Clémentine 28 September 2012 (has links) (PDF)
Cette thèse s'intéresse au rôle de la cohésion lexicale dans différentes approches de l'analyse du discours. Nous yexplorons deux hypothèses principales:- l'analyse distributionnelle, qui permet de rapprocher des unités lexicales sur la base des contextes syntaxiques qu'ellespartagent, met au jour des relations sémantiques variées pouvant être exploitées pour la détection de la cohésion lexicaledes textes;- les indices lexicaux constituent des éléments de signalisation de l'organisation du discours pouvant être exploités aussibien à un niveau local (identification de relations rhétoriques entre constituants élémentaires du discours) qu'à un niveauglobal (repérage ou caractérisation de segments de niveau supérieur dotés d'une fonction rhétorique et garantissant lacohérence et la lisibilité du texte, par exemple passages à unité thématique).Concernant le premier point, nous montrons la pertinence d'une ressource distributionnelle pour l'appréhension d'une largegamme de relations impliquées dans la cohésion lexicale des textes. Nous présentons les méthodes de projection et defiltrage que nous avons mises en œuvre pour la production de sorties exploitables.Concernant le second point, nous fournissons une série d'éclairages qui montrent l'apport d'une prise en compte réfléchiede la cohésion lexicale pour une grande variété de problématiques liées à l'étude et au repérage automatique del'organisation textuelle: segmentation thématique de textes, caractérisation des structures énumératives, étude de lacorrélation entre lexique et structure rhétorique du discours et enfin détection de réalisations d'une relation de discoursparticulière, la relation d'élaboration.
|
Page generated in 0.1269 seconds