Spelling suggestions: "subject:"corelations lexicale"" "subject:"corelations lexical""
1 |
Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatique / Evaluation of resources provided by automatic distributional analysis : a linguistic approachMorlane-Hondère, François 10 July 2013 (has links)
Dans cette thèse, nous abordons du point de vue linguistique la question de l'évaluation des bases lexicales extraites par analyse distributionnelle automatique (ADA). Les méthodes d'évaluation de ces ressources qui sont actuellement mises en œuvre (comparaison à des lexiques de référence, évaluation par la tâche, test du TOEFL...) relèvent en effet d'une approche quantitative des données qui ne laisse que peu de place à l'interprétation des rapprochements générés. De ce fait, les conditions qui font que certains couples de mots sont extraits alors que d'autres ne le sont pas restent mal connues. Notre travail vise une meilleure compréhension des fonctionnements en corpus qui régissent les rapprochements distributionnels. Pour cela, nous avons dans un premier temps adopté une approche quantitative qui a consisté à comparer plusieurs ressources distributionnelles calculées sur des corpus différents à des lexiques de références (le Dictionnaire électronique des synonymes du CRISCO et le réseau lexical JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une estimation globale du contenu de nos ressources, et, deuxièmement, de sélectionner des échantillons de couples de mots à étudier d'un point de vue qualitatif. Cette deuxième étape constitue le cœur de la thèse. Nous avons choisi de nous focaliser sur les relations lexico-sémantiques que sont la synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons en mettant en place quatre protocoles différents. En nous appuyant sur les relations contenues dans les lexiques de référence, nous avons comparé les propriétés distributionnelles des couples de synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour plusieurs phénomènes qui favorisent ou bloquent la substituabilité des couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont considérés au regard de paramètres comme la nature du corpus qui a permis de générer les bases distributionnelles étudiées (corpus encyclopédique, journalistique ou littéraire) ou les limites des lexiques de référence. Ainsi, en même temps qu'il questionne les méthodes d'évaluation des bases distributionnelles actuellement employées, ce travail de thèse illustre l'intérêt qu'il y a à considérer ces ressources comme des objets d'études linguistiques à part entière. Les bases distributionnelles sont en effet le résultat d'une mise en œuvre à grande échelle du principe de substituabilité, ce qui en fait un matériau de choix pour la description des relations lexico-sémantiques. / In this thesis, we address the question of the evaluation of distributional thesauri from a linguistic point of view. The most current ways to evaluate distributional methods rely on the comparison with gold standards like WordNet or semantic tasks like the TOEFL test. However, these evaluation methods are quantitative and thus restrict the possibility of performing a linguistic analysis of the distributional neighbours. Our work aims at a better understanding of the distributional behaviors of words in texts through the study of distributional thesauri. First, we take a quantitative approach based on a comparison of several distributional thesauri with gold standards (the DES - a dictionary of synonyms - and JeuxDeMots - a crowdsourced lexical network). This step allowed us to have an overview of the nature of the semantic relations extracted in our distributional thesauri. In a second step, we relied on this comparison to select samples of distributional neighbours for a qualitative study. We focused on "classical" semantic relations, e.g. synonymy, antonymy, hypernymy and meronymy. We considered several protocols to compare the properties of the couples of distributional neighbours which were found in the gold standards and the others. Thus, taking into account parameters like the nature of the corpora from which were generated our distributional thesauri, we explain why some synonyms, hypernyms, etc. can be substituted in texts while others cannot. The purpose of this work is twofold. First, it questions the traditional evaluation methods, then it shows how distributional thesauri can be used for the study of semantic relations.
|
2 |
Apprentissage sur corpus de relations lexicales sémantiques - La linguistique et l'apprentissage au service d'applications du traitement automatique des languesSébillot, Pascale 13 December 2002 (has links) (PDF)
Le document présente une synthèse des recherches que nous avons menées sur le thème de l'acquisition de ressources lexicales à partir de corpus textuels. Plus particulièrement, ces travaux portent sur le développement de méthodes d'apprentissage automatique de relations lexicales sémantiques, ayant pour objectif d'enrichir la description de mots dans une double optique de désambiguïsation et de traitement de variantes sémantiques intra- et intercatégorielles, et susceptibles d'être utilisées au sein de différentes applications (recherche d'information, filtrage...). Nos études se caractérisent particulièrement par le fort couplage que nous recherchons entre les méthodes d'apprentissage développées et des théories linguistiques. Ces théories nous servent de cadres pour déterminer les relations lexicales pertinentes, valider ce qui est acquis, voire mettre au point la méthode d'apprentissage nécessaire à cette acquisition; de plus, les éléments appris doivent être linguistiquement motivés et significatifs. Ainsi, nous décrivons comment, en nous positionnant dans le cadre de la sémantique interprétative de F. Rastier, nous cherchons à apprendre, par des méthodes statistiques (en particulier de classification ascendante hiérarchique), des liens paradigmatiques intracatégoriels - antonymie, synonymie..., mais aussi d'autres liens plus fins de type sémique - à partir de corpus non spécialisés. D'autre part, nous expliquons comment, en contrôlant leur pertinence grâce au formalisme du Lexique génératif de J. Pustejovsky, nous acquérons par de l'apprentissage symbolique de type programmation logique inductive des liens transcatégoriels nomino-verbaux. Parmi les perspectives évoquées en conclusion, nous abordons en particulier les questions soulevées lorsque l'on s'intéresse à l'insertion des relations acquises dans un système de recherche d'information pour reformuler des requêtes, ainsi que celles concernant l'évaluation des apports de ces ressources lexicales. Nous discutons également de la pertinence de l'utilisation de méthodes d'apprentissage explicative pour acquérir des informations en corpus.
|
3 |
Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatiqueMorlane-Hondère, François 10 July 2013 (has links) (PDF)
Dans cette thèse, nous abordons du point de vue linguistique la question de l'évaluation des bases lexicales extraites par analyse distributionnelle automatique (ADA). Les méthodes d'évaluation de ces ressources qui sont actuellement mises en œuvre (comparaison à des lexiques de référence, évaluation par la tâche, test du TOEFL...) relèvent en effet d'une approche quantitative des données qui ne laisse que peu de place à l'interprétation des rapprochements générés. De ce fait, les conditions qui font que certains couples de mots sont extraits alors que d'autres ne le sont pas restent mal connues. Notre travail vise une meilleure compréhension des fonctionnements en corpus qui régissent les rapprochements distributionnels. Pour cela, nous avons dans un premier temps adopté une approche quantitative qui a consisté à comparer plusieurs ressources distributionnelles calculées sur des corpus différents à des lexiques de références (le Dictionnaire électronique des synonymes du CRISCO et le réseau lexical JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une estimation globale du contenu de nos ressources, et, deuxièmement, de sélectionner des échantillons de couples de mots à étudier d'un point de vue qualitatif. Cette deuxième étape constitue le cœur de la thèse. Nous avons choisi de nous focaliser sur les relations lexico-sémantiques que sont la synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons en mettant en place quatre protocoles différents. En nous appuyant sur les relations contenues dans les lexiques de référence, nous avons comparé les propriétés distributionnelles des couples de synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour plusieurs phénomènes qui favorisent ou bloquent la substituabilité des couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont considérés au regard de paramètres comme la nature du corpus qui a permis de générer les bases distributionnelles étudiées (corpus encyclopédique, journalistique ou littéraire) ou les limites des lexiques de référence. Ainsi, en même temps qu'il questionne les méthodes d'évaluation des bases distributionnelles actuellement employées, ce travail de thèse illustre l'intérêt qu'il y a à considérer ces ressources comme des objets d'études linguistiques à part entière. Les bases distributionnelles sont en effet le résultat d'une mise en œuvre à grande échelle du principe de substituabilité, ce qui en fait un matériau de choix pour la description des relations lexico-sémantiques.
|
4 |
Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnementBernier-Colborne, Gabriel 08 1900 (has links)
L’analyse des relations lexicales est une des étapes principales du travail terminologique. Cette tâche, qui consiste à établir des liens entre des termes dont les sens sont reliés, peut être facilitée par des méthodes computationnelles, notamment les techniques de la sémantique distributionnelle. En estimant la similarité sémantique des mots à partir
d’un corpus, ces techniques peuvent faciliter l’analyse des relations lexicales.
La qualité des résultats offerts par les méthodes distributionnelles dépend, entre autres, des nombreuses décisions qui doivent être prises lors de leur mise en œuvre, notamment le choix et le paramétrage du modèle. Ces décisions dépendent, à leur tour, de divers facteurs liés à l’objectif visé, tels que la nature des relations lexicales que l’on souhaite détecter; celles-ci peuvent comprendre des relations paradigmatiques classiques telles que la (quasi-)synonymie (p. ex. conserver -> préserver), mais aussi d’autres relations telles que la dérivation syntaxique (p. ex. conserver -> conservation).
Cette thèse vise à développer un cadre méthodologique basé sur la sémantique distributionnelle pour l’analyse des relations lexicales à partir de corpus spécialisés. À cette fin, nous vérifions comment le choix, le paramétrage et l’interrogation d’un modèle distributionnel doivent tenir compte de divers facteurs liés au projet terminologique envisagé : le cadre descriptif adopté, les relations ciblées, la partie du discours des termes à décrire et la langue traitée (en l’occurrence, le français ou l’anglais).
Nous montrons que deux des relations les mieux détectées par l’approche distributionnelle sont la (quasi-)synonymie et la dérivation syntaxique, mais que les modèles qui captent le mieux ces deux types de relations sont très différents. Ainsi, les relations ciblées ont une influence importante sur la façon dont on doit paramétrer le modèle pour obtenir les meilleurs résultats possibles.
Un autre facteur à considérer est la partie du discours des termes à décrire. Nos résultats indiquent notamment que les relations entre verbes sont moins bien modélisées par cette approche que celles entre adjectifs ou entre noms.
Le cadre descriptif adopté pour un projet terminologique est également un facteur important à considérer lors de l’application de l’approche distributionnelle. Dans ce travail, nous comparons deux cadres descriptifs, l’un étant basé sur la sémantique lexicale et l’autre, sur la sémantique des cadres. Nos résultats indiquent que les méthodes distributionnelles détectent les termes qui évoquent le même cadre sémantique moins bien que certaines relations lexicales telles que la synonymie. Nous montrons que cet écart est attribuable au fait que les termes qui évoquent des cadres sémantiques comprennent une proportion importante de verbes et aux différences importantes entre les modèles qui produisent les meilleurs résultats pour la dérivation syntaxique et les relations paradigmatiques classiques telles que la synonymie.
En somme, nous évaluons deux modèles distributionnels différents, analysons systématiquement l’influence de leurs paramètres et vérifions comment cette influence varie en fonction de divers aspects du projet terminologique. Nous montrons de nombreux exemples de voisinages distributionnels, que nous explorons au moyen de graphes, et discutons les sources d’erreurs. Ce travail fournit ainsi des balises importantes pour l’application de méthodes distributionnelles dans le cadre du travail terminologique. / Identifying semantic relations is one of the main tasks involved in terminology work. This task, which aims to establish links between terms whose meanings are related, can be assisted by computational methods, including those based on distributional semantics. These methods estimate the semantic similarity of words based on corpus data, which can help terminologists identify semantic relations.
The quality of the results produced by distributional methods depends on several decisions that must be made when applying them, such as choosing a model and selecting its parameters. In turn, these decisions depend on various factors related to the target application, such as the types of semantic relations one wishes to identify. These can include typical paradigmatic relations such as (near-)synonymy (e.g. preserve -> protect), but also other relations such as syntactic derivation (e.g. preserve -> preservation).
This dissertation aims to further the development of a methodological framework based on distributional semantics for the identification of semantic relations using specialized corpora. To this end, we investigate how various aspects of terminology work must be accounted for when selecting a distributional semantic model and its parameters, as well as those of the method used to query the model. These aspects include the descriptive framework, the target relations, the part of speech of the terms being described, and the language (in this case, French or English).
Our results show that two of the relations that distributional semantic models capture most accurately are (near-)synonymy and syntactic derivation. However, the models that produce the best results for these two relations are very different. Thus, the target relations are an important factor to consider when choosing a model and tuning it to obtain the most accurate results.
Another factor that should be considered is the part of speech of the terms that are being worked on. Among other things, our results suggest that relations between verbs are not captured as accurately as those between nouns or adjectives by distributional semantic models.
The descriptive framework used for a given project is also an important factor to consider. In this work, we compare two descriptive frameworks, one based on lexical semantics and another based on frame semantics. Our results show that terms that evoke the same semantic frame are not captured as accurately as certain semantic relations, such as synonymy. We show that this is due to (at least) two reasons: a high percentage of frame-evoking terms are verbs, and the models that capture syntactic derivation most accurately are very different than those that work best for typical paradigmatic relations such as synonymy.
In summary, we evaluate two different distributional semantic models, we analyze the influence of their parameters, and we investigate how this influence varies with respect to various aspects of terminology work. We show many examples of distributional neighbourhoods, which we explore using graphs, and discuss sources of noise. This dissertation thus provides important guidelines for the use of distributional semantic models for terminology work.
|
5 |
Modèle de structuration des relations lexicales fondé sur le formalisme des fonctions lexicalesJousse, Anne-Laure 04 1900 (has links)
Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7) / Cette thèse porte sur l’élaboration d’un modèle de structuration des relations lexicales, fondé sur les fonctions lexicales de la Théorie Sens-Texte [Mel’cuk, 1997]. Les relations lexicales considérées sont les dérivations sémantiques et les collocations telles qu’elles sont définies dans le cadre de la Lexicologie Explicative et Combinatoire [Mel’cuk et al., 1995]. En partant du constat que ces relations lexicales ne sont pas décrites ni présentées de façon satisfaisante dans les bases de données lexicales, nous posons la nécessité d’en créer un modèle de structuration.
Nous justifions l’intérêt de créer un système de fonctions lexicales puis détaillons les quatre perspectives du système que nous avons mises au point : une perspective sémantique, une perspective axée sur la combinatoire des éléments d’une relation lexicale, une perspective centrée sur leurs parties du discours, ainsi qu’une perspective mettant en avant l’élément sur lequel se focalise la relation. Le système intègre l’ensemble des fonctions lexicales, y compris les fonctions lexicales non standard, dont nous proposons une normalisation de l’encodage.
Le système a été implémenté dans la base de données lexicale du DiCo. Nous
présentons trois applications dans lesquelles il peut être exploité. Premièrement, il est possible d’en dériver des interfaces de consultation pour les bases de données lexicales de type DiCo. Le système peut également être directement consulté en tant qu’assistant à l’encodage des relations lexicales. Enfin, il sert de référence pour effectuer un certain nombre de calculs sur les informations lexicographiques, qui pourront, par la suite, être implémentés pour automatiser la rédaction de certains champs de fiches lexicographiques. / This thesis proposes a model for structuring lexical relations, based on the concept of lexical functions (LFs) proposed in Meaning-Text Theory [Mel’cuk, 1997]. The lexical relations taken into account include semantic derivations and collocations as defined within this theoretical framework, known as Explanatory and Combinatorial Lexicology [Mel’cuk et al., 1995]. Considering the assumption that lexical relations are neither encoded nor made available in lexical databases in an entirely satisfactory manner, we assume the necessity of designing a new model for structuring them.
First of all, we justify the relevance of devising a system of lexical functions rather than a simple classification. Next, we present the four perspectives developped in the system: a semantic perspective, a combinatorial one, another one targetting the parts of speech of the elements involved in a lexical relation, and, finally, a last one emphasizing which element of the relation is focused on. This system covers all LFs, even non-standard ones, for which we have proposed a normalization of the encoding.
Our system has already been implemented into the DiCo relational database. We
propose three further applications that can be developed from it. First, it can be used to build browsing interfaces for lexical databases such as the DiCo. It can also be directly consulted as a tool to assist lexicographers in encoding lexical relations by means of lexical functions. Finally, it constitutes a reference to compute lexicographic information which will, in future work, be implemented in order to automatically fill in some fields within the entries in lexical databases.
|
6 |
Modèle de structuration des relations lexicales fondé sur le formalisme des fonctions lexicalesJousse, Anne-Laure 04 1900 (has links)
Cette thèse porte sur l’élaboration d’un modèle de structuration des relations lexicales, fondé sur les fonctions lexicales de la Théorie Sens-Texte [Mel’cuk, 1997]. Les relations lexicales considérées sont les dérivations sémantiques et les collocations telles qu’elles sont définies dans le cadre de la Lexicologie Explicative et Combinatoire [Mel’cuk et al., 1995]. En partant du constat que ces relations lexicales ne sont pas décrites ni présentées de façon satisfaisante dans les bases de données lexicales, nous posons la nécessité d’en créer un modèle de structuration.
Nous justifions l’intérêt de créer un système de fonctions lexicales puis détaillons les quatre perspectives du système que nous avons mises au point : une perspective sémantique, une perspective axée sur la combinatoire des éléments d’une relation lexicale, une perspective centrée sur leurs parties du discours, ainsi qu’une perspective mettant en avant l’élément sur lequel se focalise la relation. Le système intègre l’ensemble des fonctions lexicales, y compris les fonctions lexicales non standard, dont nous proposons une normalisation de l’encodage.
Le système a été implémenté dans la base de données lexicale du DiCo. Nous
présentons trois applications dans lesquelles il peut être exploité. Premièrement, il est possible d’en dériver des interfaces de consultation pour les bases de données lexicales de type DiCo. Le système peut également être directement consulté en tant qu’assistant à l’encodage des relations lexicales. Enfin, il sert de référence pour effectuer un certain nombre de calculs sur les informations lexicographiques, qui pourront, par la suite, être implémentés pour automatiser la rédaction de certains champs de fiches lexicographiques. / This thesis proposes a model for structuring lexical relations, based on the concept of lexical functions (LFs) proposed in Meaning-Text Theory [Mel’cuk, 1997]. The lexical relations taken into account include semantic derivations and collocations as defined within this theoretical framework, known as Explanatory and Combinatorial Lexicology [Mel’cuk et al., 1995]. Considering the assumption that lexical relations are neither encoded nor made available in lexical databases in an entirely satisfactory manner, we assume the necessity of designing a new model for structuring them.
First of all, we justify the relevance of devising a system of lexical functions rather than a simple classification. Next, we present the four perspectives developped in the system: a semantic perspective, a combinatorial one, another one targetting the parts of speech of the elements involved in a lexical relation, and, finally, a last one emphasizing which element of the relation is focused on. This system covers all LFs, even non-standard ones, for which we have proposed a normalization of the encoding.
Our system has already been implemented into the DiCo relational database. We
propose three further applications that can be developed from it. First, it can be used to build browsing interfaces for lexical databases such as the DiCo. It can also be directly consulted as a tool to assist lexicographers in encoding lexical relations by means of lexical functions. Finally, it constitutes a reference to compute lexicographic information which will, in future work, be implemented in order to automatically fill in some fields within the entries in lexical databases. / Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7)
|
Page generated in 0.1085 seconds