• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 42
  • 8
  • 3
  • 2
  • Tagged with
  • 58
  • 30
  • 17
  • 16
  • 15
  • 14
  • 13
  • 13
  • 11
  • 10
  • 10
  • 9
  • 9
  • 9
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Gestion et extension automatiques du dictionnaire relationnel multilingues de noms propres Prolexbase : mise à jour multilingues et création d'un volume arabe via la Wikipédia / Automatic management and extension of the multilingual relational dictionary of proper names Prolexbase : multilingual updates and creation of an arabic volume via Wikipedia

Elashter, Mouna 04 July 2017 (has links)
Les bases de données lexicales jouent un grand rôle dans le TAL, mais, elles nécessitent un développement et un enrichissement permanents via l’exploitation des ressources libres du web sémantique, entre autres, l’encyclopédie Wikipédia, DBpedia, Geonames et Yago2. Prolexbase, comporte à ce jour dix langues, trois parmi elles sont bien couvertes : le francais, l’anglais et le polonais. Il a été conçu manuellement et une première tentative semi-automatique a été réalisée par le projet ProlexFeeder (Savary et al. 2013). L’objectif de notre travail était d’élaborer un outil de mise à jour et d’extension automatiques de ce lexique, et l'ajout de la langue arabe. Un système automatique a également été mis en place pour calculer via la Wikipédia l’indice de notoriété des entrées de Prolexbase ; cet indice dépend de la langue et participe, d'une part, à la construction d'un module de Prolexbase pour la langue arabe et, d'autre part, à la révision de la notoriété présente pour les autres langues de la base. / Lexical databases play a significant role in natural language processing (NLP), however, they require permanent development and enrichment through the exploitation of free resources from the semantic web, among others, Wikipedia, DBpedia, Geonames and Yago2. Prolexbase, which issued of numerous studies on NLP, has ten languages, three of which are well covered: French, English and Polish. It was manually designed; the first semiautomatic attempt was made by the ProlexFeeder project (Savary et al., 2013). The objective of our work was to create an automatic updating and extension tool for Prolexbase, and to introduce the Arabic language. In addition, a fully automatic system has been implemented to calculate, via Wikipedia, the notoriety of the entries of Prolexbase. This notoriety is language dependent, is the first step in the construction of an Arabic module of Prolexbase, and it takes a part in the notoriety revision currently present for the other languages in the database.
22

Diferencias entre lenguaje de chats de habla española y español estándar escrito — aspectos ortográficos, gramaticales y lexicales —

Karlsson, Ida January 2007 (has links)
Síntesis: La presente tesina es un estudio sobre lenguaje de chats entre jóvenes españoles y latinoamericanos entre 20 y 30 años. El propósito es investigar si el lenguaje que usan comunicándose por los chats es diferente al español escrito estándar respecto a sobre todo ortografía, gramática y léxico. El primer capítulo de la tesina empieza por la presentación de la hipótesis y los objetivos de la misma, para seguir con el trasfondo científico y el marco teórico en los cuales se hace referencia a tres autores sociolingüistas de modo que más adelante se pueda ponerlos en relación con el lenguaje chat. A continuación se encuentra una descripción del corpus, el método empleado para llevar a cabo el trabajo, y finalmente un breve resumen. El segundo capítulo consiste en la presentación de los resultados, comentando las encuestas y los gráficos hechos a partir de ellas. En el tercer capítulo se analizan los resultados en relación con los antecedentes científicos, y en el cuarto se exponen, para concluir, las conclusiones sacadas al terminar el estudio. Las dos principales conclusiones son, en primer lugar, que en cuanto a ortografía, gramática y sintaxis, el lenguaje chat sí se distingue del lenguaje español tradicional escrito, y, en segundo lugar, que entre las abreviaturas de origen latinoamericano se encuentran palabras que no se conocen en España. Hipótesis: La primera y principal hipótesis establecida al iniciar el trabajo de la tesina, es que el lenguaje de chats españoles y latinoamericanos se distingue considerablemente del lenguaje español tradicional escrito en cuanto a ortografía, léxico, gramática y sintaxis. Una segunda hipótesis es que existen diferencias entre hombres y mujeres respecto al uso de dicho lenguaje, y que en Latinoamérica se encuentra un gran número de abreviaturas dentro del lenguaje propio del chat que no se conocen en España. Objetivo y propósito: El objetivo ha sido observar y analizar la comunicación entre jóvenes en chats españoles y latinoamericanos con el propósito de investigar si el lenguaje que se usa comunicándose por éstos es diferente al español escrito estándar, así como averiguar en qué medida y de qué manera se presenta dicho fenómeno. También se ha procurado investigar cuáles son las abreviaturas más frecuentes entre las que pueden aparecer en los chats.
23

Les représentations de la norme lexicale dans l'enseignement du français langue maternelle au secondaire : le point de vue d'enseignants québécois

Guimond-Villeneuve, Joannie January 2015 (has links)
Résumé : En raison de la concurrence qu’il y a au Québec entre une norme québécoise et une norme internationale, les questionnements normatifs sont nombreux chez les professionnels de la langue, et tout particulièrement chez les enseignants de français. Dans cette étude, nous avons cherché à voir comment les représentations de la norme lexicale chez les professeurs de français langue d’enseignement au secondaire se manifestent dans leur discours à partir d’usages dont la valeur normative n’est pas clairement définie. Pour ce faire, nous avons mené des entrevues auprès de 20 enseignants et enseignantes de français au deuxième cycle du secondaire au Québec au cours desquelles nous leur avons demandé de corriger de courts textes et de justifier leurs corrections. Puis, nous les avons interrogés sur leur conception de la norme lexicale écrite et sur leurs positions normatives à l’endroit de diverses catégories d’emplois lexicaux. Il en ressort que cette norme est le français québécois standard tel qu’on peut le dégager des dictionnaires les plus usuels ou encore perçu selon l’intuition linguistique des participants. Ce français se distingue du français oral et il exclut les anglicismes critiqués, les mots vulgaires, les impropriétés et les barbarismes. Si certains types d’emplois sont clairement jugés non compatibles avec la norme, d’autres donnent lieu à des prises de position normatives moins tranchées, plus instables. Ainsi, les néologismes, les archaïsmes, les mots familiers et les emprunts peuvent être acceptés, selon la situation de communication et selon des critères comme l’usage et l’absence de synonyme. Le modèle de l’Imaginaire linguistique d’Houdebine nous a servi de grille pour catégoriser et analyser les représentations linguistiques observées dans le discours des participants. Cette analyse révèle que les enseignants s’appuient principalement sur des critères d’ordre prescriptif et constatif, soit le dictionnaire et l’usage, et parfois aussi sur d’autres critères comme la précision, l’intercompréhension, la fréquence ou la valeur identitaire de certains usages lexicaux pour décider de les corriger ou de les accepter lors de la correction de productions écrites. / Abstract : Due to a competition between two linguistic norms in Quebec, a Quebec norm and an international norm, language professionals – especially French teachers – often deal with prescriptive questions. Our study aims at studying how high school French language teachers’ attitudes towards the lexical norm are reflected in their discourse based on examples of uses without a clearly defined prescriptive value. To do so, we conducted individual interviews with 20 Secondary French teachers (Cycle Two) in Quebec. During these interviews, they were asked to correct short texts and to justify their corrections. Then, they were questioned on their conception of the written lexical norm and on their normative positions towards various categories of lexical uses. This research reveals that their norm is the Quebec French standard as it is described in dictionaries or, in many cases, perceived according to the informant’s linguistic intuition. This French variety is distinguished from spoken French and excludes criticized anglicisms, coarse language, language errors and barbarisms. Although some categories of uses are clearly deemed incompatible with the norm, not all categories are given a clear-cut, stable stand. Thus, neologisms, archaisms, colloquial words and loanwords may be accepted, depending on the context and based on certain criteria such as usage and non-existence of synonyms. Houdebine’s model of linguistic imaginary served as a grid to classify and analyze the linguistic representations observed in the participants’ discourse. This analysis shows that teachers rely heavily on prescriptive and constative criteria, that is to say dictionaries and usage, and sometimes also on other criteria such as accuracy, mutual understanding, frequency or identity value of some lexical uses in order to decide whether to correct them or not while assessing written productions.
24

Analyse syntaxique probabiliste en dépendances : approches efficaces à large contexte avec ressources lexicales distributionnelles

Henestroza Anguiano, Enrique 27 June 2013 (has links) (PDF)
Cette thèse présente des méthodes pour améliorer l'analyse syntaxique probabiliste en dépendances. Nous employons l'analyse à base de transitions avec une modélisation effectuée par des machines à vecteurs supports (Cortes and Vapnik, 1995), et nos expériences sont réalisées sur le français. L'analyse a base de transitions est rapide, de par la faible complexité des algorithmes sous-jacents, eux mêmes fondés sur une optimisation locale des décisions d'attachement. Ainsi notre premier fil directeur est d'élargir le contexte syntaxique utilisé. Partant du système de transitions arc-eager (Nivre, 2008), nous proposons une variante qui considère simultanément plusieurs gouverneurs candidats pour les attachements à droite. Nous testons aussi la correction des analyses, inspirée par Hall and Novák (2005), qui révise chaque attachement en choisissant parmi plusieurs gouverneurs alternatifs dans le voisinage syntaxique. Nos approches améliorent légèrement la précision globale ainsi que celles de l'attachement des groupes prépositionnels et de la coordination. Notre deuxième fil explore des approches semi-supervisées. Nous testons l'auto-entrainement avec un analyseur en deux étapes, basé sur McClosky et al. (2006), pour le domaine journalistique ainsi que pour l'adaptation au domaine médical. Nous passons ensuite à la modélisation lexicale à base de corpus, avec des classes lexicales généralisées pour réduire la dispersion des données, et des préférences lexicales de l'attachement des groupes prépositionnels pour aider à la désambiguïsation. Nos approches améliorent, dans certains cas, la précision et la couverture de l'analyseur, sans augmenter sa complexité théorique.
25

Évaluation de deux méthodes d’identification des liens lexicaux : méthode manuelle et méthode statistique

Poudrier, Caroline 05 1900 (has links)
Ce mémoire présente une évaluation des différentes méthodes utilisées en lexicographie afin d’identifier les liens lexicaux dans les dictionnaires où sont répertoriées des collocations. Nous avons ici comparé le contenu de fiches du DiCo, un dictionnaire de dérivés sémantiques et de collocations créé selon les principes de la lexicologie explicative et combinatoire, avec les listes de cooccurrents générées automatiquement à partir du corpus Le Monde 2002. Notre objectif est ici de proposer des améliorations méthodologiques à la création de fiches de dictionnaire du type du DiCo, c’est-à-dire, des dictionnaires d’approche qualitative, où la collocation est définie comme une association récurrente et arbitraire entre deux items lexicaux et où les principaux outils méthodologiques utilisés sont la compétence linguistique de ses lexicographes et la consultation manuelle de corpus de textes. La consultation de listes de cooccurrents est une pratique associée habituellement à une approche lexicographique quantitative, qui définit la collocation comme une association entre deux items lexicaux qui est plus fréquente, dans un corpus, que ce qui pourrait être attendu si ces deux items lexicaux y étaient distribués de façon aléatoire. Nous voulons mesurer ici dans quelle mesure les outils utilisés traditionnellement dans une approche quantitative peuvent être utiles à la création de fiches lexicographiques d’approche qualitative, et de quelle façon leur utilisation peut être intégrée à la méthodologie actuelle de création de ces fiches. / This paper presents an evaluation of the various methods used in lexicography in order to identify the lexical bonds in dictionaries where collocations are indexed. We compared the contents of entries of the DiCo, a dictionary of semantic derivatives and collocations created according to the principles of explanatory and combinative lexicology, with the lists of cooccurrents generated automatically from the Le Monde 2002 corpus. Our objective here is to propose improvement in the methodology of creation of dictionary entry of DiCo-like dictionaries, i.e., dictionaries of a qualitative approach, where collocation is defined as the recurring and arbitrary associations between two lexical items and where the principal methodological tools used are the linguistic ability of its lexicographers and the manual consultation of corpus of text. The consultation of lists of cooccurrents is a practice associated traditionally with a quantitative lexicographical approach, which defines collocation as an association between two lexical items, which is more frequent, in a corpus, than what could be expected if these two lexical items were randomly distributed in corpus. We want to evaluate in what respect the tools used traditionally in a quantitative approach can be used for the creation of lexicographical entries of a qualitative approach, and how their use can be integrated into the current methology of creation of these entries.
26

Rôle des circuits cortico-striataux dans la planification et l'exécution de règles lexicales

Simard, France 12 1900 (has links)
Des recherches, autant chez l’homme que chez l’animal, proposent qu’il existerait, au sein des réseaux cérébraux, une organisation anatomique parallèle de circuits qui coordonne l’activité des structures qui participent à la planification et à l’exécution d’une action. Dans cette foulée, un modèle émerge qui attribue au cortex préfrontal (CPF) latéral une spécificité anatomo-fonctionnelle basée sur les niveaux de traitement en mémoire de travail (MT). Il s’agit du modèle « niveaux de traitement-dépendant », qui accorde un rôle important au CPF latéral dans l’acquisition et la représentation de règles guidant nos comportements. Des études en neuroimagerie fonctionnelle, utilisant le Wisconsin Card Sorting Task (WCST) ont permis de corroborer ce modèle et de dissocier trois niveaux de traitement en MT non seulement au sein du CPF latéral mais encore aux structures sous- corticales, les ganglions de la base (GB). Ces études suggèrent que certains noyaux des GB seraient topographiquement organisés avec le CPF latéral et contriburaient, sous certaines conditions, à des processus cognitifs et moteurs semblables à leur homologue cortical. Le but de notre étude est d'explorer la généralisation de la contribution des GB et du CPF au modèle niveaux de traitement-dépendant afin de voir si ce dernier est indépendant de la nature des stimuli en mémoire de travail. À cet effet, nous avons modifié le WCST en l’appliquant à un autre domaine, celui du langage. Nous avons remplacé les pictogrammes par des mots et modifié les règles formes, couleurs, nombres, par des règles sémantiques et phonologiques. L’analyse des résultats a démontré que différentes parties des GB de concert avec différentes régions du CPF se différencient quant aux niveaux de traitement en MT et ce, indépendamment de la nature des stimuli. Une deuxième analyse a permis d’évaluer les patrons d’activations liés aux conditions sémantiques et phonologiques. Ces résultats ont mis en évidence que les réseaux préfrontaux semblent liés aux processus exécutifs nécessaires à la réalisation de la tâche, indépendamment de la condition tandis que les aires associatives se dissocient davantage et contiennent des réseaux propres à la sémantique et à la phonologie. / Researches in humans and animals have pointed out the possible existence of a parallel anatomic organization in the core of cerebral networks which could coordinate the activity of different brain regions involved in the planning and execution of an action. Within this framework, the emerging model ascribes an anatomic dissociation to the lateral prefrontal cortex (PFC) based on the level of complexity of the working memory (WM) treatment. This model, namely, the complexity-dependent model, gives an important role to the lateral PFC in the acquiring and representation of the rules guiding our behaviors. This model has been corroborated by functional neuroimaging studies using the Wisconsin Card Sorting Task (WCST). These studies allowed dissociating three levels of complexity of the WM treatment, not restricted to the lateral PFC but also including sub- cortical structures, the basal ganglia (BG), suggesting that some BG nuclei would be topographically organized with the lateral PFC and would contribute to the same cognitive and motor functions. The aim of our study was to investigate whether the BG and the PFC’S contribution to the complexity-dependent model generalizes to different types of stimuli or whether their functions are dependent on the nature of stimuli in WM. To do so, a language version of the WCST was developed to suit a different cognitive domain, i.e. language. The pictograms were replaced with words and rules concerning forms, colors and numbers were substituted with semantic and phonological rules. Data analysis showed that the BG along with the PFC have differential role at different levels of WM processing complexity. In a second analysis, the activation patterns linked to the semantic and phonological conditions were evaluated. Those results indicated that the prefrontal networks seem to be coupled with executive processes needed to perform each condition whereas the employment of different language rules (semantic and phonological) activates specific regions of the phonological and semantic network.
27

Les collocations du champ sémantique des émotions en mandarin

Zhao, Xiaoyu 11 1900 (has links)
No description available.
28

Etude des processus d’activation et d’inhibition lexico-émotionnelles dans des tâches de reconnaissance visuelle de mots et de catégorisation de couleurs de mots / Study of lexico-emotional activation and inhibition processes in visual word recognition and color-word categorization tasks

Camblats, Anna-Malika 08 December 2015 (has links)
L'objectif de cette thèse était d‟étudier les processus d'activation et d'inhibition lexicales sous-tendant la lecture de mots et de déterminer le rôle du système affectif sur ces processus chez l'adulte. Pour cela, nous avons testé les effets de fréquence du voisinage orthographique et de l'émotionalité de ce voisinage dans plusieurs tâches cognitives. Les résultats ont montré un effet de fréquence du voisinage orthographique qui était inhibiteur dans des tâches de reconnaissance visuelle de mots (Expériences 1-4) et facilitateur dans des tâches de catégorisation de couleur de mots (Expériences 6-8). L'inhibition lexicale ralentirait la reconnaissance du mot stimulus et diminuerait ainsi son effet d'interférence dans des tâches de type Stroop. De plus, la valence et le niveau d'arousal du voisin plus fréquent modifiaient également la vitesse de reconnaissance du mot stimulus (Etude préliminaire, Expérience 1-5) et la catégorisation de sa couleur (Expériences 6, 7 et 9). Le système affectif s'activerait lors de la lecture de mots avec un voisin émotionnel et modifierait la propagation d'activation et d'inhibition lexico-émotionnelles. De plus, les résultats indiquaient que ces effets de voisinage orthographique étaient sensibles aux caractéristiques des participants. Une diminution de l'effet de fréquence du voisinage selon l'âge a été montrée et interprétée en termes de déficits conjoints d'activation et d'inhibition lexicales (Expériences 4, 5, 8 et 9). Enfin, l'effet du voisinage émotionnel obtenu suggérait une préservation des processus lexico-émotionnels avec l'avancée en âge (Expériences 4, 5 et 9), mais cet effet était corrélé négativement avec le niveau d'alexithymie des individus (Expériences 2, 4 et 6). Dans l'ensemble, ces données soulignent l‟importance de la prise en compte du système affectif dans les modèles de reconnaissance visuelle des mots. / The aim of this thesis was to study lexical activation and inhibition processes underlying word reading and to determine the role of affective system on these processes in adults. For this, we investigated the effects of orthographic neighbourhood frequency and emotionality of this neighbourhood in several cognitive tasks. Results showed an orthographic neighbourhood frequency effect that was inhibitory in visual word recognition tasks (Experiments 1-4) and facilitatory in colour categorization tasks (Experiments 6-8). Lexical inhibition likely slows down the recognition of the stimulus word as well as diminishing its interference effect in Stroop-like tasks. Moreover, emotional valence and arousal level of the higher-frequency neighbour also modified the speed of stimulus word recognition (Preliminary study, Experiments 1-5) and its colour categorization (Experiments 6, 7 and 9). Thus, the affective system would be activated during reading of words with an emotional neighbour and would modify the spread of lexico-emotional activation and inhibition. Moreover, results indicated that these orthographic neighbourhood effects were sensitive to participants‟ characteristics. A decreaseof the orthographic neighbourhood effect depending on age was shown and interpreted in terms of deficits in both activation and inhibition processes (Experiments 4, 5, 8 and 9). Finally, the emotional neighbourhood effect that was obtained suggested a preservation of lexico-emotional processes with advance in age (Experiments 4, 5, and 9), but this effect was negatively correlated with individuals' level of alexithymia (Experiments 2, 4, and 6). Taken together, thes data underline the importance of taking the affective system into account in models of visual word recognition.
29

Rôle des différences interindividuelles dans la reconnaissance visuelle des mots : effets de voisinage orthographique par suppression d’une lettre et de confusabilité d’une lettre substituée / Role of interindividual differences in visual word recognition : effects of deletion orthographic neighborhood and confusability of the substituted letter

Dujardin, Emilie 05 June 2018 (has links)
L’objectif de cette thèse était d’étudier les variations possibles des processus impliqués dans la reconnaissance visuelle des mots selon les différences d’habiletés lexicales de lecteurs adultes (niveaux de lecture, orthographe et vocabulaire). Ainsi, nous avons testé l’effet de fréquence du voisinage orthographique par suppression et par substitution d’une lettre dans des tâches de décision lexicale (Exp. 1, 4), démasquage progressif (Exp. 2, 5), dénomination (Exp. 3, 6), et catégorisation de couleur (Exp. 7). Un effet inhibiteur de fréquence du voisinage orthographique par suppression (Exp. 1-3) et par substitution (Exp. 6) d’une lettre a été obtenu. Les temps de réponse étaient plus longs et les taux d’erreurs plus élevés pour les mots avec au moins un voisin orthographique plus fréquent que pour ceux sans un tel voisin, ce qui peut être expliqué en termes de compétition lexicale. De plus, la compétition lexicale du voisin par suppression d’une lettre était plus importante pour les individus ayant des habiletés lexicales hautes plutôt que basses (Exp. 1, 3), ces derniers individus témoignant de difficultés d’inhibition du compétiteur. Par ailleurs, les individus ayant des habiletés lexicales basses étaient moins rapides et moins précis que ceux ayant des habiletés lexicales hautes (Exp. 1-7). Les données de la tâche de catégorisation (Exp. 7) suggèrent des difficultés dans la mise en place de l’inhibition pour ces individus. Enfin, nous avons montré que l’effet de fréquence du voisinage orthographique était influencé par la confusabilité de la lettre substituée, ce qui différait selon les habiletés lexicales des individus (Exp. 4-6). Dans le cadre théorique de l’activation interactive et de codage spatial des lettres, les données soulignent l’importance des différences d’habiletés lexicales des lecteurs pour rendre compte des différences dans la diffusion de l’activation et de l’inhibition lexicales dans la reconnaissance visuelle des mots. / Word recognition, according to the adult readers’ lexical skill differences (reading, spelling and vocabulary levels). To do so, we tested the orthographic neighborhood frequency effect by deletion and substitution of a letter in lexical decision (Exp.1, 4), progressive demasking (Exp 2, 5), denomination (Exp. 3, 6), and color categorization tasks (Exp.7). Response times were longer and the error rates were higher for words with at least one higher frequency neighbor than for words without such a neighbor, which can be explained in terms of lexical competition. In addition, the lexical competition of the higher-frequency deletion neighbor seems more important for individuals with high lexical skills than for those with low lexical skills (Exp 1, 3), the latter showing difficulties in inhibiting the competitor. Furthermore, individuals with low lexical skills were slower and less accurate than those with high lexical skills (Exp 1-7). Data from the categorization task (Exp. 7) suggest difficulties in setting up inhibition for these individuals. Finally, we have shown that the orthographic neighborhood frequency effect was influenced by the confusability of the substituted letter, differing according to the lexical skills of the individuals (Exp 4-6). In the theoretical framework of activation-interactive and spatial coding, the data highlight the importance of readers’ differences in lexical skills for the diffusion of lexical activation and inhibition in visual word recognition.
30

Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement

Bernier-Colborne, Gabriel 08 1900 (has links)
L’analyse des relations lexicales est une des étapes principales du travail terminologique. Cette tâche, qui consiste à établir des liens entre des termes dont les sens sont reliés, peut être facilitée par des méthodes computationnelles, notamment les techniques de la sémantique distributionnelle. En estimant la similarité sémantique des mots à partir d’un corpus, ces techniques peuvent faciliter l’analyse des relations lexicales. La qualité des résultats offerts par les méthodes distributionnelles dépend, entre autres, des nombreuses décisions qui doivent être prises lors de leur mise en œuvre, notamment le choix et le paramétrage du modèle. Ces décisions dépendent, à leur tour, de divers facteurs liés à l’objectif visé, tels que la nature des relations lexicales que l’on souhaite détecter; celles-ci peuvent comprendre des relations paradigmatiques classiques telles que la (quasi-)synonymie (p. ex. conserver -> préserver), mais aussi d’autres relations telles que la dérivation syntaxique (p. ex. conserver -> conservation). Cette thèse vise à développer un cadre méthodologique basé sur la sémantique distributionnelle pour l’analyse des relations lexicales à partir de corpus spécialisés. À cette fin, nous vérifions comment le choix, le paramétrage et l’interrogation d’un modèle distributionnel doivent tenir compte de divers facteurs liés au projet terminologique envisagé : le cadre descriptif adopté, les relations ciblées, la partie du discours des termes à décrire et la langue traitée (en l’occurrence, le français ou l’anglais). Nous montrons que deux des relations les mieux détectées par l’approche distributionnelle sont la (quasi-)synonymie et la dérivation syntaxique, mais que les modèles qui captent le mieux ces deux types de relations sont très différents. Ainsi, les relations ciblées ont une influence importante sur la façon dont on doit paramétrer le modèle pour obtenir les meilleurs résultats possibles. Un autre facteur à considérer est la partie du discours des termes à décrire. Nos résultats indiquent notamment que les relations entre verbes sont moins bien modélisées par cette approche que celles entre adjectifs ou entre noms. Le cadre descriptif adopté pour un projet terminologique est également un facteur important à considérer lors de l’application de l’approche distributionnelle. Dans ce travail, nous comparons deux cadres descriptifs, l’un étant basé sur la sémantique lexicale et l’autre, sur la sémantique des cadres. Nos résultats indiquent que les méthodes distributionnelles détectent les termes qui évoquent le même cadre sémantique moins bien que certaines relations lexicales telles que la synonymie. Nous montrons que cet écart est attribuable au fait que les termes qui évoquent des cadres sémantiques comprennent une proportion importante de verbes et aux différences importantes entre les modèles qui produisent les meilleurs résultats pour la dérivation syntaxique et les relations paradigmatiques classiques telles que la synonymie. En somme, nous évaluons deux modèles distributionnels différents, analysons systématiquement l’influence de leurs paramètres et vérifions comment cette influence varie en fonction de divers aspects du projet terminologique. Nous montrons de nombreux exemples de voisinages distributionnels, que nous explorons au moyen de graphes, et discutons les sources d’erreurs. Ce travail fournit ainsi des balises importantes pour l’application de méthodes distributionnelles dans le cadre du travail terminologique. / Identifying semantic relations is one of the main tasks involved in terminology work. This task, which aims to establish links between terms whose meanings are related, can be assisted by computational methods, including those based on distributional semantics. These methods estimate the semantic similarity of words based on corpus data, which can help terminologists identify semantic relations. The quality of the results produced by distributional methods depends on several decisions that must be made when applying them, such as choosing a model and selecting its parameters. In turn, these decisions depend on various factors related to the target application, such as the types of semantic relations one wishes to identify. These can include typical paradigmatic relations such as (near-)synonymy (e.g. preserve -> protect), but also other relations such as syntactic derivation (e.g. preserve -> preservation). This dissertation aims to further the development of a methodological framework based on distributional semantics for the identification of semantic relations using specialized corpora. To this end, we investigate how various aspects of terminology work must be accounted for when selecting a distributional semantic model and its parameters, as well as those of the method used to query the model. These aspects include the descriptive framework, the target relations, the part of speech of the terms being described, and the language (in this case, French or English). Our results show that two of the relations that distributional semantic models capture most accurately are (near-)synonymy and syntactic derivation. However, the models that produce the best results for these two relations are very different. Thus, the target relations are an important factor to consider when choosing a model and tuning it to obtain the most accurate results. Another factor that should be considered is the part of speech of the terms that are being worked on. Among other things, our results suggest that relations between verbs are not captured as accurately as those between nouns or adjectives by distributional semantic models. The descriptive framework used for a given project is also an important factor to consider. In this work, we compare two descriptive frameworks, one based on lexical semantics and another based on frame semantics. Our results show that terms that evoke the same semantic frame are not captured as accurately as certain semantic relations, such as synonymy. We show that this is due to (at least) two reasons: a high percentage of frame-evoking terms are verbs, and the models that capture syntactic derivation most accurately are very different than those that work best for typical paradigmatic relations such as synonymy. In summary, we evaluate two different distributional semantic models, we analyze the influence of their parameters, and we investigate how this influence varies with respect to various aspects of terminology work. We show many examples of distributional neighbourhoods, which we explore using graphs, and discuss sources of noise. This dissertation thus provides important guidelines for the use of distributional semantic models for terminology work.

Page generated in 0.0555 seconds