• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 3
  • Tagged with
  • 7
  • 7
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications

Ramisch, Carlos eduardo 11 September 2012 (has links) (PDF)
Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres
2

Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications

Ramisch, Carlos Eduardo 11 September 2012 (has links) (PDF)
Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres
3

Computational syntax of Hungarian : from phrase chunking to verb subcategorization / Syntaxe computationnelle du hongrois : de l'analyse en chunks à la sous-catégorisation verbale

Gábor, Kata 12 June 2012 (has links)
La linguistique informatique est un domaine de recherche qui se concentre sur les méthodes et les perspectives de la modélisation formelle (statistique ou symbolique) de la langue naturelle. La linguistique informatique, tout comme la linguistique théorique, est une discipline fortement modulaire : les niveaux d'analyse linguistique comprennent la segmentation, l'analyse morphologique, la désambiguïsation, l'analyse syntaxique et sémantique. Tandis qu'un nombre d'outils existent déjà pour les traitements de bas niveau (analyse morphologique, étiquetage grammatical), le hongrois peut être considéré comme une langue peu doté pour l'analyse syntaxique et sémantique. Le travail décrit dans la présente thèse vise à combler ce manque en créant des ressources pour le traitement syntaxique du hongrois : notamment, un analyseur en chunks et une base de données lexicale de schémas de sous-catégorisation verbale. La première partie de la recherche présentée ici se concentre sur la création d'un analyseur syntaxique de surface (ou analyseur en chunks) pour le hongrois. La sortie de l'analyseur de surface est conçue pour servir d'entrée pour un traitement ultérieur visant à annoter les relations de dépendance entre le prédicat et ses compléments essentiels et circonstanciels. L'analyseur profond est mis en œuvre dans NooJ (Silberztein, 2004) en tant qu'une cascade de grammaires. Le deuxième objectif de recherche était de proposer une représentation lexicale pour la structure argumentale en hongrois. Cette représentation doit pouvoir gérer la vaste gamme de phénomènes qui échappent à la dichotomie traditionnelle entre un complément essentiel et un circonstanciel (p. ex. des structures partiellement productives, des écarts entre la prédictibilité syntaxique et sémantique). Nous avons eu recours à des résultats de la recherche récente sur la réalisation d'arguments et choisi un cadre qui répond à nos critères et qui est adaptable à une langue non-configurationnelle. Nous avons utilisé la classification sémantique de Levin (1993) comme modèle. Nous avons adapté les notions relatives à cette classification, à savoir celle de la composante sémantique et celle de l'alternance syntaxique, ainsi que la méthodologie d'explorer et de décrire le comportement des prédicats à l'aide de cette représentation, à la tâche de construire une représentation lexicale des verbes dans une langue non-configurationnelle. La première étape consistait à définir les règles de codage et de construire un vaste base de données lexicale pour les verbes et leurs compléments. Par la suite, nous avons entrepris deux expériences pour l'enrichissement de ce lexique avec des informations sémantiques lexicales afin de formaliser des généralisations syntaxiques et sémantiques pertinentes sur les classes de prédicats sous-jacentes. La première approche que nous avons testée consistait en une élaboration manuelle de classification de verbes en fonction de leur structure de compléments et de l'attribution de rôles sémantiques à ces compléments. Nous avons cherché la réponse aux questions suivantes: quelles sont les composants sémantiques pertinents pour définir une classification sémantique des prédicats hongrois? Quelles sont les implications syntaxiques spécifiques à ces classes? Et, plus généralement, quelle est la nature des alternances spécifiques aux classes verbales en hongrois ? Dans la phase finale de la recherche, nous avons étudié le potentiel de l'acquisition automatique pour extraire des classes de verbes à partir de corpus. Nous avons effectué une classification non supervisée, basée sur des données distributionnelles, pour obtenir une classification sémantique pertinente des verbes hongrois. Nous avons également testé la méthode de classification non supervisée sur des données françaises. / We present the creation of two resources for Hungarian NLP applications: a rule-based shallow parser and a database of verbal subcategorization frames. Hungarian, as a non-configurational language with a rich morphology, presents specific challenges for NLP at the level of morphological and syntactic processing. While efficient and precise morphological analyzers are already available, Hungarian is under-resourced with respect to syntactic analysis. Our work aimed at overcoming this problem by providing resources for syntactic processing. Hungarian language is characterized by a rich morphology and a non-configurational encoding of grammatical functions. These features imply that the syntactic processing of Hungarian has to rely on morphological features rather than on constituent order. The broader interest of our undertaking is to propose representations and methods that are adapted to these specific characteristics, and at the same time are in line with state of the art research methodologies. More concretely, we attempt to adapt current results in argument realization and lexical semantics to the task of labeling sentence constituents according to their syntactic function and semantic role in Hungarian. Syntax and semantics are not completely independent modules in linguistic analysis and language processing: it has been known for decades that semantic properties of words affect their syntactic distribution. Within the syntax-semantics interface, the field of argument realization deals with the (partial or complete) prediction of verbal subcategorization from semantic properties. Research on verbal lexical semantics and semantically motivated mapping has been concentrating on predicting the syntactic realization of arguments, taking for granted (either explicitly or implicitly) that the distinction between arguments and adjuncts is known, and that adjuncts' syntactic realization is governed by productive syntactic rules, not lexical properties. However, besides the correlation between verbal aspect or actionsart and time adverbs (e.g. Vendler, 1967 or Kiefer, 1992 for Hungarian), the distribution of adjuncts among verbs or verb classes did not receive significant attention, especially within the lexical semantics framework. We claim that contrary to the widely shared presumption, adjuncts are often not fully productive. We therefore propose a gradual notion of productivity, defined in relation to Levin-type lexical semantic verb classes (Levin, 1993; Levin and Rappaport-Hovav, 2005). The definition we propose for the argument-adjunct dichotomy is based on evidence from Hungarian and exploits the idea that lexical semantics not only influences complement structure but is the key to the argument-adjunct distinction and the realization of adjuncts
4

Réseaux lexicaux, métaphore, acquisition : une approche interdisciplinaire et inter-linguistique du lexique verbal / Lexical networks, Metaphor, Acquisition : an interdisciplinary and interlinguistic approach of verb lexicon

Desalle, Yann 18 May 2012 (has links)
Souvent, lorsque les locuteurs d'une langue n'ont pas accès à l'item conventionnel pour étiqueter un objet ou un événement, ils étendent, consciemment ou inconsciemment, le sens d'un autre item lexical disponible. Ce phénomène se produit particulièrement au cours de la phase d'acquisition lexicale des jeunes enfants. Lorsqu'une telle sur-extension sémantique va au-delà de la catégorie d'objet ou d'événement conventionnellement dénotée par l'item lexical produit, il s'agit d'une sur-extension catégorielle et l'énoncé produit est d'allure métaphorique: par exemple, « déshabiller la pomme » pour l'action peler une pomme est un énoncé d'allure métaphorique. Tout d'abord, cette thèse a permis de développer SLAM, un système de résolution lexicale automatique des métaphores produites en situation de manque du mot. SLAM s'appuie, d'une part, sur l'analyse syntaxique de grands corpus et, d'autre part, sur la structure Petit Monde Hiérarchique des réseaux lexicaux de synonymie. Par exemple, à partir des énoncés « elle déshabille* la pomme » ou « les bras* de l'arbre », SLAM permet d'obtenir les interprétations suivantes: respectivement, « elle pèle une pomme » et « les branches de l'arbre ».Ensuite, cette thèse a permis d'étudier spécifiquement la dynamique d'acquisition du lexique des verbes qui se stabilise après celui des noms. D'une part, des outils méthodologiques pour l'étude inter-linguistique de la dynamique d'acquisition du lexique des verbes ont été élaborés: (a) un cadre méthodologique pour la construction de procédures d'identification des sur-extensions sémantiques catégorielles des verbes; (b) une méthodologie pour le repérage des stimuli visuels d'action sans biais culturel. D'autre part, les liens entre la structure des réseaux lexicaux de synonymie et la dynamique d'acquisition du lexique des verbes en français et en mandarin ont été mis au jour. Après avoir pointé des différences dans la dynamique d'acquisition du lexique des verbes par les jeunes enfants natifs du français et du mandarin, cette étude a servi à construire le score REFLEX, mesure du degré d'acquisition du lexique des verbes, qui permet de catégoriser automatiquement les jeunes enfants vs adultes en français et en mandarin. / When speakers have no access to the conventional label for an object or an event, they tend to extend, consciously or not, the meaning of another available lexical label. This phenomenon often occurs during the lexical acquisition stage of young children. When a such overextension goes beyond the conventional object or event category denoted by the produced label, it is a categorical overextension and the produced utterance is metaphorical: for instance, ``to undress an apple'' for the action to peel an apple is metaphorical.During this thesis, I developed SLAM, a computational system that automatically gives lexical solutions to metaphors filling a lexical gap. SLAM is based on a syntactic analysis of large corpora and on the Hierarchical Small World structure of synonymy networks. For instance, when the produced utterances are ``elle déshabille* une pomme'' ( ``she undresses* an apple'') or ``les bras* de l'arbr'' (``the arms* of the tree''), SLAM gives the interpretations here after: respectively, ``elle pèle une pomme'' (``she peels an apple'') and ``les branches de l'arbre'' (``the branches of the tree'').Then, I studied the dynamics of verb lexicon acquisition that is longer than noun lexicon acquisition. On the one hand, I built methodological tools for inter-linguistic studies of the dynamics of verb lexicon acquisition: (a) a methodological frame to build procedures to identify categorical overextensions of verbs; (b) a methodology to detect visual stimuli containing actions without cultural bias. On the other hand, I highlighted the links between the structure of synonymy networks and the dynamics of verbs lexicon acquisition in french and mandarin. This study has indicated differences in dynamics of verb lexicon acquisition between french and mandarin native speakers. Finally, I built REFLEX, a score that indicates the degree of verb lexicon acquisition and automatically categorizes young children vs adults in french and mandarin.
5

Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de mots

Lafourcade, Mathieu 07 December 2011 (has links) (PDF)
L'analyse sémantique de textes nécessite en préalable la construction d'objets relevant de la sémantique lexicale. Les vecteurs d'idées et les réseaux lexicaux semblent de bons candidats et constituent ensemble des structures complémentaires. Toutefois, faut-il encore être capable dans la pratique de les construire. Les vecteurs d'idées peuvent être calculés à partir de corpus de définitions de dictionnaires, de thésaurus ou encore de textes. Ils peuvent se décliner en des vecteurs conceptuels, des vecteurs anonymes ou des vecteurs lexicaux - chaque type présentant un équilibre différent entre précision, couverture et praticité. Quant aux réseaux lexicaux, ils peuvent être acquis efficacement via des jeux, et c'est précisément l'objet du projet JeuxDeMots. L'analyse sémantique peut être abordée par l'analyse thématique, et ainsi servir de moyen de calcul à des vecteurs d'idées (bouclage). Nous pouvons modéliser l'analyse comme un problème d'activation et de propagation. La multiplicité des critères pouvant intervenir dans une analyse sémantique, et la difficulté inhérente à définir une fonction de contrôle satisfaisante, nous amène à explorer l'usage de métaheuristiques bio-inspirées. Plus précisément, nous introduisons un modèle d'analyse par colonies de fourmis artificielles. A partir d'un texte, l'analyse vise a construire un graphe contenant les objets du texte (les mots), des objets identifiés comme pertinents (des syntagmes, des concepts) ainsi que des relations pondérées et typées entre ces objets.
6

Réseaux lexicaux, métaphore, acquisition : une approche interdisciplinaire et inter-linguistique du lexique verbal

Desalle, Yann 18 May 2012 (has links) (PDF)
Souvent, lorsque les locuteurs d'une langue n'ont pas accès à l'item conventionnel pour étiqueter un objet ou un événement, ils étendent, consciemment ou inconsciemment, le sens d'un autre item lexical disponible. Ce phénomène se produit particulièrement au cours de la phase d'acquisition lexicale des jeunes enfants. Lorsqu'une telle sur-extension sémantique va au-delà de la catégorie d'objet ou d'événement conventionnellement dénotée par l'item lexical produit, il s'agit d'une sur-extension catégorielle et l'énoncé produit est d'allure métaphorique: par exemple, " déshabiller la pomme " pour l'action peler une pomme est un énoncé d'allure métaphorique. Tout d'abord, cette thèse a permis de développer SLAM, un système de résolution lexicale automatique des métaphores produites en situation de manque du mot. SLAM s'appuie, d'une part, sur l'analyse syntaxique de grands corpus et, d'autre part, sur la structure Petit Monde Hiérarchique des réseaux lexicaux de synonymie. Par exemple, à partir des énoncés " elle déshabille* la pomme " ou " les bras* de l'arbre ", SLAM permet d'obtenir les interprétations suivantes: respectivement, " elle pèle une pomme " et " les branches de l'arbre ".Ensuite, cette thèse a permis d'étudier spécifiquement la dynamique d'acquisition du lexique des verbes qui se stabilise après celui des noms. D'une part, des outils méthodologiques pour l'étude inter-linguistique de la dynamique d'acquisition du lexique des verbes ont été élaborés: (a) un cadre méthodologique pour la construction de procédures d'identification des sur-extensions sémantiques catégorielles des verbes; (b) une méthodologie pour le repérage des stimuli visuels d'action sans biais culturel. D'autre part, les liens entre la structure des réseaux lexicaux de synonymie et la dynamique d'acquisition du lexique des verbes en français et en mandarin ont été mis au jour. Après avoir pointé des différences dans la dynamique d'acquisition du lexique des verbes par les jeunes enfants natifs du français et du mandarin, cette étude a servi à construire le score REFLEX, mesure du degré d'acquisition du lexique des verbes, qui permet de catégoriser automatiquement les jeunes enfants vs adultes en français et en mandarin.
7

Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications / A generic and open framework for multiword expressions treatment : from acquisition to applications

Ramisch, Carlos Eduardo 11 September 2012 (has links)
Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres / This thesis presents an open and flexible methodological framework for the automatic acquisition of multiword expressions (MWEs) from monolingual textual corpora. This research is motivated by the importance of MWEs for NLP applications. After briefly presenting the modules of the framework, the work reports extrinsic evaluation results considering two applications: computer-aided lexicography and statistical machine translation. Both applications can benefit from automatic MWE acquisition and the expressions acquired automatically from corpora can both speed up and improve their quality. The promising results of our experiments encourage further investigation about the optimal way to integrate MWE treatment into these and many other applications.

Page generated in 0.1256 seconds