Spelling suggestions: "subject:"text theory"" "subject:"next theory""
11 |
L'implémentation des relatives dans un réalisateur profondPortenseigne, Charlotte 10 1900 (has links)
Ce mémoire porte sur l’implémentation des propositions relatives en français dans le réalisateur profond multilingue GenDR. Les réalisateurs de surface (SimpleNLG, JSReal ou RealPro) génèrent des propositions relatives, mais dans les réalisateurs profonds (MARQUIS, Forge ou GenDR) cette génération reste rudimentaire. Dans un corpus français de 21 461 phrases, 4505 contiennent une relative, soit environ une phrase sur cinq. Il s’agit donc d’un phénomène linguistique important que GenDR devrait couvrir.
Notre cadre théorique est la théorie Sens-Texte. Les propositions relatives se situent au niveau de l’interface sémantique-syntaxe. Nous présentons une typologie des propositions relatives. Nous définissons la relative et elle est divisée en deux grandes catégories : directe et indirecte. La définition des pronoms relatifs se base sur Riegel et al. (2018).
Nous avons utilisé GREW, afin d’analyser un corpus du français en SUD. Il y a plus de relatives directes (≈78 %) que d’indirectes (≈22 %). Les pronoms les plus fréquents sont qui (58,8 %), que (13,8%), dont (10,2%) et où (10%), enfin viennent préposition suivie de lequel (5,7%), préposition suivie de qui (0,7 %), lequel (0,4 %), préposition suivie de quoi (0,1 %). Le rôle syntaxique le plus fréquent du nom modifié est objet direct.
Puis, nous avons implémenté dans GenDR les règles pour la relative directe, la relative indirecte, et les pronoms relatifs qui, que, dont, préposition suivie de qui et préposition suivie de lequel. Notre implémentation couvre les types de relatives les plus communs en français. Les phénomènes qui nous résistent sont la génération des pronoms lequel, préposition suivie de quoi, où et qui objet, le traitement des verbes modaux et la génération des phrases avec un verbe à l’infinitif après un verbe modal, le traitement des verbes supports et autres collocatifs. Notre implémentation traite le français, mais peut être facilement adaptée à d’autres langues. / This Master’s thesis is about the implementation of French relative clauses in the multilingual deep realizer GenDR. Surface realizers (SimpleNLG, JSReal or RealPro) generate relative clauses, but in deep realizers (MARQUIS, Forge or GenDR) their handling remains rudimentary. In a French corpus of 21,461 sentences, 4,505 contain a relative, i.e. about one in five sentences. Thus, it is a core linguistic phenomenon that should be handled by GenDR.
Our theoretical framework is the Meaning-Text theory. Relative clause is relevant in the semantics-syntax interface. We offer a typology of relative clauses. The relative clause is defined, and it is divided into two main categories: direct and indirect. Our definition of relative pronouns is based on Riegel et al. (2018).
We used GREW to analyze a French corpus in SUD. There are more direct (≈78%) than indirect (≈22%) relatives. The most frequent pronouns are qui (58.8%), que (13.8%), dont (10.2%) and où (10%), then a preposition followed by lequel (5.7%), a preposition followed by qui (0.7%), lequel (0.4%), and a preposition followed by quoi (0.1%). The most frequent function of the modified noun is direct object.
We implemented in GenDR the rules for direct relative, indirect relative, and relative pronouns qui, que, dont, a preposition followed by qui, and a preposition followed by lequel. Our implementation covers the most common types of relatives. The phenomena that are not well handled by our rules are the generation of the pronouns lequel, a preposition followed by quoi, où and object qui, the treatment of modal verbs and the generation of sentences with an infinitive verb after a modal verb, the treatment of support verbs and other collocations. Our implementation is for French, but it can be easily adapted to other languages.
|
12 |
Implémentation des collocations pour la réalisation de texte multilingueLambrey, Florie 12 1900 (has links)
La génération automatique de texte (GAT) produit du texte en langue naturelle destiné aux humains à partir de données non langagières. L’objectif de la GAT est de concevoir des générateurs réutilisables d’une langue à l’autre et d’une application à l’autre. Pour ce faire, l’architecture des générateurs automatiques de texte est modulaire : on distingue entre la génération profonde qui détermine le contenu du message à exprimer et la réalisation linguistique qui génère les unités et structures linguistiques exprimant le message.
La réalisation linguistique multilingue nécessite de modéliser les principaux phénomènes linguistiques de la manière la plus générique possible. Or, les collocations représentent un de ces principaux phénomènes linguistiques et demeurent problématiques en GAT, mais aussi pour le Traitement Automatique des Langues en général. La Théorie Sens-Texte analyse les collocations comme des contraintes de sélection lexicale. Autrement dit, une collocation est composée de trois éléments : (i) la base, (ii) le collocatif, choisi en fonction de la base et (iii) d’une relation sémantico-lexicale. Il existe des relations sémantico-lexicales récurrentes et systématiques. Les fonctions lexicales modélisent ces relations. En effet, des collocations telles que peur bleue ou pluie torrentielle instancient une même relation, l’intensification, que l’on peut décrire au moyen de la fonction lexicale Magn : Magn(PEUR) = BLEUE, Magn(PLUIE) = TORRENTIELLE, etc. Il existe des centaines de fonctions lexicales.
Ce mémoire présente la méthodologie d’implémentation des collocations dans un réalisateur de texte multilingue, GÉCO, à l’aide des fonctions lexicales standard syntagmatiques simples et complexes. Le cœur de la méthodologie repose sur le regroupement des fonctions lexicales ayant un fonctionnement similaire dans des patrons génériques. Au total, plus de 26 000 fonctions lexicales ont été implémentées, représentant de ce fait une avancée considérable pour le traitement des collocations en réalisation de texte multilingue. / Natural Language Generation (NLG) produces text in natural language from non-linguistic content. NLG aims at developing generators that are reusable across languages and applications. In order to do so, these systems’ architecture is modular: while the deep generation module determines the content of the message to be expressed, the text realization module maps the message into its most appropriate linguistic form.
Multilingual text realization requires to model the core linguistic phenomena that one finds in language. Collocations represent one of the core linguistic phenomena that remain problematic not only in NLG, but also in Natural Language Processing in general. The Meaning-Text theory analyses collocations as constraints on lexical selection. In other words, a collocation is made up of three constituents: (i) the base, (ii) the collocate, chosen according to (iii) a semantico-lexical relation. Some of these semantico-lexical relations are systematic and shared by many collocations. Lexical functions are a system for modeling these relations. In fact, collocations such as heavy rain or strong preference instantiate the same relation, intensity, can be described with the lexical function Magn: Magn(RAIN) = HEAVY, Magn(PREFERENCE) = STRONG, etc. There are hundreds of lexical functions.
Our work presents a methodology for the implementation of collocations in a multilingual text realization engine, GÉCO, that relies on simple and complex syntagmatic standard lexical functions. The principal aspect of the methodology consists of regrouping lexical functions that show a similar behavior into generic patterns. As a result, 26 000 lexical functions have been implemented, which is a considerable progress in the treatment of collocations in multilingual text realization.
|
13 |
A lexical semantic study of Dene Suliné, an Athabaskan languageHolden, Joshua 08 1900 (has links)
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques.
La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants. / This work constitutes a systematic lexical semantic study of Dene Sųłiné, an Athabaskan language from northwestern Canada. As such, it presents the lexicographic definitions, syntactic and lexical combinatorial patterns of over 200 lexical units (lexemes and idioms) representing part of the core Dene Sųłiné vocabulary for seven semantic fields: terms to describe emotions, human character, physical description, position of an object, atmospheric conditions and topographical features. The theoretical approach used is Meaning-Text Theory (MTT), a formal linguistic approach with a strong empirical focus on semantics and lexicography.
This work finds significant differences between Dene Sųłiné and English at all levels: in the relationship between of (quasi-)extralinguistic concepts and linguistic meanings, in the lexicalization or conflation patterns one finds in meanings of lexical units, and finally in the syntactic and lexical combinatorial patterns, which also show interesting language-specific tendencies.
|
14 |
Identification et modélisation lexicographique des dépendances syntaxiques régies du français: le cas des dépendances nominalesArbour Barbaud, Évelyne 04 1900 (has links)
Cette recherche porte sur l’interface entre la sémantique lexicale et la syntaxe, et elle s’inscrit dans le cadre du projet de base lexicale DiCo (acronyme pour Dictionnaire de combinatoire) à l’Observatoire de Linguistique Sens-Texte [OLST] de l’Université de Montréal. Le projet découle d'une volonté d'inscrire de façon concise et complète, à même le dictionnaire, le comportement syntaxique typique à chaque unité lexicale. Dans cette optique, nous encodons la cooccurrence des lexies nominales du DiCo avec leurs actants à l'intérieur d'un tableau de régime lexical (aussi connu sous le nom de schéma valenciel, structure argumentale, cadre de sous-catégorisation, structure prédicats-arguments, etc.), en notant entre autres les dépendances syntaxiques de surface impliquées. Dans ce mémoire, nous présentons les propriétés syntaxiques d'une dépendance nominale du français, celle que nous avons nommée attributive adnominale, de façon à exposer une méthodologie d'identification et de caractérisation des dépendances syntaxiques de surface. Nous donnons également la liste des dépendances nominales régies identifiées au cours de ce travail. Par la suite, nous exposons la création d'une base de données de régimes généralisés du français nommée CARNAVAL. Finalement, nous discutons des applications possibles de notre travail, particulièrement en ce qui a trait à la création d'une typologie des régimes lexicaux du français. / This research focuses on the interface between lexical semantics and syntax, and is part of the lexical database project called DiCo (acronym for Dictionnaire de combinatoire) at the Observatoire de Linguistique Sens-Texte [OLST] at the University of Montreal. The project aims to register in a concise and complete way the typical syntactic behavior of each lexical unit directly in the dictionary. To this end, we encode the co-occurrence of the DiCo's nominal lexical units with their actants within a government pattern (also known as valency structure, subcategorization frame, predicate-argument structure, etc.), using, among other things, the surface syntactic dependencies involved. In this dissertation, we present the syntactic properties of a French nominal dependency, the one that we named attributive adnominale, so as to expose a methodology for the identification and the characterization of surface syntactic dependencies. We also give the list of valence-controlled nominal dependencies that were identified in our work. Subsequently, we describe the creation of a database of generalized French government patterns named CARNAVAL. Finally, we discuss possible applications of our work, particularly in regard to the creation of a typology of French government patterns.
|
15 |
Représentation des connaissances sémantiques lexicales de la Théorie Sens-Texte : conceptualisation, représentation, et opérationnalisation des définitions lexicographiques / Meaning-Text Theory lexical semantic knowledge representation : conceptualization, representation, and operationalization of lexicographic definitionsLefrançois, Maxime 24 June 2014 (has links)
Nous présentons une recherche en ingénierie des connaissances appliquée aux prédicats linguistiques et aux définitions lexicographiques de la théorie Sens-Texte (TST). Notre méthodologie comporte trois étapes. 1. Nous montrons en quoi la conceptualisation de la TST devrait être étendue pour faciliter sa formalisation. Nous justifions la nécessité de définir un niveau sémantique profond (SemP) à base de graphes. Nous y définissons la notion de type d'unité sémantique profonde et sa structure actancielle, de sorte que leur organisation hiérarchique puisse correspondre à une hiérarchie de sens au sein de laquelle ces structures actancielles sont héritées et spécialisées. Nous reconceptualisons les définitions lexicographiques au niveau SemP, et au niveau du dictionnaire. Finalement, nous présentons un prototype d'éditeur de définitions basé sur la manipulation directe de graphes. 2. Nous proposons un formalisme de représentation des connaissances adapté à cette conceptualisation. Nous démontrons que les logiques de description et le formalisme des Graphes Conceptuels ne sont pas adaptés, et nous construisons alors un nouveau formalisme, dit des Graphes d'Unités. 3. Nous étudions l'opérationnalisation du formalisme des Graphes d'Unités. Nous lui associons une sémantique formelle basée sur la théorie des modèles et l'algèbre relationnelle, et montrons que les conditions de décidabilité du raisonnement logique correspondent aux intuitions des lexicographes. Nous proposons également une implémentation du formalisme avec les standards du web sémantique, ce qui permet de profiter des architectures existantes pour l'interopérationnalisation sur le web des données lexicales liées. / We present our research in applying knowledge engineering to linguistic predicates and lexicographic definitions of the Meaning-Text Theory (MTT). We adopt a three-step methodology. 1. We first show how the MTT conceptualization should be extended to ease its formalization. We justify the need of defining a new graph-based deep semantic level. We define the notion of deep semantic unit types and its actantial structure, so that their hierarchical organization may correspond to a hierarchy of meanings, inside which actantial structures are inherited and specialized. We re-conceptualize lexicographic definitions at the deep semantic level, and at the level of dictionaries. Finally, we present a definition editor prototype based on graph direct manipulation, which will allow us, in future work, to integrate our formal model into explanatory combinatorial lexicographic projects. 2. We then propose a knowledge representation formalism (KR) adapted for this conceptualization. We demonstrate that Description Logics and the Conceptual Graphs formalism do not fit our needs. This leads us to construct a new knowledge representation formalism: the Unit Graphs formalism. 3. Finally, we operationalize the Unit Graphs formalism. We assign it a formal semantic model, which we create based on model theory and relational algebra. We then show that the reasoning decidability conditions match the intuitions that lexicographers have. We also provide an implementation using semantic web standards, which enable us to use existing architectures for sharing, interoperability, and knowledge querying over the web of lexical linked data.
|
16 |
Identification et modélisation lexicographique des dépendances syntaxiques régies du français: le cas des dépendances nominalesArbour Barbaud, Évelyne 04 1900 (has links)
Cette recherche porte sur l’interface entre la sémantique lexicale et la syntaxe, et elle s’inscrit dans le cadre du projet de base lexicale DiCo (acronyme pour Dictionnaire de combinatoire) à l’Observatoire de Linguistique Sens-Texte [OLST] de l’Université de Montréal. Le projet découle d'une volonté d'inscrire de façon concise et complète, à même le dictionnaire, le comportement syntaxique typique à chaque unité lexicale. Dans cette optique, nous encodons la cooccurrence des lexies nominales du DiCo avec leurs actants à l'intérieur d'un tableau de régime lexical (aussi connu sous le nom de schéma valenciel, structure argumentale, cadre de sous-catégorisation, structure prédicats-arguments, etc.), en notant entre autres les dépendances syntaxiques de surface impliquées. Dans ce mémoire, nous présentons les propriétés syntaxiques d'une dépendance nominale du français, celle que nous avons nommée attributive adnominale, de façon à exposer une méthodologie d'identification et de caractérisation des dépendances syntaxiques de surface. Nous donnons également la liste des dépendances nominales régies identifiées au cours de ce travail. Par la suite, nous exposons la création d'une base de données de régimes généralisés du français nommée CARNAVAL. Finalement, nous discutons des applications possibles de notre travail, particulièrement en ce qui a trait à la création d'une typologie des régimes lexicaux du français. / This research focuses on the interface between lexical semantics and syntax, and is part of the lexical database project called DiCo (acronym for Dictionnaire de combinatoire) at the Observatoire de Linguistique Sens-Texte [OLST] at the University of Montreal. The project aims to register in a concise and complete way the typical syntactic behavior of each lexical unit directly in the dictionary. To this end, we encode the co-occurrence of the DiCo's nominal lexical units with their actants within a government pattern (also known as valency structure, subcategorization frame, predicate-argument structure, etc.), using, among other things, the surface syntactic dependencies involved. In this dissertation, we present the syntactic properties of a French nominal dependency, the one that we named attributive adnominale, so as to expose a methodology for the identification and the characterization of surface syntactic dependencies. We also give the list of valence-controlled nominal dependencies that were identified in our work. Subsequently, we describe the creation of a database of generalized French government patterns named CARNAVAL. Finally, we discuss possible applications of our work, particularly in regard to the creation of a typology of French government patterns.
|
17 |
Didactique de la paraphrase : évaluation et développement de la compétence paraphrastique chez l'apprenant de français langue secondeTsedryk, Alexandra 18 January 2013 (has links)
This thesis aims to contribute to the improvement of the paraphrasing competence, or the ability to produce synonymous sentences, of advanced learners of French as a second language (L2). While possessing solid grammatical skills, advanced learners still produce lexical and stylistic errors and experience difficulties in reformulating their discourse. Paraphrasing competence is crucial for a language learner since it helps him to present an idea more clearly or circumvent a lexical gap, while allowing the learner to express the same meaning in multiple ways. The theoretical framework adopted is Meaning-Text lin-guistic theory (MTT), that attaches a great deal of importance to the description of lexical and paraphrastic relations and uses well-developped formal tools for the modeling of these relations.
The thesis has two objectives. The first consists in elaborating a methodology for evalua-ting the paraphrasing competence of a speaker. The notion of paraphrasing competence is defined, and a test assessing the ability to paraphrase is created and administered to An-glophone learners of French and native speakers. Quantitative and qualitative criteria to establish four levels of paraphrasing competence – elementary, intermediate, advanced and superior - are identified.
Characteristics of advanced learners’ paraphrasing competence are described. While pro-ducing all types of paraphrases, the L2 learner uses less lexico-syntactic paraphrasing operations, such as synonymic, antonymic or derivative substitutions. His paraphrasing means are less diverse than those of a native speaker. He also produces a high number of paraphrases with lexical and syntactic errors.
The second objective of the thesis is to propose a didactic method of teaching paraphrase, taking into consideration the challenges that paraphrasing poses for L2 learners, identified by means of the paraphrasing test. Concepts of the Meaning-Text Theory are presented in a user-friendly format so that the theoretical linguistic knowledge becomes more accessible to L2 learners. A structured and explicit teaching approach is adopted, based on: (i) a selection of key concepts pertaining to the paraphrase and their definitions ; (ii) a selection of MTT paraphrasing rules and their explanation; (iii) paraphrasing exercices.The advocated pedagogical approach may serve as a reference tool for paraphrase didactics in French.
|
18 |
A lexical semantic study of Dene Suliné, an Athabaskan languageHolden, Joshua 08 1900 (has links)
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques.
La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants. / This work constitutes a systematic lexical semantic study of Dene Sųłiné, an Athabaskan language from northwestern Canada. As such, it presents the lexicographic definitions, syntactic and lexical combinatorial patterns of over 200 lexical units (lexemes and idioms) representing part of the core Dene Sųłiné vocabulary for seven semantic fields: terms to describe emotions, human character, physical description, position of an object, atmospheric conditions and topographical features. The theoretical approach used is Meaning-Text Theory (MTT), a formal linguistic approach with a strong empirical focus on semantics and lexicography.
This work finds significant differences between Dene Sųłiné and English at all levels: in the relationship between of (quasi-)extralinguistic concepts and linguistic meanings, in the lexicalization or conflation patterns one finds in meanings of lexical units, and finally in the syntactic and lexical combinatorial patterns, which also show interesting language-specific tendencies.
|
19 |
Towards deep content extraction from specialized discourse : the case of verbal relations in patent claimsFerraro, Gabriela 20 July 2012 (has links)
This thesis addresses the problem of the development of Natural Language
Processing techniques for the extraction and generalization of compositional
and functional relations from specialized written texts and, in particular, from
patent claims. One of the most demanding tasks tackled in the thesis is,
according to the state of the art, the semantic generalization of linguistic
denominations of relations between object components and processes
described in the texts. These denominations are usually verbal expressions or
nominalizations that are too concrete to be used as standard labels in
knowledge representation forms -as, for example, “A leads to B”, and “C
provokes D”, where “leads to” and “provokes” both express, in abstract
terms, a cause, such that in both cases “A CAUSE B” and “C CAUSE D”
would be more appropriate. A semantic generalization of the relations allows
us to achieve a higher degree of abstraction of the relationships between
objects and processes described in the claims and reduces their number to a
limited set that is oriented towards relations as commonly used in the generic
field of knowledge representation. / Esta tesis se centra en el del desarrollo de tecnologías del Procesamiento del
Lenguage Natural para la extracción y generalización de relaciones
encontradas en textos especializados; concretamente en las reivindicaciones
de patentes. Una de las tareas más demandadas de nuestro trabajo, desde el
punto vista del estado de la cuestión, es la generalización de las
denominaciones lingüísticas de las relaciones. Estas denominaciones,
usualmente verbos, son demasiado concretas para ser usadas como etiquetas
de relaciones en el contexto de la representación del conocimiento; por
ejemplo, “A lleva a B”, “B es el resultado de A” están mejor representadas
por “A causa B”. La generalización de relaciones permite reducir el n\'umero
de relaciones a un conjunto limitado, orientado al tipo de relaciones utilizadas
en el campo de la representación del conocimiento.
|
20 |
Vers une typologie des collocations à verbe support en malgacheHanitramalala, Rita 04 1900 (has links)
No description available.
|
Page generated in 0.0502 seconds