31 |
Neurale netwerke as moontlike woordafkappingstegniek vir AfrikaansFick, Machteld. January 2002 (has links)
Thesis (M.Sc.)--Universiteit van Suid-Afrika, 2002.
|
32 |
Discourse Modeling with Abstract Categorial Grammars / Modélisation du Discours avec les Grammaires Catégorielles AbstraitesMaskharashvili, Aleksandre 01 December 2016 (has links)
Ce mémoire de thèse traite de la modélisation du discours dans le cadre grammatical des Grammaires Catégorielles Abstraites (Abstract Categorial Grammars, ACGs). Les ACGs offrent un cadre unifié pour la modélisation de la syntaxe et de la sémantique. Nous nous intéressons en particulier aux formalismes discursifs qui utilisent une approche grammaticale pour rendre compte des régularités des structures discursives. Nous proposons en particulier un encodage à l'aide des ACGs de deux formalismes discursifs : G-TAG et D-STAG. Ces encodages permettent d'éclairer le problème des connecteurs discursifs médiaux que les formalismes s'appuyant sur TAG ne traitent pas, du moins pas par un mécanisme grammatical. En effet, pour prendre en compte ces connecteurs, G-TAG et D-STAG utilisent une étape extra-grammaticale. Notre encodage offre au contraire une approche purement grammaticale de la prise en compte de ces connecteurs discursifs. Ces encodages se font à l'aide d'ACGs de second ordre. Les grammaires de cette classe ont des propriétés de réversibilité qui nous permettent d'utiliser les mêmes algorithmes polynômiaux aussi bien pour l'analyse discursive que pour la génération de discours. / This dissertation addresses the questions of discourse modeling within a grammatical framework called Abstract Categorial Grammars (ACGs). ACGs provide a unified framework for both syntax and semantics. We focus on the discourse formalisms that make use of a grammatical approach to capture the discourse structure regularities. In particular, we propose ACG encodings of two discourse formalisms: G-TAG and D-STAG. These ACG encodings shed light on the problem of clause-medial connectives that the G-TAG and D-STAG grammars leave out of account. Both G-TAG and D-STAG make use of an extra-grammatical processing to deal with discourse connectives that appear at clause-medial positions. In contrast, the ACG encodings of G-TAG and D-STAG offer a purely grammatical approach to clause-medial connectives. Each of these ACG encodings are second-order. Grammars of this class have reversibility properties that allow us to use the same polynomial algorithmes both for the discourse parsing and generation tasks.
|
33 |
Probabilistic modelling of morphologically rich languagesBotha, Jan Abraham January 2014 (has links)
This thesis investigates how the sub-structure of words can be accounted for in probabilistic models of language. Such models play an important role in natural language processing tasks such as translation or speech recognition, but often rely on the simplistic assumption that words are opaque symbols. This assumption does not fit morphologically complex language well, where words can have rich internal structure and sub-word elements are shared across distinct word forms. Our approach is to encode basic notions of morphology into the assumptions of three different types of language models, with the intention that leveraging shared sub-word structure can improve model performance and help overcome data sparsity that arises from morphological processes. In the context of n-gram language modelling, we formulate a new Bayesian model that relies on the decomposition of compound words to attain better smoothing, and we develop a new distributed language model that learns vector representations of morphemes and leverages them to link together morphologically related words. In both cases, we show that accounting for word sub-structure improves the models' intrinsic performance and provides benefits when applied to other tasks, including machine translation. We then shift the focus beyond the modelling of word sequences and consider models that automatically learn what the sub-word elements of a given language are, given an unannotated list of words. We formulate a novel model that can learn discontiguous morphemes in addition to the more conventional contiguous morphemes that most previous models are limited to. This approach is demonstrated on Semitic languages, and we find that modelling discontiguous sub-word structures leads to improvements in the task of segmenting words into their contiguous morphemes.
|
34 |
Expression de la dynamique du discours à l'aide de continuations / Expressing Discourse Dynamics Through ContinuationsLebedeva, Ekaterina 06 April 2012 (has links)
Cette thèse développe un formalisme théorique pour la sémantique du discours. Il s'appuie sur l'extension des grammaires de Montague, sur la notion de continuation et sur les mécanismes de levée et de traitement des exceptions. Le formalisme permet de traiter des phénomènes dynamiques tels que les anaphores d'une phrase à l'autre, les présuppositions déclenchées par des référents et les projections présuppositions. / This thesis develops a theoretical formalism that takes into account semantical discourse dynamics. It focuses on the extension of Montague semantic with the notion of continuation and an exception handling and raising mechanism. The formalism allows to handle dynamic phenomena such as cross-sentential anaphora, presuppositions triggered by referring expressions and presupposition projection.
|
35 |
De l'utilisation de mesures de confiance en traduction automatique : évaluation, post-édition et application à la traduction de la parole / On the use of confidence measures in machine translation : evaluation, post edition and application to speech translationRaybaud, Sylvain 05 December 2012 (has links)
Cette thèse de doctorat aborde les problématiques de l'estimation de confiance pour la traduction automatique, et de la traduction automatique statistique de la parole spontanée à grand vocabulaire. J'y propose une formalisation du problème d'estimation de confiance, et aborde expérimentalement le problème sous le paradigme de la classification et régression multivariée. Je propose une évaluation des performances des différentes méthodes évoquées, présente les résultats obtenus lors d'une campagne d'évaluation internationale et propose une application à la post-édition par des experts de documents traduits automatiquement. J'aborde ensuite le problème de la traduction automatique de la parole. Après avoir passé en revue les spécificités du medium oral et les défis particuliers qu'il soulève, je propose des méthodes originales pour y répondre, utilisant notamment les réseaux de confusion phonétiques, les mesures de confiances et des techniques de segmentation de la parole. Je montre finalement que le prototype propose rivalise avec des systèmes état de l'art à la conception plus classique / In this thesis I shall deal with the issues of confidence estimation for machine translation and statistical machine translation of large vocabulary spontaneous speech translation. I shall first formalize the problem of confidence estimation. I present experiments under the paradigm of multivariate classification and regression. I review the performances yielded by different techniques, present the results obtained during the WMT2012 internation evaluation campaign and give the details of an application to post edition of automatically translated documents. I then deal with the issue of speech translation. After going into the details of what makes it a very specific and particularly challenging problem, I present original methods to partially solve it, by using phonetic confusion networks, confidence estimation techniques and speech segmentation. I show that the prototype I developped yields performances comparable to state-of-the-art of more standard design
|
36 |
Accessibilité des référents en sémantique du discours / Accessibility of Referents in Discourse SemanticsQian, Sai 07 November 2014 (has links)
Cette thèse prend ses racines dans la tradition sémantique montagovienne et dynamique standard. L’objet est les conditions dans lesquelles un syntagme nominal peut agir comme antécédent d'une expression anaphorique. Le travail porte sur l'accessibilité des référents de discours dans un système formel de la sémantique dynamique. Le cadre choisi est celui proposé par De Groote, type théorique Dynamic Logic (TTDL) car il fait appel à des outils mathématiques et logiques standards, qui permettent de conserver le principe de compositionnalité. Nous étendons la couverture de la gestion de l’accessibilité des référents dans TTDL à deux cas naturellement problématique pour les théories sémantiques dynamiques classiques, en particulier, l'anaphore sous la double négation et les modalités. Une adaptation est définie pour chaque cas et enfin, l'intégration des différentes solutions est proposée, ce qui montre la souplesse de TTDL. / This thesis has its roots in the standard Montagovian and dynamic semantic tradition. The subject is conditions under which a noun phrase may act as antecedent of a particular anaphoric expression. The work thesis deals with the accessibility of discourse referents using a formal system of dynamic semantics. The framework used is the one proposed by De Groote, Type Theoretic Dynamic Logic (TTDL) because it follows the Montagovian tradition and only makes use of standard mathematical and logical tools which allows to maintain compositionnality. We extend the coverage of TTDL to cases which are naturally problematic for classical dynamic semantic theories. In particularly, this thesis aims to extend TTDL's coverage of the accessibility of referents to two exceptions of classical dynamic theories, namely anaphora under double negation and modality. An adaptation is defined for each case and finally, an integration of various solutions is proposed, which shows the flexibility of TTDL
|
37 |
Les effects et les handlers dans le langage naturel / Effects and handlers in natural languageMaršík, Jiří 09 December 2016 (has links)
Ces travaux s’intéressent à la modélisation formelle de la sémantique des langues naturelles. Pour cela, nous suivons le principe de compositionnalité qui veut que le sens d’une expression complexe soit une fonction du sens de ses parties. Ces fonctions sont généralement formalisées à l’aide du [lambda]-calcul. Cependant, ce principe est remis en cause par certains usages de la langue, comme les pronoms anaphoriques ou les présuppositions. Ceci oblige à soit abandonner la compositionalité, soit modifier les structures du sens. Dans le premier cas, le sens n’est alors plus obtenu par un calcul qui correspond à des fonctions mathématiques, mais par un calcul dépendant du contexte, ce qui le rapproche des langages de programmation qui manipulent leur contexte avec des effets de bord. Dans le deuxième cas, lorsque les structures de sens sont ajustées, les nouveaux sens ont tendance à avoir une structure de monade. Ces dernières sont elles-mêmes largement utilisées en programmation fonctionnelle pour coder des effets de bord, que nous retrouvons à nouveau. Par ailleurs, s’il est souvent possible de proposer le traitement d’un unique phénomène, composer plusieurs traitements s’avère être une tâche complexe. Nos travaux proposent d’utiliser les résultats récents autour des langages de programmation pour parvenir à combiner ces modélisations par les effets de bord. Pour cela, nous étendons le [lambda]-calcul avec une monade qui implémente les effects et les handlers, une technique récente dans l’étude des effets de bord. Dans la première partie de la thèse, nous démontrons les propriétés fondamentales de ce calcul (préservation de type, confluence et terminaison). Dans la seconde partie, nous montrons comment utiliser le calcul pour le traitement de plusieurs phénomènes linguistiques : deixis, quantification, implicature conventionnelle, anaphore et présupposition. Enfin, nous construisons une unique grammaire qui gère ces phénomènes et leurs interactions. / In formal semantics, researchers assign meanings to sentences of a natural language. This work is guided by the principle of compositionality: the meaning of an expression is a function of the meanings of its parts. These functions are often formalized using the [lambda]-calculus. However, there are areas of language which challenge the notion of compositionality, e.g. anaphoric pronouns or presupposition triggers. These force researchers to either abandon compositionality or adjust the structure of meanings. In the first case, meanings are derived by processes that no longer correspond to pure mathematical functions but rather to context-sensitive procedures, much like the functions of a programming language that manipulate their context with side effects. In the second case, when the structure of meanings is adjusted, the new meanings tend to be instances of the same mathematical structure, the monad. Monads themselves being widely used in functional programming to encode side effects, the common theme that emerges in both approaches is the introduction of side effects. Furthermore, different problems in semantics lead to different theories which are challenging to unite. Our thesis claims that by looking at these theories as theories of side effects, we can reuse results from programming language research to combine them.This thesis extends [lambda]-calculus with a monad of computations. The monad implements effects and handlers, a recent technique in the study of programming language side effects. In the first part of the thesis, we prove some of the fundamental properties of this calculus: subject reduction, confluence and termination. Then in the second part, we demonstrate how to use the calculus to implement treatments of several linguistic phenomena: deixis, quantification, conventional implicature, anaphora and presupposition. In the end, we build a grammar that features all of these phenomena and their interactions.
|
38 |
Ανάπτυξη ορθογραφικού διορθωτή βασισμένου σε ακυκλικά αυτόματα / Speller development based on dynamic acyclic aytomataΤσιμπούρης, Χαράλαμπος 28 August 2009 (has links)
Η παρούσα διπλωματική έχει ως σκοπό να συνδέσει την λειτουργία υπάρχοντος ορθογράφου με συγκεκριμένη δομή αποθήκευσης και αναζήτησης λέξεων. Κριτήρια του ορθογράφου είναι να είναι ανοιχτού κώδικα και σκοπός είναι να του προστεθεί η δυνατότητα να λειτουργεί με ακυκλικούς γράφους, ντετερμινιστικούς ή μη. Τα πλεονεκτήματα της νέας δομής και λειτουργίας του ορθογράφου είναι πολλαπλά και παρουσιάζονται στη πορεία της διπλωματικής. Αν και οι δοκιμές που έγιναν, δεν αναδεικνύουν τα πλεονεκτήματα αυτά, σε θεωρητικό επίπεδο η εξέλιξη μπορεί να είναι μεγάλη, και σε ταχύτητα αλλά και σε απόδοση. / Target of this project is to connect the proccess of an existing speller to a spesific structure of storing and searching words. Basic criteria of this speller are: open source, capability to work with acyclic graphs, deteministic or not. The advantages of this new structure and proccess of the speller are presented in this project.
|
39 |
Αυτόματη εξαγωγή λεξικής - σημασιολογικής γνώσης από ηλεκτρονικά σώματα κειμένων με χρήση ελαχίστων πόρων / Automatic extraction of lexico - semantic knowledge from electronic text corpora using minimal resourcesΘανόπουλος, Αριστομένης 25 June 2007 (has links)
Το αντικείμενο της διατριβής είναι η μελέτη μεθόδων αυτόματης εξαγωγής των συμφράσεων και των σημασιολογικών ομοιοτήτων των λέξεων από μεγάλα σώματα κειμένων. Υιοθετείται μια προσέγγιση ελάχιστων γλωσσικών πόρων που εξασφαλίζει την απεριόριστη μεταφερσιμότητα των μεθόδων σε φυσικές γλώσσες και θεματικές περιοχές. Για την αξιολόγηση των προτεινόμενων μεθόδων προτείνονται, αξιολογούνται και εφαρμόζονται μεθοδολογίες με βάση πρότυπες βάσεις λεξικής γνώσης (στην Αγγλική), όπως το WordNet. Για την εξαγωγή των συμφράσεων προτείνονται νέα μέτρα εξαγωγής στατιστικά σημαντικών διγράμμων και γενικά ν-γράμμων που αξιολογούνται θετικά. Για την εξαγωγή των λεξικών - σημασιολογικών ομοιοτήτων των λέξεων ακολουθείται καταρχήν η προσέγγιση ομοιότητας περικειμένων λέξεων με παραθυρικές μεθόδους, όπου μελετώνται το πεδίο συμφραζομένων, το φιλτράρισμα των συνεμφανίσεων των λέξεων, τα μέτρα ομοιότητας, όπου εισάγεται ο παράγοντας του αριθμού κοινών παραμέτρων, καθώς και η αντιμετώπιση συστηματικών σφαλμάτων, ενώ προτείνεται η αξιοποίηση των λειτουργικών λέξεων. Επιπλέον, προτείνεται η αξιοποίηση της ομοιότητας περικείμενων εκφράσεων, που απαντάται συχνά σε θεματικώς εστιασμένα κείμενα, με ένα αλγόριθμο βασισμένο στην ετεροσυσχέτιση ακολουθιών λέξεων. Μελετάται η μεθοδολογία αξιοποίησης των παρατακτικών συνδέσεων ενώ προτείνεται μια μέθοδος ενοποίησης ετερογενών σωμάτων γνώσης λεξικών – σημασιολογικών ομοιοτήτων. Τέλος, η εξαχθείσα γνώση μετασχηματίζεται σε σημασιολογικές κλάσεις με μια συμβολική μέθοδο ιεραρχικής ομαδοποίησης και επίσης ενσωματώνεται επιτυχώς σε ένα διαλογικό σύστημα μηχανικής μάθησης όπου ενισχύει την απόδοση της αναγνώρισης του σκοπού του χρήστη συμβάλλοντας στην εκτίμηση του ρόλου των άγνωστων λέξεων. / The research described in this dissertation regards automatic extraction of collocations and lexico-semantic similarities from large text corpora. We follow an approach based on minimal linguistic resources in order to achieve unrestricted portability across languages and thematic domains. In order to evaluate the proposed methods we propose, evaluate and apply methodologies based on English gold standard lexical resources, such as WordNet. For the extraction of collocations we propose and test a few novel measures for the identification of statistically significant bigrams and, generally, n-grams, which exhibit strong performance. For the extraction of lexico-semantic similarities we follow a distributional window-based approach. We study the contextual scope, the filtering of lexical co-occurrences and the performance of similarity measures. We propose the incorporation of the number of common parameters into the latter, the exploitation of functional words and a method for the elimination of systematic errors. Moreover, we propose a novel approach to exploitation of word sequence similarities, common in technical texts, based on cross-correlation of word sequences. We refine an approach for word similarity extraction from coordinations and we propose a method for the amalgamation of lexico-semantic similarity databases extracted via different principles and methods. Finally, the extracted similarity knowledge is transformed in the form of soft hierarchical semantic clusters and it is successfully incorporated into a machine learning based dialogue system, reinforcing the performance of user’s plan recognition by estimating the semantic role of unknown words.
|
40 |
Diversité culturelle et religieuse dans le Devisement du monde de Marco Polo / Cultural and religious diversity in Marco Polo’s TravelsLapierre, Dominique 23 October 2018 (has links)
L’objectif de cette thèse est de proposer une nouvelle lecture du Devisement du Monde – connu également sous le titre du Livre des Merveilles, La Description du Monde ou Il Milione – axée sur le regard que porte Marco Polo sur ses contemporains de l’autre bout du monde et la réception qui lui est réservée. Parti dans le contexte des croisades qui réduit l’opposition Orient/Occident à la dualité sarrasin/chrétien, le jeune Marco Polo se retrouve, au travers de ses voyages et à la cour de Kubilai Khan, dans une problématique beaucoup plus vaste, où pratiques et croyances multiples s’inscrivent dans des courants philosophiques jusqu’alors peu connus en Occident. « L’observateur des religions », comme le nomme Philippe Ménard, semble être véritablement fasciné par cette diversité culturelle et religieuse qu’il relève durant son séjour dans l’empire mongol. Tant de nouveautés sont difficiles à assimiler et surtout à rapporter. Nous nous intéressons à la forme que prennent ces descriptions à l’intérieur d’un récit aux versions et traductions multiples, dans un contexte historique et littéraire marqué par les guerres de religion et de pouvoir. Dans la poursuite des travaux de C. Dutschke et de C. Gadrat sur la réception, ce travail de recherche s’appuie sur l’étude diachronique de dix manuscrits et de six éditions du Devisement du monde datant de la première moitié du XIVe siècle jusqu’à la fin du XIXe siècle. Nous envisageons cette réception du texte, non pas sous l’angle de l’usage du récit polien par d’autres auteurs ou au regard de sa diffusion, mais à partir du texte lui-même, du paratexte ainsi que des enluminures et des illustrations. Ces éléments renseignent sur la manière dont le texte est reçu au cours des siècles, et sont porteurs des attentes du public potentiel qui évoluent elles-mêmes avec le temps. La numérisation systématique des versions/traductions retenues, ainsi que l’usage d’outils d’analyse de données textuelles permettent de concilier une lecture attentive du texte et une analyse quantitative au-delà de l’approche linéaire traditionnelle. / The main goal of this dissertation is to propose a new reading and approach of Marco Polo’s Travels, also known as the Devisement du monde, the Description of the World or Il Milione. This study is based both on Marco Polo’s description of people living on the other side of the world and on the critical reception of his book. When Marco Polo left Venice, the prevailing opposition between West and East was mainly grounded in the duality opposing Christians and Saracens. However, through his travels and during his stay at Kubilai Khan’s Mongol court, the young man embraced more complex issues relating to religious beliefs and practices related to philosophical movements barely known in the Western world.“The observer of religions”, as historian P. Ménard calls him, seems to be fascinated by the cultural and religious diversity he encounters during his stay in the Mongol empire. So, many differences with his own culture were difficult to absorb and to report. In this study, we particularly focus on the many versions and translations of these descriptions, written in a context of political and religious turmoil. Following the works of C. Dutschke and C. Gadrat on the reception theory applied to the Travels, this diachronic research is founded on ten manuscripts and six editions dating from the early 14th century until the late 19th century. The impact of Marco Polo’s account is not studied here through the circulation of his Travels or according to the number of authors mentioning it in their own writings, but is rather established in relation to the text itself, along with the paratext, miniatures and illustrations. All these elements provide valuable information concerning its reception through ages, and about the expectations of the potential audience, which also evolved over time. All the versions and translations of our corpus have been digitized, and thanks to text analysis tools, we were able to reconcile close reading and data processing while analyzing the text.
|
Page generated in 0.026 seconds