11 |
Bimorphism Machine TranslationQuernheim, Daniel 10 April 2017 (has links)
The field of statistical machine translation has made tremendous progress due to the rise of statistical methods, making it possible to obtain a translation system automatically from a bilingual collection of text. Some approaches do not even need any kind of linguistic annotation, and can infer translation rules from raw, unannotated data. However, most state-of-the art systems do linguistic structure little justice, and moreover many approaches that have been put forward use ad-hoc formalisms and algorithms. This inevitably leads to duplication of effort, and a separation between theoretical researchers and practitioners.
In order to remedy the lack of motivation and rigor, the contributions of this dissertation are threefold:
1. After laying out the historical background and context, as well as the mathematical and linguistic foundations, a rigorous algebraic model of machine translation is put forward. We use regular tree grammars and bimorphisms as the backbone, introducing a modular architecture that allows different input and output formalisms.
2. The challenges of implementing this bimorphism-based model in a machine translation toolkit are then described, explaining in detail the algorithms used for the core components.
3. Finally, experiments where the toolkit is applied on real-world data and used for diagnostic purposes are described. We discuss how we use exact decoding to reason about search errors and model errors in a popular machine translation toolkit, and we compare output formalisms of different generative capacity.
|
12 |
Algebraic decoder specification: coupling formal-language theory and statistical machine translation: Algebraic decoder specification: coupling formal-language theory and statistical machine translationBüchse, Matthias 18 December 2014 (has links)
The specification of a decoder, i.e., a program that translates sentences from one natural language into another, is an intricate process, driven by the application and lacking a canonical methodology. The practical nature of decoder development inhibits the transfer of knowledge between theory and application, which is unfortunate because many contemporary decoders are in fact related to formal-language theory. This thesis proposes an algebraic framework where a decoder is specified by an expression built from a fixed set of operations. As yet, this framework accommodates contemporary syntax-based decoders, it spans two levels of abstraction, and, primarily, it encourages mutual stimulation between the theory of weighted tree automata and the application.
|
13 |
Abstract Numeration Systems: Recognizability, Decidability, Multidimensional S-Automatic Words, and Real NumbersCharlier, Emilie 07 December 2009 (has links)
In this doctoral dissertation, we studied and solved several questions regarding positional and abstract numeration systems. Each particular problem is the focus of a chapter. The first problem concerns the study of the preservation of recognizability under multiplication by a constant in abstract numeration systems built on polynomial regular languages. We obtained several results generalizing those from P. Lecomte and M. Rigo. The second problem we considered is a decidability problem, which was already studied, most notably, by J. Honkala and A. Muchnik. For our part, we studied this problem for two new cases: the linear positional numeration systems and the abstract numeration systems. Next, we focused on the extension to the multidimensional setting of a result of A. Maes and M.~Rigo regarding S-automatic infinite words. We obtained a characterization of multidimensional S-automatic words in terms of multidimensional (non-necessarily uniform) morphisms. This result can be viewed as the analogous of O. Salon's extension of a theorem of A. Cobham. Finally, generalizing results of P. Lecomte and M. Rigo, we proposed a formalism to represent real numbers in the general framework of abstract numeration systems built on languages that are not necessarily regular. This formalism encompasses in particular the rational base numeration systems, which have been recently introduced by S. Akiyama, Ch. Frougny, and J. Sakarovitch. Finally, we ended with a list of open questions in the continuation of this work./Dans cette dissertation, nous étudions et résolvons plusieurs questions autour des systèmes de numération abstraits. Chaque problème étudié fait l'objet d'un chapitre. Le premier concerne l'étude de la conservation de la reconnaissabilité par la multiplication par une constante dans des systèmes de numération abstraits construits sur des langages réguliers polynomiaux. Nous avons obtenus plusieurs résultats intéressants généralisant ceux de P. Lecomte et M. Rigo. Le deuxième problème auquel je me suis intéressée est un problème de décidabilité déjà étudié notamment par J. Honkala et A. Muchnik et ici décliné en deux nouvelles versions : les systèmes de numération de position linéaires et les systèmes de numération abstraits. Ensuite, nous nous penchons sur l'extension au cas multidimensionnel d'un résultat d'A. Maes et de M. Rigo à propos des mots infinis S-automatiques. Nous avons obtenu une caractérisation des mots S-automatiques multidimensionnels en termes de morphismes multidimensionnels (non nécessairement uniformes). Ce résultat peut être vu comme un analogue de l'extension obtenue par O. Salon d'un théorème de A. Cobham. Finalement, nous proposons un formalisme de la représentation des nombres réels dans le cadre général des systèmes de numération abstraits basés sur des langages qui ne sont pas nécessairement réguliers. Ce formalisme englobe notamment le cas des numérations en bases rationnelles introduits récemment par S. Akiyama, Ch. Frougny et J. Sakarovitch. Nous terminons par une liste de questions ouvertes dans la continuité de ce travail.
|
14 |
Jednostranné gramatiky s nahodilým kontextem / One-Sided Random Context GrammarsZemek, Petr Unknown Date (has links)
Tato disertační práce zavádí jednostranné gramatiky s nahodilým kontextem jako řízené gramatiky založené na bezkontextových gramatikách. V těchto gramatikách je ke každému pravidlu přiřazena množina povolujících symbolů a množina zakazujících symbolů a množina pravidel je rozdělena na množinu levých pravidel s nahodilým kontextem a množinu pravých pravidel s nahodilým kontextem . Levým pravidlem s nahodilým kontextem lze přepsat neterminál pokud se všechny povolující symboly vyskytují vlevo od přepisovaného neterminálu a žádný zakazující symbol tam přítomen není. Pravé pravidlo s nahodilým kontextem lze aplikovat analogicky, ale ona kontrola na přítomnost a nepřítomnost symbolů je provedena doprava od přepisovaného neterminálu. Práce je rozdělena na tři části. První část uvádí motivaci za zavedením jednostranných gramatik s nahodilým kontextem a umisťuje materiál pokrytý v této práci do vědeckého kontextu. Poté dává přehled základů teorie formálních jazyků a některých méně známých oblastí, jejichž znalost je nutná pro pochopení studovaného tématu. Druhá část tvoří jádro práce. Formálně definuje jednostranné gramatiky s nahodilým kontextem a studuje je z mnoha pohledů. Mezi studovaná témata patří generativní síla, vztah k jiným typům gramatik, redukce, normální formy, nejlevější derivace, zobecněné a LL verze těchto gramatiky. Třetí část této práce zakončuje diskusi několika poznámkami. Mezi ně patří poznámky týkající se aplikovatelnosti zavedených gramatik v praxi, bibliografie a otevřených problémů.
|
Page generated in 0.0583 seconds