Global ETD Search

1	Exploitation d’informations riches pour guider la traduction automatique statistique / Complex Feature Guidance for Statistical Machine Translation Marie, Benjamin 25 March 2016 (has links) S'il est indéniable que de nos jours la traduction automatique (TA) facilite la communication entre langues, et plus encore depuis les récents progrès des systèmes de TA statistiques, ses résultats sont encore loin du niveau de qualité des traductions obtenues avec des traducteurs humains.Ce constat résulte en partie du mode de fonctionnement d'un système de TA statistique, très contraint sur la nature des modèles qu'il peut utiliser pour construire et évaluer de nombreuses hypothèses de traduction partielles avant de parvenir à une hypothèse de traduction complète. Il existe cependant des types de modèles, que nous qualifions de « complexes », qui sont appris à partir d'informations riches. Si un enjeu pour les développeurs de systèmes de TA consiste à les intégrer lors de la construction initiale des hypothèses de traduction, cela n'est pas toujours possible, car elles peuvent notamment nécessiter des hypothèses complètes ou impliquer un coût de calcul très important. En conséquence, de tels modèles complexes sont typiquement uniquement utilisés en TA pour effectuer le reclassement de listes de meilleures hypothèses complètes. Bien que ceci permette dans les faits de tirer profit d'une meilleure modélisation de certains aspects des traductions, cette approche reste par nature limitée : en effet, les listes d'hypothèses reclassées ne représentent qu'une infime partie de l'espace de recherche du décodeur, contiennent des hypothèses peu diversifiées, et ont été obtenues à l'aide de modèles dont la nature peut être très différente des modèles complexes utilisés en reclassement.Nous formulons donc l'hypothèse que de telles listes d'hypothèses de traduction sont mal adaptées afin de faire s'exprimer au mieux les modèles complexes utilisés. Les travaux que nous présentons dans cette thèse ont pour objectif de permettre une meilleure exploitation d'informations riches pour l'amélioration des traductions obtenues à l'aide de systèmes de TA statistique.Notre première contribution s'articule autour d'un système de réécriture guidé par des informations riches. Des réécritures successives, appliquées aux meilleures hypothèses de traduction obtenues avec un système de reclassement ayant accès aux mêmes informations riches, permettent à notre système d'améliorer la qualité de la traduction.L'originalité de notre seconde contribution consiste à faire une construction de listes d'hypothèses par passes multiples qui exploitent des informations dérivées de l'évaluation des hypothèses de traduction produites antérieurement à l'aide de notre ensemble d'informations riches. Notre système produit ainsi des listes d'hypothèses plus diversifiées et de meilleure qualité, qui s'avèrent donc plus intéressantes pour un reclassement fondé sur des informations riches. De surcroît, notre système de réécriture précédent permet d'améliorer les hypothèses produites par cette deuxième approche à passes multiples.Notre troisième contribution repose sur la simulation d'un type d'information idéalisé parfait qui permet de déterminer quelles parties d'une hypothèse de traduction sont correctes. Cette idéalisation nous permet d'apporter une indication de la meilleure performance atteignable avec les approches introduites précédemment si les informations riches disponibles décrivaient parfaitement ce qui constitue une bonne traduction. Cette approche est en outre présentée sous la forme d'une traduction interactive, baptisée « pré-post-édition », qui serait réduite à sa forme la plus simple : un système de TA statistique produit sa meilleure hypothèse de traduction, puis un humain apporte la connaissance des parties qui sont correctes, et cette information est exploitée au cours d'une nouvelle recherche pour identifier une meilleure traduction. / Although communication between languages has without question been made easier thanks to Machine Translation (MT), especially given the recent advances in statistical MT systems, the quality of the translations produced by MT systems is still well below the translation quality that can be obtained through human translation. This gap is partly due to the way in which statistical MT systems operate; the types of models that can be used are limited because of the need to construct and evaluate a great number of partial hypotheses to produce a complete translation hypothesis. While more “complex” models learnt from richer information do exist, in practice, their integration into the system is not always possible, would necessitate a complete hypothesis to be computed or would be too computationally expensive. Such features are therefore typically used in a reranking step applied to the list of the best complete hypotheses produced by the MT system.Using these features in a reranking framework does often provide a better modelization of certain aspects of the translation. However, this approach is inherently limited: reranked hypothesis lists represent only a small portion of the decoder's search space, tend to contain hypotheses that vary little between each other and which were obtained with features that may be very different from the complex features to be used during reranking.In this work, we put forward the hypothesis that such translation hypothesis lists are poorly adapted for exploiting the full potential of complex features. The aim of this thesis is to establish new and better methods of exploiting such features to improve translations produced by statistical MT systems.Our first contribution is a rewriting system guided by complex features. Sequences of rewriting operations, applied to hypotheses obtained by a reranking framework that uses the same features, allow us to obtain a substantial improvement in translation quality.The originality of our second contribution lies in the construction of hypothesis lists with a multi-pass decoding that exploits information derived from the evaluation of previously translated hypotheses, using a set of complex features. Our system is therefore capable of producing more diverse hypothesis lists, which are globally of a better quality and which are better adapted to a reranking step with complex features. What is more, our forementioned rewriting system enables us to further improve the hypotheses produced with our multi-pass decoding approach.Our third contribution is based on the simulation of an ideal information type, designed to perfectly identify the correct fragments of a translation hypothesis. This perfect information gives us an indication of the best attainable performance with the systems described in our first two contributions, in the case where the complex features are able to modelize the translation perfectly. Through this approach, we also introduce a novel form of interactive translation, coined "pre-post-editing", under a very simplified form: a statistical MT system produces its best translation hypothesis, then a human indicates which fragments of the hypothesis are correct, and this new information is then used during a new decoding pass to find a new best translation. Traduction automatique statistique Modèle complexe Reclassement d'hypothèses Recherche locale Décodage à passes multiples Post-Édition Statistical machine translation Complex feature Hypotheses reranking Greedy search Multi-Pass decoding Post-Editing
2	Initialiser et calibrer un modèle de microsimulation dynamique stochastique : application au modèle SimVillages Lenormand, Maxime 12 December 2012 (has links) (PDF) Le but de cette thèse est de développer des outils statistiques permettant d'initialiser et de calibrer les modèles de microsimulation dynamique stochastique, en partant de l'exemple du modèle SimVillages (développé dans le cadre du projet Européen PRIMA). Ce modèle couple des dynamiques démographiques et économiques appliquées à une population de municipalités rurales. Chaque individu de la population, représenté explicitement dans un ménage au sein d'une commune, travaille éventuellement dans une autre, et possède sa propre trajectoire de vie. Ainsi, le modèle inclut-il des dynamiques de choix de vie, d'étude, de carrière, d'union, de naissance, de divorce, de migration et de décès. Nous avons développé, implémenté et testé les modèles et méthodes suivants : 1 / un modèle permettant de générer une population synthétique à partir de données agrégées, où chaque individu est membre d'un ménage, vit dans une commune et possède un statut au regard de l'emploi. Cette population synthétique est l'état initial du modèle. 2 / un modèle permettant de simuler une table d'origine-destination des déplacements domicile-travail à partir de données agrégées. 3 / un modèle permettant d'estimer le nombre d'emplois dans les services de proximité dans une commune donnée en fonction de son nombre d'habitants et de son voisinage en termes de service. 4 / une méthode de calibration des paramètres inconnus du modèle SimVillages de manière à satisfaire un ensemble de critères d'erreurs définis sur des sources de données hétérogènes. Cette méthode est fondée sur un nouvel algorithme d'échantillonnage séquentiel de type Approximate Bayesian Computation. [SPI:OTHER] Engineering Sciences/Other [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Microsimulation Modèle Complexe Modèle Individus Centré Modèle Stochastique Calibration Initialisation Population Synthétique Iterative Proportional Updating Modèle de Réseaux de Navettage Modèle de Déplacement Loi de Gravité Mobilité Humaine Réseau Spatial Besoin Minimal Service de Proximité Régression Quantile Municipalité Rurale Calcul Bayésien Approché Population Monte Carlo Sequential Monte Carlo
3	Initialiser et calibrer un modèle de microsimulation dynamique stochastique : application au modèle SimVillages / Initialize and Calibrate a Dynamic Stochastic Microsimulation Model : application to the SimVillages Model Lenormand, Maxime 12 December 2012 (has links) Le but de cette thèse est de développer des outils statistiques permettant d'initialiser et de calibrer les modèles de microsimulation dynamique stochastique, en partant de l’exemple du modèle SimVillages (développé dans le cadre du projet Européen PRIMA). Ce modèle couple des dynamiques démographiques et économiques appliquées à une population de municipalités rurales. Chaque individu de la population, représenté explicitement dans un ménage au sein d’une commune, travaille éventuellement dans une autre, et possède sa propre trajectoire de vie. Ainsi, le modèle inclut-il des dynamiques de choix de vie, d’étude, de carrière, d’union, de naissance, de divorce, de migration et de décès. Nous avons développé, implémenté et testé les modèles et méthodes suivants : 1 / un modèle permettant de générer une population synthétique à partir de données agrégées, où chaque individu est membre d’un ménage, vit dans une commune et possède un statut au regard de l’emploi. Cette population synthétique est l’état initial du modèle. 2 / un modèle permettant de simuler une table d’origine-destination des déplacements domicile-travail à partir de données agrégées. 3 / un modèle permettant d’estimer le nombre d’emplois dans les services de proximité dans une commune donnée en fonction de son nombre d’habitants et de son voisinage en termes de service. 4 / une méthode de calibration des paramètres inconnus du modèle SimVillages de manière à satisfaire un ensemble de critères d'erreurs définis sur des sources de données hétérogènes. Cette méthode est fondée sur un nouvel algorithme d’échantillonnage séquentiel de type Approximate Bayesian Computation. / The purpose of this thesis is to develop statistical tools to initialize and to calibrate dynamic stochastic microsimulation models, starting from their application to the SimVillages model (developed within the European PRIMA project). This model includes demographic and economic dynamics applied to the population of a set of rural municipalities. Each individual, represented explicitly in a household living in a municipality, possibly working in another, has its own life trajectory. Thus, model includes rules for the choice of study, career, marriage, birth children, divorce, migration, and death. We developed, implemented and tested the following models : • a model to generate a synthetic population from aggregate data, where each individual lives in a household in a municipality and has a status with regard to employment. The synthetic population is the initial state of the model. • a model to simulate a table of origin-destination commuting from aggregate data in order to assign a place of work for each individual working outside his municipality of residence. • a sub-model to estimate the number of jobs in local services in a given municipality in terms of its number of inhabitants and its neighbors in terms of service. • a method to calibrate the unknown SimVillages model parameters in order to satisfy a set of criteria. This method is based on a new Approximate Bayesian Computation algorithm using importance sampling. When applied to a toy example and to the SimVillages model, our algorithm is 2 to 8 times faster than the three main sequential ABC algorithms currently available. Microsimulation Modèle Complexe Modèle Individus Centré Modèle Stochastique Calibration Initialisation Population Synthétique Iterative Proportional Updating Modèle de Réseaux de Navettage Modèle de Déplacement Loi de Gravité Mobilité Humaine Réseau Spatial Besoin Minimal Service de Proximité Régression Quantile Municipalité Rurale Calcul Bayésien Approché Population Monte Carlo Sequential Monte Carlo Microsimulation Complex Model Individual Based Models Stochastic Models Calibration Initialisation Synthetic Population Sample-Free Iterative Proportional Updating Network Generation Models Commuting Patterns Commuting Networks Gravity Law Human Mobility Spatial Networks Minimum Requirement Proximity Service Jobs Quantile Regression Rural Municipality Approximate Bayesian Computation Population Monte Carlo Sequential Monte Carlo

1

Page generated in 0.0403 seconds