Global ETD Search

121	Sélection de corpus en traduction automatique statistique Abdul Rauf, Sadaf 17 January 2012 (has links) (PDF) Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le "translation edit rate (TER)". Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que "Agence France Press (AFP)", "Associate press" ou "Xinua News". Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique... [INFO:INFO_OH] Computer Science/Other Traduction automatique statistique Corpus comparable Recherche d'information
122	Créatures Artificielles : Développement d'Organismes à partir d'une Cellule Unique Cussat-Blanc, Sylvain 17 November 2009 (has links) (PDF) Le développement de créatures artificielles est un domaine de recherche en plein essor. Depuis plus de vingt ans maintenant, de nombreuses techniques sont apparues afin de simuler à plusieurs niveaux des êtres artificiels : en commençant par la simulation de leur comportement au début des années 90, on a ensuite continué en modifiant leur morphologie pour qu'elle soit adaptée à leur environnement. Plus récemment, l'embryogenèse artificielle s'inspire des mécanismes de développement du vivant afin de générer de petites créatures de quelques dizaines à plusieurs centaines de cellules. Le but de ces systèmes est d'une part de mieux comprendre le vivant mais aussi de produire des modèles comportementaux pour les futurs robots modulaires. Après avoir étudié ces différents niveaux de simulation, nous nous sommes aperçus qu'il n'existait pas de modèle transversal permettant une simulation à plusieurs échelles des créatures. Le but de ces travaux est de développer une créature complète en partant d'une cellule unique, possédant différents organes et des fonctionnalités haut niveau. Le but de cette thèse est de construire le modèle chimique de cet ensemble de simulateurs. Nous avons ainsi proposé un modèle basé sur une forte simplification du modèle de développement naturel. Les créatures devront de plus intégrer un métabolisme afin de pouvoir extraire de l'énergie des différents constituants de son environnement. Ce métabolisme est trop souvent oublié dans les modèles de développement de la littérature bien qu'il soit à la base de la vie de tous les êtres vivants. A travers différentes expérimentations que nous avons effectuées, nous avons prouvé que ce modèle est capable de produire différents organes et de les assembler afin de créer un organisme plus complexe. Nous avons aussi montré la possibilité à produire une forme particulière. Enfin, nous avons observé d'importantes capacités d'auto-réparation inhérentes au modèle. Ce modèle de développement est un premier simulateur qui sera inclu dans un ensemble de simulateurs agissants à différentes échelles de la créature. Comme nous le verrons dans les perspectives de ces travaux, nous avons commencé à imaginer un simulateur physique et un simulateur hydrodynamique permettant de plonger une créature en train de se développer dans un monde physique aux lois newtoniennes et un monde hydrodynamique répondant aux équations de Navier et Stokes. [INFO:INFO_OH] Computer Science/Other Embryogenèse artificielle créatures artificielles développement cellulaire algorithme génétique calcul sur grille
123	Apprentissage probabiliste de similarités d'édition Boyer, Laurent 24 March 2011 (has links) (PDF) De nombreuses applications informatiques nécessitent l'utilisation de distances. Dans le cadre de données structurées, chaînes ou arbres, nous utilisons majoritairement la distance d'édition. Celle-ci correspond au nombre minimal d'opérations d'édition (insertion, délétion et substitution) nécessaire pour transformer la première donnée en la seconde. Suivant l'application traitée, il est possible de paramétrer la distance d'édition en associant à chaque opération d'édition un poids. Dans le cadre de ce manuscrit, nous proposons une technique d'apprentissage automatique supervisée pour apprendre les poids de la distance décrite précédemment. L'algorithme utilisé, appelé Expectation-Maximisation, maximise la vraisemblance des paramètres du modèle à l'aide d'un échantillon d'apprentissage composé de paires d'exemples considérés comme similaires. La première contribution de ce manuscrit est une extension de précédents travaux sur les chaînes aux arbres sous la forme de transducteur à un unique état. Nous montrons sur une tâche de reconnaissance de caractères manuscrits, l'efficacité de l'apprentissage par rapport à l'utilisation de poids non appris. La seconde est une approche sur les chaînes sous contraintes. Le modèle est représenté par un ensemble fini d'états dans lequel les transitions sont contraintes. Une contrainte est représentée par un ensemble fini de fonctions booléennes définies sur la chaîne d'entrée et une de ses positions. Nous utilisons notre modèle pour aborder une application de recherche de sites de facteur de transcription dans des séquences génomiques [INFO:INFO_OH] Computer Science/Other Apprentissage automatique Apprentissage supervisé Similarités d'édition Modèles à états probabilistes
124	Model adaptation techniques in machine translation Shah, Kashif 29 June 2012 (has links) (PDF) Nowadays several indicators suggest that the statistical approach to machinetranslation is the most promising. It allows fast development of systems for anylanguage pair provided that sufficient training data is available.Statistical Machine Translation (SMT) systems use parallel texts ‐ also called bitexts ‐ astraining material for creation of the translation model and monolingual corpora fortarget language modeling.The performance of an SMT system heavily depends upon the quality and quantity ofavailable data. In order to train the translation model, the parallel texts is collected fromvarious sources and domains. These corpora are usually concatenated, word alignmentsare calculated and phrases are extracted.However, parallel data is quite inhomogeneous in many practical applications withrespect to several factors like data source, alignment quality, appropriateness to thetask, etc. This means that the corpora are not weighted according to their importance tothe domain of the translation task. Therefore, it is the domain of the training resourcesthat influences the translations that are selected among several choices. This is incontrast to the training of the language model for which well‐known techniques areused to weight the various sources of texts.We have proposed novel methods to automatically weight the heterogeneous data toadapt the translation model.In a first approach, this is achieved with a resampling technique. A weight to eachbitexts is assigned to select the proportion of data from that corpus. The alignmentscoming from each bitexts are resampled based on these weights. The weights of thecorpora are directly optimized on the development data using a numerical method.Moreover, an alignment score of each aligned sentence pair is used as confidencemeasurement.In an extended work, we obtain such a weighting by resampling alignments usingweights that decrease with the temporal distance of bitexts to the test set. By thesemeans, we can use all the available bitexts and still put an emphasis on the most recentone. The main idea of our approach is to use a parametric form or meta‐weights for theweighting of the different parts of the bitexts. This ensures that our approach has onlyfew parameters to optimize.In another work, we have proposed a generic framework which takes into account thecorpus and sentence level "goodness scores" during the calculation of the phrase‐tablewhich results into better distribution of probability mass of the individual phrase pairs. [INFO:INFO_OH] Computer Science/Other Statistical machine translation Model adaptation Weighting bitexts Resampling
125	Etude d'un calculateur tolérant des pannes, ses fiabilité, sécurité, performance et coût Courtois, Bernard 10 December 1976 (has links) (PDF) La présente étude s'insère dans le domaine de la sûreté de fonctionnement et se veut être une aide à la conception d'un calculateur tolérant des pannes. Plus précisément nous nous intéresserons à la prise en compte de quatre paramètres : la sécurité, la fiabilité, la performance et le coût de ce calculateur [INFO:INFO_OH] Computer Science/Other sûreté de fonctionnement calculateur fiabilité sécurité compilation compilateur
126	Les supports de vocabulaires pour les systèmes de recherche d'information orientés précision : application aux graphes pour la recherche d'information médicale. Maisonnasse, Loïc 06 May 2008 (has links) (PDF) Cette thèse propose un cadre général pour développer des modèles orientés précision en recherche d'information (RI). Ce cadre s'appuie sur la notion de supports de vocabulaires pour modéliser l'expressivité des représentations utilisées en RI. Peu de cadres de modélisation sont disponibles dans ce domaine. Nous proposons un tel cadre axé sur la modélisation de l'expressivité et qui permet de choisir ou de comparer des modèles sur ce critère.<br />Dans ce cadre nous nous orientons vers l'utilisation de représentations expressives du texte. Nous proposons deux modèles utilisant des représentations d'expressivité forte à base de graphes. Si ces deux modèles se ressemblent au niveau de l'expressivité, ils s'opposent sur leur modèle sous-jacent. Nous implémentons l'un des modèles par un modèle dérivé des graphes conceptuels et l'autre par un modèle original dérivé des modèles de langue de RI.<br />Pour l'application de ces modèles sur du texte, nous proposons un processus en deux étapes basé sur des traitements de la langue qui favorise la couverture du document. La première étape, dépendante du domaine d'application, produit une représentation intermédiaire des documents où chaque phrase est représentée par un graphe. La deuxième étape crée les représentations finales des documents à partir de la représentation intermédiaire. Nous appliquons finalement nos modèles sur le domaine médical à l'aide du méta-thésaurus UMLS et en proposant plusieurs méthodes pour construire la représentation intermédiaire.<br />L'efficacité de nos modèles est prouvée par des expérimentations sur la campagne d'évaluation CLEF médicale qui permet de tester nos modèles dans un cadre réel. [INFO:INFO_OH] Computer Science/Other recherche d'information représentations sémantiques modèles expressifs modèle de langue
127	Contribution à l'étude de systèmes hiérarchisés de ressources dans l'architecture des machines informatiques Anceau, François 05 December 1974 (has links) (PDF) . [INFO:INFO_OH] Computer Science/Other Architecture des machines systèmes hiérarchisés hardware programmation
128	Utilisation du langage CASSANDRE pour la conception des machines microprogrammées De Polignac, Karen 16 June 1973 (has links) (PDF) . [INFO:INFO_OH] Computer Science/Other CASSANDRE langage machine microprogrammé programmation opérateurs logiques
129	Etude méthodologique de la conception assistée par ordinateur des systèmes logiques : CASSANDRE Mermet, Jean 10 April 1973 (has links) (PDF) . [INFO:INFO_OH] Computer Science/Other CASSANDRE systèmes logiques conception assistée langage programmation
130	Etude et réalisation d'un système de programmation pour la commande numérique des machines-outils Gabrini, Philippe 01 January 1970 (has links) (PDF) . [INFO:INFO_OH] Computer Science/Other commande numérique machines outils programmation usinage PROLAMAT MACALGOL ALGOL

Search results