Global ETD Search

81	Développement d'outils computationnels pour une approche de métabolomique non ciblée par spectrométrie de masse à haut débit Plante, Pier-Luc 05 March 2023 (has links) La métabolomique est l'étude des petites molécules produites par un système biologique. L'objectif principal des études en métabolomique non ciblées est la recherche d'une signature moléculaire, à base de biomarqueurs, permettant de distinguer deux phénotypes(ex. : malade et sain). Elle trouve des applications dans le domaine de la santé, de la nutrition, de l'agroalimentation et même de l'environnement. La spectrométrie de masse couplée à la chromatographie liquide est une des techniques les plus utilisées puisqu'elle offre sensibilité et spécificité lors de l'étude du métabolome. Par contre, le long temps d'analyse limite la taille et la portée des études métabolomiques. De nouvelles approches de métabolomique non ciblée à haut débit par spectrométrie de masse où un échantillon peut être analysé en quelques secondes peuvent cependant éliminer cette barrière. Ce changement de paradigme entraîne une complexification des différentes étapes de l'analyse de données (prétraitement, recherche de biomarqueurs et identification des métabolites). Dans le cadre de cette thèse, nous proposons différents outils basés sur l'apprentissage automatique visant à résoudre les problèmes d'analyse de données causés par une accélération de la vitesse d'acquisition et une augmentation du nombre d'échantillons. Premièrement, nous proposons une série d'algorithmes de correction et d'alignement de spectres de masse visant à les rendre comparables afin de permettre les analyses statistiques et l'apprentissage automatique. Deuxièmement, nous présentons MetaboDashboard, un outil visant à simplifier et à démocratiser l'utilisation de l'apprentissage automatique pour la recherche de biomarqueurs en métabolomique non ciblée. Un exemple de son utilisation dans le contexte d'une infection virale des voies respiratoires est présenté. Finalement, un réseau de neurones appelé DeepCCS permettant la prédiction de la section efficace dans l'objectif de supporter l'identification des métabolites est exposé. Nous démontrons, tout au long de cette thèse, l'utilité et la puissance de l'apprentissage automatique appliqué à la métabolomique non ciblée. Les outils computationnels présentés dans cette thèse sont le point de départ du développement d'une méthode de métabolomique non ciblée à haut débit. Nous espérons qu'ultimement, les contributions de cette thèse permettront la détection de biomarqueurs associés à différents phénotypes dans des populations entières avec un maximum de précision et à une vitesse encore jamais vue. / Metabolomics is defined as the study of small molecules produced by a biological system. The main objective of metabolomic studies is the search of a molecular signature, constituted of biomarkers, that allow to distinguish two phenotypes (ex: sick and healthy). It can be applied to diverse fields such as health, nutrition, food and environment. Mass spectrometry coupled to liquid chromatography is the most common technique used in metabolomics since it offers sensibility and specificity. Unfortunately, the long running time of these analysis limits the size and impact of metabolomic studies. New approaches in high-throughput untargeted metabolomics, where a sample can be analyzed in seconds, try to overcome this limitation. This new paradigm increases the complexity of the different data analysis steps that follows that acquisition (data pre-treatment, biomarker discovery and metabolite identification). In this thesis, we propose different tools based on machine learning that aim at solving the new data analysis issues that arise from the increased number of samples and throughput. First, we present new algorithms to correct and align mass spectra to make them comparable in order to enable statistical analysis and machine learning. Second, we present MetaboDashboard, a tool that aims at simplifying and democratizing the use of machine learning approach for biomarker discovery in the context of untargeted metabolomics. An example of its usage in the context of viral respiratory tract infection is then presented. Finally, a neural network tool called DeepCCS, that allow the prediction of collisional cross section for metabolite identification is reported. Throughout this thesis, we demonstrate the use and impact of machine learning applied to different problems in untargeted metabolomics. The computational tools presented in this thesis are the first steps towards the development of new methods in high-throughput untargeted metabolomics. We hope that ultimately, the scientific contributions presented in this thesis will enable biomarker discovery for different phenotypes at the scale of whole population with a level of precision and speed never seen before. Métabolomique. Spectrométrie de masse. Apprentissage automatique.
82	Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixte Servan, Christophe 10 December 2008 (has links) (PDF) Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels. [INFO] Computer Science Compréhension de la parole Traitement automatique de la parole Apprentissage automatique Systèmes de dialogue
83	Transformation de l'intonation application à la synthèse de la parole et à la transformation de voix / Lolive, Damien Boëffard, Olivier. Barbot, Nelly. January 2008 (has links) (PDF) Thèse doctorat : Informatique : Rennes 1 : 2008. / Titre provenant de la page du titre du document électronique. Bibliogr. p. 169-182.
84	Contribution à l'identification automatique des langues romanes Vasilescu, Ioana Gabriela. Hombert, Jean-Marie January 2001 (has links) Thèse de doctorat : Sciences du langage : Lyon 2 : 2001. / Titre provenant de l'écran-titre. Bibliogr.
85	UNE NOUVELLE APPROCHE POUR LA CONCEPTION SOUS CONTRAINTES DE MACHINES ELECTRIQUES Wurtz, Frédéric 28 May 1996 (has links) (PDF) L'objectif de ce travail de thèse est de définir et de présenter une nouvelle approche de la conception sous contraintes de machines électriques. Celle-ci permet aux électrotechniciens d'utiliser l'ordinateur non pas seulement comme un outil d'analyse mais aussi comme un outil ayant de réelles facultés de dimensionnement automatique. Cette approche offre de grands avantages comme: -la gestion des contraintes d'un cahier des charges, -la gestion de l'interdépendance des phénomènes physiques intervenant dans une machine, -ou encore l'optimisation des solutions trouvées. Cependant sa grande originalité est qu'elle assure automatiquement la génération du logiciel de conception. Pour cela elle utilise comme connaissance de base, un modèle analytique de la machine à laquelle on s'intéresse, et comme moyen, des techniques de calcul symbolique et de programmation automatique. Afin de guider le processus de conception, elle emploie des algorithmes génériques d'optimisation numérique sous contraintes. Cette approche est notamment appliquée, dans ce mémoire, au dimensionnement de machines asynchrones. conception automatique optimisation dimensionnement automatique modèle analytique calcul symbolique machine asynchrone programmation automatique
86	Model adaptation techniques in machine translation / Techniques d'adaptation en traduction automatique Shah, Kashif 29 June 2012 (has links) L’approche statistique pour la traduction automatique semble être aujourd’hui l’approche la plusprometteuse. Cette approche permet de développer rapidement un système de traduction pour unenouvelle paire de langue lorsque les données d'apprentissage disponibles sont suffisammentconséquentes.Les systèmes de traduction automatique statistique (Statistical Machine Translation (SMT)) utilisentdes textes parallèles, aussi appelés les bitextes, comme support d'apprentissage pour créer lesmodèles de traduction. Ils utilisent également des corpus monolingues afin de modéliser la langueciblée.Les performances d'un système de traduction automatique statistique dépendent essentiellement dela qualité et de la quantité des données disponibles. Pour l'apprentissage d'un modèle de traduction,les textes parallèles sont collectés depuis différentes sources, dans différents domaines. Ces corpussont habituellement concaténés et les phrases sont extraites suite à un processus d'alignement desmots.Néanmoins, les données parallèles sont assez hétérogènes et les performances des systèmes detraduction automatique dépendent généralement du contexte applicatif. Les performances varient laplupart du temps en fonction de la source de données d’apprentissage, de la qualité de l'alignementet de la cohérence des données avec la tâche. Les traductions, sélectionnées parmi différenteshypothèses, sont directement influencées par le domaine duquel sont récupérées les donnéesd'apprentissage. C'est en contradiction avec l'apprentissage des modèles de langage pour lesquelsdes techniques bien connues sont utilisées pour pondérer les différentes sources de données. Ilapparaît donc essentiel de pondérer les corpus d’apprentissage en fonction de leur importance dansle domaine de la tâche de traduction.Nous avons proposé de nouvelles méthodes permettant de pondérer automatiquement les donnéeshétérogènes afin d'adapter le modèle de traduction.Dans une première approche, cette pondération automatique est réalisée à l'aide d'une technique deré-échantillonnage. Un poids est assigné à chaque bitextes en fonction de la proportion de donnéesdu corpus. Les alignements de chaque bitextes sont par la suite ré-échantillonnés en fonction de cespoids. Le poids attribué aux corpus est optimisé sur les données de développement en utilisant uneméthode numérique. De plus, un score d'alignement relatif à chaque paire de phrase alignée estutilisé comme mesure de confiance.Dans un travail approfondi, nous pondérons en ré-échantillonnant des alignements, en utilisant despoids qui diminuent en fonction de la distance temporelle entre les bitextes et les données de test.Nous pouvons, de cette manière, utiliser tous les bitextes disponibles tout en mettant l'accent sur leplus récent.L'idée principale de notre approche est d'utiliser une forme paramétrique, ou des méta-poids, pourpondérer les différentes parties des bitextes. De cette manière, seuls quelques paramètres doiventêtre optimisés.Nous avons également proposé un cadre de travail générique qui, lors du calcul de la table detraduction, ne prend en compte que les corpus et les phrases réalisant les meilleurs scores. Cetteapproche permet une meilleure distribution des masses de probabilités sur les paires de phrasesindividuelles.Nous avons présenté les résultats de nos expériences dans différentes campagnes d'évaluationinternationales, telles que IWSLT, NIST, OpenMT et WMT, sur les paires de langues Anglais/Arabeet Fançais/Arabe. Nous avons ainsi montré une amélioration significative de la qualité destraductions proposées. / Nowadays several indicators suggest that the statistical approach to machinetranslation is the most promising. It allows fast development of systems for anylanguage pair provided that sufficient training data is available.Statistical Machine Translation (SMT) systems use parallel texts ‐ also called bitexts ‐ astraining material for creation of the translation model and monolingual corpora fortarget language modeling.The performance of an SMT system heavily depends upon the quality and quantity ofavailable data. In order to train the translation model, the parallel texts is collected fromvarious sources and domains. These corpora are usually concatenated, word alignmentsare calculated and phrases are extracted.However, parallel data is quite inhomogeneous in many practical applications withrespect to several factors like data source, alignment quality, appropriateness to thetask, etc. This means that the corpora are not weighted according to their importance tothe domain of the translation task. Therefore, it is the domain of the training resourcesthat influences the translations that are selected among several choices. This is incontrast to the training of the language model for which well‐known techniques areused to weight the various sources of texts.We have proposed novel methods to automatically weight the heterogeneous data toadapt the translation model.In a first approach, this is achieved with a resampling technique. A weight to eachbitexts is assigned to select the proportion of data from that corpus. The alignmentscoming from each bitexts are resampled based on these weights. The weights of thecorpora are directly optimized on the development data using a numerical method.Moreover, an alignment score of each aligned sentence pair is used as confidencemeasurement.In an extended work, we obtain such a weighting by resampling alignments usingweights that decrease with the temporal distance of bitexts to the test set. By thesemeans, we can use all the available bitexts and still put an emphasis on the most recentone. The main idea of our approach is to use a parametric form or meta‐weights for theweighting of the different parts of the bitexts. This ensures that our approach has onlyfew parameters to optimize.In another work, we have proposed a generic framework which takes into account thecorpus and sentence level "goodness scores" during the calculation of the phrase‐tablewhich results into better distribution of probability mass of the individual phrase pairs. Traduction automatique statistique Adaptation en traduction automatique Pondération automatique Ré-échantillonnage Statistical machine translation Model adaptation Weighting bitexts Resampling
87	Contrôle automatique de caméra dans un visualisateur de combats navals en 3 dimensions Poisson, Mathieu January 2014 (has links) Ce mémoire présente une solution au problème de contrôle de caméra hors-ligne dans un environnement en trois dimensions où se déroule une bataille navale. D'abord, une introduction du domaine est présentée, le but étant d'établir les fondations sur lesquelles se basera l'ensemble des sections de ce document. Ensuite, une revue de la littérature est effectuée. Le contrôle de la caméra dans le domaine du cinéma est exploré. Diverses techniques de contrôle sont également présentées tout en discutant leur pertinence au problème. Une approche de planification par réseau de tâches hiérarchique est ultimement choisie comme solution. Pour décrire cette solution, la modélisation du planificateur et de ses composantes est d'abord exposée. Par la suite, l'algorithme de planification est présenté. Une architecture de planification et d'exécution, intégrant l'algorithme de planification avec le contrôle bas-niveau de la caméra est aussi proposée. L'implémentation de cette architecture est ensuite discutée et illustrée à l'aide des résultats expérimentaux. La conclusion est suivie par une annexe décrivant les détails de l'implémentation. Intelligence artificielle Contrôle automatique de caméra Planification HTN
88	Parallélisation automatique de programmes scientifiques pour systèmes distribués Ouellet, Félix-Antoine January 2016 (has links) Avec l’avènement des processeurs multi-coeurs comme architecture standard pour ordinateurs de tout acabit, de nouveaux défis s’offrent aux programmeurs voulant mettre à profit toute cette nouvelle puissance de calcul qui leur est offerte. Malheureusement, la programmation parallèle, autant sur systèmes à mémoire partagée que sur systèmes à mémoire distribuée, demeure un défi de taille pour les développeurs de logiciels. Une solution intéressante à ce problème serait de rendre disponible un outil permettant d’automatiser le processus de parallélisation de programmes. C’est dans cette optique que s’inscrit le présent mémoire. Après deux essais infructueux, mais ayant permis d’explorer le domaine de la parallélisation automatique dirigée par le compilateur, l’outil Clang-MPI a été conçu pour répondre au besoin énoncé. Ainsi, cet outil prend en charge la parallélisation de programmes originellement séquentiels dans le but de produire des programmes visant les systèmes distribués. Son bon fonctionnement a été évalué en faisant appel aux bancs d’essai offerts par la suite Polybench et ses limites ont été explorées par une tentative de parallélisation automatique du processus d’entraînement d’un réseau de neurones. Compilateur Parallélisation automatique Systèmes distribués Réseau de neurones
89	Estimation de caractéristiques externes de qualité à partir de mesures d'attributs internes : bilan et perspectives Ait Mehedine, Lynda January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Qualité de logiciel Techniques d'estimation Apprentissage automatique
90	A methodology to develop high performance applications on GPGPU architectures : application to simulation of electrical machines / Une méthodologie pour le développement d’applications hautes performances sur des architectures GPGPU : application à la simulation des machines électriques Oliveira Rodrigues, Antonio Wendell de 26 January 2012 (has links) Les phénomènes physiques complexes peuvent être simulés numériquement par des techniques mathématiques. Ces simulations peuvent mener ainsi à la résolution de très grands systèmes. La parallélisation des codes de simulation numérique est alors une nécessité pour parvenir à faire ces simulations en des temps non-exorbitants. Le parallélisme s’est imposé au niveau des architectures de processeurs et les cartes graphiques sont maintenant utilisées pour des fins de calcul généraliste, aussi appelé "General-Purpose GPU", avec comme avantage évident l’excellent rapport performance/prix. Cette thèse se place dans le domaine de la conception de ces applications hautes-performances pour la simulation des machines électriques. Nous fournissons une méthodologie basée sur l’Ingénierie Dirigées par les Modèles (IDM) qui permet de modéliser une application et l’architecture sur laquelle l’exécuter, afin de générer un code OpenCL. Notre objectif est d’aider les spécialistes en algorithmes de simulations numériques à créer un code efficace qui tourne sur les architectures GPGPU. Pour cela, une chaine de compilation de modèles qui prend en compte plusieurs aspects du modèle de programmation OpenCL est fournie. De plus, nous fournissons des transformations de modèles qui regardent des niveaux d’optimisations basées sur les caractéristiques de l’architecture.Comme validation expérimentale, la méthodologie est appliquée à la création d’une application qui résout un système linéaire issu de la Méthode des Éléments Finis. Dans ce cas nous montrons, entre autres, la capacité de la méthodologie de passer à l’échelle par une simple modification de la multiplicité des unités GPU disponibles. / Complex physical phenomena can be numerically simulated by mathematical techniques. Usually, these techniques are based on discretization of partial differential equations that govern these phenomena. Hence, these simulations enable the solution of large-scale systems. The parallelization of algorithms of numerical simulation, i.e., their adaptation to parallel processing architectures, is an aim to reach in order to hinder exorbitant execution times. The parallelism has been imposed at the level of processor architectures and graphics cards are now used for purposes of general calculation, also known as "General- Purpose GPU". The clear benefit is the excellent performance/price ratio. This thesis addresses the design of high-performance applications for simulation of electrical machines. We provide a methodology based on Model Driven Engineering (MDE) to model an application and its execution architecture in order to generate OpenCL code. Our goal is to assist specialists in algorithms of numerical simulations to create a code that runs efficiently on GPGPU architectures. To ensure this, we offer a compilation model chain that takes into account several aspects of the OpenCL programming model. In addition, we provide model transformations that analyze some levels of optimizations based on the characteristics of the architecture. As an experimental validation, the methodology is applied to the creation of an application that solves a linear system resulting from the Finite Element Method (FEM). In this case, we show, among other things, the ability of the methodology of scaling by a simple modification of the number of available GPU devices. MARTE (langage de spécification) Génération automatique de code 004.21

Search results