• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 108
  • 44
  • 17
  • Tagged with
  • 169
  • 169
  • 85
  • 53
  • 46
  • 45
  • 35
  • 34
  • 31
  • 30
  • 24
  • 24
  • 22
  • 21
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Modeling functional brain activity of human working memory using deep recurrent neural networks

Sainath, Pravish 12 1900 (has links)
Dans les systèmes cognitifs, le rôle de la mémoire de travail est crucial pour le raisonnement visuel et la prise de décision. D’énormes progrès ont été réalisés dans la compréhension des mécanismes de la mémoire de travail humain/animal, ainsi que dans la formulation de différents cadres de réseaux de neurones artificiels à mémoire augmentée. L’objectif global de notre projet est de former des modèles de réseaux de neurones artificiels capables de consolider la mémoire sur une courte période de temps pour résoudre une tâche de mémoire et les relier à l’activité cérébrale des humains qui ont résolu la même tâche. Le projet est de nature interdisciplinaire en essayant de relier les aspects de l’intelligence artificielle (apprentissage profond) et des neurosciences. La tâche cognitive utilisée est la tâche N-back, très populaire en neurosciences cognitives dans laquelle les sujets sont présentés avec une séquence d’images, dont chacune doit être identifiée pour savoir si elle a déjà été vue ou non. L’ensemble de données d’imagerie fonctionnelle (IRMf) utilisé a été collecté dans le cadre du projet Courtois Neurmod. Nous étudions plusieurs variantes de modèles de réseaux neuronaux récurrents qui apprennent à résoudre la tâche de mémoire de travail N-back en les entraînant avec des séquences d’images. Ces réseaux de neurones entraînés optimisés pour la tâche de mémoire sont finalement utilisés pour générer des représentations de caractéristiques pour les images de stimuli vues par les sujets humains pendant leurs enregistrements tout en résolvant la tâche. Les représentations dérivées de ces réseaux de neurones servent ensuite à créer un modèle de codage pour prédire l’activité IRMf BOLD des sujets. On comprend alors la relation entre le modèle de réseau neuronal et l’activité cérébrale en analysant cette capacité prédictive du modèle dans différentes zones du cerveau impliquées dans la mémoire de travail. Ce travail présente une manière d’utiliser des réseaux de neurones artificiels pour modéliser le comportement et le traitement de l’information de la mémoire de travail du cerveau et d’utiliser les données d’imagerie cérébrale capturées sur des sujets humains lors de la tâche N-back pour potentiellement comprendre certains mécanismes de mémoire du cerveau en relation avec ces modèles de réseaux de neurones artificiels. / In cognitive systems, the role of working memory is crucial for visual reasoning and decision making. Tremendous progress has been made in understanding the mechanisms of the human/animal working memory, as well as in formulating different frameworks of memory augmented artificial neural networks. The overall objective of our project is to train artificial neural network models that are capable of consolidating memory over a short period of time to solve a memory task and relate them to the brain activity of humans who solved the same task. The project is of interdisciplinary nature in trying to bridge aspects of Artificial Intelligence (deep learning) and Neuroscience. The cognitive task used is the N-back task, a very popular one in Cognitive Neuroscience in which the subjects are presented with a sequence of images, each of which needs to be identified as to whether it was already seen or not. The functional imaging (fMRI) dataset used has been collected as a part of the Courtois Neurmod Project. We study multiple variants of recurrent neural network models that learn to remember input images across timesteps. These trained neural networks optimized for the memory task are ultimately used to generate feature representations for the stimuli images seen by the human subjects during their recordings while solving the task. The representations derived from these neural networks are then to create an encoding model to predict the fMRI BOLD activity of the subjects. We then understand the relationship between the neural network model and brain activity by analyzing this predictive ability of the model in different areas of the brain that are involved in working memory. This work presents a way of using artificial neural networks to model the behavior and information processing of the working memory of the brain and to use brain imaging data captured from human subjects during the N-back task to potentially understand some memory mechanisms of the brain in relation to these artificial neural network models.
142

Apprentissage discriminant des modèles continus en traduction automatique / Discriminative Training Procedure for Continuous-Space Translation Models

Do, Quoc khanh 31 March 2016 (has links)
Durant ces dernières années, les architectures de réseaux de neurones (RN) ont été appliquées avec succès à de nombreuses applications en Traitement Automatique de Langues (TAL), comme par exemple en Reconnaissance Automatique de la Parole (RAP) ainsi qu'en Traduction Automatique (TA).Pour la tâche de modélisation statique de la langue, ces modèles considèrent les unités linguistiques (c'est-à-dire des mots et des segments) à travers leurs projections dans un espace continu (multi-dimensionnel), et la distribution de probabilité à estimer est une fonction de ces projections.Ainsi connus sous le nom de "modèles continus" (MC), la particularité de ces derniers se trouve dans l'exploitation de la représentation continue qui peut être considérée comme une solution au problème de données creuses rencontré lors de l'utilisation des modèles discrets conventionnels.Dans le cadre de la TA, ces techniques ont été appliquées dans les modèles de langue neuronaux (MLN) utilisés dans les systèmes de TA, et dans les modèles continus de traduction (MCT).L'utilisation de ces modèles se sont traduit par d'importantes et significatives améliorations des performances des systèmes de TA. Ils sont néanmoins très coûteux lors des phrases d'apprentissage et d'inférence, notamment pour les systèmes ayant un grand vocabulaire.Afin de surmonter ce problème, l'architecture SOUL (pour "Structured Output Layer" en anglais) et l'algorithme NCE (pour "Noise Contrastive Estimation", ou l'estimation contrastive bruitée) ont été proposés: le premier modifie la structure standard de la couche de sortie, alors que le second cherche à approximer l'estimation du maximum de vraisemblance (MV) par une méthode d’échantillonnage.Toutes ces approches partagent le même critère d'estimation qui est la log-vraisemblance; pourtant son utilisation mène à une incohérence entre la fonction objectif définie pour l'estimation des modèles, et la manière dont ces modèles seront utilisés dans les systèmes de TA.Cette dissertation vise à concevoir de nouvelles procédures d'entraînement des MC, afin de surmonter ces problèmes.Les contributions principales se trouvent dans l'investigation et l'évaluation des méthodes d'entraînement efficaces pour MC qui visent à: (i) réduire le temps total de l'entraînement, et (ii) améliorer l'efficacité de ces modèles lors de leur utilisation dans les systèmes de TA.D'un côté, le coût d'entraînement et d'inférence peut être réduit (en utilisant l'architecture SOUL ou l'algorithme NCE), ou la convergence peut être accélérée.La dissertation présente une analyse empirique de ces approches pour des tâches de traduction automatique à grande échelle.D'un autre côté, nous proposons un cadre d'apprentissage discriminant qui optimise la performance du système entier ayant incorporé un modèle continu.Les résultats expérimentaux montrent que ce cadre d'entraînement est efficace pour l'apprentissage ainsi que pour l'adaptation des MC au sein des systèmes de TA, ce qui ouvre de nouvelles perspectives prometteuses. / Over the past few years, neural network (NN) architectures have been successfully applied to many Natural Language Processing (NLP) applications, such as Automatic Speech Recognition (ASR) and Statistical Machine Translation (SMT).For the language modeling task, these models consider linguistic units (i.e words and phrases) through their projections into a continuous (multi-dimensional) space, and the estimated distribution is a function of these projections. Also qualified continuous-space models (CSMs), their peculiarity hence lies in this exploitation of a continuous representation that can be seen as an attempt to address the sparsity issue of the conventional discrete models. In the context of SMT, these echniques have been applied on neural network-based language models (NNLMs) included in SMT systems, and oncontinuous-space translation models (CSTMs). These models have led to significant and consistent gains in the SMT performance, but are also considered as very expensive in training and inference, especially for systems involving large vocabularies. To overcome this issue, Structured Output Layer (SOUL) and Noise Contrastive Estimation (NCE) have been proposed; the former modifies the standard structure on vocabulary words, while the latter approximates the maximum-likelihood estimation (MLE) by a sampling method. All these approaches share the same estimation criterion which is the MLE ; however using this procedure results in an inconsistency between theobjective function defined for parameter stimation and the way models are used in the SMT application. The work presented in this dissertation aims to design new performance-oriented and global training procedures for CSMs to overcome these issues. The main contributions lie in the investigation and evaluation of efficient training methods for (large-vocabulary) CSMs which aim~:(a) to reduce the total training cost, and (b) to improve the efficiency of these models when used within the SMT application. On the one hand, the training and inference cost can be reduced (using the SOUL structure or the NCE algorithm), or by reducing the number of iterations via a faster convergence. This thesis provides an empirical analysis of these solutions on different large-scale SMT tasks. On the other hand, we propose a discriminative training framework which optimizes the performance of the whole system containing the CSM as a component model. The experimental results show that this framework is efficient to both train and adapt CSM within SMT systems, opening promising research perspectives.
143

MSWs gasification with emphasis on energy, environment and life cycle assessment / Etude de la gazéification d'ordures ménagères avec un intérêt particulier pour les bilans énergétiques, environnementaux couplés à l'analyse de cycle de vie

Dong, Jun 29 November 2016 (has links)
Récemment, la pyro-gazéification de déchets ménagers solides (DMS) a suscité une plus grande attention, en raison de ses bénéfices potentiels en matière d’émissions polluantes et d’efficacité énergique. Afin de développer un système de traitement de ces déchets, durable et intégré, ce manuscrit s’intéresse plus spécifiquement au développement de la technique de pyro-gazéification des DMS, à la fois sur l’aspect technologique (expérimentations) et sur son évaluation globale (modélisation). Pour cette étude, quatre composants principaux représentatifs des DMS (déchet alimentaire, papier, bois et plastique) ont été pyro-gazéifiés dans un lit fluidisé sous atmosphère N2, CO2 ou vapeur d’eau. Les expériences ont été menées avec les composés seuls ou en mélanges afin de comprendre les interactions mises en jeu et leurs impacts sur la qualité du syngas produit. La présence de plastique améliore significativement la quantité et la qualité du syngas (concentration de H2). La qualité du syngas est améliorée plus particulièrement en présence de vapeur d’eau, ou, dans une moindre mesure, en présence de CO2. Les résultats obtenus ont été ensuite intégrés dans un modèle prédictif de pyro-gazéification basé sur un réseau de neurones artificiels (ANN). Ce modèle prédictif s’avère efficace pour prédire les performances de pyro-gazéification des DMS, quelle que soit leur composition (provenance géographique). Pour améliorer la qualité du syngas et abaisser la température du traitement, la gazéification catalytique in-situ, en présence de CaO, a été menée. L’impact du débit de vapeur d’eau, du ratio massique d’oxyde de calcium, ainsi que de la température de réaction a été étudié en regard de la production (quantité et pourcentage molaire dans le gaz) d’hydrogène. La présence de CaO a permis d’abaisser de 100 oC la température de gazéification, à qualité de syngas équivalente. Pour envisager une application industrielle, l’activité du catalyseur a aussi été évaluée du point de vue de sa désactivation et régénération. Ainsi, les températures de carbonatation et de calcination de 650 oC et 800 oC permettent de prévenir la désactivation du catalyseur, tandis que l’hydratation sous vapeur d’eau permet la régénération. Ensuite, une étude a été dédiée à l’évaluation et à l’optimisation de la technologie de pyro-gazéification par la méthode d’analyse de cycle de vie (ACV). Le système de gazéification permet d’améliorer les indicateurs de performances environnementales comparativement à l’incinération conventionnelle. De plus, des systèmes combinant à la fois la transformation des déchets en vecteur énergétique et la mise en œuvre de ce vecteur ont été modélisés. La pyro-gazéification combinée à une turbine à gaz permettrait de maximiser l’efficacité énergétique et de diminuer l’impact environnemental du traitement. Ainsi, les résultats permettent d’optimiser les voies actuelles de valorisation énergétique, et de d’optimiser les techniques de pyro-gazéification. / Due to the potential benefits in achieving lower environmental emissions and higher energy efficiency, municipal solid waste (MSW) pyro-gasification has gained increasing attentions in the last years. To develop such an integrated and sustainable MSW treatment system, this dissertation mainly focuses on developing MSW pyro-gasification technique, including both experimental-based technological investigation and assessment modeling. Four of the most typical MSW components (wood, paper, food waste and plastic) are pyro-gasified in a fluidized bed reactor under N2, steam or CO2 atmosphere. Single-component and multi-components mixture have been investigated to characterize interactions regarding the high-quality syngas production. The presence of plastic in MSW positively impacts the volume of gas produced as well as its H2 content. Steam clearly increased the syngas quality rather than the CO2 atmosphere. The data acquired have been further applied to establish an artificial neural network (ANN)-based pyro-gasification prediction model. Although MSW composition varies significantly due to geographic differences, the model is robust enough to predict MSW pyro-gasification performance with different waste sources. To further enhance syngas properties and reduce gasification temperature as optimization of pyro-gasification process, MSW steam catalytic gasification is studied using calcium oxide (CaO) as an in-situ catalyst. The influence of CaO addition, steam flowrate and reaction temperature on H2-rich gas production is also investigated. The catalytic gasification using CaO allows a decrease of more than 100 oC in the reaction operating temperature in order to reach the same syngas properties, as compared with non-catalyst high-temperature gasification. Besides, the catalyst activity (de-activation and re-generation mechanisms) is also evaluated in order to facilitate an industrial application. 650 oC and 800 oC are proven to be the most suitable temperature for carbonation and calcination respectively, while steam hydration is shown to be an effective CaO re-generation method. Afterwards, a systematic and comprehensive life cycle assessment (LCA) study is conducted. Environmental benefits have been achieved by MSW gasification compared with conventional incineration technology. Besides, pyrolysis and gasification processes coupled with various energy utilization cycles are also modeled, with a gasification-gas turbine cycle system exhibits the highest energy conversion efficiency and lowest environmental burden. The results are applied to optimize the current waste-to-energy route, and to develop better pyro-gasification techniques.
144

Towards a 3D building reconstruction using spatial multisource data and computational intelligence techniques / Vers une reconstruction de batiment en 3D utilisant des données spatiales multisources et des techniques d'intelligence informatique

Papadopoulos, Georgios 27 November 2019 (has links)
La reconstruction de bâtiments à partir de photographies aériennes et d’autres données spatiales urbaines multi-sources est une tâche qui utilise une multitude de méthodes automatisées et semi-automatisées allant des processus ponctuels au traitement classique des images et au balayage laser. Dans cette thèse, un système de relaxation itératif est développé sur la base de l'examen du contexte local de chaque bord en fonction de multiples sources d'entrée spatiales (masques optiques, d'élévation, d'ombre et de feuillage ainsi que d'autres données prétraitées, décrites au chapitre 6). Toutes ces données multisource et multirésolution sont fusionnées de manière à extraire les segments de ligne probables ou les arêtes correspondant aux limites des bâtiments. Deux nouveaux sous-systèmes ont également été développés dans cette thèse. Ils ont été conçus dans le but de fournir des informations supplémentaires, plus fiables, sur les contours des bâtiments dans une future version du système de relaxation proposé. La première est une méthode de réseau de neurones à convolution profonde (CNN) pour la détection de frontières de construction. Le réseau est notamment basé sur le modèle SRCNN (Dong C. L., 2015) de super-résolution à la pointe de la technologie. Il accepte des photographies aériennes illustrant des données de zones urbaines densément peuplées ainsi que leurs cartes d'altitude numériques (DEM) correspondantes. La formation utilise trois variantes de cet ensemble de données urbaines et vise à détecter les contours des bâtiments grâce à une nouvelle cartographie hétéroassociative super-résolue. Une autre innovation de cette approche est la conception d'une couche de perte personnalisée modifiée appelée Top-N. Dans cette variante, l'erreur quadratique moyenne (MSE) entre l'image de sortie reconstruite et l'image de vérité de sol (GT) fournie des contours de bâtiment est calculée sur les 2N pixels de l'image avec les valeurs les plus élevées. En supposant que la plupart des N pixels de contour de l’image GT figurent également dans les 2N pixels supérieurs de la reconstruction, cette modification équilibre les deux catégories de pixels et améliore le comportement de généralisation du modèle CNN. Les expériences ont montré que la fonction de coût Top-N offre des gains de performance par rapport à une MSE standard. Une amélioration supplémentaire de la capacité de généralisation du réseau est obtenue en utilisant le décrochage. Le deuxième sous-système est un réseau de convolution profonde à super-résolution, qui effectue un mappage associatif à entrée améliorée entre les images d'entrée à basse résolution et à haute résolution. Ce réseau a été formé aux données d’altitude à basse résolution et aux photographies urbaines optiques à haute résolution correspondantes. Une telle différence de résolution entre les images optiques / satellites optiques et les données d'élévation est souvent le cas dans les applications du monde réel. / Building reconstruction from aerial photographs and other multi-source urban spatial data is a task endeavored using a plethora of automated and semi-automated methods ranging from point processes, classic image processing and laser scanning. In this thesis, an iterative relaxation system is developed based on the examination of the local context of each edge according to multiple spatial input sources (optical, elevation, shadow & foliage masks as well as other pre-processed data as elaborated in Chapter 6). All these multisource and multiresolution data are fused so that probable line segments or edges are extracted that correspond to prominent building boundaries.Two novel sub-systems have also been developed in this thesis. They were designed with the purpose to provide additional, more reliable, information regarding building contours in a future version of the proposed relaxation system. The first is a deep convolutional neural network (CNN) method for the detection of building borders. In particular, the network is based on the state of the art super-resolution model SRCNN (Dong C. L., 2015). It accepts aerial photographs depicting densely populated urban area data as well as their corresponding digital elevation maps (DEM). Training is performed using three variations of this urban data set and aims at detecting building contours through a novel super-resolved heteroassociative mapping. Another innovation of this approach is the design of a modified custom loss layer named Top-N. In this variation, the mean square error (MSE) between the reconstructed output image and the provided ground truth (GT) image of building contours is computed on the 2N image pixels with highest values . Assuming that most of the N contour pixels of the GT image are also in the top 2N pixels of the re-construction, this modification balances the two pixel categories and improves the generalization behavior of the CNN model. It is shown in the experiments, that the Top-N cost function offers performance gains in comparison to standard MSE. Further improvement in generalization ability of the network is achieved by using dropout.The second sub-system is a super-resolution deep convolutional network, which performs an enhanced-input associative mapping between input low-resolution and high-resolution images. This network has been trained with low-resolution elevation data and the corresponding high-resolution optical urban photographs. Such a resolution discrepancy between optical aerial/satellite images and elevation data is often the case in real world applications. More specifically, low-resolution elevation data augmented by high-resolution optical aerial photographs are used with the aim of augmenting the resolution of the elevation data. This is a unique super-resolution problem where it was found that many of -the proposed general-image SR propositions do not perform as well. The network aptly named building super resolution CNN (BSRCNN) is trained using patches extracted from the aforementioned data. Results show that in comparison with a classic bicubic upscale of the elevation data the proposed implementation offers important improvement as attested by a modified PSNR and SSIM metric. In comparison, other proposed general-image SR methods performed poorer than a standard bicubic up-scaler.Finally, the relaxation system fuses together all these multisource data sources comprising of pre-processed optical data, elevation data, foliage masks, shadow masks and other pre-processed data in an attempt to assign confidence values to each pixel belonging to a building contour. Confidence is augmented or decremented iteratively until the MSE error fails below a specified threshold or a maximum number of iterations have been executed. The confidence matrix can then be used to extract the true building contours via thresholding.
145

Développement d'un télescope Comton avec un calorimètre imageur 3D pour l'astronomie gamma / Development of a Compton Telescope with 3D Imaging Calorimeter for Gamma-Ray Astronomy

Gostojić, Aleksandar 21 April 2016 (has links)
La thèse porte sur le développement d’un petit prototype de télescope Compton pour l'astronomie gamma spatiale dans la gamme d’énergie du MeV (0.1-100 MeV). Nous avons étudié de nouveaux modules de détection destinés à l'imagerie Compton. Nous avons assemblé et testé deux détecteurs à scintillation, l'un avec un cristal de bromure de lanthane dopé au cérium (LaBr₃:Ce) et l'autre avec un cristal de bromure de cérium (CeBr₃). Les deux cristaux sont couplés à des photomultiplicateurs multi-anodes 64 voies sensibles à la position. Notre objectif est d’optimiser la résolution en énergie en même temps que la résolution en position du premier impact d'un rayon gamma incident dans le détecteur. Les deux informations sont vitales pour la reconstruction d'une image avec le prototype de télescope à partir de l’effet Compton. Nous avons développé un banc de test pour étudier expérimentalement les deux modules, avec une électronique de lecture et un système d'acquisition de données dédiés. Nous avons entrepris un étalonnage précis du dispositif et effectué de nombreuses mesures avec différentes sources radioactives. En outre, nous avons réalisé une simulation numérique détaillée de l'expérience avec le logiciel GEANT4 et effectué une étude paramétrique extensive pour modéliser au mieux la propagation des photons ultraviolet de scintillation et les propriétés optiques des surfaces à l'intérieur du détecteur. Nous avons alors développé une méthode originale de reconstruction de la position d’impact en 3D, en utilisant un réseau de neurones artificiels entrainé avec des données simulées. Nous présentons dans ce travail tous les résultats expérimentaux obtenus avec les deux modules, les résultats de la simulation GEANT4, ainsi que l'algorithme basé sur le réseau de neurones. En plus, nous donnons les premiers résultats sur l'imagerie Compton obtenus avec le prototype de télescope et les comparons avec des performances simulées. Enfin, nous concluons en donnant un aperçu des perspectives d'avenir pour l'imagerie gamma Compton et considérons une application possible en discutant d’un concept de télescope spatial semblable à notre prototype. / The thesis aims to develop a small prototype of a Compton telescope for future space instrumentation for gamma-ray astronomy. Telescope’s main target is the MeV range (0.1-100MeV). We studied novel detector modules intended for Compton imaging. We assembled and tested 2 modules, one with a cerium-doped lanthanum(III) bromide (LaBr₃:Ce) crystal and the other with cerium(III) bromide (CeBr₃). Both modules are coupled to and read out by 64-channel multi-anode PMTs. Our goals are to obtain the best possible energy resolution and position resolution in 3D on the first impact of an incident gamma-ray within the detector. Both information are vital for successful reconstruction of a Compton image with the telescope prototype. We developed a test bench to experimentally study both modules and have utilized a customized readout electronics and data acquisition system. We conducted a precise calibration of the system and performed experimental runs utilizing different radioactive sources. Furthermore, we have written a detailed GEANT4 simulation of the experiment and performed an extensive parametric study on defining the surfaces and types of scintillation propagation within the scintillator. We utilized simulated data to train an Artificial Neural Network (ANN) algorithm to create a simplified 3D impact position reconstruction method and in addition developed an approximation routine to estimate the standard deviations for the method. We show all experimental results obtained by both modules, results from the GEANT4 simulation runs and from the ANN algorithm. In addition, we give the first results on Compton imaging with the telescope prototype and compare them with simulated performance. We analyzed and discussed the performance of the modules, specifically spectral and position reconstruction capabilities. We conclude by giving an overview of the future prospects for gamma-ray imaging and consider possible applications showing a concept of a space telescope based on our prototype.
146

La reconnaissance automatique des brins complémentaires : leçons concernant les habiletés des algorithmes d'apprentissage automatique en repliement des acides ribonucléiques

Chasles, Simon 07 1900 (has links)
L'acide ribonucléique (ARN) est une molécule impliquée dans de nombreuses fonctions cellulaires comme la traduction génétique et la régulation de l’expression des gènes. Les récents succès des vaccins à ARN témoignent du rôle que ce dernier peut jouer dans le développement de traitements thérapeutiques. La connaissance de la fonction d’un ARN passe par sa séquence et sa structure lesquelles déterminent quels groupes chimiques (et de quelles manières ces groupes chimiques) peuvent interagir avec d’autres molécules. Or, les structures connues sont rares en raison du coût et de l’inefficacité des méthodes expérimentales comme la résonnance magnétique nucléaire et la cristallographie aux rayons X. Par conséquent, les méthodes calculatoires ne cessent d’être raffinées afin de déterminer adéquatement la structure d’un ARN à partir de sa séquence. Compte tenu de la croissance des jeux de données et des progrès incessants de l’apprentissage profond, de nombreuses architectures de réseaux neuronaux ont été proposées afin de résoudre le problème du repliement de l’ARN. Toutefois, les jeux de données actuels et la nature des mécanismes de repliement de l’ARN dressent des obstacles importants à l’application de l’apprentissage statistique en prédiction de structures d’ARN. Ce mémoire de maîtrise se veut une couverture des principaux défis inhérents à la résolution du problème du repliement de l’ARN par apprentissage automatique. On y formule une tâche fondamentale afin d’étudier le comportement d’une multitude d’algorithmes lorsque confrontés à divers contextes statistiques, le tout dans le but d’éviter le surapprentissage, problème dont souffre une trop grande proportion des méthodes publiées jusqu’à présent. / Ribonucleic acid (RNA) is a molecule involved in many cellular functions like translation and regulation of gene expression. The recent success of RNA vaccines demonstrates the role RNA can play in the development of therapeutic treatments. The function of an RNA depends on its sequence and structure, which determine which chemical groups (and in what ways these chemical groups) can interact with other molecules. However, only a few RNA structures are known due to the high cost and low throughput of experimental methods such as nuclear magnetic resonance and X-ray crystallography. As a result, computational methods are constantly being refined to accurately determine the structure of an RNA from its sequence. Given the growth of datasets and the constant progress of deep learning, many neural network architectures have been proposed to solve the RNA folding problem. However, the nature of current datasets and RNA folding mechanisms hurdles the application of statistical learning to RNA structure prediction. Here, we cover the main challenges one can encounter when solving the RNA folding problem by machine learning. With an emphasis on overfitting, a problem that affects too many of the methods published so far, we formulate a fundamental RNA problem to study the behaviour of a variety of algorithms when confronted with various statistical contexts.
147

Avancées récentes dans l'observation et l'application des techniques d'apprentissage automatique aux études des galaxies et des amas de galaxies

Rhea, Carter 07 1900 (has links)
Les galaxies, qui sont des ensembles de milliards d’étoiles, de gaz, de poussière et de matière sombre — un mystère persistant — se répandent à travers l’univers. Il est reconnu que presque toutes les galaxies hébergent un trou noir supermassif capable d’augmenter ou de diminuer le taux de formation stellaire via un mécanisme appelé rétroaction. Les conglomérats massifs de galaxies gravitationnellement liés, nommés amas de galaxies, présentent le même phénomène astronomique, mais à une échelle plus grande. Ces phénomènes laissent des traces dans l’environnement qui sont observables grâce aux instruments contemporains. Cette thèse se concentre sur deux axes principaux : l’application des algorithmes d’apprentissage automatique pour améliorer l’analyse optique des galaxies et des amas de galaxies, ainsi que l’utilisation d’un algorithme spécifique en apprentissage automatique, la machine d’inférence récurrente (MIR), capable de déconvoluer les spectres en rayons X de sources astrophysiques. Dans la première moitié de cette thèse, nous discutons du développement de LUCI, un logiciel conçu pour ajuster les cubes de données de SITELLE à l’aide de l’apprentissage automatique. Ce logiciel vise à accélérer l’algorithme d’ajustement et à obtenir les meilleurs résultats possibles. LUCI a été développé dans le but de fournir un algorithme d’ajustement polyvalent, personnalisable, facile à utiliser et assisté par l’apprentissage automatique. Les deux premiers articles de cette thèse décrivent en détail LUCI et les algorithmes qui le sous-tendent. Après cette présentation, plusieurs projets scientifiques auxquels j’ai contribué sont mis en avant, illustrant l’utilisation de LUCI. Grâce aux innovations apportées par LUCI, nous avons pu étudier plus en détail le gaz ionisé diffus dans des galaxies proches telles que NGC 4449, analyser le gaz ionisé dans une galaxie en chute vers l’amas de Persée, et cartographier en détail le gaz ionisé dans un amas de galaxies à grand décalage vers le rouge (voir section 2.3). Les deux articles suivants, dans les sections 2.4, 2.5, explorent les méthodes d’apprentissage automatique pour effectuer des tâches qui auraient traditionnellement été réalisées par des algorithmes standard : calculer les rapports des lignes d’émission des spectres, démêler les systèmes en fusion et catégoriser les régions d’émission. Dans l’avant-dernier article du chapitre 2, section 2.7, nous développons une nouvelle technique basée sur les algorithmes d’apprentissage automatique qui segmente un cube hyperspectral en régions de source et régions de l’arrière-plan, construit un modèle local de la région à l’arrière-plan, et interpole ce modèle sur les pixels de la source. Dans le troisième chapitre, nous nous concentrons sur les techniques de déconvolution des spectres en rayons X, un objectif qui, jusqu’à présent, reste insaisissable. Cela nous permet, pour la première fois, d’observer le spectre intrinsèque du gaz chaud dans les amas de galaxies. Lorsqu’un spectre en rayons X est observé avec un observatoire en rayons X, le spectre intrinsèque n’est pas directement capturé mais plutôt, il est convolué avec la réponse instrumentale. Dans le cas des observatoires contemporains, cet effet est dramatique car la réponse instrumentale étale les lignes d’émission en une caractéristique simple et elle varie considérablement en fonction du temps et de la position. Les méthodes standard pour extraire les paramètres physiques du spectre utilisent des techniques de pré-ajustement qui augmentent les coûts computationnels et ajoutent des complexités d’ajustement. Par conséquent, une méthodologie de déconvolution des spectres observés peut mener à une modélisation plus précise. C’est avec cela en tête que nous explorons les méthodes de déconvolution des spectres en rayons X, nous donnant ainsi accès aux spectres intrinsèques. Le premier article de ce chapitre, section 3.1, démontre que les techniques traditionnelles de déconvolution ne fonctionnent pas suffisamment pour les spectres complexes, même si elles fonctionnent pour les spectres simples comme les lois de puissance. Dans l’article suivant, nous utilisons un nouvel algorithme d’apprentissage automatique, la MIR, pour effectuer la déconvolution. Dans ce papier, nous montrons le potentiel de cette nouvelle méthode sur des données synthétiques et réelles. Notre MIR entraînée reconstruit le spectre intrinsèque et les réalisations du modèle antérieur avec un niveau de bruit d’un écart-type, démontrant que la MIR est capable, au moins pour les spectres synthétiques, de récupérer les spectres intrinsèques. Dans le dernier article de cette thèse, nous explorons également l’efficacité et les limitations de la MIR dans la déconvolution des spectres en rayons X. La MIR est entraînée sur une base de données synthétique couvrant une gamme plus large de paramètres. Même pour les modèles complexes, la MIR est capable de déconvoluer les spectres synthétiques à un niveau de bruit d’un écart-type. Cependant, lorsqu’elle est appliquée aux données réelles, les reconstructions ne sont pas en accord avec les observations réelles. Cela indique soit que les données synthétiques ne représentent pas fidèlement les observations réelles, soit qu’il y a un problème avec la MIR. Nous concluons cet article en soulignant l’intérêt d’appliquer des modèles de diffusion pour pallier les limitations de la MIR. / Galaxies, combinations of billions of stars, gas, dust, and the ever-mysterious dark matter, permeate the universe. It is understood that nearly all galaxies host a supermassive black hole capable of either enhancing or reducing stellar formation through a mechanism known as active galactic nuclei feedback. Massive conglomerations of gravitationally bound galaxies, known as galaxy clusters, demonstrate the same astrophysical phenomena but on a much larger scale. These phenomena leave traces on their surrounding medium that can be observed through modern instrumentation. This thesis is aligned along two main research axes: the application of machine learning algorithms to enhance the optical analysis of galaxies and galaxy clusters and the application of a particular machine learning algorithm, the recurrent inference machine, to deconvolve X-ray spectra of astrophysical sources. In the first half of the thesis, we discuss the development of LUCI – a software package created to fit SITELLE datacubes using machine learning to speed up the fitting algorithms and increase their performance. LUCI was borne out of a desire to have a general-purpose line fitting algorithm that is highly customizable, easy to use, and enhanced by machine learning algorithms for SITELLE. The first two articles presented in this thesis describe LUCI and the algorithms that drive the package. After presenting the software, we showcase several scientific projects that LUCI has been used in which I contributed. Owing to the innovations in LUCI, we were able to expand our study of diffuse ionized gas in nearby galaxies such as NGC 4449, study the ionized gas in an infalling galaxy in the Perseus cluster, and make detailed maps of a high-redshift galaxy cluster’s ionized gas (see 2.3). The following three papers, sections 2.4, 2.5, and 2.6, explore machine learning methods to accomplish tasks normally reserved for standard algorithms: calculating line ratios from spectra and disentangling multi emission components in merging systems, and categorizing emission line regions. In the second to last paper of chapter 2, section 2.7, we develop a novel technique based off machine learning algorithms to segment an hyperspectral data cube into source and background regions, build a local model of the background region, and interpolate this model over source pixels. In the final paper of this chapter, we use LUCI to analyze multi-filter SITELLE observations of NGC 1275. This analysis reveals homogeneity in the ionization mechanism in the extended filaments. Moreover, they solidify previous findings that the emission nebula is not undergoing star formation except for two small and distinct regions. In chapter 3, we focus on techniques for deconvolving X-ray spectra, a goal that has, until now, remained elusive. By deconvolving X-ray spectra, we will be able to, for the first time, observe the intrinsic X-ray spectrum of the hot gas in galaxy clusters. When an X-ray spectrum is observed with an X-ray observatory, the intrinsic source spectrum is not itself captured but rather the intrinsic spectrum convolved with the instrumental response. In the case of contemporary X-ray observatories, this effect is dramatic since the instrumental response smears emission lines into a single feature and changes considerably as a function of time and the location of the detector. Therefore, having a methodology to deconvolve observed spectra can lead to more accurate modeling of the underlying physical phenomena. It is with this in mind that we explore methods to deconvolve the X-ray spectra and thus have access to the intrinsic spectrum of the astrophyiscal source. The first article presented in this chapter, section 3.1, demonstrates that traditional inverse techniques do not reliably deconvolve complex X-ray spectra from the instrumental response even though they are sufficient for simple spectra such as a powerlaw. In the following article, we employ a new machine learning algorithm, the recurrent inference machine (RIM), to tackle the problem of X-ray spectral deconvolution. In this paper, we show the potential of this new method as applied to synthetic and real data. Our trained RIM reconstructs the intrinsic matrix and forward model realizations below the 1-σ noise-level proving that the RIM is capable, at least for synthetic data, to recover the intrinsic spectra. In the final article of this thesis, we further explore the RIM’s ability and limitations in X-ray spectral deconvolution. The RIM is trained on a larger set of synthetic spectra covering a wider parameter range. The RIM is able to deconvolve the sythetic Xray spectrum at the 1-σ noise level even for complicated physical models. However, when applied to real observations, the RIM reconstructions do not match theoretical predictions. We conclude this paper by motivating the application of state-of-the-art diffusion models to address the limitations of the RIM.
148

Distributed conditional computation

Léonard, Nicholas 08 1900 (has links)
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts. / The objective of this paper is to present different applications of the distributed conditional computation research program. It is hoped that these applications and the theory presented here will lead to a general solution of the problem of artificial intelligence, especially with regard to the need for efficiency. The vision of distributed conditional computation is to accelerate the evaluation and training of deep models which is very different from the usual objective of improving its generalization and optimization capacity. The work presented here has close ties with mixture of experts models. In Chapter 2, we present a new deep learning algorithm that uses a form of reinforcement learning on a novel neural network decision tree model. We demonstrate the need for a balancing constraint to keep the distribution of examples to experts uniform and to prevent monopolies. To make the calculation efficient, the training and evaluation are constrained to be sparse by using a gater that samples experts from a multinomial distribution given examples. In Chapter 3 we present a new deep model consisting of a sparse representation divided into segments of experts. A neural network language model is constructed from blocks of sparse transformations between these expert segments. The block-sparse operation is implemented for use on graphics cards. Its speed is compared with two dense operations of the same caliber to demonstrate and measure the actual efficiency gain that can be obtained. A deep model using these block-sparse operations controlled by a distinct gater is trained on a dataset of one billion words. A new algorithm for data partitioning (clustering) is applied to a set of words to organize the output layer of a language model into a conditional hierarchy, thereby making it much more efficient. The work presented in this thesis is central to the vision of distributed conditional computation as issued by Yoshua Bengio. It attempts to apply research in the area of mixture of experts to deep models to improve their speed and their optimization capacity. We believe that the theory and experiments of this thesis are an important step on the path to distributed conditional computation because it provides a good framework for the problem, especially concerning competitiveness inherent to systems of experts.
149

Apprentissage des réseaux de neurones profonds et applications en traitement automatique de la langue naturelle

Glorot, Xavier 11 1900 (has links)
En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds. Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche de désambiguation de sens. / Machine learning aims to leverage data in order for computers to solve problems of interest. Despite being invented close to sixty years ago, Artificial Neural Networks (ANN) remain an area of active research and a powerful tool. Their resurgence in the context of deep learning has led to dramatic improvements in various domains from computer vision and speech processing to natural language processing. The quantity of available data and the computing power are always increasing, which is desirable to train high capacity models such as deep ANNs. However, some intrinsic learning difficulties, such as local minima, remain problematic. Deep learning aims to find solutions to these problems, either by adding some regularisation or improving optimisation. Unsupervised pre-training or Dropout are examples of such solutions. The two first articles presented in this thesis follow this line of research. The first analyzes the problem of vanishing/exploding gradients in deep architectures. It shows that simple choices, like the activation function or the weights initialization, can have an important impact. We propose the normalized initialization scheme to improve learning. The second focuses on the activation function, where we propose the rectified linear unit. This work was the first to emphasise the use of linear by parts activation functions for deep supervised neural networks, which is now an essential component of such models. The last two papers show some applications of ANNs to Natural Language Processing. The first focuses on the specific subject of domain adaptation in the context of sentiment analysis, using Stacked Denoising Auto-encoders. It remains state of the art to this day. The second tackles learning with multi-relational data using an energy based model which can also be applied to the task of word-sense disambiguation.
150

Automatic non linear metric learning : Application to gesture recognition / Apprentissage automatique de métrique non linéaire : Application à la reconnaissance de gestes

Berlemont, Samuel 11 February 2016 (has links)
Cette thèse explore la reconnaissance de gestes à partir de capteurs inertiels pour Smartphone. Ces gestes consistent en la réalisation d'un tracé dans l'espace présentant une valeur sémantique, avec l'appareil en main. Notre étude porte en particulier sur l'apprentissage de métrique entre signatures gestuelles grâce à l'architecture "Siamoise" (réseau de neurones siamois, SNN), qui a pour but de modéliser les relations sémantiques entre classes afin d'extraire des caractéristiques discriminantes. Cette architecture est appliquée au perceptron multicouche (MultiLayer Perceptron). Les stratégies classiques de formation d'ensembles d'apprentissage sont essentiellement basées sur des paires similaires et dissimilaires, ou des triplets formés d'une référence et de deux échantillons respectivement similaires et dissimilaires à cette référence. Ainsi, nous proposons une généralisation de ces approches dans un cadre de classification, où chaque ensemble d'apprentissage est composé d’une référence, un exemple positif, et un exemple négatif pour chaque classe dissimilaire. Par ailleurs, nous appliquons une régularisation sur les sorties du réseau au cours de l'apprentissage afin de limiter les variations de la norme moyenne des vecteurs caractéristiques obtenus. Enfin, nous proposons une redéfinition du problème angulaire par une adaptation de la notion de « sinus polaire », aboutissant à une analyse en composantes indépendantes non-linéaire supervisée. A l'aide de deux bases de données inertielles, la base MHAD (Multimodal Human Activity Dataset) ainsi que la base Orange, composée de gestes symboliques inertiels réalisés avec un Smartphone, les performances de chaque contribution sont caractérisées. Ainsi, des protocoles modélisant un monde ouvert, qui comprend des gestes inconnus par le système, mettent en évidence les meilleures capacités de détection et rejet de nouveauté du SNN. En résumé, le SNN proposé permet de réaliser un apprentissage supervisé de métrique de similarité non-linéaire, qui extrait des vecteurs caractéristiques discriminants, améliorant conjointement la classification et le rejet de gestes inertiels. / As consumer devices become more and more ubiquitous, new interaction solutions are required. In this thesis, we explore inertial-based gesture recognition on Smartphones, where gestures holding a semantic value are drawn in the air with the device in hand. In our research, speed and delay constraints required by an application are critical, leading us to the choice of neural-based models. Thus, our work focuses on metric learning between gesture sample signatures using the "Siamese" architecture (Siamese Neural Network, SNN), which aims at modelling semantic relations between classes to extract discriminative features, applied to the MultiLayer Perceptron. Contrary to some popular versions of this algorithm, we opt for a strategy that does not require additional parameter fine tuning, namely a set threshold on dissimilar outputs, during training. Indeed, after a preprocessing step where the data is filtered and normalised spatially and temporally, the SNN is trained from sets of samples, composed of similar and dissimilar examples, to compute a higher-level representation of the gesture, where features are collinear for similar gestures, and orthogonal for dissimilar ones. While the original model already works for classification, multiple mathematical problems which can impair its learning capabilities are identified. Consequently, as opposed to the classical similar or dissimilar pair; or reference, similar and dissimilar sample triplet input set selection strategies, we propose to include samples from every available dissimilar classes, resulting in a better structuring of the output space. Moreover, we apply a regularisation on the outputs to better determine the objective function. Furthermore, the notion of polar sine enables a redefinition of the angular problem by maximising a normalised volume induced by the outputs of the reference and dissimilar samples, which effectively results in a Supervised Non-Linear Independent Component Analysis. Finally, we assess the unexplored potential of the Siamese network and its higher-level representation for novelty and error detection and rejection. With the help of two real-world inertial datasets, the Multimodal Human Activity Dataset as well as the Orange Dataset, specifically gathered for the Smartphone inertial symbolic gesture interaction paradigm, we characterise the performance of each contribution, and prove the higher novelty detection and rejection rate of our model, with protocols aiming at modelling unknown gestures and open world configurations. To summarise, the proposed SNN allows for supervised non-linear similarity metric learning, which extracts discriminative features, improving both inertial gesture classification and rejection.

Page generated in 0.0749 seconds