Global ETD Search

41	Evaluation et développement de modèles sous-maille pour la simulation des grandes échelles du mélange turbulent basés sur l'estimation optimale et l'apprentissage supervisé / Evaluation et development of subgrid scale models for large eddy simulation of mixing based on optimal estimator and machin learning Vollant, Antoine 20 October 2015 (has links) Dans ce travail, des méthodes de diagnostics et des techniques de développement de modèles sous-maille sont proposées pour la simulation des grandes échelles (SGE) du mélange turbulent. Plusieurs modèles sous-maille issus de ces stratégies sont ainsi présentés pour illustrer ces méthodes.Le principe de la SGE est de résoudre les grandes échelles de l'écoulement responsables des transferts principaux et de modéliser l'action des petites échelles de l'écoulement sur les échelles résolues. Au cours de ce travail, nous nous sommes appuyés sur le classement des modèles sous-maille en deux catégories. Les modèles "fonctionnels" qui s'attachent à reproduire les transferts énergétiques entre les échelles résolues et les échelles modélisées et les modèles "structurels" qui cherchent à bien reproduire le terme sous-maille. Le premier enjeu important a été d'évaluer la performance des modèles sous-maille en prenant en compte leur comportement à la fois fonctionnel (capacité à reproduire les transferts d'énergie) et structurel (capacité à reproduire le terme sous-maille exact). Des diagnosctics des modèles sous-maille ont pu être conduits avec l'utilisation de la notion d'estimateur optimal ce qui permet de connaitre le potentiel d'amélioration structurelle des modèles. Ces principes ont dans un premier temps servi au développement d'une première famille de modèles sous-maille algébrique appelée DRGM pour "Dynamic Regularized Gradient Model". Cette famille de modèles s'appuie sur le diagnostic structurel des termes issus de la régularisation des modèles de la famille du gradient. D'après les tests menés, cette nouvelle famille de modèle structurel a de meilleures performances fonctionnelles et structurelles que les modèles de la famille du gradient. L'amélioration des performances fonctionnelles consiste à supprimer la prédiction excessive de transferts inverses d'énergie (backscatter) observés dans les modèles de la famille du gradient. Cela permet ainsi de supprimer le comportement instable classiquement observé pour cette famille de modèles. La suite de ce travail propose ensuite d'utiliser l'estimateur optimal directement comme modèle sous-maille. Comme l'estimateur optimal fournit le modèle ayant la meilleure performance structurelle pour un jeu de variables donné, nous avons recherché le jeu de variable optimisant cette performance. Puisque ce jeu comporte un nombre élevé de variables, nous avons utilisé les fonctions d'approximation de type réseaux de neurones pour estimer cet estimateur optimal. Ce travail a mené au nouveau modèle substitut ANNM pour "Artificial Neural Network Model". Ces fonctions de substitution se construisent à partir de bases de données servant à émuler les termes exacts nécessaire à la détermination de l'estimateur optimal. Les tests de ce modèle ont montré qu'il avait de très bonnes perfomances pour des configurations de simulation peu éloignées de la base de données servant à son apprentissage, mais qu'il pouvait manquer d'universalité. Pour lever ce dernier verrou, nous avons proposé une utilisation hybride des modèles algébriques et des modèles de substitution à base de réseaux de neurones. La base de cette nouvelle famille de modèles ACM pour "Adaptative Coefficient Model" s'appuie sur les décompositions vectorielles et tensorielles des termes sous-maille exacts. Ces décompositions nécessitent le calcul de coefficients dynamiques qui sont modélisés par les réseaux de neurones. Ces réseaux bénéficient d'une méthode d'apprentissage permettant d'optimiser directement les performances structurelles et fonctionnelles des modèles ACM. Ces modèles hybrides allient l'universalité des modèles algébriques avec la performance élevée mais spécialisée des fonctions de substitution. Le résultat conduit à des modèles plus universels que l'ANNM. / This work develops subgrid model techniques and proposes methods of diagnosis for Large Eddy Simulation (LES) of turbulent mixing.Several models from these strategies are thus presented to illustrate these methods.The principle of LES is to solve the largest scales of the turbulent flow responsible for major transfers and to model the action of small scales of flowon the resolved scales. Formally, this operation leads to filter equations describing turbulent mixing. Subgrid terms then appear and must bemodeled to close the equations. In this work, we rely on the classification of subgrid models into two categories. "Functional" models whichreproduces the energy transfers between the resolved scales and modeled scales and "Structural" models that seek to reproduce the exact subgrid termitself. The first major challenge is to evaluate the performance of subgrid models taking into account their functional behavior (ability to reproduce theenergy transfers) and structural behaviour (ability to reproduce the term subgrid exactly). Diagnostics of subgrid models have been enabled with theuse of the optimal estimator theory which allows the potential of structural improvement of the model to be evaluated.These methods were initially involved for the development of a first family of models called algebraic subgrid $DRGM$ for "Dynamic Regularized GradientModel". This family of models is based on the structural diagnostic of terms given by the regularization of the gradient model family.According to the tests performed, this new structural model's family has better functional and structural performance than original model's family of thegradient. The improved functional performance is due to the vanishing of inverse energy transfer (backscatter) observed in models of thegradient family. This allows the removal of the unstable behavior typically observed for this family of models.In this work, we then propose the use of the optimal estimator directly as a subgrid scale model. Since the optimal estimator provides the modelwith the best structural performance for a given set of variables, we looked for the set of variables which optimize that performance. Since this set of variablesis large, we use surrogate functions of artificial neural networks type to estimate the optimal estimator. This leads to the "Artificial Neural Network Model"(ANNM). These alternative functions are built from databases in order to emulate the exact terms needed to determine the optimal estimator. The tests of this modelshow that he it has very good performance for simulation configurations not very far from its database used for learning, so these findings may fail thetest of universality.To overcome this difficulty, we propose a hybrid method using an algebraic model and a surrogate model based on artificial neural networks. Thebasis of this new model family $ACM$ for "Adaptive Coefficient Model" is based on vector and tensor decomposition of the exact subgrid terms. Thesedecompositions require the calculation of dynamic coefficients which are modeled by artificial neural networks. These networks have a learning method designedto directlyoptimize the structural and functional performances of $ACM$. These hybrids models combine the universality of algebraic model with high performance butvery specialized performance of surrogate models. The result give models which are more universal than ANNM. Turbulence Mélange Simulation des grandes échelles Estimateur optimal Réseaux de neurones artificiels Modèle sous-maille Turbulence Mixing Large eddy simulation Optimal estimator Artificial neural network Subgrid scale models 620
42	Dynamique des systèmes cognitifs et des systèmes complexes : étude du rôle des délais de transmission de l’information / Dynamics of cognitive systems and complex systems : study of the role of information transmission delays Martinez, Regis 26 September 2011 (has links) La représentation de l’information mnésique est toujours une question d’intérêt majeur en neurobiologie, mais également, du point de vue informatique, en apprentissage artificiel. Dans certains modèles de réseaux de neurones artificiels, nous sommes confrontés au dilemme de la récupération de l’information sachant, sur la base de la performance du modèle, que cette information est effectivement stockée mais sous une forme inconnue ou trop complexe pour être facilement accessible. C’est le dilemme qui se pose pour les grands réseaux de neurones et auquel tente de répondre le paradigme du « reservoir computing ».Le « reservoir computing » est un courant de modèles qui a émergé en même temps que le modèle que nous présentons ici. Il s’agit de décomposer un réseau de neurones en (1) une couche d’entrée qui permet d’injecter les exemples d’apprentissage, (2) un « réservoir » composé de neurones connectés avec ou sans organisation particulière définie, et dans lequel il peut y avoir des mécanismes d’adaptation, (3) une couche de sortie, les « readout », sur laquelle un apprentissage supervisé est opéré. Nous apportons toutefois une particularité, qui est celle d’utiliser les délais axonaux, temps de propagation d’une information d’un neurone à un autre. Leur mise en oeuvre est un apport computationnel en même temps qu’un argument biologique pour la représentation de l’information. Nous montrons que notre modèle est capable d’un apprentissage artificiel efficace et prometteur même si encore perfectible. Sur la base de ce constat et dans le but d’améliorer les performances nous cherchons à comprendre les dynamiques internes du modèle. Plus précisément nous étudions comment la topologie du réservoir peut influencer sa dynamique. Nous nous aidons pour cela de la théorie des groupes polychrones. Nous avons développé, pour l’occasion, des algorithmes permettant de détecter ces structures topologico-dynamiques dans un réseau, et dans l’activité d’un réseau de topologie donnée.Si nous comprenons les liens entre topologie et dynamique, nous pourrons en tirer parti pour créer des réservoirs adaptés aux besoins de l’apprentissage. Finalement, nous avons mené une étude exhaustive de l’expressivité d’un réseau en termes de groupes polychrones, en fonction de différents types de topologies (aléatoire, régulière, petit-monde) et de nombreux paramètres (nombre de neurones, connectivité, etc.). Nous pouvons enfin formuler un certain nombre de recommandations pour créer un réseau dont la topologie peut être un support riche en représentations possibles. Nous tentons également de faire le lien avec la théorie cognitive de la mémoire à traces multiples qui peut, en principe, être implémentée et étudiée par le prisme des groupes polychrones. / How memory information is represented is still an open question in neurobiology, but also, from the computer science point of view, in machine learning. Some artificial neuron networks models have to face the problem of retrieving information, knowing that, in regard to the model performance, this information is actually stored but in an unknown form or too complex to be easily accessible. This is one of the problems met in large neuron networks and which « reservoir computing » intends to answer.« Reservoir computing » is a category of models that has emerged at the same period as, and has propoerties similar to the model we present here. It is composed of three parts that are (1) an input layer that allows to inject learning examples, (2) a « reservoir » composed of neurons connected with or without a particular predefined, and where there can be adaptation mecanisms, (3) an output layer, called « readout », on which a supervised learning if performed. We bring a particularity that consists in using axonal delays, the propagation time of information from one neuron to another through an axonal connexion. Using delays is a computational improvement in the light of machin learning but also a biological argument for information representation.We show that our model is capable of a improvable but efficient and promising artificial learning. Based on this observation and in the aim of improving performance we seek to understand the internal dynamics of the model. More precisely we study how the topology of the reservoir can influence the dynamics. To do so, we make use of the theory of polychronous groups. We have developped complexe algorithms allowing us to detect those topologicodynamic structures in a network, and in a network activity having a given topology.If we succeed in understanding the links between topology and dynamics, we may take advantage of it to be able to create reservoir with specific properties, suited for learning. Finally, we have conducted an exhaustive study of network expressivness in terms of polychronous groups, based on various types of topologies (random, regular, small-world) and different parameters (number of neurones, conectivity, etc.). We are able to formulate some recommandations to create a network whose topology can be rich in terms of possible representations. We propose to link with the cognitive theory of multiple trace memory that can, in principle, be implemented and studied in the light of polychronous groups. Systèmes complexes Réseaux de neurones artificiels Délais axonaux Polychronisation STDP Apprentissage artificiel Complex systems Artificial neuron networks Axonal delays Polychronization STDP Machine learning
43	Neuro-inspired Architectures for the Acquisition and Processing of Visual Information / Architectures neuro-inspirées pour l'acquisition et le traitement de l'information visuelle Aboudib, Ala 02 December 2016 (has links) L'apprentissage automatique et la vision par ordinateur sont deux sujets de recherche d'actualité. Des contributions clés à ces domaines ont été les fruits de longues années d'études du cortex visuel et de la fonction des réseaux cérébraux. Dans cette thèse, nous nous intéressons à la conception des architectures neuro-inspirées pour le traitement de l'information sur trois niveaux différents du cortex visuel. Au niveau le plus bas, nous proposons un réseau de neurones pour l'acquisition des signaux visuels. Ce modèle est étroitement inspiré par le fonctionnement et l'architecture de la retine et les premières couches du cortex visuel chez l'humain. Il est également adapté à l'émulation des mouvements oculaires qui jouent un rôle important dans notre vision. Au niveau le plus haut, nous nous intéressons à la mémoire. Nous traitons un modèle de mémoire associative basée sur une architecture neuro-inspirée dite `Sparse Clustered Network (SCN)'. Notre contribution principale à ce niveau est de proposer une amélioration d'un algorithme utilisé pour la récupération des messages partiellement effacés du SCN. Nous suggérons également une formulation générique pour faciliter l'évaluation des algorithmes de récupération, et pour aider au développement des nouveaux algorithmes. Au niveau intermédiaire, nous étendons l'architecture du SCN pour l'adapter au problème de la mise en correspondance des caractéristiques d'images, un problème fondamental en vision par ordinateur. Nous démontrons que la performance de notre réseau atteint l'état de l'art, et offre de nombreuses perspectives sur la façon dont les architectures neuro-inspirées peuvent servir de substrat pour la mise en oeuvre de diverses tâches de vision. / Computer vision and machine learning are two hot research topics that have witnessed major breakthroughs in recent years. Much of the advances in these domains have been the fruits of many years of research on the visual cortex and brain function. In this thesis, we focus on designing neuro-inspired architectures for processing information along three different stages of the visual cortex. At the lowest stage, we propose a neural model for the acquisition of visual signals. This model is adapted to emulating eye movements and is closely inspired by the function and the architecture of the retina and early layers of the ventral stream. On the highest stage, we address the memory problem. We focus on an existing neuro-inspired associative memory model called the Sparse Clustered Network. We propose a new information retrieval algorithm that offers more flexibility and a better performance over existing ones. Furthermore, we suggest a generic formulation within which all existing retrieval algorithms can fit. It can also be used to guide the design of new retrieval approaches in a modular fashion. On the intermediate stage, we propose a new way for dealing with the image feature correspondence problem using a neural network model. This model deploys the structure of Sparse Clustered Networks, and offers a gain in matching performance over state-of-the-art, and provides a useful insight on how neuro-inspired architectures can serve as a substrate for implementing various vision tasks. Vision par ordinateur Réseaux de neurones artificiels Architectures neuro-Inspirées Intelligence Artificielle Computer vision Artificial neural networks Neuro-Inspired architectures Artificial intelligence 006.37
44	Apprentissage d'atlas cellulaires par la méthode de Factorized embeddings Trofimov, Assya 02 1900 (has links) Le corps humain contient plus de 3.72X10^13 cellules qui se distinguent par leur morphologie, fonction et état. Leur catalogage en atlas cellulaires c'est entamé il y a plus de 150 ans, avec l'invention des colorants cellulaires en microscopie. Notre connaissance des types cellulaires et leur phénotypes moléculaires nous permet de connaître et prédire leurs fonctions et patrons d'interactions. Ces connaissances sont à la base de la capacité à poser des diagnostics, créer des médicaments et même faire pousser des organes en biologie synthétique. Surprenamment, notre connaissance est loin d'être complète et c'est pourquoi la caractérisation systématique des cellules et l'assemblage des connaissances en atlas cellulaires est nécessaire. Le développement du séquençage à haut débit a révolutionné la biologie des systèmes et ce type de données est parfait pour la construction d'atlas cellulaires entièrement basés sur les données. Un tel atlas cellulaire contiendra une représentation des cellules par des vecteurs de nombres, où chaque vecteur encode le profil moléculaire capturant des informations biologiques de chaque cellule. Chaque expérience de séquençage d'ARN (RNA-Seq) produit des dizaines de milliers de mesures extrêmement riches en information dont l'analyse demeure non-triviale. Des algorithmes de réduction de dimensionnalité, entre autres, permettent d'extraire des données des patrons importants et encoder les échantillons dans des espaces plus interprétables. De cette manière, les cellules similaires sont groupés sur la base d'une multitude de mesures qu'offre le RNA-Seq. Nous avons donc créé un modèle, le Factorized Embedding (FE), qui permet d'organiser les données de séquençage d'ARN de la sorte. Le modèle apprend simultanément deux espaces d'encodage: un pour les échantillons et l'autre pour les gènes. Nous avons observé qu'une fois entraîné, que ce modèle groupe les échantillons sur la base de leur similarité d'expression génique et permet l'interpolation dans l'espace d'encodage et donc une certaine interprétabilité de l'espace d'encodage. Du côté de l'encodage des gènes, nous avons remarqué que les gènes se regroupaient selon leurs patrons de co-expression ainsi que selon des similarité de fonctions, trouvées via des ontologies de gènes (Gene Ontology, GO). Nous avons ensuite exploré les propriétés d'une modification du modèle FE, baptisée le Transcriptome Latent (TLT, de l'anglais The Latent Transcriptome), où l'encodage des gènes est remplacé par une fonction d'encodage de k-mers provenant de données brutes de RNA-Seq. Cette modification du modèle capture dans son espace d'encodage des séquence à la fois de l'information sur la similarité et l'abondance des séquences ADN. L'espace d'encodage a ainsi permis de détecter des anormalités génomiques tels les translocations, ainsi que des mutations spécifiques au patient, rendant cet espace de représentation utile autant pour la visualisation que pour l'analyse de données. Finalement, la dernière itération explorée dans cette thèse, du modèle FE, baptisée cette fois-ci le TCRome, encode des séquences TCR (récepteurs de cellules T) plutôt que des k-mers, venant du séquençage de répertoires immuns (TCR-Seq). Une irrégularité dans la performance du modèle a mené à une analyse des séquences plus approfondie et à la détection de deux sous-types de TCR. Nous avons analysé les répertoires TCR de plus de 1000 individus et rapportons que le répertoire TCR est composé de deux types de TCR ontogéniquement et fonctionellement distincts. Nous avons découvert des patrons distincts dans les abondances de l'un ou l'autre type, changeant en fonction du sexe, l'âge et dans le cadre de maladies telles chez les sujets portant des mutations dans le gène AIRE et dans le cadre de la maladie du greffon contre l'hôte (GVHD). Ces résultats pointent vers la nécessité d'utiliser des données de séquençage multi-modales pour la construction d'atlas cellulaires, c'est à dire en plus des séquence TCR, des données sur l'expression génique ainsi que des caractérisation moléculaires seront probablement utiles, mais leur intégration sera non-triviale. Le modèle FE (et ses modifications) est un bon candidat pour ce type d'encodage, vu sa flexibilité d'architecture et sa résilience aux données manquantes. / The human body contains over 3.72 x 10^13 cells, that distinguish themselves by their morphology, function and state. Their cataloguing into cell atlases has started over 150 years ago, with the invention of cellular stains for microscopy. Our knowledge of cell types and molecular phenotypes allows is to better know and predict their functions and interaction patterns. This knowledge is at the basis of the ability to diagnose disease, create drugs and even grow organs in synthetic biology. Surprisingly, our knowledge is far from complete and this is why a systematic characterization of cells and the assembly of cell atlases is important. The development of high throughput sequencing has revolutionized systems biology and this type of data is perfect for the construction of entirely data-driven cell atlases. Such an atlas will contain a representation of cells by vectors of numbers, where each vector encodes a molecular profile, capturing biological data about each cell. Each sequencing experiment yields tens of thousands of measurements, extremely rich in information, but their analysis remains non-trivial. Dimensionnality reduction algorithms allow to extract from the data important patterns and encode samples into interpretable spaces. This way, similar cells are grouped on the basis of a multitude of measurements that comes from high throughput sequencing. We have created a model, the Factorized Embedding (FE), that allows to organize RNA sequencing (RNA-Seq) data in such a way. The FE model learns simultaneously two encoding spaces: one for samples and one for genes. We have found that the model groups samples on the basis of similar gene expression and allows for smooth interpolation in the encoding space and thus some manner of interpretability. As for the gene encoding space, we observed that gene coordinates were grouped according to co-expression patterns as well as similarity in function, found via gene ontology (GO). We then explored a modification of the FE model, names The Latent Transcriptome (TLT), where the gene encoding function is replaced by a function encoding k-mers, calculated from raw RNA-Seq data. This modification of the model captured in the k-mer encoding space both sequence similarity and sequence abundance. The encoding space allowed for the detection of genomic abnormalities such as translocations, as well as patient-specific mutations, making the encoding space useful for both visualisation and data analysis. Finally, the last iteration of the FE model that we explored, called TCRome, encodes amino-acid TCR sequences rather than k-mers. An irregularity in the model's performance led us to discover two TCR subtypes, entirely based on their sequence. We have thus analyzed TCR repertoires of over 1000 individuals and report that the TCR repertoire is composed of two ontogenically and functionally distinct types. We have discovered distinct pattens in the abundances of each of the sub-types, changing with age, sex and in the context of some diseases such as in individuals carrying a mutated AIRE gene and in graft versus host disease (GVHD). Collectively, these results point towards the necessity to use multi-modal sequencing data for the construction of cell atlases, namely gene expression data, TCR sequencing data and possibly various molecular characterizations. The integration of all this data will however be non-trivial. The FE model (and its modifications) is a good candidate for this type of data organisation, namely because of its flexibility in architecture and resilience to missing data. séquençage à haut débit apprentissage automatique réseaux de neurones artificiels séquençage de TCR atlas cellulaires high throughput sequencing machine learning artificial neural network TCR sequencing cell atlas
45	AI-based modeling of brain and behavior : combining neuroimaging, imitation learning and video games Kemtur, Anirudha 07 1900 (has links) Les récentes avancées dans le domaine de l'intelligence artificielle ont ouvert la voie au développement de nouveaux modèles d'activité cérébrale. Les réseaux neuronaux artificiels (RNA) formés à des tâches complexes, telles que la reconnaissance d'images, peuvent être utilisés pour prédire la dynamique cérébrale en réponse à une série de stimuli avec une précision sans précédent, un processus appelé encodage cérébral. Les jeux vidéo ont fait l'objet d'études approfondies dans le domaine de l'intelligence artificielle, mais n'ont pratiquement pas été utilisés pour l'encodage cérébral. Les jeux vidéo offrent un cadre prometteur pour comprendre l'activité cérébrale dans un environnement riche, engageant et actif, contrairement aux tâches essentiellement passives qui dominent actuellement le domaine, telles que la visualisation d'images. Un défi majeur soulevé par les jeux vidéo complexes est que le comportement individuel est très variable d'un sujet à l'autre, et nous avons émis l'hypothèse que les RNAs doivent prendre en compte le comportement spécifique du sujet afin de capturer correctement les dynamiques cérébrales. Dans cette étude, nous avons cherché à utiliser des RNAs pour modéliser l'imagerie par résonance magnétique fonctionnelle (IRMf) et les données comportementales des participants, que nous avons collectées pendant que les sujets jouaient au jeu vidéo Shinobi III. En utilisant l'apprentissage par imitation, nous avons entraîné un RNA à jouer au jeu vidéo en reproduisant fidèlement le style de jeu unique de chaque participant. Nous avons constaté que les couches cachées de notre modèle d'apprentissage par imitation parvenaient à encoder des représentations neuronales pertinentes pour la tâche et à prédire la dynamique cérébrale individuelle avec une plus grande précision que divers modèles de contrôle, y compris des modèles entraînés sur les actions d'autres sujets. Les corrélations les plus fortes entre les activations des couches cachées et les signaux cérébraux ont été observées dans des zones cérébrales biologiquement plausibles, à savoir les réseaux somatosensoriels, attentionnels et visuels. Nos résultats soulignent le potentiel de la combinaison de l'apprentissage par imitation, de l'imagerie cérébrale et des jeux vidéo pour découvrir des relations spécifiques entre le cerveau et le comportement. / Recent advances in the field of Artificial Intelligence have paved the way for the development of novel models of brain activity. Artificial Neural networks (ANN) trained on complex tasks, such as image recognition and language processing, can be used to predict brain dynamics in response to wide range of stimuli with unprecedented accuracy, a process called brain encoding. Videogames have been extensively studied in the AI field, but have hardly been used yet for brain encoding. Videogames provide a promising framework to understand brain activity in rich, engaging and active environments, in contrast to mostly passive tasks currently dominating the field, such as image viewing. A major challenge raised by complex videogames is that individual behavior is highly variable across subjects, and we hypothesized that ANNs need to account for subject-specific behavior in order to properly capture brain dynamics. In this study, we aimed to use ANNs to model functional magnetic resonance imaging (fMRI) and behavioral gameplay data, which we collected while subjects played the Shinobi III videogame. Using imitation learning, we trained an ANN to play the game closely replicating the unique gameplay style of individual participants. We found that hidden layers of our imitation learning model successfully encode task-relevant neural representations and predict individual brain dynamics with higher accuracy than various control models, including models trained on other subjects' actions. The highest correlations between layer activations and brain signals were observed in biologically plausible brain areas, i.e. somatosensory, attentional and visual networks. Our results highlight the potential of combining imitation learning, brain imaging, and videogames to uncover subject-specific relationships between brain and behavior. Imitation Learning Artificial Neural Networks Brain encoding Videogames fMRI Apprentissage par imitation Réseaux de neurones artificiels Codage cerveau Jeux vidéos IRMf
46	Understanding deep architectures and the effect of unsupervised pre-training Erhan, Dumitru 10 1900 (has links) Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde. / This thesis studies a class of algorithms called deep architectures. We argue that models that are based on a shallow composition of local features are not appropriate for the set of real-world functions and datasets that are of interest to us, namely data with many factors of variation. Modelling such functions and datasets is important if we are hoping to create an intelligent agent that can learn from complicated data. Deep architectures are hypothesized to be a step in the right direction, as they are compositions of nonlinearities and can learn compact distributed representations of data with many factors of variation. Training fully-connected artificial neural networks---the most common form of a deep architecture---was not possible before Hinton (2006) showed that one can use stacks of unsupervised Restricted Boltzmann Machines to initialize or pre-train a supervised multi-layer network. This breakthrough has been influential, as the basic idea of using unsupervised learning to improve generalization in deep networks has been reproduced in a multitude of other settings and models. In this thesis, we cast the deep learning ideas and techniques as defining a special kind of inductive bias. This bias is defined not only by the kind of functions that are eventually represented by such deep models, but also by the learning process that is commonly used for them. This work is a study of the reasons for why this class of functions generalizes well, the situations where they should work well, and the qualitative statements that one could make about such functions. This thesis is thus an attempt to understand why deep architectures work. In the first of the articles presented we study the question of how well our intuitions about the need for deep models correspond to functions that they can actually model well. In the second article we perform an in-depth study of why unsupervised pre-training helps deep learning and explore a variety of hypotheses that give us an intuition for the dynamics of learning in such architectures. Finally, in the third article, we want to better understand what a deep architecture models, qualitatively speaking. Our visualization approach enables us to understand the representations and invariances modelled and learned by deeper layers. Apprentissage automatique Machine learning Réseaux de neurones artificiels Artificial neural networks Architectures profondes Deep architectures Apprentissage non-supervisé Unsupervised learning Visualisation Visualization
47	De l'auto-évaluation aux émotions : approche neuromimétique et bayésienne de l'apprentissage de comportements complexes impliquant des informations multimodales / From self-evaluation to emotions : neuromimetic and bayesian approaches for the learning of complex behavior involving multimodal informations Jauffret, Adrien 11 July 2014 (has links) Cette thèse a pour objectif la conception d’une architecture de contrôle bio-inspirée permettant à un robot autonome de naviguer sur de grandes distances. Le modèle développé permet également d’améliorer la compréhension des mécanismes biologiques impliqués. De précédents travaux ont montré qu’un modèle de cellules de lieu, enregistrées chez le rat, permettait à un robot mobile d’apprendre des comportements de navigation robustes, tels qu’une ronde ou un retour au nid, à partir d’associations entre lieu et action. La reconnaissance d’un lieu ne reposait alors que sur des informations visuelles. L’ambiguïté de certaines situations (e.g. un long couloir) ne permettait pas de naviguer dans de grands environnements. L’ajout d’autres modalités constitue une solution efficace pour augmenter la robustesse dans des environnements complexes. Cette solution nous a permis d’identifier les briques minimales nécessaires à la fusion d’informations multimodales, d’abord par le biais d’un conditionnement simple entre 2 modalités sensorielles, puis par la formalisation d’un modèle, plus générique, de prédictions inter-modales. C’est un mécanisme bas niveau qui permet de générer une cohérence perceptive : l’ensemble des modalités sensorielles s’entraident pour ne renvoyer qu’une perception claire et cohérente aux mécanismes décisionnels de plus haut niveau. Les modalités les plus corrélées sont ainsi capables de combler les informations manquantes d’une modalité défaillante (cas pathologique). Ce modèle implique la mise en place d’un système de prédiction et donc une capacité à détecter de la nouveauté dans ses perceptions. Ainsi, le modèle est également capable de détecter une situation inattendue ou anormale et possède donc une capacité d’auto-évaluation : l’évaluation de ses propres perceptions. Nous nous sommes ensuite mis à la recherche des propriétés fondamentales à tout système d'auto-évaluation.La première propriété essentielle a été de constater qu’évaluer un comportement sensorimoteur revient à reconnaître une dynamique entre sensation et action, plutôt que la simple reconnaissance d’une forme sensorielle. La première brique encapsule donc un modèle interne minimaliste des interactions du robot avec son environnement, qui est la base sur laquelle le système fera des prédictions.La seconde propriété essentielle est la capacité à extraire l’information pertinente par le biais de calculs statistiques. Il est nécessaire que le robot apprenne à capturer les invariants statistiques en supprimant l’information incohérente. Nous avons donc montré qu’il était possible d’estimer une densité de probabilité par le biais d’un simple conditionnement. Cet apprentissage permet de réaliser l’équivalent d’une inférence bayésienne. Le système estime la probabilité de reconnaître un comportement à partir de la reconnaissance d’informations statistiques apprises. C’est donc par la mise en cascade de simples conditionnements que le système peut apprendre à estimer les moments statistiques d’une dynamique (moyenne, variance, asymétrie, etc...). La non-reconnaissance de cette dynamique lui permet de détecter qu’une situation est anormale.Mais détecter un comportement inhabituel ne nous renseigne pas pour autant sur son inefficacité. Le système doit également surveiller l’évolution de cette anomalie dans le temps pour pouvoir juger de la pertinence du comportement. Nous montrons comment un contrôleur émotionnel peut faire usage de cette détection de nouveauté pour réguler le comportement et ainsi permettre au robot d’utiliser la stratégie la plus adaptée à la situation rencontrée. Pour finir, nous avons mis en place une procédure de frustration permettant au robot de lancer un appel à l’aide lorsqu’il détecte qu’il se retrouve dans une impasse. Ce réseau de neurones permet au robot d’identifier les situations qu’il ne maîtrise pas dans le but d’affiner son apprentissage, à l’instar de certains processus développementaux. / The goal of this thesis is to build a bio-inspired architecture allowing a robot to autonomouslynavigate over large distances. In a cognitive science point of view, the model also aim at improv-ing the understanding of the underlying biological mechanisms. Previous works showed thata computational model of hippocampal place cells, based on neurobiological studies made onrodent, allows a robot to learn robust navigation behaviors. The robot can learn a round or ahoming behavior from a few associations between places and actions. The learning and recog-nition of a place were only defined by visual information and shows limitations for navigatinglarge environments.Adding other sensorial modalities is an effective solution for improving the robustness of placesrecognition in complex environments. This solution led us to the elementary blocks requiredwhen trying to perform multimodal information merging. Such merging has been done, first,by a simple conditioning between 2 modalities and next improved by a more generic model ofinter-modal prediction. In this model, each modality learns to predict the others in usual situa-tions, in order to be able to detect abnormal situations and to compensate missing informationof the others. Such a low level mechanism allows to keep a coherent perception even if onemodality is wrong. Moreover, the model can detect unexpected situations and thus exhibit someself-assessment capabilities: the assessment of its own perception. Following this model of self-assessment, we focus on the fundamental properties of a system for evaluating its behaviors.The first fundamental property that pops out is the statement that evaluating a behavior is anability to recognize a dynamics between sensations and actions, rather than recognizing a sim-ple sensorial pattern. A first step was thus to take into account the sensation/action couplingand build an internal minimalist model of the interaction between the agent and its environment.Such of model defines the basis on which the system will build predictions and expectations.The second fundamental property of self-assessment is the ability to extract relevant informa-tion by the use of statistical processes to perform predictions. We show how a neural networkcan estimate probability density functions through a simple conditioning rule. This probabilis-tic learning allows to achieve bayesian inferences since the system estimates the probability ofobserving a particular behavior from statistical information it recognizes about this behavior.The robot estimates the different statistical momentums (mean, variance, skewness, etc...) of abehavior dynamics by cascading few simple conditioning. Then, the non-recognition of such adynamics is interpreted as an abnormal behavior.But detecting an abnormal behavior is not sufficient to conclude to its inefficiency. The systemmust also monitor the temporal evolution of such an abnormality to judge the relevance of thebehavior. We show how an emotional meta-controller can use this novelty detection to regu-late behaviors and so select the best appropriate strategy in a given context. Finally, we showhow a simple frustration mechanism allows the robot to call for help when it detects potentialdeadlocks. Such a mechanism highlights situations where a skills improvement is possible, soas some developmental processes. Robotique bio-inspirée Réseaux de neurones artificiels Navigation sensori-motrice Auto-évaluation Meta-apprentissage Sélection de l’action Bio-inspired robotics Artificial neural-networks Sensory-motor navigation Self- assessment Metalearning Action selection
48	Gestion optimale de l'énergie thermique dans un procédé hybride : solaire/géothermie pour le chauffage de bâtiments Nou, Julien 13 December 2011 (has links) (PDF) Les enjeux environnementaux, énergétiques et économiques actuels, nous amènent à proposer de nouvelles solutions de gestion énergétique aﬁn d'éviter d'entrer dans une ère de récession énergétique brutale. À partir des constats établis par les institutions mondiales, telles que le GIEC, il est aujourd'hui admis par la communauté scientiﬁque internationale, que la température moyenne de la Terre est en augmentation et que l'activité anthropique en est une des causes, sinon la plus importante. Les travaux réalisés et présentés dans ce manuscrit visent à répondre, en partie, à ces problématiques par la mise en place d'un système de contrôle supervisé permettant l'optimisation de la gestion énergétique d'un procédé hybride alliant l'énergie solaire à la géothermie, et destiné au chauﬀage dans le secteur du bâtiment. L'utilisation des méthodologies de l'intelligence artiﬁcielles telles que le neuroﬂou et la logique ﬂoue nous a permis de développer une plateforme de simulation d'un système énergétique hybride et d'en réaliser la gestion à l'aide de contrôleurs ﬂous. Les résultats obtenus, par l'utilisation de ces contrôleurs, montrent qu'un choix judicieux des périodes et durées de marche du système d'extraction permet d'améliorer de façon signiﬁcative le fonctionnement du procédé. La consommation électrique et le coût de fonctionnement de l'installation sont donc diminués, tout en respectant les contraintes techniques de fonctionnement et le confort thermique des habitants. Énergie solaire automatique algorithme énergies renouvelables contrôle commande optimisation systèmes hybrides solaire photovoltaïque solaire thermique géothermie modélisation logique floue réseaux de neurones artificiels intelligence artificielle neuroflou
49	Understanding deep architectures and the effect of unsupervised pre-training Erhan, Dumitru 10 1900 (has links) Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde. / This thesis studies a class of algorithms called deep architectures. We argue that models that are based on a shallow composition of local features are not appropriate for the set of real-world functions and datasets that are of interest to us, namely data with many factors of variation. Modelling such functions and datasets is important if we are hoping to create an intelligent agent that can learn from complicated data. Deep architectures are hypothesized to be a step in the right direction, as they are compositions of nonlinearities and can learn compact distributed representations of data with many factors of variation. Training fully-connected artificial neural networks---the most common form of a deep architecture---was not possible before Hinton (2006) showed that one can use stacks of unsupervised Restricted Boltzmann Machines to initialize or pre-train a supervised multi-layer network. This breakthrough has been influential, as the basic idea of using unsupervised learning to improve generalization in deep networks has been reproduced in a multitude of other settings and models. In this thesis, we cast the deep learning ideas and techniques as defining a special kind of inductive bias. This bias is defined not only by the kind of functions that are eventually represented by such deep models, but also by the learning process that is commonly used for them. This work is a study of the reasons for why this class of functions generalizes well, the situations where they should work well, and the qualitative statements that one could make about such functions. This thesis is thus an attempt to understand why deep architectures work. In the first of the articles presented we study the question of how well our intuitions about the need for deep models correspond to functions that they can actually model well. In the second article we perform an in-depth study of why unsupervised pre-training helps deep learning and explore a variety of hypotheses that give us an intuition for the dynamics of learning in such architectures. Finally, in the third article, we want to better understand what a deep architecture models, qualitatively speaking. Our visualization approach enables us to understand the representations and invariances modelled and learned by deeper layers. Apprentissage automatique Machine learning Réseaux de neurones artificiels Artificial neural networks Architectures profondes Deep architectures Apprentissage non-supervisé Unsupervised learning Visualisation Visualization
50	Laser-induced plasma on polymeric materials and applications for the discrimination and identification of plastics / Plasma induit par laser sur des matériaux organiques et applications pour discrimination et identification de plastiques Boueri, Myriam 18 October 2010 (has links) La spectrométrie de plasma induit par laser, plus connue sous le nom de LIBS (l’acronyme du terme en anglais Laser-Induced Breakdown Spectroscopy) est une technique analytique qui permet la détection de l’ensemble des éléments du tableau périodique avec des limites de détection de l’ordre du ppm et ceci sur tous types d’échantillons qu’ils soient liquides, solides ou gazeux. Sa simplicité de mise en œuvre, sa rapidité et sa versatilité en font une technique très attractive avec un fort potentiel en termes d’applications que ce soit pour le contrôle en ligne, l’environnement ou l’exploration spatiale. Son point faible reste cependant son manque de fiabilité dans l’analyse quantitative, en particulier lors de l’étude d’échantillons hétérogènes ou de matrices complexes telles que les matrices organiques. Ce travail de thèse propose une étude des propriétés des plasmas induit par laser sur différentes familles de polymères. Une étude du plasma au temps court (~ns) par ombroscopie est tout d’abord présentée, ceci pour différents paramètres expérimentaux (énergie laser, durée d’impulsion, longueur d’onde). Un diagnostic complet du plasma par spectrométrie d’émission est ensuite détaillé pour différents délais de détection et montre que la mesure des températures des différentes espèces du plasma (atomique, ionique et moléculaire) permet de vérifier, dans certaines conditions, les hypothèses d’homogénéité et de l’équilibre thermodynamique local. Ceci permet alors la mise en place de procédures quantitatives telles que la méthode dite sans calibration (calibration free LIBS) tout en optimisant le rapport signal sur bruit de la mesure LIBS. Dans nos expériences cette optimisation est mise à profit pour l’identification de différentes familles de polymères en utilisant, pour le traitement des données de la spectroscopie LIBS, la méthode chimiométrique des réseaux de neurones artificiels. Les résultats obtenus, très prometteurs, permettent d’envisager l’utilisation de la LIBS pour l’identification en temps réel des matières plastiques sur chaine de tri. Par ailleurs et de manière plus générale, ce travail pourrait constituer une base solide pour aller étudier d’autres matériaux organiques plus complexes tels que des tissus biologiques. / Laser-Induced Breakdown Spectroscopy (LIBS) is an analytical technique that has the potential to detect all the elements present in the periodic table. The limit of detection can go below a few ppm and this regardless of the physical phase of the analyzed sample (solid, liquid or gas). Its simplicity of use, its rapidity to get results and its versatility provide this technique with attractive features. The technique is currently developed for applications in a large number of domains such as online control, spatial explorations and the environment. However the weakness of the LIBS technique, compared to other more conventional ones, is still its difficulty in providing reliable quantitative results, especially for inhomogeneous and complex matrix such as organic or biological materials. The work presented in this thesis includes a study of the properties of plasma induced from different organic materials. First, a study of the plasma induced on the surface of a Nylon sample at short time delays (~ns) was carried out using the time-resolved shadowgraph technique for different experimental parameters (laser energy, pulse duration, wavelength). Then, a complete diagnostics of the plasma was performed using the plasma emission spectroscopy. A detailed analysis of the emission spectra at different detection delays allowed us to determine the evolution of the temperatures of the different species in the plasma (atoms, ions and molecules). The homogeneity and the local thermodynamic equilibrium within the plasma was then experimentally checked and validated. We demonstrated that the optimisation of the signalto- noise ratio and a quantitative procedure, such as the calibration-free LIBS, can be put in place within a properly chosen detection window. In our experiments, such optimised detection configuration was further employed to record LIBS spectra from different families of polymer in order to identify and classify them. For this purpose, the chemometrics procedure of artificial neural networks (ANN) was used to process the recorded LIBS spectroscopic data. The promising results obtained in this thesis makes LIBS stand out as a potentially useful tool for real time identification of plastic materials. Finally, this work can also be considered as a base for the further studies of more complex materials such as biological tissues with LIBS. Plasma induit par laser Ablation laser des polymères Spectroscopie d’émission LIBS Classification des polymères Identification des polymères Réseaux de neurones artificiels Ombroscopie résolue en temps Laser induced plasma Ablation laser of polymeres Emission spectroscop Laser-Induced Breakdown Spectroscopy Polymers classification Polymers identification Artificial neural networks 535.07

Search results