Global ETD Search

411	Chimiométrie appliquée à la spectroscopie de plasma induit par laser (LIBS) et à la spectroscopie terahertz El Haddad, Josette 13 December 2013 (has links) (PDF) L'objectif de cette thèse était d'appliquer des méthodes d'analyse multivariées au traitement des données provenant de la spectroscopie de plasma induit par laser (LIBS) et de la spectroscopie térahertz (THz) dans le but d'accroître les performances analytiques de ces techniques.Les spectres LIBS provenaient de campagnes de mesures directes sur différents sites géologiques. Une approche univariée n'a pas été envisageable à cause d'importants effets de matrices et c'est pour cela qu'on a analysé les données provenant des spectres LIBS par réseaux de neurones artificiels (ANN). Cela a permis de quantifier plusieurs éléments mineurs et majeurs dans les échantillons de sol avec un écart relatif de prédiction inférieur à 20% par rapport aux valeurs de référence, jugé acceptable pour des analyses sur site. Dans certains cas, il a cependant été nécessaire de prendre en compte plusieurs modèles ANN, d'une part pour classer les échantillons de sol en fonction d'un seuil de concentration et de la nature de leur matrice, et d'autre part pour prédire la concentration d'un analyte. Cette approche globale a été démontrée avec succès dans le cas particulier de l'analyse du plomb pour un échantillon de sol inconnu. Enfin, le développement d'un outil de traitement par ANN a fait l'objet d'un transfert industriel.Dans un second temps, nous avons traité des spectres d'absorbance terahertz. Ce spectres provenaient de mesures d'absorbance sur des mélanges ternaires de Fructose-Lactose-acide citrique liés par du polyéthylène et préparés sous forme de pastilles. Une analyse semi-quantitative a été réalisée avec succès par analyse en composantes principales (ACP). Puis les méthodes quantitatives de régression par moindres carrés partiels (PLS) et de réseaux de neurons artificiels (ANN) ont permis de prédire les concentrations de chaque constituant de l'échantillon avec une valeur d'erreur quadratique moyenne inférieure à 0.95 %. Pour chaque méthode de traitement, le choix des données d'entrée et la validation de la méthode ont été discutés en détail. [SPI:OTHER] Engineering Sciences/Other Chimiométrie Spectroscopie THz Analyse multivariée Analyse en composantes principales (ACP) Réseaux de neurones artificiels (ANN) Analyse quantitative Semi-quantitative Classement
412	Apprentissage machine efficace : théorie et pratique Delalleau, Olivier 03 1900 (has links) Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique. / Despite constant progress in terms of available computational power, memory and amount of data, machine learning algorithms need to be efficient in how they use them. Although minimizing cost is an obvious major concern, another motivation is to attempt to design algorithms that can learn as efficiently as intelligent species. This thesis tackles the problem of efficient learning through various papers dealing with a wide range of machine learning algorithms: this topic is seen both from the point of view of computational efficiency (processing power and memory required by the algorithms) and of statistical efficiency (n umber of samples necessary to solve a given learning task).The first contribution of this thesis is in shedding light on various statistical inefficiencies in existing algorithms. Indeed, we show that decision trees do not generalize well on tasks with some particular properties (chapter 3), and that a similar flaw affects typical graph-based semi-supervised learning algorithms (chapter 5). This flaw is a form of curse of dimensionality that is specific to each of these algorithms. For a subclass of neural networks, called sum-product networks, we prove that using networks with a single hidden layer can be exponentially less efficient than when using deep networks (chapter 4). Our analyses help better understand some inherent flaws found in these algorithms, and steer research towards approaches that may potentially overcome them. We also exhibit computational inefficiencies in popular graph-based semi-supervised learning algorithms (chapter 5) as well as in the learning of mixtures of Gaussians with missing data (chapter 6). In both cases we propose new algorithms that make it possible to scale to much larger datasets. The last two chapters also deal with computational efficiency, but in different ways. Chapter 7 presents a new view on the contrastive divergence algorithm (which has been used for efficient training of restricted Boltzmann machines). It provides additional insight on the reasons why this algorithm has been so successful. Finally, in chapter 8 we describe an application of machine learning to video games, where computational efficiency is tied to software and hardware engineering constraints which, although often ignored in research papers, are ubiquitous in practice. Efficacité computationnelle Computational efficiency Efficacité statistique Statistical efficiency Malédiction de la dimensionalité Curse of dimensionality Arbres de décision Decision trees Réseaux de neurones Neural networks Graph-based semi-supervised learning Divergence contrastive Contrastive divergence Mélanges de Gaussiennes Mixtures of Gaussians Appariement de joueurs Matchmaking
413	Sequential Machine learning Approaches for Portfolio Management Chapados, Nicolas 11 1900 (has links) Cette thèse envisage un ensemble de méthodes permettant aux algorithmes d'apprentissage statistique de mieux traiter la nature séquentielle des problèmes de gestion de portefeuilles financiers. Nous débutons par une considération du problème général de la composition d'algorithmes d'apprentissage devant gérer des tâches séquentielles, en particulier celui de la mise-à-jour efficace des ensembles d'apprentissage dans un cadre de validation séquentielle. Nous énumérons les desiderata que des primitives de composition doivent satisfaire, et faisons ressortir la difficulté de les atteindre de façon rigoureuse et efficace. Nous poursuivons en présentant un ensemble d'algorithmes qui atteignent ces objectifs et présentons une étude de cas d'un système complexe de prise de décision financière utilisant ces techniques. Nous décrivons ensuite une méthode générale permettant de transformer un problème de décision séquentielle non-Markovien en un problème d'apprentissage supervisé en employant un algorithme de recherche basé sur les K meilleurs chemins. Nous traitons d'une application en gestion de portefeuille où nous entraînons un algorithme d'apprentissage à optimiser directement un ratio de Sharpe (ou autre critère non-additif incorporant une aversion au risque). Nous illustrons l'approche par une étude expérimentale approfondie, proposant une architecture de réseaux de neurones spécialisée à la gestion de portefeuille et la comparant à plusieurs alternatives. Finalement, nous introduisons une représentation fonctionnelle de séries chronologiques permettant à des prévisions d'être effectuées sur un horizon variable, tout en utilisant un ensemble informationnel révélé de manière progressive. L'approche est basée sur l'utilisation des processus Gaussiens, lesquels fournissent une matrice de covariance complète entre tous les points pour lesquels une prévision est demandée. Cette information est utilisée à bon escient par un algorithme qui transige activement des écarts de cours (price spreads) entre des contrats à terme sur commodités. L'approche proposée produit, hors échantillon, un rendement ajusté pour le risque significatif, après frais de transactions, sur un portefeuille de 30 actifs. / This thesis considers a number of approaches to make machine learning algorithms better suited to the sequential nature of financial portfolio management tasks. We start by considering the problem of the general composition of learning algorithms that must handle temporal learning tasks, in particular that of creating and efficiently updating the training sets in a sequential simulation framework. We enumerate the desiderata that composition primitives should satisfy, and underscore the difficulty of rigorously and efficiently reaching them. We follow by introducing a set of algorithms that accomplish the desired objectives, presenting a case-study of a real-world complex learning system for financial decision-making that uses those techniques. We then describe a general method to transform a non-Markovian sequential decision problem into a supervised learning problem using a K-best paths search algorithm. We consider an application in financial portfolio management where we train a learning algorithm to directly optimize a Sharpe Ratio (or other risk-averse non-additive) utility function. We illustrate the approach by demonstrating extensive experimental results using a neural network architecture specialized for portfolio management and compare against well-known alternatives. Finally, we introduce a functional representation of time series which allows forecasts to be performed over an unspecified horizon with progressively-revealed information sets. By virtue of using Gaussian processes, a complete covariance matrix between forecasts at several time-steps is available. This information is put to use in an application to actively trade price spreads between commodity futures contracts. The approach delivers impressive out-of-sample risk-adjusted returns after transaction costs on a portfolio of 30 spreads. apprentissage machine machine learning gestion de portefeuille portfolio management réseaux de neurones artificiels artificial neural networks processus Gaussiens Gaussian processes programmation dynamique approximative approximate dynamic programming non-additive utility optimization prévision de séries chronologiques time-series forecasting écarts de cours sur contrats à terme commodity spreads
414	Dynamique d'un gaz de bosons ultra-froids dans un milieu désordonné : Effets des interactions sur la localisation et sur la transition d'Anderson Vermersch, Benoît 23 September 2013 (has links) (PDF) En présence de désordre, la diffusion des particules peut être complètement annihilée, don- nant lieu à la fameuse localisation d'Anderson. En dimension trois, une transition de phase sépare une telle phase isolante du régime diffusif. À partir de différentes approches théo- riques et numériques, cette thèse a pour objectif de déterminer l'effet des interactions entre particules sur la localisation d'Anderson et sur la transition d'Anderson, dans le contexte expérimental des condensats de Bose-Einstein. Dans le cas unidimensionnel, la compétition entre désordre et interaction induit l'existence de trois régimes dynamiques dont les caracté- ristiques sont étudiées grâce à une approche spectrale. En nous appuyant sur le modèle du rotateur frappé quasi-périodique, nous caractérisons l'émergence du régime sub-diffusif qui tend à remplacer le régime localisé dans le cas tridimensionnel. Nous étudions également la dynamique des excitations du système et démontrons l'universalité de la transition d'An- derson vis-à-vis des quasi-particules de Bogoliubov. Dans l'objectif d'étudier la validité de l'équation de Gross-Pitaevskii, nous nous sommes enfin intéressés à une nouvelle approche, la méthode de la troncature d'Husimi. Celle-ci nous permet d'envisager une étude de la compétition entre désordre et interaction enrichie par la prise en compte du bruit quantique. [PHYS:QPHY] Physics/Quantum Physics [PHYS:QPHY] Physique/Physique Quantique Systèmes désordonnés Condensats de Bose-Einstein Dynamique Quantique et non-linéarité Localisation d'Anderson Transition d'Anderson Atomes froids Rotateur pulsé Chaos quantique
415	Mise en oeuvre d'une architecture de reconnaissance de formes pour la détection de particules à partir d'images atmosphériques. Khatchadourian, Sonia 16 September 2010 (has links) (PDF) L'expérience HESS consiste en un système de télescopes permettant d'observer les rayonnements cosmiques. Compte tenu des résultats majeurs obtenus depuis son installation, la seconde phase du projet a été engagée. Celle-ci est en cours de réalisation et passe par l'ajout d'un télescope plus sensible et plus grand que ses prédécesseurs. Toutes les données collectées par ce télescope ne peuvent pas être conservées à cause des limites de stockage. Par conséquent, un système de déclencheur, dit trigger, performant doit être mis en place. L'objectif de cette thèse est de proposer une solution de reconnaissance de formes en temps réel dans un contexte fortement contraint et qui sera embarquée sur le télescope. La première partie de la thèse a consisté à élaborer une chaîne de reconnaissance des formes pour ce trigger. Une chaîne de traitement à base de réseau de neurones et des moments de Zernike a été validée. La seconde partie de la thèse a porté sur l'implantation des algorithmes retenus sur une cible FPGA en tenant compte des contraintes en termes de ressources et de temps d'exécution. classification réseaux de neurones trigger de particules moments de Zernike FPGA
416	Modélisation multiéchelle du comportement mécano-biologique de l'os humain : de l'ultrastructure au remodelage osseux Barkaoui, Abdelwahed 14 December 2012 (has links) (PDF) L'os est un matériau vivant avec une structure hiérarchique complexe qui lui confère des propriétés mécaniques remarquables. L'os subit perpétuellement des contraintes mécaniques et physiologiques, ainsi sa qualité et sa résistance à la fracture évoluent constamment au cours du temps à travers le processus de remodelage osseux. La qualité osseuse est non seulement définie par la densité minérale osseuse mais également par les propriétés mécaniques ainsi que la microarchitecture. Dans le cadre de la présente thèse, on a développé une modélisation multiéchelle unifiée couplant à la fois les activités cellulaires au comportement mécanique de l'os tenant compte des différents niveaux hiérarchiques de l'os: de l'ultrastructure au remodelage osseux. Ce modèle permet d'étudier le comportement mécano-bibliologique de l'os et de prédire ses propriétés mécaniques apparentes à différentes échelles allant du nanoscopique au macroscopique en fonction des constituants élémentaires de l'os. Pour atteindre cet objectif, une démarche en quatre phases a été adoptée. La première phase consiste à décrire les constituants élémentaires de l'os. La deuxième phase avait pour objectif la modélisation multiéchelle de l'ultrastructure osseuse constituée de trois échelles nanoscopiques (microfibrille, fibrille et fibre) par la méthode des éléments finis et des réseaux de neurones. La troisième phase correspond à la modélisation des échelles micro-macroscopiques de l'os cortical (lamelle, ostéon, os cortical) en utilisant comme paramètres d'entrée les propriétés de la fibre déterminées dans la deuxième phase. Enfin, dans la dernière phase, on a développé un modèle mécano-biologique du remodelage osseux permettant de simuler le processus d'adaptation osseuse tenant compte explicitement des activités biologiques des cellules osseuses. Les propriétés mécaniques prédites par nos algorithmes multiéchelles ont servi pour alimenter le modèle de remodelage. Ce modèle a été implémenté au code de calcul d'éléments finis ABAQUS/Standard à travers sa routine utilisateur UMAT. Finalement, le modèle EF mécano-biologique multiéchelle du remodelage osseux a été appliqué pour simuler différents scénarii de remodelage sur des fémurs humains (2D et 3D). Différents facteurs ont été ainsi analysés tels que l'âge, le genre, l'amplitude des activités physiques, etc. Les résultats obtenus sont conformes (qualitativement) avec les observations cliniques et cohérents avec les différentes études expérimentales. En conclusion: (i) Les modèles unifiés ainsi développés (modèle multiéchelle, modèle mécano-biologique de remodelage osseux) contribuent à l'analyse fine du comportement de l'os humain. (ii) L'application des algorithmes a permis d'effectuer des essais virtuels pour analyser les effets combinés de nombreux facteurs caractérisant la qualité osseuse. Os cortical Modélisation multiéchelle Méthode des éléments finis Méthode des réseaux de neurones Technique d'homogénéisation Remodelage osseux
417	TRANSITION DE DÉPIÉGEAGE DANS LES RÉSEAUX DE VORTEX SUPRACONDUCTEURS : ÉTUDE PAR SIMULATION NUMÉRIQUE Di Scala, Nicolas 12 October 2012 (has links) (PDF) Cette étude traite du dépiégeage et de la dynamique des systèmes élastiques désordonnés. Ce cadre regroupe une large classe de systèmes allant des interfaces (telles que les parois de domaines dans les systèmes magnétiques ou ferroélectriques) aux systèmes périodiques (comme les réseaux de vortex dans les supraconducteur de type II, les colloïdes ou encore les cristaux de Wigner). Dans ces systèmes, la compétition entre l'élasticité de la structure qui veut imposer un ordre parfait et le désordre induit une grande richesse dans le diagramme de phase. L'étude est menée par simulations numériques à grande échelle, dans lesquelles nous nous intéresserons spéci fiquement aux réseaux 2D de vortex supraconducteurs. Deux types de dépiégeage sont observés lorsque l'on met en mouvement ces réseaux à l'aide d'une force extérieure : un dépiégeage plastique et un dépiégeage élastique. Nous portons notre attention sur la transition de dépiégeage élastique obtenue dans le cas d'un piégeage faible. A travers une analyse en loi d'échelle à température nulle et à température nie nous montrons le caractère continu de la transition. Divers exposants critiques sont déterminés dont l'exposant et caractérisant la dépendance en force et en température de la vitesse ou bien l'exposant caractérisant la divergence de la longueur de corrélation du système. Un modèle visco-élastique simple permettant de décrire la plasticité dans les systèmes périodiques évoluant sur un potentiel de piégeage en présence de désordre fort est également développé. Une grande variété de comportements dynamiques, similaires à ceux observés à plus grande échelle dans des systèmes périodiques, peuvent être extraits d'un tel modèle. Un dépiégeage élastique ou plastique est observé, de l'hystérésis est mesurée dans le cas du dépiégeage élastique, et du chaos est détecté pour le dépiégeage plastique. vortex supraconducteurs réseau de vortex systèmes élastiques désordonnés milieu désordonné
418	Improving sampling, optimization and feature extraction in Boltzmann machines Desjardins, Guillaume 12 1900 (has links) L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires. / Despite the current widescale success of deep learning in training large scale hierarchical models through supervised learning, unsupervised learning promises to play a crucial role towards solving general Artificial Intelligence, where agents are expected to learn with little to no supervision. The work presented in this thesis tackles the problem of unsupervised feature learning and density estimation, using a model family at the heart of the deep learning phenomenon: the Boltzmann Machine (BM). We present contributions in the areas of sampling, partition function estimation, optimization and the more general topic of invariant feature learning. With regards to sampling, we present a novel adaptive parallel tempering method which dynamically adjusts the temperatures under simulation to maintain good mixing in the presence of complex multi-modal distributions. When used in the context of stochastic maximum likelihood (SML) training, the improved ergodicity of our sampler translates to increased robustness to learning rates and faster per epoch convergence. Though our application is limited to BM, our method is general and is applicable to sampling from arbitrary probabilistic models using Markov Chain Monte Carlo (MCMC) techniques. While SML gradients can be estimated via sampling, computing data likelihoods requires an estimate of the partition function. Contrary to previous approaches which consider the model as a black box, we provide an efficient algorithm which instead tracks the change in the log partition function incurred by successive parameter updates. Our algorithm frames this estimation problem as one of filtering performed over a 2D lattice, with one dimension representing time and the other temperature. On the topic of optimization, our thesis presents a novel algorithm for applying the natural gradient to large scale Boltzmann Machines. Up until now, its application had been constrained by the computational and memory requirements of computing the Fisher Information Matrix (FIM), which is square in the number of parameters. The Metric-Free Natural Gradient algorithm (MFNG) avoids computing the FIM altogether by combining a linear solver with an efficient matrix-vector operation. The method shows promise in that the resulting updates yield faster per-epoch convergence, despite being slower in terms of wall clock time. Finally, we explore how invariant features can be learnt through modifications to the BM energy function. We study the problem in the context of the spike & slab Restricted Boltzmann Machine (ssRBM), which we extend to handle both binary and sparse input distributions. By associating each spike with several slab variables, latent variables can be made invariant to a rich, high dimensional subspace resulting in increased invariance in the learnt representation. When using the expected model posterior as input to a classifier, increased invariance translates to improved classification accuracy in the low-label data regime. We conclude by showing a connection between invariance and the more powerful concept of disentangling factors of variation. While invariance can be achieved by pooling over subspaces, disentangling can be achieved by learning multiple complementary views of the same subspace. In particular, we show how this can be achieved using third-order BMs featuring multiplicative interactions between pairs of random variables. Réseaux de neurones Apprentissage profond Apprentissage non-supervisé Apprentissage de représentations Machines de Boltzmann Échantillonnage Gradient naturel Modèles bilinéaires Fonction de partition Neural networks Deep learning Unsupervised learning Feature learning Boltzmann machines Markov chain Monte Carlo Parallel tempering Natural gradient Bilinear models Partition function
419	On two sequential problems : the load planning and sequencing problem and the non-normal recurrent neural network Goyette, Kyle 07 1900 (has links) The work in this thesis is separated into two parts. The first part deals with the load planning and sequencing problem for double-stack intermodal railcars, an operational problem found at many rail container terminals. In this problem, containers must be assigned to a platform on which the container will be loaded, and the loading order must be determined. These decisions are made with the objective of minimizing the costs associated with handling the containers, as well as minimizing the cost of containers left behind. The deterministic version of the problem can be cast as a shortest path problem on an ordered graph. This problem is challenging to solve because of the large size of the graph. We propose a two-stage heuristic based on the Iterative Deepening A* algorithm to compute solutions to the load planning and sequencing problem within a five-minute time budget. Next, we also illustrate how a Deep Q-learning algorithm can be used to heuristically solve the same problem.The second part of this thesis considers sequential models in deep learning. A recent strategy to circumvent the exploding and vanishing gradient problem in recurrent neural networks (RNNs) is to enforce recurrent weight matrices to be orthogonal or unitary. While this ensures stable dynamics during training, it comes at the cost of reduced expressivity due to the limited variety of orthogonal transformations. We propose a parameterization of RNNs, based on the Schur decomposition, that mitigates the exploding and vanishing gradient problem, while allowing for non-orthogonal recurrent weight matrices in the model. / Le travail de cette thèse est divisé en deux parties. La première partie traite du problème de planification et de séquencement des chargements de conteneurs sur des wagons, un problème opérationnel rencontré dans de nombreux terminaux ferroviaires intermodaux. Dans ce problème, les conteneurs doivent être affectés à une plate-forme sur laquelle un ou deux conteneurs seront chargés et l'ordre de chargement doit être déterminé. Ces décisions sont prises dans le but de minimiser les coûts associés à la manutention des conteneurs, ainsi que de minimiser le coût des conteneurs non chargés. La version déterministe du problème peut être formulé comme un problème de plus court chemin sur un graphe ordonné. Ce problème est difficile à résoudre en raison de la grande taille du graphe. Nous proposons une heuristique en deux étapes basée sur l'algorithme Iterative Deepening A* pour calculer des solutions au problème de planification et de séquencement de la charge dans un budget de cinq minutes. Ensuite, nous illustrons également comment un algorithme d'apprentissage Deep Q peut être utilisé pour résoudre heuristiquement le même problème. La deuxième partie de cette thèse examine les modèles séquentiels en apprentissage profond. Une stratégie récente pour contourner le problème de gradient qui explose et disparaît dans les réseaux de neurones récurrents (RNN) consiste à imposer des matrices de poids récurrentes orthogonales ou unitaires. Bien que cela assure une dynamique stable pendant l'entraînement, cela se fait au prix d'une expressivité réduite en raison de la variété limitée des transformations orthogonales. Nous proposons une paramétrisation des RNN, basée sur la décomposition de Schur, qui atténue les problèmes de gradient, tout en permettant des matrices de poids récurrentes non orthogonales dans le modèle. Intermodal rail terminal containers rail train double-stack dynamic programming load planning and sequencing deep reinforcement learning sequential modelling recurrent neural networks exploding and vanishing gradient problem Transport ferroviaire intermodal, conteneurs programmation dynamique apprentissage par renforcement profond modélisation séquentielle réseaux de neurones récurrents
420	Towards better understanding and improving optimization in recurrent neural networks Kanuparthi, Bhargav 07 1900 (has links) Recurrent neural networks (RNN) are known for their notorious exploding and vanishing gradient problem (EVGP). This problem becomes more evident in tasks where the information needed to correctly solve them exist over long time scales, because it prevents important gradient components from being back-propagated adequately over a large number of steps. The papers written in this work formalizes gradient propagation in parametric and semi-parametric RNNs to gain a better understanding towards the source of this problem. The first paper introduces a simple stochastic algorithm (h-detach) that is specific to LSTM optimization and targeted towards addressing the EVGP problem. Using this we show significant improvements over vanilla LSTM in terms of convergence speed, robustness to seed and learning rate, and generalization on various benchmark datasets. The next paper focuses on semi-parametric RNNs and self-attentive networks. Self-attention provides a way by which a system can dynamically access past states (stored in memory) which helps in mitigating vanishing of gradients. Although useful, it is difficult to scale as the size of the computational graph grows quadratically with the number of time steps involved. In the paper we describe a relevancy screening mechanism, inspired by the cognitive process of memory consolidation, that allows for a scalable use of sparse self-attention with recurrence while ensuring good gradient propagation. / Les réseaux de neurones récurrents (RNN) sont connus pour leur problème de gradient d'explosion et de disparition notoire (EVGP). Ce problème devient plus évident dans les tâches où les informations nécessaires pour les résoudre correctement existent sur de longues échelles de temps, car il empêche les composants de gradient importants de se propager correctement sur un grand nombre d'étapes. Les articles écrits dans ce travail formalise la propagation du gradient dans les RNN paramétriques et semi-paramétriques pour mieux comprendre la source de ce problème. Le premier article présente un algorithme stochastique simple (h-detach) spécifique à l'optimisation LSTM et visant à résoudre le problème EVGP. En utilisant cela, nous montrons des améliorations significatives par rapport au LSTM vanille en termes de vitesse de convergence, de robustesse au taux d'amorçage et d'apprentissage, et de généralisation sur divers ensembles de données de référence. Le prochain article se concentre sur les RNN semi-paramétriques et les réseaux auto-attentifs. L'auto-attention fournit un moyen par lequel un système peut accéder dynamiquement aux états passés (stockés en mémoire), ce qui aide à atténuer la disparition des gradients. Bien qu'utile, il est difficile à mettre à l'échelle car la taille du graphe de calcul augmente de manière quadratique avec le nombre de pas de temps impliqués. Dans l'article, nous décrivons un mécanisme de criblage de pertinence, inspiré par le processus cognitif de consolidation de la mémoire, qui permet une utilisation évolutive de l'auto-attention clairsemée avec récurrence tout en assurant une bonne propagation du gradient. Machine Learning Deep Learning Recurrent Neural Networks Long Term Dependencies Exploding Vanishing Gradients Problem Self Attentive Networks Scalability Apprentissage automatique L'apprentissage en profondeur Réseaux de neurones récurrents Dépendances à long terme Réseaux auto-attentifs Évolutivité

Search results