Feature extraction is the problem of learning a mapping from observations to useful features. It has no shortage of real-world applications and is perhaps the most important subproblem in machine learning. Yet for all the interest it has attracted, an expressive, scalable algorithm remains elusive. Guided by these two abstract desiderata, we develop a novel feature extraction algorithm having the following concrete properties:- It learns causal rather than associational relationships. Causal models can reason in the face of interventions, that is, hypothetically.- It is deep, and therefore trades breadth for depth, which can drastically reduce model size.- It is developed within the energy-based model framework, which potentially does inference much faster than the probabilistic model framework because it can work with small numbers of low energy configurations rather than an entire probability distribution over exponentially many configurations.- It divides information about every feature into a quantitative part that measures how much information there is, and a qualitative part that is the remainder. This allows features having little information to be shielded from credit assignment and to elide certain causal inference messages.- It models each feature using a marked Poisson process whose marks are probability distributions representing the qualitative information, and whose rate represents the amount of information. This allows the model (1) to accept sequential data, (2) to learn inference shortcuts because fast inference is rewarded in a temporal system, and (3) to allocate computation proportional to the rate of observation, which quantifies the evidence at a feature. Our model can be seen as a temporal Boltzmann machine with causal constraints, or a temporal Bayesian network with a stochastic, energy-based inference algorithm. The quantification of information and the use of that information in accelerating inference and focusing credit assignment is another key innovation in our proposed model: the "Informative Message Model", a causal, temporal, deep, energy-based feature extraction algorithm. / L'extraction de caractéristiques est le problème d'apprendre une application de l'ensemble d'observations dans caractéristiques utiles. Il ne manque pas d'applications dans le monde réel et c'est peut-être le sous-problème le plus important dans l'apprentissage automatique. Malgré l'intérêt qu'il a suscité, un algorithme scalable et expressif reste insaisissable. Guidé par ces deux desiderata abstraites, nous développons un nouveau algorithme d'extraction de caractéristiques ayant les propriétés concrètes suivantes: \begin{itemize}- Il apprend des relations causal plutôt que associatives. Les modèles de causalité peuvent raisonner face à des interventions, c'est-à-dire, hypothétiquement.- Il est profond, et échange donc l'étendue pour la profondeur, ce qui peut réduire considérablement la grandeur du modèle.- Il est développé dans le cadre des modèles base sur l'énergie, ce qui potentiellement beaucoup accélère l'inférence comparé au cadre des modèles probabiliste car il peut travailler avec quelques configurations de basse énergie plutôt que d'une distribution de probabilité sur une quantité exponentielle de configurations.- Il divise l'information de chaque caractéristique entre une partie quantitative qui mesure combien d'information y a-t-il, et une partie qualitative qui est le reste. Cela permet aux caracéristiques ayant peu d'informations d'être protéger contre l'affectation de crédit et d'élider certains messages d'inférence causals.- Il modélise chaque caracéristique en utilisant un processus de Poisson marqué dont les marques sont des distributions de probabilité représentant l'information qualitative, et dont le taux représente la quantité d'information. Cela permet au modèle (1) d'accepter des données séquentielles, (2) d'apprendre des raccourcis d'inférence, car l'inférence rapide est récompensé dans un système temporel, et (3) d'allouer calcul proportionnelle au taux d'observation que quantifie l'évidence à une caractéristique.\end{itemize} Notre modèle peut être considéré comme une machine de Boltzmann temporelle ayant des contraintes causales, ou comme un réseau Bayésien temporel et stochastique avec un algorithme d'inférence basée sur l'énergie.La quantification de l'information et l'utilisation de cette information pour accélérer l'inférence et de focuser l'affectation de crédit est une autre innovation clé de notre modèle proposé:"Le Modèle de Message Informatif", un algorithme d'extraction de caractéristiques causal, temporelle, profond, et basé sur l'énergie.
Identifer | oai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.117165 |
Date | January 2013 |
Creators | Girdhar, Neil |
Contributors | Doina Precup (Internal/Supervisor) |
Publisher | McGill University |
Source Sets | Library and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation |
Format | application/pdf |
Coverage | Master of Science (School of Computer Science) |
Rights | All items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated. |
Relation | Electronically-submitted theses. |
Page generated in 0.0021 seconds