• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Learning and planning with noise in optimization and reinforcement learning

Thomas, Valentin 06 1900 (has links)
La plupart des algorithmes modernes d'apprentissage automatique intègrent un certain degré d'aléatoire dans leurs processus, que nous appellerons le bruit, qui peut finalement avoir un impact sur les prédictions du modèle. Dans cette thèse, nous examinons de plus près l'apprentissage et la planification en présence de bruit pour les algorithmes d'apprentissage par renforcement et d'optimisation. Les deux premiers articles présentés dans ce document se concentrent sur l'apprentissage par renforcement dans un environnement inconnu, et plus précisément sur la façon dont nous pouvons concevoir des algorithmes qui utilisent la stochasticité de leur politique et de l'environnement à leur avantage. Notre première contribution présentée dans ce document se concentre sur le cadre de l'apprentissage par renforcement non supervisé. Nous montrons comment un agent laissé seul dans un monde inconnu sans but précis peut apprendre quels aspects de l'environnement il peut contrôler indépendamment les uns des autres, ainsi qu'apprendre conjointement une représentation latente démêlée de ces aspects que nous appellerons \emph{facteurs de variation}. La deuxième contribution se concentre sur la planification dans les tâches de contrôle continu. En présentant l'apprentissage par renforcement comme un problème d'inférence, nous empruntons des outils provenant de la littérature sur les m\'thodes de Monte Carlo séquentiel pour concevoir un algorithme efficace et théoriquement motiv\'{e} pour la planification probabiliste en utilisant un modèle appris du monde. Nous montrons comment l'agent peut tirer parti de note objectif probabiliste pour imaginer divers ensembles de solutions. Les deux contributions suivantes analysent l'impact du bruit de gradient dû à l'échantillonnage dans les algorithmes d'optimisation. La troisième contribution examine le rôle du bruit de l'estimateur du gradient dans l'estimation par maximum de vraisemblance avec descente de gradient stochastique, en explorant la relation entre la structure du bruit du gradient et la courbure locale sur la généralisation et la vitesse de convergence du modèle. Notre quatrième contribution revient sur le sujet de l'apprentissage par renforcement pour analyser l'impact du bruit d'échantillonnage sur l'algorithme d'optimisation de la politique par ascension du gradient. Nous constatons que le bruit d'échantillonnage peut avoir un impact significatif sur la dynamique d'optimisation et les politiques découvertes en apprentissage par renforcement. / Most modern machine learning algorithms incorporate a degree of randomness in their processes, which we will refer to as noise, which can ultimately impact the model's predictions. In this thesis, we take a closer look at learning and planning in the presence of noise for reinforcement learning and optimization algorithms. The first two articles presented in this document focus on reinforcement learning in an unknown environment, specifically how we can design algorithms that use the stochasticity of their policy and of the environment to their advantage. Our first contribution presented in this document focuses on the unsupervised reinforcement learning setting. We show how an agent left alone in an unknown world without any specified goal can learn which aspects of the environment it can control independently from each other as well as jointly learning a disentangled latent representation of these aspects, or factors of variation. The second contribution focuses on planning in continuous control tasks. By framing reinforcement learning as an inference problem, we borrow tools from Sequential Monte Carlo literature to design a theoretically grounded and efficient algorithm for probabilistic planning using a learned model of the world. We show how the agent can leverage the uncertainty of the model to imagine a diverse set of solutions. The following two contributions analyze the impact of gradient noise due to sampling in optimization algorithms. The third contribution examines the role of gradient noise in maximum likelihood estimation with stochastic gradient descent, exploring the relationship between the structure of the gradient noise and local curvature on the generalization and convergence speed of the model. Our fourth contribution returns to the topic of reinforcement learning to analyze the impact of sampling noise on the policy gradient algorithm. We find that sampling noise can significantly impact the optimization dynamics and policies discovered in on-policy reinforcement learning.
2

Exploring Attention Based Model for Captioning Images

Xu, Kelvin 12 1900 (has links)
No description available.
3

Apprentissage ouvert de representations et de fonctionnalites en robotique : anayse, modeles et implementation

PAQUIER, Williams 19 March 2004 (has links) (PDF)
L'acquisition autonome de representations et de fonctionnalites en robotique pose de nombreux problemes theoriques. Aujourd'hui, les systemes robotiques autonomes sont concus autour d'un ensemble de fonctionnalites. Leurs representations du monde sont issues de l'analyse d'un probleme et d'une modelisation prealablement donnees par les concepteurs. Cette approche limite les capacites d'apprentissage. Nous proposons dans cette these un systeme ouvert de representations et de fonctionnalites. Ce systeme apprend en experimentant son environnement et est guide par l'augmentation d'une fonction de valeur. L'objectif du systeme consiste a agir sur son environnement pour reactiver les representations dont il avait appris une connotation positive. Une analyse de la capacite a generaliser la production d'actions appropriees pour ces reactivations conduit a definir un ensemble de proprietes necessaires pour un tel systeme. Le systeme de representation est constitue d'un reseau d'unites de traitement semblables et utilise un codage par position. Le sens de l'etat d'une unite depend de sa position dans le reseau. Ce systeme de representation possede des similitudes avec le principe de numeration par position. Une representation correspond a l'activation d'un ensemble d'unites. Ce systeme a ete implemente dans une suite logicielle appelee NeuSter qui permet de simuler des reseaux de plusieurs millions d'unites et milliard de connexions sur des grappes heterogenes de machines POSIX. Les premiers resultats permettent de valider les contraintes deduites de l'analyse. Un tel systeme permet d'apprendre dans un meme reseau, de facon hierarchique et non supervisee, des detecteurs de bords et de traits, de coins, de terminaisons de traits, de visages, de directions de mouvement, de rotations, d'expansions, et de phonemes. NeuSter apprend en ligne en utilisant uniquement les donnees de ses capteurs. Il a ete teste sur des robots mobiles pour l'apprentissage et le suivi d'objets.

Page generated in 0.1587 seconds