Global ETD Search

1	Modèles variationnels et bayésiens pour le débruitage d'images : de la variation totale vers les moyennes non-locales Louchet, Cécile 10 December 2008 (has links) (PDF) Le modèle ROF (Rudin, Osher, Fatemi), introduit en 1992 en utilisant la variation totale comme terme de régularisation pour la restauration d'images, a fait l'objet de nombreuses recherches théoriques et numériques depuis. Dans cette thèse, nous présentons de nouveaux modèles inspirés de la variation totale mais construits par analogie avec une méthode de débruitage beaucoup plus récente et radicalement différente : les moyennes non locales (NL-means). Dans une première partie, nous transposons le modèle ROF dans un cadre bayésien, et montrons que l'estimateur associé à un risque quadratique (moyenne a posteriori) peut être calculé numériquement à l'aide d'un algorithme de type MCMC (Monte Carlo Markov Chain), dont la convergence est soigneusement contrôlée compte tenu de la dimension élevée de l'espace des images. Nous montrons que le débruiteur associé permet notamment d'éviter le phénomène de "staircasing", défaut bien connu du modèle ROF. Dans la deuxième partie, nous proposons tout d'abord une version localisée du modèle ROF et en analysons certains aspects : compromis biais-variance, EDP limite, pondération du voisinage, etc. Enfin, nous discutons le choix de la variation totale en tant que modèle a priori, en confrontant le point de vue géométrique (modèle ROF) au cadre statistique (modélisation bayésienne). [MATH] Mathematics Débruitage d'images variation totale modèles bayésiens Maximum A Posteriori moyenne a posteriori effet de ``staircasing'' Monte-Carlo Markov Chains filtre à voisinage moyennes non-locales compromis biais-variance
2	On the bias-variance tradeoff : textbooks need an update Neal, Brayden 12 1900 (has links) L’objectif principal de cette thèse est de souligner que le compromis biais-variance n’est pas toujours vrai (p. ex. dans les réseaux neuronaux). Nous plaidons pour que ce manque d’universalité soit reconnu dans les manuels scolaires et enseigné dans les cours d’introduction qui couvrent le compromis. Nous passons d’abord en revue l’historique du compromis entre les biais et les variances, sa prévalence dans les manuels scolaires et certaines des principales affirmations faites au sujet du compromis entre les biais et les variances. Au moyen d’expériences et d’analyses approfondies, nous montrons qu’il n’y a pas de compromis entre la variance et le biais dans les réseaux de neurones lorsque la largeur du réseau augmente. Nos conclusions semblent contredire les affirmations de l’oeuvre historique de Geman et al. (1992). Motivés par cette contradiction, nous revisitons les mesures expérimentales dans Geman et al. (1992). Nous discutons du fait qu’il n’y a jamais eu de preuves solides d’un compromis dans les réseaux neuronaux lorsque le nombre de paramètres variait. Nous observons un phénomène similaire au-delà de l’apprentissage supervisé, avec un ensemble d’expériences d’apprentissage de renforcement profond. Nous soutenons que les révisions des manuels et des cours magistraux ont pour but de transmettre cette compréhension moderne nuancée de l’arbitrage entre les biais et les variances. / The main goal of this thesis is to point out that the bias-variance tradeoff is not always true (e.g. in neural networks). We advocate for this lack of universality to be acknowledged in textbooks and taught in introductory courses that cover the tradeoff. We first review the history of the bias-variance tradeoff, its prevalence in textbooks, and some of the main claims made about the bias-variance tradeoff. Through extensive experiments and analysis, we show a lack of a bias-variance tradeoff in neural networks when increasing network width. Our findings seem to contradict the claims of the landmark work by Geman et al. (1992). Motivated by this contradiction, we revisit the experimental measurements in Geman et al. (1992). We discuss that there was never strong evidence for a tradeoff in neural networks when varying the number of parameters. We observe a similar phenomenon beyond supervised learning, with a set of deep reinforcement learning experiments. We argue that textbook and lecture revisions are in order to convey this nuanced modern understanding of the bias-variance tradeoff. Bias-variance tradeoff Neural networks Over-parameterization Generalization Compromis biais-variance Réseaux de neurones Sur-paramétrage Généralisation
3	Itération sur les politiques optimiste et apprentissage du jeu de Tetris / Optimistic Policy Iteration and Learning the Game of Tetris Thiéry, Christophe 25 November 2010 (has links) Cette thèse s'intéresse aux méthodes d'itération sur les politiques dans l'apprentissage par renforcement à grand espace d'états avec approximation linéaire de la fonction de valeur. Nous proposons d'abord une unification des principaux algorithmes du contrôle optimal stochastique. Nous montrons la convergence de cette version unifiée vers la fonction de valeur optimale dans le cas tabulaire, ainsi qu'une garantie de performances dans le cas où la fonction de valeur est estimée de façon approximative. Nous étendons ensuite l'état de l'art des algorithmes d'approximation linéaire du second ordre en proposant une généralisation de Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Notre nouvel algorithme, Least-Squares [lambda] Policy Iteration (LS[lambda]PI), ajoute à LSPI un concept venant de [lambda]-Policy Iteration (Bertsekas et Ioffe, 1996) : l'évaluation amortie (ou optimiste) de la fonction de valeur, qui permet de réduire la variance de l'estimation afin d'améliorer l'efficacité de l'échantillonnage. LS[lambda]PI propose ainsi un compromis biais-variance réglable qui peut permettre d'améliorer l'estimation de la fonction de valeur et la qualité de la politique obtenue. Dans un second temps, nous nous intéressons en détail au jeu de Tetris, une application sur laquelle se sont penchés plusieurs travaux de la littérature. Tetris est un problème difficile en raison de sa structure et de son grand espace d'états. Nous proposons pour la première fois une revue complète de la littérature qui regroupe des travaux d'apprentissage par renforcement, mais aussi des techniques de type évolutionnaire qui explorent directement l'espace des politiques et des algorithmes réglés à la main. Nous constatons que les approches d'apprentissage par renforcement sont à l'heure actuelle moins performantes sur ce problème que des techniques de recherche directe de la politique telles que la méthode d'entropie croisée (Szita et Lorincz, 2006). Nous expliquons enfin comment nous avons mis au point un joueur de Tetris qui dépasse les performances des meilleurs algorithmes connus jusqu'ici et avec lequel nous avons remporté l'épreuve de Tetris de la Reinforcement Learning Competition 2008 / This thesis studies policy iteration methods with linear approximation of the value function for large state space problems in the reinforcement learning context. We first introduce a unified algorithm that generalizes the main stochastic optimal control methods. We show the convergence of this unified algorithm to the optimal value function in the tabular case, and a performance bound in the approximate case when the value function is estimated. We then extend the literature of second-order linear approximation algorithms by proposing a generalization of Least-Squares Policy Iteration (LSPI) (Lagoudakis and Parr, 2003). Our new algorithm, Least-Squares [lambda] Policy Iteration (LS[lambda]PI), adds to LSPI an idea of [lambda]-Policy Iteration (Bertsekas and Ioffe, 1996): the damped (or optimistic) evaluation of the value function, which allows to reduce the variance of the estimation to improve the sampling efficiency. Thus, LS[lambda]PI offers a bias-variance trade-off that may improve the estimation of the value function and the performance of the policy obtained. In a second part, we study in depth the game of Tetris, a benchmark application that several works from the literature attempt to solve. Tetris is a difficult problem because of its structure and its large state space. We provide the first full review of the literature that includes reinforcement learning works, evolutionary methods that directly explore the policy space and handwritten controllers. We observe that reinforcement learning is less successful on this problem than direct policy search approaches such as the cross-entropy method (Szita et Lorincz, 2006). We finally show how we built a controller that outperforms the previously known best controllers, and shortly discuss how it allowed us to win the Tetris event of the 2008 Reinforcement Learning Competition Contrôle optimal stochastique Apprentissage par renforcement Programmation dynamique Processus Décisionnels de Markov Least-Squares Policy Iteration [lambda]-Policy Iteration Approximation de la fonction de valeur Tetris Méthode d'entropie croisée
4	Itération sur les Politiques Optimiste et Apprentissage du Jeu de Tetris Thiery, Christophe 25 November 2010 (has links) (PDF) Cette thèse s'intéresse aux méthodes d'itération sur les politiques dans l'apprentissage par renforcement à grand espace d'états avec approximation linéaire de la fonction de valeur. Nous proposons d'abord une unification des principaux algorithmes du contrôle optimal stochastique. Nous montrons la convergence de cette version unifiée vers la fonction de valeur optimale dans le cas tabulaire, ainsi qu'une garantie de performances dans le cas où la fonction de valeur est estimée de façon approximative. Nous étendons ensuite l'état de l'art des algorithmes d'approximation linéaire du second ordre en proposant une généralisation de Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Notre nouvel algorithme, Least-Squares λ Policy Iteration (LSλPI), ajoute à LSPI un concept venant de λ-Policy Iteration (Bertsekas et Ioffe, 1996) : l'évaluation amortie (ou optimiste) de la fonction de valeur, qui permet de réduire la variance de l'estimation afin d'améliorer l'efficacité de l'échantillonnage. LSλPI propose ainsi un compromis biais-variance réglable qui peut permettre d'améliorer l'estimation de la fonction de valeur et la qualité de la politique obtenue. Dans un second temps, nous nous intéressons en détail au jeu de Tetris, une application sur laquelle se sont penchés plusieurs travaux de la littérature. Tetris est un problème difficile en raison de sa structure et de son grand espace d'états. Nous proposons pour la première fois une revue complète de la littérature qui regroupe des travaux d'apprentissage par renforcement, mais aussi des techniques de type évolutionnaire qui explorent directement l'espace des politiques et des algorithmes réglés à la main. Nous constatons que les approches d'apprentissage par renforcement sont à l'heure actuelle moins performantes sur ce problème que des techniques de recherche directe de la politique telles que la méthode d'entropie croisée (Szita et Lőrincz, 2006). Nous expliquons enfin comment nous avons mis au point un joueur de Tetris qui dépasse les performances des meilleurs algorithmes connus jusqu'ici et avec lequel nous avons remporté l'épreuve de Tetris de la Reinforcement Learning Competition 2008. contrôle optimal stochastique apprentissage par renforcement programmation dynamique Processus Décisionnels de Markov Least-Squares Policy Iteration λ-Policy Iteration approximation de la fonction de valeur compromis biais-variance fonctions de base Tetris méthode d'entropie croisée

1

Page generated in 0.0725 seconds