Spelling suggestions: "subject:"compromise biasvariance"" "subject:"compromise bivariance""
1 |
Modèles variationnels et bayésiens pour le débruitage d'images : de la variation totale vers les moyennes non-localesLouchet, Cécile 10 December 2008 (has links) (PDF)
Le modèle ROF (Rudin, Osher, Fatemi), introduit en 1992 en utilisant la variation totale comme terme de régularisation pour la restauration d'images, a fait l'objet de nombreuses recherches théoriques et numériques depuis. Dans cette thèse, nous présentons de nouveaux modèles inspirés de la variation totale mais construits par analogie avec une méthode de débruitage beaucoup plus récente et radicalement différente : les moyennes non locales (NL-means). Dans une première partie, nous transposons le modèle ROF dans un cadre bayésien, et montrons que l'estimateur associé à un risque quadratique (moyenne a posteriori) peut être calculé numériquement à l'aide d'un algorithme de type MCMC (Monte Carlo Markov Chain), dont la convergence est soigneusement contrôlée compte tenu de la dimension élevée de l'espace des images. Nous montrons que le débruiteur associé permet notamment d'éviter le phénomène de "staircasing", défaut bien connu du modèle ROF. Dans la deuxième partie, nous proposons tout d'abord une version localisée du modèle ROF et en analysons certains aspects : compromis biais-variance, EDP limite, pondération du voisinage, etc. Enfin, nous discutons le choix de la variation totale en tant que modèle a priori, en confrontant le point de vue géométrique (modèle ROF) au cadre statistique (modélisation bayésienne).
|
2 |
On the bias-variance tradeoff : textbooks need an updateNeal, Brayden 12 1900 (has links)
L’objectif principal de cette thèse est de souligner que le compromis biais-variance n’est
pas toujours vrai (p. ex. dans les réseaux neuronaux). Nous plaidons pour que ce manque
d’universalité soit reconnu dans les manuels scolaires et enseigné dans les cours d’introduction
qui couvrent le compromis.
Nous passons d’abord en revue l’historique du compromis entre les biais et les variances,
sa prévalence dans les manuels scolaires et certaines des principales affirmations faites au
sujet du compromis entre les biais et les variances. Au moyen d’expériences et d’analyses
approfondies, nous montrons qu’il n’y a pas de compromis entre la variance et le biais dans
les réseaux de neurones lorsque la largeur du réseau augmente. Nos conclusions semblent
contredire les affirmations de l’oeuvre historique de Geman et al. (1992). Motivés par cette
contradiction, nous revisitons les mesures expérimentales dans Geman et al. (1992). Nous
discutons du fait qu’il n’y a jamais eu de preuves solides d’un compromis dans les réseaux
neuronaux lorsque le nombre de paramètres variait. Nous observons un phénomène similaire
au-delà de l’apprentissage supervisé, avec un ensemble d’expériences d’apprentissage de
renforcement profond.
Nous soutenons que les révisions des manuels et des cours magistraux ont pour but
de transmettre cette compréhension moderne nuancée de l’arbitrage entre les biais et les
variances. / The main goal of this thesis is to point out that the bias-variance tradeoff is not always
true (e.g. in neural networks). We advocate for this lack of universality to be acknowledged
in textbooks and taught in introductory courses that cover the tradeoff.
We first review the history of the bias-variance tradeoff, its prevalence in textbooks,
and some of the main claims made about the bias-variance tradeoff. Through extensive
experiments and analysis, we show a lack of a bias-variance tradeoff in neural networks
when increasing network width. Our findings seem to contradict the claims of the landmark
work by Geman et al. (1992). Motivated by this contradiction, we revisit the experimental
measurements in Geman et al. (1992). We discuss that there was never strong evidence
for a tradeoff in neural networks when varying the number of parameters. We observe a
similar phenomenon beyond supervised learning, with a set of deep reinforcement learning
experiments.
We argue that textbook and lecture revisions are in order to convey this nuanced modern
understanding of the bias-variance tradeoff.
|
3 |
Itération sur les politiques optimiste et apprentissage du jeu de Tetris / Optimistic Policy Iteration and Learning the Game of TetrisThiéry, Christophe 25 November 2010 (has links)
Cette thèse s'intéresse aux méthodes d'itération sur les politiques dans l'apprentissage par renforcement à grand espace d'états avec approximation linéaire de la fonction de valeur. Nous proposons d'abord une unification des principaux algorithmes du contrôle optimal stochastique. Nous montrons la convergence de cette version unifiée vers la fonction de valeur optimale dans le cas tabulaire, ainsi qu'une garantie de performances dans le cas où la fonction de valeur est estimée de façon approximative. Nous étendons ensuite l'état de l'art des algorithmes d'approximation linéaire du second ordre en proposant une généralisation de Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Notre nouvel algorithme, Least-Squares [lambda] Policy Iteration (LS[lambda]PI), ajoute à LSPI un concept venant de [lambda]-Policy Iteration (Bertsekas et Ioffe, 1996) : l'évaluation amortie (ou optimiste) de la fonction de valeur, qui permet de réduire la variance de l'estimation afin d'améliorer l'efficacité de l'échantillonnage. LS[lambda]PI propose ainsi un compromis biais-variance réglable qui peut permettre d'améliorer l'estimation de la fonction de valeur et la qualité de la politique obtenue. Dans un second temps, nous nous intéressons en détail au jeu de Tetris, une application sur laquelle se sont penchés plusieurs travaux de la littérature. Tetris est un problème difficile en raison de sa structure et de son grand espace d'états. Nous proposons pour la première fois une revue complète de la littérature qui regroupe des travaux d'apprentissage par renforcement, mais aussi des techniques de type évolutionnaire qui explorent directement l'espace des politiques et des algorithmes réglés à la main. Nous constatons que les approches d'apprentissage par renforcement sont à l'heure actuelle moins performantes sur ce problème que des techniques de recherche directe de la politique telles que la méthode d'entropie croisée (Szita et Lorincz, 2006). Nous expliquons enfin comment nous avons mis au point un joueur de Tetris qui dépasse les performances des meilleurs algorithmes connus jusqu'ici et avec lequel nous avons remporté l'épreuve de Tetris de la Reinforcement Learning Competition 2008 / This thesis studies policy iteration methods with linear approximation of the value function for large state space problems in the reinforcement learning context. We first introduce a unified algorithm that generalizes the main stochastic optimal control methods. We show the convergence of this unified algorithm to the optimal value function in the tabular case, and a performance bound in the approximate case when the value function is estimated. We then extend the literature of second-order linear approximation algorithms by proposing a generalization of Least-Squares Policy Iteration (LSPI) (Lagoudakis and Parr, 2003). Our new algorithm, Least-Squares [lambda] Policy Iteration (LS[lambda]PI), adds to LSPI an idea of [lambda]-Policy Iteration (Bertsekas and Ioffe, 1996): the damped (or optimistic) evaluation of the value function, which allows to reduce the variance of the estimation to improve the sampling efficiency. Thus, LS[lambda]PI offers a bias-variance trade-off that may improve the estimation of the value function and the performance of the policy obtained. In a second part, we study in depth the game of Tetris, a benchmark application that several works from the literature attempt to solve. Tetris is a difficult problem because of its structure and its large state space. We provide the first full review of the literature that includes reinforcement learning works, evolutionary methods that directly explore the policy space and handwritten controllers. We observe that reinforcement learning is less successful on this problem than direct policy search approaches such as the cross-entropy method (Szita et Lorincz, 2006). We finally show how we built a controller that outperforms the previously known best controllers, and shortly discuss how it allowed us to win the Tetris event of the 2008 Reinforcement Learning Competition
|
4 |
Itération sur les Politiques Optimiste et Apprentissage du Jeu de TetrisThiery, Christophe 25 November 2010 (has links) (PDF)
Cette thèse s'intéresse aux méthodes d'itération sur les politiques dans l'apprentissage par renforcement à grand espace d'états avec approximation linéaire de la fonction de valeur. Nous proposons d'abord une unification des principaux algorithmes du contrôle optimal stochastique. Nous montrons la convergence de cette version unifiée vers la fonction de valeur optimale dans le cas tabulaire, ainsi qu'une garantie de performances dans le cas où la fonction de valeur est estimée de façon approximative. Nous étendons ensuite l'état de l'art des algorithmes d'approximation linéaire du second ordre en proposant une généralisation de Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Notre nouvel algorithme, Least-Squares λ Policy Iteration (LSλPI), ajoute à LSPI un concept venant de λ-Policy Iteration (Bertsekas et Ioffe, 1996) : l'évaluation amortie (ou optimiste) de la fonction de valeur, qui permet de réduire la variance de l'estimation afin d'améliorer l'efficacité de l'échantillonnage. LSλPI propose ainsi un compromis biais-variance réglable qui peut permettre d'améliorer l'estimation de la fonction de valeur et la qualité de la politique obtenue. Dans un second temps, nous nous intéressons en détail au jeu de Tetris, une application sur laquelle se sont penchés plusieurs travaux de la littérature. Tetris est un problème difficile en raison de sa structure et de son grand espace d'états. Nous proposons pour la première fois une revue complète de la littérature qui regroupe des travaux d'apprentissage par renforcement, mais aussi des techniques de type évolutionnaire qui explorent directement l'espace des politiques et des algorithmes réglés à la main. Nous constatons que les approches d'apprentissage par renforcement sont à l'heure actuelle moins performantes sur ce problème que des techniques de recherche directe de la politique telles que la méthode d'entropie croisée (Szita et Lőrincz, 2006). Nous expliquons enfin comment nous avons mis au point un joueur de Tetris qui dépasse les performances des meilleurs algorithmes connus jusqu'ici et avec lequel nous avons remporté l'épreuve de Tetris de la Reinforcement Learning Competition 2008.
|
Page generated in 0.1032 seconds