Spelling suggestions: "subject:"L'apprentissage para enforcement""
1 |
Neural mechanisms of instrumental learning : neuroimaging, pharmacological and stimulation studies in humans / Les mécanismes neuraux de l'apprentissage par renforcement : études en neuroimagerie, pharmacologique et de la stimulation chez l'hommeSkvortsova, Vasilisa 17 September 2015 (has links)
Savoir apprendre de ses actions est crucial pour la survie de l'individu. Apprenons-nous différemment selon que nos actions sont récompensées ou punies? Le cerveau intègre-t-il de la même façon les différentes dimensions du choix, tels que les récompenses, les punitions et l'effort physique? Ces dimensions de choix sont-elles représentées par le même circuit neural? Quelle est l'influence de la dopamine sur différents types d'apprentissage (A)?La théorie d'A par renforcement postule que l'A s'effectue par la minimisation de la différence entre les prédictions (des représentations internes du résultat attendu) et le réel résultat des choix. On a étudié l'activité cérébrale liée à ces variables internes dans différents types d'A et comment elles sont altérées par des manipulations pharmacologiques ou par la stimulation cérébrale profonde.Dans l'étude 1, on a observé une puissance spectrale (10-20Hz) élevée dans le noyau pédonculopontin (NP) de patients parkinsoniens suite à la récompense. La stimulation du NP améliore l'A par la récompense, mais pas par la punition. Le NP pourrait contribuer à la représentation de la récompense via une interaction avec les neurones dopaminergiques mésolimbiques impliqués dans la computation de l'erreur de prédiction.Dans les études 2 et 3, on a comparé l'A par la récompense et par l'effort. Les résultats d'IRMf montrent des circuits neuraux partiellement dissociables pour ces deux types d'A. La dopamine, connue pour ces effets bénéfiques sur l'A par la récompense, n'a pas d'effet sur l'A par l'effort.Ce travail permet de généraliser l'algorithme d'A à plusieurs dimensions du choix ainsi que son implémentation dans des circuits spécialisés. / Learning from actions is a key ability for survival. But do we learn differently depending on whether the action outcome is positive or negative? Did the brain integrate different choice dimensions such as rewards, punishments or physical efforts in the same way? Do they all rely on the same neural circuit? Does dopamine influence both learning from rewards and efforts? Reinforcement learning theory postulates that learning follows stepwise minimization of the difference between prediction (e.g. internal representation of expected outcome) and actual outcome. We investigated how brain activity relates to these internal variables in different types of learning and how these representations are altered by pharmacological manipulation and deep brain stimulation.In study 1, we found an increase in power in beta band (10-20Hz) in response to reward in the peduncolopontine nucleus (PPN) of patients with Parkinson’s disease. Stimulation of the PPN specifically improved learning from rewards but not from punishments. This brainstem structure might contribute to the reward-related representations in the midbrain dopamine neurons that are known for their computations of reward prediction errors.In the studies 2 and 3, we compared learning to maximize reward with learning to minimize effort. FMRI results suggest that reward and effort related computations are carried by partially dissociable neural networks. Moreover, dopamine, a neuromodulator known to enhance reward maximization did not influence learning to minimize efforts.Overall, this PhD helps generalizing learning algorithms across different choice dimensions and specifying their implementation in different neural networks.
|
2 |
Stratégies optimistes en apprentissage par renforcementFilippi, Sarah 24 November 2010 (has links) (PDF)
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.
|
Page generated in 0.0946 seconds