Global ETD Search

Apprentissage par renforcement Bayésien de processus décisionnels de Markov partiellement observables : une approche basée sur les processus Gaussiens

L'apprentissage par renforcement est une approche d'apprentissage automatique permettant de développer des systèmes s'améliorant à partir d'interactions avec un environnement. Les processus décisionnels de Markov partiellement observables (PDMPO) font partie des modèles mathématiques fréquemment utiliser pour résoudre ce type de problème d'apprentissage. Cependant, la majorité des méthodes de résolution utilisées dans les processus décisionnels de Markov partiellement observables nécessitent la connaissance du modèle. De plus, les recherches actuelles sur le PDMPO se restreignent principalement aux espaces d'états discrets, ce qui complique son application à certains problèmes naturellement modélisés par un espace d'état continu. Ce mémoire présente une vision des PDMPO basée sur les processus Gaussiens, une méthode d'apprentissage supervisée ayant comme propriété particulière d'être une distribution de probabilité dans l'espace des fonctions. Cette propriété est notamment très intéressante du fait qu'elle ouvre la porte à un traitement Bayésien de l'incertitude sur les fonctions inconnues d'un PDMPO continu. Les résultats obtenus avec l'approche d'apprentissage par processus Gaussien montrent qu'il est possible d'opérer dans un environnement tout en identifiant le modèle de ce celui-ci. À partir des conclusions tirées à la suite de nos travaux sur le PDMPO, nous avons observé un certain manque pour ce qui est de l'identification du modèle sous l'incertain. Ainsi, ce mémoire expose aussi un premier pas vers une extension de l'apprentissage de PDMPO continu utilisant des séquences d'états de croyances lors de l'identification du modèle. Plus précisément, nous proposons une méthode de régression par processus Gaussiens utilisant des ensembles d'entraînement incertain pour réaliser l'inférence dans l'espace des fonctions. La méthode proposée est particulièrement intéressante, du fait qu'elle s'applique exactement comme pour le cas des processus Gaussiens classiques et qu'elle n'augmente p±as la complexité de l'apprentissage.

QA 76.05 UL 2010 D144

Théorie de la décision bayésienne

Processus de Markov

Processus gaussiens

Identifer	oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/22253
Date	17 April 2018
Creators	Dallaire, Patrick
Contributors	Chaib-Draa, Brahim
Source Sets	Université Laval
Language	French
Detected Language	French
Type	mémoire de maîtrise, COAR1_1::Texte::Thèse::Mémoire de maîtrise
Format	viii, 108 f., application/pdf
Rights	http://purl.org/coar/access_right/c_abf2

Page generated in 0.002 seconds

Apprentissage par renforcement Bayésien de processus décisionnels de Markov partiellement observables : une approche basée sur les processus Gaussiens

Description

Links & Downloads

Tags

Additional Fields