Return to search

Non-deterministic policies in Markovian processes

Markovian processes have long been used to model stochastic environments. Reinforcement learning has emerged as a framework to solve sequential planning and decision making problems in such environments. In recent years, attempts were made to apply methods from reinforcement learning to construct adaptive treatment strategies, where a sequence of individualized treatments is learned from clinical data. Although these methods have proved to be useful in problems concerning sequential decision making, they cannot be applied in their current form to medical domains, as they lack widely accepted notions of confidence measures. Moreover, policies provided by most methods in reinforcement learning are often highly prescriptive and leave little room for the doctor's input. Without the ability to provide flexible guidelines and statistical guarantees, it is unlikely that these methods can gain ground within the medical community. This thesis introduces the new concept of non-deterministic policies to capture the user's decision making process. We use this concept to provide flexible choice to user among near-optimal solutions, and provide statistical guarantees for decisions with uncertainties. We provide two algorithms to propose flexible options to the user, while making sure the performance is always close to optimal. We then show how to provide confidence measures over the value function of Markovian processes, and finally use them to find sets of actions that will almost surly include the optimal one. / Les processus markoviens ont été depuis longtemps utilisés pour modéliser les environnements stochastiques. L'apprentissage par renforcement a émergé comme un framework convenable pour résoudre les problèmes de planification séquentiels et de prise de décision dans de tels environnements.Récemment, des méthodes basées sur l'apprentissage par renforcement ont été appliquées pour développer des stratégies de traitement adaptables où l'objectif est d'apprendre une séquence de traitements individuelle à partir de données cliniques. Malgré que ces méthodes se sont avérées utiles pour des problèmes de prise de décision séquentielle, elles nepeuvent pas être appliquées avec leur forme actuelle dans le domaine médical puisqu'elles ne fournissent pas les garanties généralement requises dans ce genre de domaine. D'un autre côté, les politiques retournées par la plupart des méthodes d'apprentissage par renforcement sont souvent très rigides et ne laissent pas d'interval de manoeuvre suffisant pour les médecins.Cette thèse présente un nouveau concept de politiques non-déterministes pour représenter le processus de prise de décision de l'utilisateur. Nous développons deux algorithmes qui proposent des options flexibles à l'utilisateur tout en s'assurant que la performance soit toujours proche de l'optimal. Nous montrons ensuite comment fournir des mesures de confiance sur la fonction de valeur des processus markoviens et finalement nous utilisons ces mesures pour identifier un ensemble d'actions qui vont presque sûrement inclure l'action optimale.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.67020
Date January 2009
CreatorsMilani Fard, Mahdi
ContributorsJoelle Pineau (Internal/Supervisor)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageMaster of Science (School of Computer Science)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses.

Page generated in 0.0025 seconds