• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 16
  • 3
  • 2
  • Tagged with
  • 21
  • 21
  • 9
  • 6
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Le rôle de l'expertise économique dans l'élaboration des politiques alpines de transport et du projet Lyon-Turin : vers l'émergence d'un espace alpin ?

Sutto, Lisa 04 February 2009 (has links) (PDF)
Le contexte du transport de marchandises en transit à travers les Alpes est d'abord marqué par plusieurs décennies de croissance importante des flux. Cette croissance est cependant inégale dans le temps et selon les passages considérés. Un second élément de contexte tient à la fragilité particulière des territoires alpins vis-à-vis des impacts de la circulation : plus qu'ailleurs, on y constate une montée des préoccupations environnementales. Cette thèse vise à comprendre l'élaboration des politiques publiques de transport concernant le trafic transalpin. Elle s'attache d'abord à évaluer la mesure dans laquelle ce processus d'élaboration participe de l'émergence d'un espace géopolitique alpin. Elle cherche ensuite à préciser le rôle des outils technico-économique au sein de ce processus. La question sera abordée à deux échelles différentes, à travers deux études de cas : - une histoire de l'évolution des objectifs assignés au projet Lyon-Turin depuis sa naissance ; - une analyse des dispositifs de la concertation autour des questions de transport menée à l'échelle de l'arc alpin dans son ensemble. Un premier résultat apparait sous la forme d'une « alpinisation » progressive de la question du transit alpin. Elle se traduit en premier lieu par une représentation de l'arc alpin comme un système de passages interconnectés et, en second lieu, par la mise en place de structures de concertation rassemblant les acteurs concernés à l'échelle du massif. Un second ensemble de résultats montre d'abord comment les outils technico-économiques utilisés et leurs usages sont complètement insérés dans ce processus d' « alpinisation ». Il fait apparaitre ensuite le glissement d'un usage déterministe de ces outils, où les résultats ont davantage vocation à justifier des décisions antérieures à un usage procédural, où les outils sont utilisés de façon de plus en plus partagée par les différents acteurs, pour simuler les différentes options politiques et participer à l'élaboration de mesures précises.
12

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Scherrer, Bruno 06 January 2003 (has links) (PDF)
Cette thèse étudie l'utilisation d'algorithmes connexionnistes pour résoudre des problèmes d'apprentissage par renforcement. Les algorithmes connexionnistes sont inspirés de la manière dont le cerveau traite l'information : ils impliquent un grand nombre d'unités simples fortement interconnectées, manipulant des informations numériques de manière distribuée et massivement parallèle. L'apprentissage par renforcement est une théorie computationnelle qui permet de décrire l'interaction entre un agent et un environnement : elle permet de formaliser précisément le problème consistant à atteindre un certain nombre de buts via l'interaction.<br /><br />Nous avons considéré trois problèmes de complexité croissante et montré qu'ils admettaient des solutions algorithmiques connexionnistes : 1) L'apprentissage par renforcement dans un petit espace d'états : nous nous appuyons sur un algorithme de la littérature pour construire un réseau connexionniste ; les paramètres du problème sont stockés par les poids des unités et des connexions et le calcul du plan est le résultat d'une activité distribuée dans le réseau. 2) L'apprentissage d'une représentation pour approximer un problème d'apprentissage par renforcement ayant un grand espace d'états : nous automatisons le procédé consistant à construire une partition de l'espace d'états pour approximer un problème de grande taille. 3) L'auto-organisation en modules spécialisés pour approximer plusieurs problèmes d'apprentissage par renforcement ayant un grand espace d'états : nous proposons d'exploiter le principe "diviser pour régner" et montrons comment plusieurs tâches peuvent être réparties efficacement sur un petit nombre de modules fonctionnels spécialisés.
13

La responsabilité de participation aux processus décisionnels en matière de technologies génétiques : étude de sa représentation chez des acteurs sociaux du Québec

Lafrenière, Darquise January 2007 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
14

OPTIMISATION DE PROCESSUS DECISIONNELS POUR LA ROBOTIQUE

Ghallab, Malik 28 October 1982 (has links) (PDF)
A PARTIR DU FORMALISME DES SYSTEMES DE REGLES DE DECISION, ON DEFINIT DEUX TYPES DE PROCESSUS DECISIONNELS: LES PROCESSUS FERMES (PDF) PORTANT SUR DES SYSTEMES REPRESENTES DANS DES ESPACES FINIS; ET LES PROCESSUS OUVERTS (PDO) POUR DES SYSTEMES A ESPACES D'ETATS INFINIS. ON CONSIDERE CES PROCESSUS COMME DES ALGORITHMES PARTICULIERS ET ON S'INTERESSE A LEUR MODELISATION, LEUR ANALYSE ET L'OPTIMISATION DE LEUR COMPLEXITE, SELON DIFFERENTS CRITERES, EN TENANT COMPTE DE LA COMPLEXITE DE LA TACHE D'OPTIMISATION ELLE-MEME. LA CARACTERISATION DE CETTE TACHE, EN TANT QUE PROBLEME NP-DUR AU SENS FORT ET APPROXIMATION NP-DUR, CONDUIT A DEVELOPPER DES SCHEMAS D'APPROXIMATION QUI GENERALISENT LES ALGORITHMES DE RECHERCHE HEURISTIQUE DANS LES GRAPHES ET HYPERGRAPHES EN PROCEDURES EPSILON -ADMISSIBLES. DEUX PROCESSUS DECISIONNELS EN ROBOTIQUE SONT TRAITES: L'UN FERME PORTANT SUR L'APPRENTISSAGE D'UN CLASSIFIEUR POUR L'IDENTIFICATION D'OBJETS, ET L'AUTRE OUVERT POUR LA GENERATION DE PLANS
15

Lexicographic refinements in possibilistic sequential decision-making models / Raffinements lexicographiques en prise de décision séquentielle possibiliste

El Khalfi, Zeineb 31 October 2017 (has links)
Ce travail contribue à la théorie de la décision possibiliste et plus précisément à la prise de décision séquentielle dans le cadre de la théorie des possibilités, à la fois au niveau théorique et pratique. Bien qu'attrayante pour sa capacité à résoudre les problèmes de décision qualitatifs, la théorie de la décision possibiliste souffre d'un inconvénient important : les critères d'utilité qualitatives possibilistes comparent les actions avec les opérateurs min et max, ce qui entraîne un effet de noyade. Pour surmonter ce manque de pouvoir décisionnel, plusieurs raffinements ont été proposés dans la littérature. Les raffinements lexicographiques sont particulièrement intéressants puisqu'ils permettent de bénéficier de l'arrière-plan de l'utilité espérée, tout en restant "qualitatifs". Cependant, ces raffinements ne sont définis que pour les problèmes de décision non séquentiels. Dans cette thèse, nous présentons des résultats sur l'extension des raffinements lexicographiques aux problèmes de décision séquentiels, en particulier aux Arbres de Décision et aux Processus Décisionnels de Markov possibilistes. Cela aboutit à des nouveaux algorithmes de planification plus "décisifs" que leurs contreparties possibilistes. Dans un premier temps, nous présentons des relations de préférence lexicographiques optimistes et pessimistes entre les politiques avec et sans utilités intermédiaires, qui raffinent respectivement les utilités possibilistes optimistes et pessimistes. Nous prouvons que les critères proposés satisfont le principe de l'efficacité de Pareto ainsi que la propriété de monotonie stricte. Cette dernière garantit la possibilité d'application d'un algorithme de programmation dynamique pour calculer des politiques optimales. Nous étudions tout d'abord l'optimisation lexicographique des politiques dans les Arbres de Décision possibilistes et les Processus Décisionnels de Markov à horizon fini. Nous fournissons des adaptations de l'algorithme de programmation dynamique qui calculent une politique optimale en temps polynomial. Ces algorithmes sont basés sur la comparaison lexicographique des matrices de trajectoires associées aux sous-politiques. Ce travail algorithmique est complété par une étude expérimentale qui montre la faisabilité et l'intérêt de l'approche proposée. Ensuite, nous prouvons que les critères lexicographiques bénéficient toujours d'une fondation en termes d'utilité espérée, et qu'ils peuvent être capturés par des utilités espérées infinitésimales. La dernière partie de notre travail est consacrée à l'optimisation des politiques dans les Processus Décisionnels de Markov (éventuellement infinis) stationnaires. Nous proposons un algorithme d'itération de la valeur pour le calcul des politiques optimales lexicographiques. De plus, nous étendons ces résultats au cas de l'horizon infini. La taille des matrices augmentant exponentiellement (ce qui est particulièrement problématique dans le cas de l'horizon infini), nous proposons un algorithme d'approximation qui se limite à la partie la plus intéressante de chaque matrice de trajectoires, à savoir les premières lignes et colonnes. Enfin, nous rapportons des résultats expérimentaux qui prouvent l'efficacité des algorithmes basés sur la troncation des matrices. / This work contributes to possibilistic decision theory and more specifically to sequential decision-making under possibilistic uncertainty, at both the theoretical and practical levels. Even though appealing for its ability to handle qualitative decision problems, possibilisitic decision theory suffers from an important drawback: qualitative possibilistic utility criteria compare acts through min and max operators, which leads to a drowning effect. To overcome this lack of decision power, several refinements have been proposed in the literature. Lexicographic refinements are particularly appealing since they allow to benefit from the expected utility background, while remaining "qualitative". However, these refinements are defined for the non-sequential decision problems only. In this thesis, we present results on the extension of the lexicographic preference relations to sequential decision problems, in particular, to possibilistic Decision trees and Markov Decision Processes. This leads to new planning algorithms that are more "decisive" than their original possibilistic counterparts. We first present optimistic and pessimistic lexicographic preference relations between policies with and without intermediate utilities that refine the optimistic and pessimistic qualitative utilities respectively. We prove that these new proposed criteria satisfy the principle of Pareto efficiency as well as the property of strict monotonicity. This latter guarantees that dynamic programming algorithm can be used for calculating lexicographic optimal policies. Considering the problem of policy optimization in possibilistic decision trees and finite-horizon Markov decision processes, we provide adaptations of dynamic programming algorithm that calculate lexicographic optimal policy in polynomial time. These algorithms are based on the lexicographic comparison of the matrices of trajectories associated to the sub-policies. This algorithmic work is completed with an experimental study that shows the feasibility and the interest of the proposed approach. Then we prove that the lexicographic criteria still benefit from an Expected Utility grounding, and can be represented by infinitesimal expected utilities. The last part of our work is devoted to policy optimization in (possibly infinite) stationary Markov Decision Processes. We propose a value iteration algorithm for the computation of lexicographic optimal policies. We extend these results to the infinite-horizon case. Since the size of the matrices increases exponentially (which is especially problematic in the infinite-horizon case), we thus propose an approximation algorithm which keeps the most interesting part of each matrix of trajectories, namely the first lines and columns. Finally, we reports experimental results that show the effectiveness of the algorithms based on the cutting of the matrices.
16

Représentations graphiques de fonctions et processus décisionnels Markoviens factorisés . / Graphical representations of functions and factored Markovian decision processes

Magnan, Jean-Christophe 02 February 2016 (has links)
En planification théorique de la décision, le cadre des Processus Décisionnels Markoviens Factorisés (Factored Markov Decision Process, FMDP) a produit des algorithmes efficaces de résolution des problèmes de décisions séquentielles dans l'incertain. L'efficacité de ces algorithmes repose sur des structures de données telles que les Arbres de Décision ou les Diagrammes de Décision Algébriques (ADDs). Ces techniques de planification sont utilisées en Apprentissage par Renforcement par l'architecture SDYNA afin de résoudre des problèmes inconnus de grandes tailles. Toutefois, l'état-de-l'art des algorithmes d'apprentissage, de programmation dynamique et d'apprentissage par renforcement utilisés par SDYNA, requière que le problème soit spécifié uniquement à l'aide de variables binaires et/ou utilise des structures améliorables en termes de compacité. Dans ce manuscrit, nous présentons nos travaux de recherche visant à élaborer et à utiliser une structure de donnée plus efficace et moins contraignante, et à l'intégrer dans une nouvelle instance de l'architecture SDYNA. Dans une première partie, nous présentons l'état-de-l'art de la modélisation de problèmes de décisions séquentielles dans l'incertain à l'aide de FMDP. Nous abordons en détail la modélisation à l'aide d'DT et d'ADDs.Puis nous présentons les ORFGs, nouvelle structure de données que nous proposons dans cette thèse pour résoudre les problèmes inhérents aux ADDs. Nous démontrons ainsi que les ORFGs s'avèrent plus efficaces que les ADDs pour modéliser les problèmes de grandes tailles. Dans une seconde partie, nous nous intéressons à la résolution des problèmes de décision dans l'incertain par Programmation Dynamique. Après avoir introduit les principaux algorithmes de résolution, nous nous attardons sur leurs variantes dans le domaine factorisé. Nous précisons les points de ces variantes factorisées qui sont améliorables. Nous décrivons alors une nouvelle version de ces algorithmes qui améliore ces aspects et utilise les ORFGs précédemment introduits. Dans une dernière partie, nous abordons l'utilisation des FMDPs en Apprentissage par Renforcement. Puis nous présentons un nouvel algorithme d'apprentissage dédié à la nouvelle structure que nous proposons. Grâce à ce nouvel algorithme, une nouvelle instance de l'architecture SDYNA est proposée, se basant sur les ORFGs ~:~l'instance SPIMDDI. Nous testons son efficacité sur quelques problèmes standards de la littérature. Enfin nous présentons quelques travaux de recherche autour de cette nouvelle instance. Nous évoquons d'abord un nouvel algorithme de gestion du compromis exploration-exploitation destiné à simplifier l'algorithme F-RMax. Puis nous détaillons une application de l'instance SPIMDDI à la gestion d'unités dans un jeu vidéo de stratégie en temps réel. / In decision theoretic planning, the factored framework (Factored Markovian Decision Process, FMDP) has produced several efficient algorithms in order to resolve large sequential decision making under uncertainty problems. The efficiency of this algorithms relies on data structures such as decision trees or algebraïc decision diagrams (ADDs). These planification technics are exploited in Reinforcement Learning by the architecture SDyna in order to resolve large and unknown problems. However, state-of-the-art learning and planning algorithms used in SDyna require the problem to be specified uniquely using binary variables and/or to use improvable data structure in term of compactness. In this book, we present our research works that seek to elaborate and to use a new data structure more efficient and less restrictive, and to integrate it in a new instance of the SDyna architecture. In a first part, we present the state-of-the-art modeling tools used in the algorithms that tackle large sequential decision making under uncertainty problems. We detail the modeling using decision trees and ADDs. Then we introduce the Ordered and Reduced Graphical Representation of Function, a new data structure that we propose in this thesis to deal with the various problems concerning the ADDs. We demonstrate that ORGRFs improve on ADDs to model large problems. In a second part, we go over the resolution of large sequential decision under uncertainty problems using Dynamic Programming. After the introduction of the main algorithms, we see in details the factored alternative. We indicate the improvable points of these factored versions. We describe our new algorithm that improve on these points and exploit the ORGRFs previously introduced. In a last part, we speak about the use of FMDPs in Reinforcement Learning. Then we introduce a new algorithm to learn the new datastrcture we propose. Thanks to this new algorithm, a new instance of the SDyna architecture is proposed, based on the ORGRFs : the SPIMDDI instance. We test its efficiency on several standard problems from the litterature. Finally, we present some works around this new instance. We detail a new algorithm for efficient exploration-exploitation compromise management, aiming to simplify F-RMax. Then we speak about an application of SPIMDDI to the managements of units in a strategic real time video game.
17

La réparation des lésions professionnelles et l'action des décideurs de premier niveau à la Commission de la santé et de la sécurité du travail : quelle marge de manoeuvre?

Turgeon, Bianca January 2008 (has links)
Résumé : S'intéressant à l'action administrative de premier niveau, ce mémoire tente de mettre en lumière les limites juridiques et les facteurs organisationnels qui influent sur l'exercice par les agents d'indemnisation et les conseillers en réadaptation de la CSST de leurs fonctions. Tout comme des études empiriques réalisées dans d'autres juridictions à l'égard de différents régimes de sécurité sociale et desquelles elle est inspirée, cette étude révèle que l'exercice d'une discrétion administrative est inévitable. Y sont décrites et commentées les méthodes de gestion privilégiées par l'organisme et les fonctions exercées par les décideurs de manière à identifier la part d'appréciation ou de jugement que peuvent exercer les agents et les conseillers dans le cadre du régime québécois de réparation des lésions professionnelles, ainsi que les processus décisionnels, variables selon les fonctions particulières exercées, qui y mis en œuvres. Cette étude démontre également comment la structure administrative privilégiée par l'organisme est susceptible de contribuer au respect des droits des administrés, tout en comportant certains risques d'atteinte à l'équité des processus. / Abstract : This aim of this study is to expose the legal limits and organisational factors which may affect decision-makers' discretion in the context of the employment injuries compensation system in the province of Québec. The findings of this study align with some empirical studies concerning different social security regimes in other jurisdictions from which it is inspired. Indeed, it reveals that administrative discretion is inevitable. It describes and comments the management techniques implemented in the organization. It also describes the particular functions of two categories of street-level workers, the agents d'indemnisation and the conseillers en réadaptation, in order to identify the matters about which they may use their judgment or exercise a discretion, as well as the particular decision-making processes that occur at the front lines of service delivery. It shows how the administrative structure concurs to the respect of the clients rights but may neverheless undermine the processes fairness.
18

Itération sur les politiques optimiste et apprentissage du jeu de Tetris / Optimistic Policy Iteration and Learning the Game of Tetris

Thiéry, Christophe 25 November 2010 (has links)
Cette thèse s'intéresse aux méthodes d'itération sur les politiques dans l'apprentissage par renforcement à grand espace d'états avec approximation linéaire de la fonction de valeur. Nous proposons d'abord une unification des principaux algorithmes du contrôle optimal stochastique. Nous montrons la convergence de cette version unifiée vers la fonction de valeur optimale dans le cas tabulaire, ainsi qu'une garantie de performances dans le cas où la fonction de valeur est estimée de façon approximative. Nous étendons ensuite l'état de l'art des algorithmes d'approximation linéaire du second ordre en proposant une généralisation de Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Notre nouvel algorithme, Least-Squares [lambda] Policy Iteration (LS[lambda]PI), ajoute à LSPI un concept venant de [lambda]-Policy Iteration (Bertsekas et Ioffe, 1996) : l'évaluation amortie (ou optimiste) de la fonction de valeur, qui permet de réduire la variance de l'estimation afin d'améliorer l'efficacité de l'échantillonnage. LS[lambda]PI propose ainsi un compromis biais-variance réglable qui peut permettre d'améliorer l'estimation de la fonction de valeur et la qualité de la politique obtenue. Dans un second temps, nous nous intéressons en détail au jeu de Tetris, une application sur laquelle se sont penchés plusieurs travaux de la littérature. Tetris est un problème difficile en raison de sa structure et de son grand espace d'états. Nous proposons pour la première fois une revue complète de la littérature qui regroupe des travaux d'apprentissage par renforcement, mais aussi des techniques de type évolutionnaire qui explorent directement l'espace des politiques et des algorithmes réglés à la main. Nous constatons que les approches d'apprentissage par renforcement sont à l'heure actuelle moins performantes sur ce problème que des techniques de recherche directe de la politique telles que la méthode d'entropie croisée (Szita et Lorincz, 2006). Nous expliquons enfin comment nous avons mis au point un joueur de Tetris qui dépasse les performances des meilleurs algorithmes connus jusqu'ici et avec lequel nous avons remporté l'épreuve de Tetris de la Reinforcement Learning Competition 2008 / This thesis studies policy iteration methods with linear approximation of the value function for large state space problems in the reinforcement learning context. We first introduce a unified algorithm that generalizes the main stochastic optimal control methods. We show the convergence of this unified algorithm to the optimal value function in the tabular case, and a performance bound in the approximate case when the value function is estimated. We then extend the literature of second-order linear approximation algorithms by proposing a generalization of Least-Squares Policy Iteration (LSPI) (Lagoudakis and Parr, 2003). Our new algorithm, Least-Squares [lambda] Policy Iteration (LS[lambda]PI), adds to LSPI an idea of [lambda]-Policy Iteration (Bertsekas and Ioffe, 1996): the damped (or optimistic) evaluation of the value function, which allows to reduce the variance of the estimation to improve the sampling efficiency. Thus, LS[lambda]PI offers a bias-variance trade-off that may improve the estimation of the value function and the performance of the policy obtained. In a second part, we study in depth the game of Tetris, a benchmark application that several works from the literature attempt to solve. Tetris is a difficult problem because of its structure and its large state space. We provide the first full review of the literature that includes reinforcement learning works, evolutionary methods that directly explore the policy space and handwritten controllers. We observe that reinforcement learning is less successful on this problem than direct policy search approaches such as the cross-entropy method (Szita et Lorincz, 2006). We finally show how we built a controller that outperforms the previously known best controllers, and shortly discuss how it allowed us to win the Tetris event of the 2008 Reinforcement Learning Competition
19

Quelle sécurité pour les « petits Etats-Princes » du Golfe ? Politiques de défense et stratégies d’acquisitions militaires du Qatar et des Emirats arabes unis / What security for the “Small Princes-States” of the Gulf ? Defence policies and procurement strategies of Qatar and the United Arab Emirates (UAE)

Soubrier, Emma 15 December 2017 (has links)
Ce travail étudie l’évolution des politiques de défense et des acquisitions militaires du Qatar et des Emirats arabes unis (EAU) depuis les années 1990. Il cherche à évaluer la prégnance du rôle des déterminants extérieurs et intérieurs dans l’élaboration des stratégies de ces deux petits Etats du Golfe et s’interroge sur la raison pour laquelle, confrontés à des défis en apparence assez similaires, ils ont adopté des stratégies différentes. Tandis que le Qatar a privilégié son rayonnement diplomatique et peu ou prou délégué sa sécurité à ses partenaires extérieurs, les EAU ont quant à eux organisé leur doctrine militaire autour de la consolidation de leurs outils de sécurité et de défense intérieurs tout en veillant à rayonner sur la scène régionale et internationale par divers canaux souvent identiques à ceux choisis par leurs voisins qataris. La thèse montre que les mutations du contexte régional doivent être articulées avec celles du contexte international pour comprendre les dynamiques communes aux politiques de défense et aux acquisitions militaires du Qatar et des EAU. Puis, elle montre que ces déterminants structurels doivent être articulés avec des variables intervenant au niveau national (territoire, démographie) et infranational (perception et réseaux du Prince) pour comprendre les contrastes entre leurs politiques. Pour finir, la thèse interroge la pérennité de l’économie et de la sociologie politique de ces « petits Etats-Princes » en les confrontant à des reconfigurations endogènes et exogènes susceptibles de les faire évoluer. / This thesis studies the evolving defence policies and military acquisitions of Qatar and the United Arab Emirates (UAE) from the 1990s onwards. It seeks to assess the role of external and domestic incentives in shaping the survival strategies of these two small Gulf states and to understand why, while they were confronted with apparently similar challenges, they adopted different strategies. While Qatar has favoured its diplomatic influence and essentially guaranteed its security through its partnerships with external powers, the UAE have consolidated their internal security and defence tools while gaining regional and international influence through various channels which often were the same as those chosen by Qatari leaders. The thesis shows that the mutations of the regional context must be articulated with those of the international context to understand the common dynamics in Qatar’s and the UAE’s defence policies and military acquisitions. It then shows that these structural determinants must be articulated with variables at national (territory, demography) and subnational (the Prince’s perception and networks) levels to understand the contrasts between their policies. Finally, the thesis questions the sustainability of the political economy and political sociology of these “small Princes-states” by confronting them to endogenous and exogenous developments which are likely to make them evolve.
20

Itération sur les Politiques Optimiste et Apprentissage du Jeu de Tetris

Thiery, Christophe 25 November 2010 (has links) (PDF)
Cette thèse s'intéresse aux méthodes d'itération sur les politiques dans l'apprentissage par renforcement à grand espace d'états avec approximation linéaire de la fonction de valeur. Nous proposons d'abord une unification des principaux algorithmes du contrôle optimal stochastique. Nous montrons la convergence de cette version unifiée vers la fonction de valeur optimale dans le cas tabulaire, ainsi qu'une garantie de performances dans le cas où la fonction de valeur est estimée de façon approximative. Nous étendons ensuite l'état de l'art des algorithmes d'approximation linéaire du second ordre en proposant une généralisation de Least-Squares Policy Iteration (LSPI) (Lagoudakis et Parr, 2003). Notre nouvel algorithme, Least-Squares λ Policy Iteration (LSλPI), ajoute à LSPI un concept venant de λ-Policy Iteration (Bertsekas et Ioffe, 1996) : l'évaluation amortie (ou optimiste) de la fonction de valeur, qui permet de réduire la variance de l'estimation afin d'améliorer l'efficacité de l'échantillonnage. LSλPI propose ainsi un compromis biais-variance réglable qui peut permettre d'améliorer l'estimation de la fonction de valeur et la qualité de la politique obtenue. Dans un second temps, nous nous intéressons en détail au jeu de Tetris, une application sur laquelle se sont penchés plusieurs travaux de la littérature. Tetris est un problème difficile en raison de sa structure et de son grand espace d'états. Nous proposons pour la première fois une revue complète de la littérature qui regroupe des travaux d'apprentissage par renforcement, mais aussi des techniques de type évolutionnaire qui explorent directement l'espace des politiques et des algorithmes réglés à la main. Nous constatons que les approches d'apprentissage par renforcement sont à l'heure actuelle moins performantes sur ce problème que des techniques de recherche directe de la politique telles que la méthode d'entropie croisée (Szita et Lőrincz, 2006). Nous expliquons enfin comment nous avons mis au point un joueur de Tetris qui dépasse les performances des meilleurs algorithmes connus jusqu'ici et avec lequel nous avons remporté l'épreuve de Tetris de la Reinforcement Learning Competition 2008.

Page generated in 0.492 seconds