• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 89
  • 67
  • 4
  • Tagged with
  • 163
  • 163
  • 163
  • 106
  • 96
  • 65
  • 65
  • 51
  • 44
  • 39
  • 39
  • 33
  • 32
  • 31
  • 28
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Le transfert adaptatif en apprentissage par renforcement : application à la simulation de schéma de jeux tactiques

Pamponet Machado, Aydano 24 June 2009 (has links) (PDF)
Une voie permettant l'accélération l'apprentissage par renforcement est l'exploration à l'aide des connaissances du domaine. La plus part des algorithmes existants, intitulées transfert de connaissance, sont basés sur une hypothèse implicite : la bonne qualité de la connaissance disponible sur la tache courante. Lorsque cette hypothèse n'est pas respectée, les performances se dégradent bien en dessous des celles des méthodes standards. Ce travail de thèse propose des algorithmes de transfert capables de s'adapter à la qualité de la connaissance disponible. Pour le faire, nous introduisons un paramètre nommé le taux de transfert, qui contrôle à quel point l'algorithme se fiera à la connaissance disponible. De plus, nous optimisons ce taux afin de faire meilleur usage de cette politique, en ajoutant de la robustesse à nos algorithmes. Ces algorithmes sont évalués sur un problème jouet (le gridworld), et sur une application d'aide à l'entraineur qui simule une situation de jeu donnée.
22

Contrôle des interactions orales entre humain et machine : approche d'apprentissage machine

Nguyen, Minh-Quang 03 1900 (has links) (PDF)
Les techniques de reconnaissance et de synthèse vocale deviennent de plus en plus performantes et robustes, ce qui facilite la création des applications de dialogue oral humain-machine. Ce sont des applications à partir desquelles la machine dialogue oralement avec l'humain en imitant l'acte de communication des humains. Cependant, le dialogue entre l'humain et la machine manque encore de naturel, de souplesse et est parfois même agaçant. Alors que les recherches se sont orientées vers l'aspect acoustique et sémantique du signal de la parole, d'autres se sont positionnées au niveau de l'apprentissage de la machine. Cette technique consiste à lui apprendre une stratégie du dialogue. La stratégie optimale du dialogue permet à l'humain et à la machine de communiquer de manière efficace. La question qui se pose en informatique cognitive est de savoir comment une machine peut apprendre des séquences de comportements, en l'occurrence, des énoncés du langage naturel qui, lorsque confrontées à une séquence effective, doivent être aptes à interagir avec celui qui a ces comportements (humains)? . Plus généralement, l'un des domaines importants de recherche en informatique cognitive est celui de la représentation des connaissances qu'il faut construire pour permettre à la machine d'effectuer une tâche de type intelligence artificielle. Pour ce faire, il existe plusieurs approches. Quelle que soit celle retenue, il faut d'abord savoir quelle est sa représentation, ensuite, savoir comment transférer ces connaissances à la machine pour qu'elle puisse apprendre afin d'améliorer sa performance. Ce transfert relève de trois aspects fondamentaux de notre thèse : représentation des connaissances, acquisition des connaissances et recherche d'information. Notre recherche ne vise cependant pas des réponses abstraites. Elle les explore directement dans un domaine spécifique où ces connaissances sont éminemment requises et doivent être apprises: le dialogue oral humain-machine qui se réalise dans un système de dialogue oral humain-machine. Dans ce système, nous nous concentrerons sur l'aspect stratégique du dialogue considéré comme étant important pour contrôler les interactions orales entre l'humain et la machine [ENG05], [HEN05], [LEV00], [PIE04], [SCH05], [SCH06], [SCH99]. Une stratégie optimale du dialogue permet à la machine de contrôler efficacement ces interactions orales. Nos hypothèses de solutions à appliquer dans le domaine du dialogue sont: 1-La connaissance que représente la stratégie du dialogue peut être vue comme un processus dynamique qui est composé de séquences d'actions. Il traduit un comportement stochastique, dynamique et coopératif avec lequel deux interlocuteurs s'engagent dans un dialogue. Ce processus peut être décrit comme le processus de décision de Markov (état, action, transition, récompense). 2-Pour transférer cette connaissance de l'humain à la machine, nous proposerons une approche d'apprentissage par renforcement avec l'aide d'un utilisateur simulé (Pietquin et Beaufort, 2005 ; J. Schatzmann et al., 2006). Cette approche permet à la machine d'acquérir les connaissances des stratégies optimales du dialogue. 3-Cette stratégie optimale est le résultat, non seulement de la formalisation des connaissances et de l'apprentissage, mais est aussi obtenue grâce à la recherche d'information qui se manifeste à travers un mécanisme de transition entre les états qu'offre le modèle de Markov. Nous démontrerons la faisabilité de notre approche par la réalisation d'un prototype qui met en évidence le processus d'apprentissage proposé. Le dialogue issu de cet apprentissage sera simulé oralement par une interface Windows programmé en Visual Studio C++/.Net dans le laboratoire de R&D de Nuance Communications, Inc. Ainsi, nous démontrerons qu'un système avec une stratégie apprise, modélisée selon nos hypothèses de représentation et d'acquisition des connaissances sera meilleur qu'un système sans stratégie apprise grâce à cette approche. ______________________________________________________________________________ MOTS-CLÉS DE L'AUTEUR: représentation des connaissances, acquisition des connaissances, recherche d'information, contrôle des interactions, intelligence artificielle, processus de décision de Markov, apprentissage machine par renforcement, stratégie du dialogue, système de dialogue oral humain-machine, utilisateur simulé.
23

Communication inter-véhicules et route-à-véhicule apprentissage de la communication inter-véhicules /

Grégoire-Girard, Pierre-Luc. January 1900 (has links) (PDF)
Thèse (M.Sc)--Université Laval, 2008. / Titre de l'écran-titre (visionné le 25 mars 2009). Bibliogr.
24

Traitements conscient et non-conscient des régularités temporelles : Modélisation et neuroimagerie / Conscious and unconscious processing of temporal regularities : a joint modeling and experimental approach

Wacongne, Catherine 07 July 2014 (has links)
Que va-t-il arriver ensuite ? Les stimuli naturels ont tendance à se suivre d'une façon prédictible. De nombreux domaines de la psychologie et des neurosciences ont montré que le cerveau et le comportement des humains sont sensibles à la structure temporelle des stimuli sensoriels et sont capables de l'exploiter de multiples façons : pour prendre des décisions appropriées, encoder l'information de façon efficace, réagir plus vite aux événements prédictibles ou encore orienter l'attention vers les stimuli inattendus. Si de nombreuses aires cérébrales sont sensibles aux régularités temporelles (RT), toutes ne semblent pas traiter les mêmes types de structure temporelle. L'accès conscient aux stimuli semble jouer un rôle important dans la capacité à apprendre certains types de RT. Cette thèse explore l'organisation hiérarchique du traitement des RT et les propriétés computationnelles propres à leur traitement conscient et non conscient en combinant un travail de modélisation et des expériences de neuroimagerie en magnétoencéphalographie et électroencéphalographie (MEEG). Un premier modèle neuronal basé sur les principes du codage prédictif reproduit les principales propriétés du traitement préattentif des sons purs dans le cortex auditif indexé par le potentiel évoqué appelé négativité d'incongruence (MMN). Une seconde étude en MEEG met en évidence l'existence d'une hiérarchie de processus prédictifs dans le cortex auditif. Enfin, un second modèle explore les contraintes et les nouvelles propriétés computationnelles qui sont associées à l'accès conscient des stimuli à un système de mémoire de travail capable de maintenir indéfiniment un nombre limité d'objets. / What is going to happen next? Natural stimuli tend to follow each other in a reproducible way. Multiple fields of neuroscience and psychology bring evidence that human’s brain and behavior are sensitive to the temporal structure of stimuli and are able to exploit them in multiple ways: to make appropriate decisions, encode efficiently information, react faster to predictable stimuli or orient attention towards surprising ones… Multiple brain areas show sensitivity to the temporal structure of events. However, all areas do not seem to be sensitive to the same kind of temporal regularities. Conscious access to the stimuli seems to play a key role in some of these dissociations and better understanding this role could improve the current diagnostic tools for non-communicative patients. This thesis explores the hierarchical organization of the processing of temporal regularities and the computational properties of conscious and unconscious levels of processing by combining a modeling approach with neuroimaging experiments using magnetoencephalography and electroencephalography (MEEG). First, a plausible neuronal model based on predictive coding principles reproduces the main properties of the preattentive processing of pure tones in the auditory cortex indexed by the evoked potential mismatch negativity (MMN). Second, a MEEG experiment provides evidence for a hierarchical organization of multiple predictive processes in the auditory cortex. Finally, a second model explores the new computational properties and constraints associated to the access of stimuli to a conscious space with a working memory able to maintain information for an arbitrary time but with limited capacity.
25

A General Sequential Model for Constrained Classification / Modèles Sequentiels pour la Classification Multiclasse, Sparse et Budgetée

Dulac-Arnold, Gabriel 07 February 2014 (has links)
Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes.
26

Communication inter-véhicules et route-à-véhicule : apprentissage de la communication inter-véhicules

Grégoire-Girard, Pierre-Luc 13 April 2018 (has links)
L'industrie des transports est un acteur important de l'économie mondiale. Des millions d'emplois sont touchés de près ou de loin par cette industrie. De plus, le nombre de véhicules sur terre ne cesse d'augmenter et il est rendu courant dans plusieurs pays industrialisés d'avoir plus d'une voiture par famille. Tout cela entraîne également son lot de problèmes, notamment au niveau de la sécurité routière et de la pollution. Depuis des décennies, des compagnies privées et des organisations publiques se penchent sur ces problèmes. Ils innovent constamment en améliorant les véhicules et les infrastructures du réseau routier. Les voitures ne sont pas seulement de plus en plus sécuritaires mais aussi de plus en plus confortables et conviviales. Cependant, la plupart des systèmes intelligents présents dans les voitures acquièrent de l'information grâce aux capteurs. Ceux-ci sont limités et certaines données ne peuvent être accessibles aux capteurs. La solution repose donc sur l'utilisation de la communication sans fil pour échanger des informations entre les véhicules et entre les infrastructures et les véhicules. Le sujet de cette maîtrise porte sur la communication inter-véhicules et route-à-véhicule. Elle se divise en deux parties. Tout d'abord, dans le cadre du projet AUTO21 au laboratoire DAMAS, un protocole de communication inter-véhicules doit être développé pour implanter un système de régulateur de vitesse collaboratif et adaptatif (" Collaborative Adaptative Cruise Control ", CACC). La théorie multi-agents et l'apprentissage par renforcement sont utilisés pour apprendre une politique de communication optimale. La deuxième partie porte sur la communication route-à-véhicule appliquée au problème d'optimisation des feux de signalisation. Deux approches multiagents sont utilisées pour optimiser la gestion des feux. Les agents placés aux intersections reçoivent de l'information relative au trafic grâce à la communication route-à-véhicule et tentent d'adopter une politique de contrôle optimale.
27

Pilotage en temps réel d'une ligne de finition de bois d'oeuvre intégrant du séchage à haute fréquence à l'aide de l'apprentissage par renforcement

Tremblay, François-Alexandre 06 July 2023 (has links)
Titre de l'écran-titre (visionné le 26 juin 2023) / L'industrie des produits du bois évolue dans un contexte de forte compétition qui incite les scieries à se tourner vers des procédés plus agiles, tel que le séchage du bois en continu par micro-ondes, une technologie récemment brevetée. Cette technologie permet de corriger le séchage des planches une à la fois, par opposition au séchage classique par lot. L'intégration de ce séchage de précision à une ligne de finition traditionnelle complexifie toutefois la logistique de l'entreprise. En effet, bien que la technologie permette d'améliorer la qualité du bois, la surcharge de planches trop humides occasionne des goulots d'étranglement et une réduction de la productivité. Il est donc nécessaire de développer des systèmes décisionnels qui déterminent en temps réel si une planche humide doit passer au séchoir micro-onde afin d'améliorer sa qualité ou continuer son chemin vers la fin de la ligne de finition. Ce projet consiste à concevoir et à évaluer des algorithmes de prises de décisions en temps réel sur une ligne de finition afin de maximiser la valeur générée par unité de temps. Compte tenu de l'aspect séquentiel des décisions (chaque décision affecte les taux actuels et futurs d'occupation des différents équipements, la qualité du bois et la productivité de l'usine), l'apprentissage par renforcement est utilisé. Dans ce sous-domaine de l'intelligence artificielle, les algorithmes apprennent des politiques décisionnelles optimales, pour une fonction objectif donnée, par interaction avec leur environnement à travers un processus « d'essais-erreurs ». Nous montrons le potentiel de l'apprentissage par renforcement à travers un modèle de simulation imitant le contexte fortement dynamique des scieries. Les politiques d'apprentissage par renforcement apprises ont permis d'augmenter la productivité d'au moins 19% par rapport à une heuristique semblable à celles utilisées actuellement en industrie. Ces politiques sont aussi relativement robustes aux perturbations soudaines qui peuvent survenir dans l'environnement. / The wood products industry is evolving in a context of strong competition encouraging sawmills towards more agile processes such as continuous wood drying using microwaves, a recently patented technology. This technology makes it possible to correct wood drying one plank at a time as opposed to traditional batch drying. However, the integration of this precision drying process into traditional finishing operations complicates sawmill's logistics. Although the technology improves wood quality, the overload of wet lumber causes bottlenecks and a reduction of productivity. It is therefore necessary to develop new decision-making systems to determine in real time whether wet lumber should be microwaved to improve its quality or continue on its way towards the end of the finishing line. This project consists of designing and evaluating real-time decision-making algorithms on a finishing line in order to maximize the value generated per unit of time, a constant challenge in the Canadian wood products industry. Considering the sequential aspect of decisions (each decision affects current and future occupancy rates of different equipment, wood quality and plant productivity), reinforcement learning (RL) is used. In this subfield of artificial intelligence, algorithms learn optimal decision sequences by interacting with their environment through a "trial and error" process. We show the potential of RL through a simulation model mimicking the real and highly dynamic factory context. RL policies learned increase productivity on wet lumber by at least 19% compared to the heuristic currently used in industry. These policies are also relatively robust to sudden disturbances that may occur in the system.
28

Gestion du raisonnement à base de cas avec l'apprentissage par renforcement pour un jeu contraint dans le temps

Romdhane, Houcine 16 April 2018 (has links)
Dans ces travaux, nous tentons d’améliorer l’aspect comportemental dans les jeux vidéo en utilisant le raisonnement par cas (Case Based Reasoning - CBR), qui simule le comportement humain. Cette technique, provenant du domaine de l’intelligence artificielle, résout de nouveaux problèmes en retrouvant des expériences analogues dans sa base de cas et en les adaptant au nouveau problème considéré. Nous utilisons le CBR pour l’automatisation de décisions prises par des composantes d’un jeu. La construction d’un module CBR nécessite l’accumulation de plusieurs épisodes de jeu pour former la base de cas du module. Cependant, lorsqu’un grand nombre d’épisodes sont emmagasinés dans la base de cas, la réponse en temps du système s’alourdit. Nous sommes alors confrontés au défi d’améliorer le temps de réponse du module CBR tout en gardant un niveau de performance acceptable du système. Dans ce mémoire, nous utilisons le jeu de Tetris pour mener notre étude. Ce jeu présente un intérêt particulier car les décisions à prendre sont contraintes dans le temps. Nous proposons dans ce mémoire de répondre aux questions suivantes : Comment formuler un système CBR pour jouer au jeu Tetris. Quelle est la performance attendue par un système CBR appliqué à ce jeu. Quel est le niveau du jeu qui peut être atteint par l’estimation de la valeur des cas obtenus par apprentissage par renforcement. Comme Tetris est un jeu contraint par le temps, quel est le niveau de dégradation de performances qui peut être perçue par la réduction de la taille de la base de cas. / In this work, we try to improve the behavioral aspects of video games using Case Based Reasoning (CBR), which can reproduce human behavior as reasoning by similarity, as well as remembering and forgetting previous experiences. This technique, coming from the Artificial Intelligence field, solves new problems by retrieving similar past experiences in the case base and adapting solution to solve new problems. We use CBR for the automation of decisions made by the game engine. The construction of a CBR system needs to accumulate many episodes from the gaming environment to create the case base of the CBR engine. However, as the number of episodes being saved in the case base increases, the response time of the CBR system slows down. We are then facing a dilemma: reducing the size of the case base to improve the response of the CBR system while keeping an acceptable level of performance. In this master thesis, we use the game of Tetris to conduct our case studies. This game presents some particular interests, as decisions to be made are limited by time constraints. We propose in this thesis to answer the following questions: How to construct a CBR system to play the game of Tetris. What is the expected performance of the system applied to this game? Wich game level can be reached by estimating case value through reinforcement learning? As time response constraints are inherent to Tetris, which degradation of performance can be expected by removing cases from the case base?
29

Cooperative adaptive cruise control : a learning approach

Desjardins, Charles 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2008-2009 / L'augmentation dans les dernières décennies du nombre de véhicules présents sur les routes ne s'est pas passée sans son lot d'impacts négatifs sur la société. Même s'ils ont joué un rôle important dans le développement économique des régions urbaines à travers le monde, les véhicules sont aussi responsables d'impacts négatifs sur les entreprises, car l'inefficacité du ot de traffic cause chaque jour d'importantes pertes en productivité. De plus, la sécurité des passagers est toujours problématique car les accidents de voiture sont encore aujourd'hui parmi les premières causes de blessures et de morts accidentelles dans les pays industrialisés. Ces dernières années, les aspects environnementaux ont aussi pris de plus en plus de place dans l'esprit des consommateurs, qui demandent désormais des véhicules efficaces au niveau énergétique et minimisant leurs impacts sur l'environnement. évidemment, les gouvernements de pays industrialisés ainsi que les manufacturiers de véhicules sont conscients de ces problèmes et tentent de développer des technologies capables de les résoudre. Parmi les travaux de recherche en ce sens, le domaine des Systèmes de Transport Intelligents (STI) a récemment reçu beaucoup d'attention. Ces systèmes proposent d'intégrer des systèmes électroniques avancés dans le développement de solutions intelligentes conçues pour résoudre les problèmes liés au transport automobile cités plus haut. Ce mémoire se penche donc sur un sous-domaine des STI qui étudie la résolution de ces problèmes gr^ace au développement de véhicules intelligents. Plus particulièrement, ce mémoire propose d'utiliser une approche relativement nouvelle de conception de tels systèmes, basée sur l'apprentissage machine. Ce mémoire va donc montrer comment les techniques d'apprentissage par renforcement peuvent être utilisées afin d'obtenir des contrôleurs capables d'effectuer le suivi automatisés de véhicules. Même si ces efforts de développement en sont encore à une étape préliminaire, ce mémoire illustre bien le potentiel de telles approches pour le développement futur de véhicules plus \intelligents". / The impressive growth, in the past decades, of the number of vehicles on the road has not come without its share of negative impacts on society. Even though vehicles play an active role in the economical development of urban regions around the world, they unfortunately also have negative effects on businesses as the poor efficiency of the traffic ow results in important losses in productivity each day. Moreover, numerous concerns have been raised in relation to the safety of passengers, as automotive transportation is still among the first causes of accidental casualties in developed countries. In recent years, environmental issues have also been taking more and more place in the mind of customers, that now demand energy-efficient vehicles that limit the impacts on the environment. Of course, both the governments of industrialized countries and the vehicle manufacturers have been aware of these problems, and have been trying to develop technologies in order to solve these issues. Among these research efforts, the field of Intelligent Transportation Systems (ITS) has been gathering much interest as of late, as it is considered an efficient approach to tackle these problems. ITS propose to integrate advanced electronic systems in the development of intelligent solutions designed to address the current issues of automotive transportation. This thesis focuses on a sub-field ITS since it studies the resolution of these problems through the development of Intelligent Vehicle (IV) systems. In particular, this thesis proposes a relatively novel approach for the design of such systems, based on modern machine learning. More specifically, it shows how reinforcement learning techniques can be used in order to obtain an autonomous vehicle controller for longitudinal vehiclefollowing behavior. Even if these efforts are still at a preliminary stage, this thesis illustrates the potential of using these approaches for future development of \intelligent" vehicles.
30

Stochastic systems divergence through reinforcement learning

Zhioua, Sami 13 April 2018 (has links)
Les mathématiques offrent un cadre convenable pour raisonner rigoureusement sur les systèmes et phénomènes réels. Par exemple, en génie logiciel, les méthodes formelles sont parmi les outils les plus efficaces pour détecter les anomalies dans les logiciels. Plusieurs systèmes réels sont stochastiques par nature dans le sens où leur comportement est sujet à un aspect d'incertitude. La représentation de ce genre de systèmes requiert des modèles stochastiques comme les processus de Markov étiquetés (LMP), les processus de Markov décisionnels (MDP), etc. Cette thèse porte sur la quantification de la différence entre les systèmes stochastiques. Les contributions majeures sont : 1. une nouvelle approche pour quantifier la divergence entre les systèmes stochastiques basée sur l'apprentissage par renforcement, 2. une nouvelle famille de notions d'équivalence qui se situe entre l'équivalence par trace et la bisimulation, et 3. un cadre plus flexible pour la définition des notions d'équivalence qui se base sur les tests. Le résultat principal de la thèse est que l'apprentissage par renforcement, qui est une branche de l'intelligence artificielle particulièrement efficace en présence d'incertitude, peut être utilisé pour quantifier efficacement cette divergence. L'idée clé est de définir un MDP à partir des systèmes à comparer de telle sorte que la valeur optimale de cet MDP corresponde à la divergence entre eux. La caractéristique la plus attrayante de l'approche proposée est qu'elle est complètement indépendante des structures internes des systèmes à comparer. Pour cette raison, l'approche peut être appliquée à différents types de systèmes stochastiques. La deuxième contribution est une nouvelle famille de notions d'équivalence, que nous appelons moment, qui est plus forte que l'équivalence par trace mais plus faible que la bisimulation. Cette famille se définit naturellement à travers la coïncidence de moments de variable aléatoires (d'où son nom) et possède une caractérisation simple en terme de tests. Nous montrons que moment fait partie d'un cadre plus grand, appelé test-observation-equivalence (TOE), qui constitue la troisième contribution de cette thèse. Il s'agit d'un cadre plus flexible pour la définition des notions d'équivalence basé sur les tests. / Modelling real-life systems and phenomena using mathematical based formalisms is ubiquitous in science and engineering. The reason is that mathematics offer a suitable framework to carry out formal and rigorous analysis of these systems. For instance, in software engineering, formal methods are among the most efficient tools to identify flaws in software. The behavior of many real-life systems is inherently stochastic which requires stochastic models such as labelled Markov processes (LMPs), Markov decision processes (MDPs), predictive state representations (PSRs), etc. This thesis is about quantifying the difference between stochastic systems. The main contributions are: 1. a new approach to quantify the divergence between pairs of stochastic systems based on reinforcement learning, 2. a new family of equivalence notions which lies between trace equivalence and bisimulation, and 3. a refined testing framework to define equivalence notions. The important point of the thesis is that reinforcement learning (RL), a branch of artificial intelligence particularly efficient in presence of uncertainty, can be used to quantify efficiently the divergence between stochastic systems. The key idea is to define an MDP out of the systems to be compared and then to interpret the optimal value of the MDP as the divergence between them. The most appealing feature of the proposed approach is that it does not rely on the knowledge of the internal structure of the systems. Only a possibility of interacting with them is required. Because of this, the approach can be extended to different types of stochastic systems. The second contribution is a new family of equivalence notions, moment, that constitute a good compromise between trace equivalence (too weak) and bisimulation (too strong). This family has a natural definition using coincidence of moments of random variables but more importantly, it has a simple testing characterization. moment turns out to be part of a bigger framework called test-observation-equivalence (TOE), which we propose as a third contribution of this thesis. It is a refined testing framework to define equivalence notions with more flexibility.

Page generated in 0.5337 seconds