• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 85
  • 67
  • 4
  • Tagged with
  • 159
  • 159
  • 159
  • 102
  • 92
  • 62
  • 62
  • 47
  • 41
  • 39
  • 36
  • 33
  • 31
  • 30
  • 28
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Le transfert adaptatif en apprentissage par renforcement : application à la simulation de schéma de jeux tactiques

Pamponet Machado, Aydano 24 June 2009 (has links) (PDF)
Une voie permettant l'accélération l'apprentissage par renforcement est l'exploration à l'aide des connaissances du domaine. La plus part des algorithmes existants, intitulées transfert de connaissance, sont basés sur une hypothèse implicite : la bonne qualité de la connaissance disponible sur la tache courante. Lorsque cette hypothèse n'est pas respectée, les performances se dégradent bien en dessous des celles des méthodes standards. Ce travail de thèse propose des algorithmes de transfert capables de s'adapter à la qualité de la connaissance disponible. Pour le faire, nous introduisons un paramètre nommé le taux de transfert, qui contrôle à quel point l'algorithme se fiera à la connaissance disponible. De plus, nous optimisons ce taux afin de faire meilleur usage de cette politique, en ajoutant de la robustesse à nos algorithmes. Ces algorithmes sont évalués sur un problème jouet (le gridworld), et sur une application d'aide à l'entraineur qui simule une situation de jeu donnée.
22

Contrôle des interactions orales entre humain et machine : approche d'apprentissage machine

Nguyen, Minh-Quang 03 1900 (has links) (PDF)
Les techniques de reconnaissance et de synthèse vocale deviennent de plus en plus performantes et robustes, ce qui facilite la création des applications de dialogue oral humain-machine. Ce sont des applications à partir desquelles la machine dialogue oralement avec l'humain en imitant l'acte de communication des humains. Cependant, le dialogue entre l'humain et la machine manque encore de naturel, de souplesse et est parfois même agaçant. Alors que les recherches se sont orientées vers l'aspect acoustique et sémantique du signal de la parole, d'autres se sont positionnées au niveau de l'apprentissage de la machine. Cette technique consiste à lui apprendre une stratégie du dialogue. La stratégie optimale du dialogue permet à l'humain et à la machine de communiquer de manière efficace. La question qui se pose en informatique cognitive est de savoir comment une machine peut apprendre des séquences de comportements, en l'occurrence, des énoncés du langage naturel qui, lorsque confrontées à une séquence effective, doivent être aptes à interagir avec celui qui a ces comportements (humains)? . Plus généralement, l'un des domaines importants de recherche en informatique cognitive est celui de la représentation des connaissances qu'il faut construire pour permettre à la machine d'effectuer une tâche de type intelligence artificielle. Pour ce faire, il existe plusieurs approches. Quelle que soit celle retenue, il faut d'abord savoir quelle est sa représentation, ensuite, savoir comment transférer ces connaissances à la machine pour qu'elle puisse apprendre afin d'améliorer sa performance. Ce transfert relève de trois aspects fondamentaux de notre thèse : représentation des connaissances, acquisition des connaissances et recherche d'information. Notre recherche ne vise cependant pas des réponses abstraites. Elle les explore directement dans un domaine spécifique où ces connaissances sont éminemment requises et doivent être apprises: le dialogue oral humain-machine qui se réalise dans un système de dialogue oral humain-machine. Dans ce système, nous nous concentrerons sur l'aspect stratégique du dialogue considéré comme étant important pour contrôler les interactions orales entre l'humain et la machine [ENG05], [HEN05], [LEV00], [PIE04], [SCH05], [SCH06], [SCH99]. Une stratégie optimale du dialogue permet à la machine de contrôler efficacement ces interactions orales. Nos hypothèses de solutions à appliquer dans le domaine du dialogue sont: 1-La connaissance que représente la stratégie du dialogue peut être vue comme un processus dynamique qui est composé de séquences d'actions. Il traduit un comportement stochastique, dynamique et coopératif avec lequel deux interlocuteurs s'engagent dans un dialogue. Ce processus peut être décrit comme le processus de décision de Markov (état, action, transition, récompense). 2-Pour transférer cette connaissance de l'humain à la machine, nous proposerons une approche d'apprentissage par renforcement avec l'aide d'un utilisateur simulé (Pietquin et Beaufort, 2005 ; J. Schatzmann et al., 2006). Cette approche permet à la machine d'acquérir les connaissances des stratégies optimales du dialogue. 3-Cette stratégie optimale est le résultat, non seulement de la formalisation des connaissances et de l'apprentissage, mais est aussi obtenue grâce à la recherche d'information qui se manifeste à travers un mécanisme de transition entre les états qu'offre le modèle de Markov. Nous démontrerons la faisabilité de notre approche par la réalisation d'un prototype qui met en évidence le processus d'apprentissage proposé. Le dialogue issu de cet apprentissage sera simulé oralement par une interface Windows programmé en Visual Studio C++/.Net dans le laboratoire de R&D de Nuance Communications, Inc. Ainsi, nous démontrerons qu'un système avec une stratégie apprise, modélisée selon nos hypothèses de représentation et d'acquisition des connaissances sera meilleur qu'un système sans stratégie apprise grâce à cette approche. ______________________________________________________________________________ MOTS-CLÉS DE L'AUTEUR: représentation des connaissances, acquisition des connaissances, recherche d'information, contrôle des interactions, intelligence artificielle, processus de décision de Markov, apprentissage machine par renforcement, stratégie du dialogue, système de dialogue oral humain-machine, utilisateur simulé.
23

Communication inter-véhicules et route-à-véhicule apprentissage de la communication inter-véhicules /

Grégoire-Girard, Pierre-Luc. January 1900 (has links) (PDF)
Thèse (M.Sc)--Université Laval, 2008. / Titre de l'écran-titre (visionné le 25 mars 2009). Bibliogr.
24

Traitements conscient et non-conscient des régularités temporelles : Modélisation et neuroimagerie / Conscious and unconscious processing of temporal regularities : a joint modeling and experimental approach

Wacongne, Catherine 07 July 2014 (has links)
Que va-t-il arriver ensuite ? Les stimuli naturels ont tendance à se suivre d'une façon prédictible. De nombreux domaines de la psychologie et des neurosciences ont montré que le cerveau et le comportement des humains sont sensibles à la structure temporelle des stimuli sensoriels et sont capables de l'exploiter de multiples façons : pour prendre des décisions appropriées, encoder l'information de façon efficace, réagir plus vite aux événements prédictibles ou encore orienter l'attention vers les stimuli inattendus. Si de nombreuses aires cérébrales sont sensibles aux régularités temporelles (RT), toutes ne semblent pas traiter les mêmes types de structure temporelle. L'accès conscient aux stimuli semble jouer un rôle important dans la capacité à apprendre certains types de RT. Cette thèse explore l'organisation hiérarchique du traitement des RT et les propriétés computationnelles propres à leur traitement conscient et non conscient en combinant un travail de modélisation et des expériences de neuroimagerie en magnétoencéphalographie et électroencéphalographie (MEEG). Un premier modèle neuronal basé sur les principes du codage prédictif reproduit les principales propriétés du traitement préattentif des sons purs dans le cortex auditif indexé par le potentiel évoqué appelé négativité d'incongruence (MMN). Une seconde étude en MEEG met en évidence l'existence d'une hiérarchie de processus prédictifs dans le cortex auditif. Enfin, un second modèle explore les contraintes et les nouvelles propriétés computationnelles qui sont associées à l'accès conscient des stimuli à un système de mémoire de travail capable de maintenir indéfiniment un nombre limité d'objets. / What is going to happen next? Natural stimuli tend to follow each other in a reproducible way. Multiple fields of neuroscience and psychology bring evidence that human’s brain and behavior are sensitive to the temporal structure of stimuli and are able to exploit them in multiple ways: to make appropriate decisions, encode efficiently information, react faster to predictable stimuli or orient attention towards surprising ones… Multiple brain areas show sensitivity to the temporal structure of events. However, all areas do not seem to be sensitive to the same kind of temporal regularities. Conscious access to the stimuli seems to play a key role in some of these dissociations and better understanding this role could improve the current diagnostic tools for non-communicative patients. This thesis explores the hierarchical organization of the processing of temporal regularities and the computational properties of conscious and unconscious levels of processing by combining a modeling approach with neuroimaging experiments using magnetoencephalography and electroencephalography (MEEG). First, a plausible neuronal model based on predictive coding principles reproduces the main properties of the preattentive processing of pure tones in the auditory cortex indexed by the evoked potential mismatch negativity (MMN). Second, a MEEG experiment provides evidence for a hierarchical organization of multiple predictive processes in the auditory cortex. Finally, a second model explores the new computational properties and constraints associated to the access of stimuli to a conscious space with a working memory able to maintain information for an arbitrary time but with limited capacity.
25

Gestion du raisonnement à base de cas avec l'apprentissage par renforcement pour un jeu contraint dans le temps

Romdhane, Houcine January 2010 (has links)
Dans ces travaux, nous tentons d’améliorer l’aspect comportemental dans les jeux vidéo en utilisant le raisonnement par cas (Case Based Reasoning - CBR), qui simule le comportement humain. Cette technique, provenant du domaine de l’intelligence artificielle, résout de nouveaux problèmes en retrouvant des expériences analogues dans sa base de cas et en les adaptant au nouveau problème considéré. Nous utilisons le CBR pour l’automatisation de décisions prises par des composantes d’un jeu. La construction d’un module CBR nécessite l’accumulation de plusieurs épisodes de jeu pour former la base de cas du module. Cependant, lorsqu’un grand nombre d’épisodes sont emmagasinés dans la base de cas, la réponse en temps du système s’alourdit. Nous sommes alors confrontés au défi d’améliorer le temps de réponse du module CBR tout en gardant un niveau de performance acceptable du système. Dans ce mémoire, nous utilisons le jeu de Tetris pour mener notre étude. Ce jeu présente un intérêt particulier car les décisions à prendre sont contraintes dans le temps. Nous proposons dans ce mémoire de répondre aux questions suivantes : Comment formuler un système CBR pour jouer au jeu Tetris. Quelle est la performance attendue par un système CBR appliqué à ce jeu. Quel est le niveau du jeu qui peut être atteint par l’estimation de la valeur des cas obtenus par apprentissage par renforcement. Comme Tetris est un jeu contraint par le temps, quel est le niveau de dégradation de performances qui peut être perçue par la réduction de la taille de la base de cas. / In this work, we try to improve the behavioral aspects of video games using Case Based Reasoning (CBR), which can reproduce human behavior as reasoning by similarity, as well as remembering and forgetting previous experiences. This technique, coming from the Artificial Intelligence field, solves new problems by retrieving similar past experiences in the case base and adapting solution to solve new problems. We use CBR for the automation of decisions made by the game engine. The construction of a CBR system needs to accumulate many episodes from the gaming environment to create the case base of the CBR engine. However, as the number of episodes being saved in the case base increases, the response time of the CBR system slows down. We are then facing a dilemma: reducing the size of the case base to improve the response of the CBR system while keeping an acceptable level of performance. In this master thesis, we use the game of Tetris to conduct our case studies. This game presents some particular interests, as decisions to be made are limited by time constraints. We propose in this thesis to answer the following questions: How to construct a CBR system to play the game of Tetris. What is the expected performance of the system applied to this game? Wich game level can be reached by estimating case value through reinforcement learning? As time response constraints are inherent to Tetris, which degradation of performance can be expected by removing cases from the case base?
26

Cooperative adaptive cruise control : a learning approach

Desjardins, Charles January 2009 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2008-2009 / L'augmentation dans les dernières décennies du nombre de véhicules présents sur les routes ne s'est pas passée sans son lot d'impacts négatifs sur la société. Même s'ils ont joué un rôle important dans le développement économique des régions urbaines à travers le monde, les véhicules sont aussi responsables d'impacts négatifs sur les entreprises, car l'inefficacité du ot de traffic cause chaque jour d'importantes pertes en productivité. De plus, la sécurité des passagers est toujours problématique car les accidents de voiture sont encore aujourd'hui parmi les premières causes de blessures et de morts accidentelles dans les pays industrialisés. Ces dernières années, les aspects environnementaux ont aussi pris de plus en plus de place dans l'esprit des consommateurs, qui demandent désormais des véhicules efficaces au niveau énergétique et minimisant leurs impacts sur l'environnement. évidemment, les gouvernements de pays industrialisés ainsi que les manufacturiers de véhicules sont conscients de ces problèmes et tentent de développer des technologies capables de les résoudre. Parmi les travaux de recherche en ce sens, le domaine des Systèmes de Transport Intelligents (STI) a récemment reçu beaucoup d'attention. Ces systèmes proposent d'intégrer des systèmes électroniques avancés dans le développement de solutions intelligentes conçues pour résoudre les problèmes liés au transport automobile cités plus haut. Ce mémoire se penche donc sur un sous-domaine des STI qui étudie la résolution de ces problèmes gr^ace au développement de véhicules intelligents. Plus particulièrement, ce mémoire propose d'utiliser une approche relativement nouvelle de conception de tels systèmes, basée sur l'apprentissage machine. Ce mémoire va donc montrer comment les techniques d'apprentissage par renforcement peuvent être utilisées afin d'obtenir des contrôleurs capables d'effectuer le suivi automatisés de véhicules. Même si ces efforts de développement en sont encore à une étape préliminaire, ce mémoire illustre bien le potentiel de telles approches pour le développement futur de véhicules plus \intelligents". / The impressive growth, in the past decades, of the number of vehicles on the road has not come without its share of negative impacts on society. Even though vehicles play an active role in the economical development of urban regions around the world, they unfortunately also have negative effects on businesses as the poor efficiency of the traffic ow results in important losses in productivity each day. Moreover, numerous concerns have been raised in relation to the safety of passengers, as automotive transportation is still among the first causes of accidental casualties in developed countries. In recent years, environmental issues have also been taking more and more place in the mind of customers, that now demand energy-efficient vehicles that limit the impacts on the environment. Of course, both the governments of industrialized countries and the vehicle manufacturers have been aware of these problems, and have been trying to develop technologies in order to solve these issues. Among these research efforts, the field of Intelligent Transportation Systems (ITS) has been gathering much interest as of late, as it is considered an efficient approach to tackle these problems. ITS propose to integrate advanced electronic systems in the development of intelligent solutions designed to address the current issues of automotive transportation. This thesis focuses on a sub-field ITS since it studies the resolution of these problems through the development of Intelligent Vehicle (IV) systems. In particular, this thesis proposes a relatively novel approach for the design of such systems, based on modern machine learning. More specifically, it shows how reinforcement learning techniques can be used in order to obtain an autonomous vehicle controller for longitudinal vehiclefollowing behavior. Even if these efforts are still at a preliminary stage, this thesis illustrates the potential of using these approaches for future development of \intelligent" vehicles.
27

A General Sequential Model for Constrained Classification / Modèles Sequentiels pour la Classification Multiclasse, Sparse et Budgetée

Dulac-Arnold, Gabriel 07 February 2014 (has links)
Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes.
28

Déclinaisons de bandits et leurs applications

Durand, Audrey 24 April 2018 (has links)
Cette thèse s’intéresse à différentes variantes du problème des bandits, une instance simplifiée d’un problème de reinforcement learning (RL) dont l’accent est mis sur le compromis entre l’exploration et l’exploitation. Plus spécifiquement, l’accent est mis sur trois variantes, soient les bandits contextuels, structurés et multi-objectifs. Dans la première, un agent recherche l’action optimale dépendant d’un contexte donné. Dans la seconde, un agent recherche l’action optimale dans un espace potentiellement grand et caractérisé par une métrique de similarité. Dans la dernière, un agent recherche le compromis optimal sur un front de Pareto selon une fonction d’articulation des préférences non observable directement. La thèse propose des algorithmes adaptés à chacune de ces variantes, dont les performances sont appuyées par des garanties théoriques ou des expériences empiriques. Ces variantes de bandits servent de cadre à deux applications réelles et à haut potentiel d’impact, soient l’allocation de traitements adaptative pour la découverte de stratégies de traitement du cancer personnalisées, et l’optimisation en-ligne de paramètres d’imagerie microscopique à grande résolution pour l’acquisition efficace d’images utilisables en neuroscience. La thèse apporte donc des contributions à la fois algorithmiques, théoriques et applicatives. Une adaptation de l’algorithme best empirical sampled average (BESA), GP BESA, est proposée pour le problème des bandits contextuels. Son potentiel est mis en lumière par des expériences en simulation, lesquelles ont motivé le déploiement de la stratégie dans une étude sur des animaux en laboratoire. Les résultats, prometteurs, montrent que GP BESA est en mesure d’étendre la longévité de souris atteintes du cancer et ainsi augmenter significativement la quantité de données recueillies sur les sujets. Une adaptation de l’algorithme Thompson sampling (TS), Kernel TS, est proposée pour le problème des bandits structurés en reproducing kernel Hilbert space (RKHS). Une analyse théorique permet d’obtenir des garanties de convergence sur le pseudo-regret cumulatif. Des résultats de concentration pour la régression à noyau avec régularisation variable ainsi qu’une procédure d’ajustement adaptative de la régularisation basée sur l’estimation empirique de la variance du bruit sont également introduits. Ces contributions permettent de lever l’hypothèse classique sur la connaissance a priori de la variance du bruit en régression à noyau en-ligne. Des résultats numériques illustrent le potentiel de ces outils. Des expériences empiriques illustrent également la performance de Kernel TS et permettent de soulever des questionnements intéressants relativement à l’optimalité des intuitions théoriques. Une nouvelle variante de bandits multi-objectifs généralisant la littérature est proposée. Plus spécifiquement, le nouveau cadre considère que l’articulation des préférences entre les objectifs provient d’une fonction non observable, typiquement d’un utilisateur (expert), et suggère d’intégrer cet expert à la boucle d’apprentissage. Le concept des rayons de préférence est ensuite introduit pour évaluer la robustesse de la fonction de préférences de l’expert à des erreurs dans l’estimation de l’environnement. Une variante de l’algorithme TS, TS-MVN, est proposée et analysée. Des expériences empiriques appuient ces résultats et constituent une investigation préliminaire des questionnements relatifs à la présence d’un expert dans la boucle d’apprentissage. La mise en commun des approches de bandits structurés et multi-objectifs permet de s’attaquer au problème d’optimisation des paramètres d’imagerie STED de manière en-ligne. Les résultats expérimentaux sur un vrai montage microscopique et avec de vrais échantillons neuronaux montrent que la technique proposée permet d’accélérer considérablement le processus de caractérisation des paramètres et facilitent l’obtention rapide d’images pertinentes pour des experts en neuroscience. / This thesis deals with various variants of the bandits problem, wihch corresponds to a simplified instance of a RL problem with emphasis on the exploration-exploitation trade-off. More specifically, the focus is on three variants: contextual, structured, and multi-objective bandits. In the first, an agent searches for the optimal action depending on a given context. In the second, an agent searches for the optimal action in a potentially large space characterized by a similarity metric. In the latter, an agent searches for the optimal trade-off on a Pareto front according to a non-observable preference function. The thesis introduces algorithms adapted to each of these variants, whose performances are supported by theoretical guarantees and/or empirical experiments. These bandit variants provide a framework for two real-world applications with high potential impact: 1) adaptive treatment allocation for the discovery of personalized cancer treatment strategies; and 2) online optimization of microscopic imaging parameters for the efficient acquisition of useful images. The thesis therefore offers both algorithmic, theoretical, and applicative contributions. An adaptation of the BESA algorithm, GP BESA, is proposed for the problem of contextual bandits. Its potential is highlighted by simulation experiments, which motivated the deployment of the strategy in a wet lab experiment on real animals. Promising results show that GP BESA is able to extend the longevity of mice with cancer and thus significantly increase the amount of data collected on subjects. An adaptation of the TS algorithm, Kernel TS, is proposed for the problem of structured bandits in RKHS. A theoretical analysis allows to obtain convergence guarantees on the cumulative pseudo-regret. Concentration results for the regression with variable regularization as well as a procedure for adaptive tuning of the regularization based on the empirical estimation of the noise variance are also introduced. These contributions make it possible to lift the typical assumption on the a priori knowledge of the noise variance in streaming kernel regression. Numerical results illustrate the potential of these tools. Empirical experiments also illustrate the performance of Kernel TS and raise interesting questions about the optimality of theoretical intuitions. A new variant of multi-objective bandits, generalizing the literature, is also proposed. More specifically, the new framework considers that the preference articulation between the objectives comes from a nonobservable function, typically a user (expert), and suggests integrating this expert into the learning loop. The concept of preference radius is then introduced to evaluate the robustness of the expert’s preference function to errors in the estimation of the environment. A variant of the TS algorithm, TS-MVN, is introduced and analyzed. Empirical experiments support the theoreitcal results and provide a preliminary investigation of questions about the presence of an expert in the learning loop. Put together, structured and multi-objective bandits approaches are then used to tackle the online STED imaging parameters optimization problem. Experimental results on a real microscopy setting and with real neural samples show that the proposed technique makes it possible to significantly accelerate the process of parameters characterization and facilitate the acquisition of images relevant to experts in neuroscience.
29

Application of reinforcement learning algorithms to software verification

Moturu, Krishna Priya Darsini 12 April 2018 (has links)
Cette thèse présente une forme nouvelle de vérification de systèmes probabilistes en utilisant des algorithmes d’apprentissage par renforcement. Le développement de très grands et très complexes systèmes logiciels est souvent l’aboutissement d’un travail d’équipe. L’objectif est de satisfaire le client en lui livrant le produit spécifié, sans erreurs et à temps. Des erreurs humaines sont toujours faites lors du développement de tels systèmes, mais elles sont d’autant plus faciles à corriger si elles sont détectées tôt dans le processus de production. Pour ce faire, on a recours à des méthodes de vérification et de validation. Dans cette thèse, nous avons réussi à adapter des tech- niques d’apprentissage supervisé pour solutionner des problèmes de vérification de logi- ciels. Cette approche nouvelle peut-être utilisée, même si le modle complet n’est pas disponible, ce qui est une nouveauté en théorie de la vérification probabiliste. Dans cette thèse, nous ne nous intéressons pas seulement à vérifier si, oui ou non, un système se comporte exactement comme ses spécifications, mais aussi, à trouver, dans la négative, à quel point il s’en écarte. / This thesis presents a novel form of system verification through reinforcement learning algorithms. Large and complex software systems are often developed as a team effort. The aim of the development is to satisfy the customer by delivering the right product, with the right quality, and in time. Errors made by developers will always occur when a system is developed, but their effect can be reduced by removing them as early as possible. Software verification and validation are activities that are conducted to im- prove product quality. In this thesis we will adapt the techniques used in reinforcement learning to Software verification to verify if implemented system meets its specifica- tions. This new approach can be used even if the complete model of the system is not available, which is new in probabilistic verification. This thesis main aim is not only to answer the question whether the system behaves according to its specifications but also to find the degree of divergence between the system and its specifications.
30

Communication inter-véhicules et route-à-véhicule : apprentissage de la communication inter-véhicules

Grégoire-Girard, Pierre-Luc 13 April 2018 (has links)
L'industrie des transports est un acteur important de l'économie mondiale. Des millions d'emplois sont touchés de près ou de loin par cette industrie. De plus, le nombre de véhicules sur terre ne cesse d'augmenter et il est rendu courant dans plusieurs pays industrialisés d'avoir plus d'une voiture par famille. Tout cela entraîne également son lot de problèmes, notamment au niveau de la sécurité routière et de la pollution. Depuis des décennies, des compagnies privées et des organisations publiques se penchent sur ces problèmes. Ils innovent constamment en améliorant les véhicules et les infrastructures du réseau routier. Les voitures ne sont pas seulement de plus en plus sécuritaires mais aussi de plus en plus confortables et conviviales. Cependant, la plupart des systèmes intelligents présents dans les voitures acquièrent de l'information grâce aux capteurs. Ceux-ci sont limités et certaines données ne peuvent être accessibles aux capteurs. La solution repose donc sur l'utilisation de la communication sans fil pour échanger des informations entre les véhicules et entre les infrastructures et les véhicules. Le sujet de cette maîtrise porte sur la communication inter-véhicules et route-à-véhicule. Elle se divise en deux parties. Tout d'abord, dans le cadre du projet AUTO21 au laboratoire DAMAS, un protocole de communication inter-véhicules doit être développé pour implanter un système de régulateur de vitesse collaboratif et adaptatif (" Collaborative Adaptative Cruise Control ", CACC). La théorie multi-agents et l'apprentissage par renforcement sont utilisés pour apprendre une politique de communication optimale. La deuxième partie porte sur la communication route-à-véhicule appliquée au problème d'optimisation des feux de signalisation. Deux approches multiagents sont utilisées pour optimiser la gestion des feux. Les agents placés aux intersections reçoivent de l'information relative au trafic grâce à la communication route-à-véhicule et tentent d'adopter une politique de contrôle optimale.

Page generated in 0.1531 seconds