Global ETD Search

21	Le transfert adaptatif en apprentissage par renforcement : application à la simulation de schéma de jeux tactiques Pamponet Machado, Aydano 24 June 2009 (has links) (PDF) Une voie permettant l'accélération l'apprentissage par renforcement est l'exploration à l'aide des connaissances du domaine. La plus part des algorithmes existants, intitulées transfert de connaissance, sont basés sur une hypothèse implicite : la bonne qualité de la connaissance disponible sur la tache courante. Lorsque cette hypothèse n'est pas respectée, les performances se dégradent bien en dessous des celles des méthodes standards. Ce travail de thèse propose des algorithmes de transfert capables de s'adapter à la qualité de la connaissance disponible. Pour le faire, nous introduisons un paramètre nommé le taux de transfert, qui contrôle à quel point l'algorithme se fiera à la connaissance disponible. De plus, nous optimisons ce taux afin de faire meilleur usage de cette politique, en ajoutant de la robustesse à nos algorithmes. Ces algorithmes sont évalués sur un problème jouet (le gridworld), et sur une application d'aide à l'entraineur qui simule une situation de jeu donnée. transfert de connaissance apprentissage par renforcement systèmes multiagent gridworld simulation situation de jeu
22	Contrôle des interactions orales entre humain et machine : approche d'apprentissage machine Nguyen, Minh-Quang 03 1900 (has links) (PDF) Les techniques de reconnaissance et de synthèse vocale deviennent de plus en plus performantes et robustes, ce qui facilite la création des applications de dialogue oral humain-machine. Ce sont des applications à partir desquelles la machine dialogue oralement avec l'humain en imitant l'acte de communication des humains. Cependant, le dialogue entre l'humain et la machine manque encore de naturel, de souplesse et est parfois même agaçant. Alors que les recherches se sont orientées vers l'aspect acoustique et sémantique du signal de la parole, d'autres se sont positionnées au niveau de l'apprentissage de la machine. Cette technique consiste à lui apprendre une stratégie du dialogue. La stratégie optimale du dialogue permet à l'humain et à la machine de communiquer de manière efficace. La question qui se pose en informatique cognitive est de savoir comment une machine peut apprendre des séquences de comportements, en l'occurrence, des énoncés du langage naturel qui, lorsque confrontées à une séquence effective, doivent être aptes à interagir avec celui qui a ces comportements (humains)? . Plus généralement, l'un des domaines importants de recherche en informatique cognitive est celui de la représentation des connaissances qu'il faut construire pour permettre à la machine d'effectuer une tâche de type intelligence artificielle. Pour ce faire, il existe plusieurs approches. Quelle que soit celle retenue, il faut d'abord savoir quelle est sa représentation, ensuite, savoir comment transférer ces connaissances à la machine pour qu'elle puisse apprendre afin d'améliorer sa performance. Ce transfert relève de trois aspects fondamentaux de notre thèse : représentation des connaissances, acquisition des connaissances et recherche d'information. Notre recherche ne vise cependant pas des réponses abstraites. Elle les explore directement dans un domaine spécifique où ces connaissances sont éminemment requises et doivent être apprises: le dialogue oral humain-machine qui se réalise dans un système de dialogue oral humain-machine. Dans ce système, nous nous concentrerons sur l'aspect stratégique du dialogue considéré comme étant important pour contrôler les interactions orales entre l'humain et la machine [ENG05], [HEN05], [LEV00], [PIE04], [SCH05], [SCH06], [SCH99]. Une stratégie optimale du dialogue permet à la machine de contrôler efficacement ces interactions orales. Nos hypothèses de solutions à appliquer dans le domaine du dialogue sont: 1-La connaissance que représente la stratégie du dialogue peut être vue comme un processus dynamique qui est composé de séquences d'actions. Il traduit un comportement stochastique, dynamique et coopératif avec lequel deux interlocuteurs s'engagent dans un dialogue. Ce processus peut être décrit comme le processus de décision de Markov (état, action, transition, récompense). 2-Pour transférer cette connaissance de l'humain à la machine, nous proposerons une approche d'apprentissage par renforcement avec l'aide d'un utilisateur simulé (Pietquin et Beaufort, 2005 ; J. Schatzmann et al., 2006). Cette approche permet à la machine d'acquérir les connaissances des stratégies optimales du dialogue. 3-Cette stratégie optimale est le résultat, non seulement de la formalisation des connaissances et de l'apprentissage, mais est aussi obtenue grâce à la recherche d'information qui se manifeste à travers un mécanisme de transition entre les états qu'offre le modèle de Markov. Nous démontrerons la faisabilité de notre approche par la réalisation d'un prototype qui met en évidence le processus d'apprentissage proposé. Le dialogue issu de cet apprentissage sera simulé oralement par une interface Windows programmé en Visual Studio C++/.Net dans le laboratoire de R&D de Nuance Communications, Inc. Ainsi, nous démontrerons qu'un système avec une stratégie apprise, modélisée selon nos hypothèses de représentation et d'acquisition des connaissances sera meilleur qu'un système sans stratégie apprise grâce à cette approche. ______________________________________________________________________________ MOTS-CLÉS DE L'AUTEUR: représentation des connaissances, acquisition des connaissances, recherche d'information, contrôle des interactions, intelligence artificielle, processus de décision de Markov, apprentissage machine par renforcement, stratégie du dialogue, système de dialogue oral humain-machine, utilisateur simulé. Interaction homme-machine Communication orale Représentation des connaissances
23	Communication inter-véhicules et route-à-véhicule apprentissage de la communication inter-véhicules / Grégoire-Girard, Pierre-Luc. January 1900 (has links) (PDF) Thèse (M.Sc)--Université Laval, 2008. / Titre de l'écran-titre (visionné le 25 mars 2009). Bibliogr.
24	Traitements conscient et non-conscient des régularités temporelles : Modélisation et neuroimagerie / Conscious and unconscious processing of temporal regularities : a joint modeling and experimental approach Wacongne, Catherine 07 July 2014 (has links) Que va-t-il arriver ensuite ? Les stimuli naturels ont tendance à se suivre d'une façon prédictible. De nombreux domaines de la psychologie et des neurosciences ont montré que le cerveau et le comportement des humains sont sensibles à la structure temporelle des stimuli sensoriels et sont capables de l'exploiter de multiples façons : pour prendre des décisions appropriées, encoder l'information de façon efficace, réagir plus vite aux événements prédictibles ou encore orienter l'attention vers les stimuli inattendus. Si de nombreuses aires cérébrales sont sensibles aux régularités temporelles (RT), toutes ne semblent pas traiter les mêmes types de structure temporelle. L'accès conscient aux stimuli semble jouer un rôle important dans la capacité à apprendre certains types de RT. Cette thèse explore l'organisation hiérarchique du traitement des RT et les propriétés computationnelles propres à leur traitement conscient et non conscient en combinant un travail de modélisation et des expériences de neuroimagerie en magnétoencéphalographie et électroencéphalographie (MEEG). Un premier modèle neuronal basé sur les principes du codage prédictif reproduit les principales propriétés du traitement préattentif des sons purs dans le cortex auditif indexé par le potentiel évoqué appelé négativité d'incongruence (MMN). Une seconde étude en MEEG met en évidence l'existence d'une hiérarchie de processus prédictifs dans le cortex auditif. Enfin, un second modèle explore les contraintes et les nouvelles propriétés computationnelles qui sont associées à l'accès conscient des stimuli à un système de mémoire de travail capable de maintenir indéfiniment un nombre limité d'objets. / What is going to happen next? Natural stimuli tend to follow each other in a reproducible way. Multiple fields of neuroscience and psychology bring evidence that human’s brain and behavior are sensitive to the temporal structure of stimuli and are able to exploit them in multiple ways: to make appropriate decisions, encode efficiently information, react faster to predictable stimuli or orient attention towards surprising ones… Multiple brain areas show sensitivity to the temporal structure of events. However, all areas do not seem to be sensitive to the same kind of temporal regularities. Conscious access to the stimuli seems to play a key role in some of these dissociations and better understanding this role could improve the current diagnostic tools for non-communicative patients. This thesis explores the hierarchical organization of the processing of temporal regularities and the computational properties of conscious and unconscious levels of processing by combining a modeling approach with neuroimaging experiments using magnetoencephalography and electroencephalography (MEEG). First, a plausible neuronal model based on predictive coding principles reproduces the main properties of the preattentive processing of pure tones in the auditory cortex indexed by the evoked potential mismatch negativity (MMN). Second, a MEEG experiment provides evidence for a hierarchical organization of multiple predictive processes in the auditory cortex. Finally, a second model explores the new computational properties and constraints associated to the access of stimuli to a conscious space with a working memory able to maintain information for an arbitrary time but with limited capacity. Audition Codage prédictif Traitement hiérarchique Modélisation neuronale Apprentissage par renforcement Conscience Predictive processes Consciousness 612.82
25	A General Sequential Model for Constrained Classification / Modèles Sequentiels pour la Classification Multiclasse, Sparse et Budgetée Dulac-Arnold, Gabriel 07 February 2014 (has links) Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes. Apprentissage statistique Apprentissage par renforcement Processus de décision markovien Processus sequential Sequential process Markov's decision process 004
26	Communication inter-véhicules et route-à-véhicule : apprentissage de la communication inter-véhicules Grégoire-Girard, Pierre-Luc 13 April 2018 (has links) L'industrie des transports est un acteur important de l'économie mondiale. Des millions d'emplois sont touchés de près ou de loin par cette industrie. De plus, le nombre de véhicules sur terre ne cesse d'augmenter et il est rendu courant dans plusieurs pays industrialisés d'avoir plus d'une voiture par famille. Tout cela entraîne également son lot de problèmes, notamment au niveau de la sécurité routière et de la pollution. Depuis des décennies, des compagnies privées et des organisations publiques se penchent sur ces problèmes. Ils innovent constamment en améliorant les véhicules et les infrastructures du réseau routier. Les voitures ne sont pas seulement de plus en plus sécuritaires mais aussi de plus en plus confortables et conviviales. Cependant, la plupart des systèmes intelligents présents dans les voitures acquièrent de l'information grâce aux capteurs. Ceux-ci sont limités et certaines données ne peuvent être accessibles aux capteurs. La solution repose donc sur l'utilisation de la communication sans fil pour échanger des informations entre les véhicules et entre les infrastructures et les véhicules. Le sujet de cette maîtrise porte sur la communication inter-véhicules et route-à-véhicule. Elle se divise en deux parties. Tout d'abord, dans le cadre du projet AUTO21 au laboratoire DAMAS, un protocole de communication inter-véhicules doit être développé pour implanter un système de régulateur de vitesse collaboratif et adaptatif (" Collaborative Adaptative Cruise Control ", CACC). La théorie multi-agents et l'apprentissage par renforcement sont utilisés pour apprendre une politique de communication optimale. La deuxième partie porte sur la communication route-à-véhicule appliquée au problème d'optimisation des feux de signalisation. Deux approches multiagents sont utilisées pour optimiser la gestion des feux. Les agents placés aux intersections reçoivent de l'information relative au trafic grâce à la communication route-à-véhicule et tentent d'adopter une politique de contrôle optimale. QA 76.05 UL 2008 Systèmes de transport intelligents Intelligence artificielle répartie
27	Pilotage en temps réel d'une ligne de finition de bois d'oeuvre intégrant du séchage à haute fréquence à l'aide de l'apprentissage par renforcement Tremblay, François-Alexandre 12 November 2023 (has links) Titre de l'écran-titre (visionné le 26 juin 2023) / L'industrie des produits du bois évolue dans un contexte de forte compétition qui incite les scieries à se tourner vers des procédés plus agiles, tel que le séchage du bois en continu par micro-ondes, une technologie récemment brevetée. Cette technologie permet de corriger le séchage des planches une à la fois, par opposition au séchage classique par lot. L'intégration de ce séchage de précision à une ligne de finition traditionnelle complexifie toutefois la logistique de l'entreprise. En effet, bien que la technologie permette d'améliorer la qualité du bois, la surcharge de planches trop humides occasionne des goulots d'étranglement et une réduction de la productivité. Il est donc nécessaire de développer des systèmes décisionnels qui déterminent en temps réel si une planche humide doit passer au séchoir micro-onde afin d'améliorer sa qualité ou continuer son chemin vers la fin de la ligne de finition. Ce projet consiste à concevoir et à évaluer des algorithmes de prises de décisions en temps réel sur une ligne de finition afin de maximiser la valeur générée par unité de temps. Compte tenu de l'aspect séquentiel des décisions (chaque décision affecte les taux actuels et futurs d'occupation des différents équipements, la qualité du bois et la productivité de l'usine), l'apprentissage par renforcement est utilisé. Dans ce sous-domaine de l'intelligence artificielle, les algorithmes apprennent des politiques décisionnelles optimales, pour une fonction objectif donnée, par interaction avec leur environnement à travers un processus « d'essais-erreurs ». Nous montrons le potentiel de l'apprentissage par renforcement à travers un modèle de simulation imitant le contexte fortement dynamique des scieries. Les politiques d'apprentissage par renforcement apprises ont permis d'augmenter la productivité d'au moins 19% par rapport à une heuristique semblable à celles utilisées actuellement en industrie. Ces politiques sont aussi relativement robustes aux perturbations soudaines qui peuvent survenir dans l'environnement. / The wood products industry is evolving in a context of strong competition encouraging sawmills towards more agile processes such as continuous wood drying using microwaves, a recently patented technology. This technology makes it possible to correct wood drying one plank at a time as opposed to traditional batch drying. However, the integration of this precision drying process into traditional finishing operations complicates sawmill's logistics. Although the technology improves wood quality, the overload of wet lumber causes bottlenecks and a reduction of productivity. It is therefore necessary to develop new decision-making systems to determine in real time whether wet lumber should be microwaved to improve its quality or continue on its way towards the end of the finishing line. This project consists of designing and evaluating real-time decision-making algorithms on a finishing line in order to maximize the value generated per unit of time, a constant challenge in the Canadian wood products industry. Considering the sequential aspect of decisions (each decision affects current and future occupancy rates of different equipment, wood quality and plant productivity), reinforcement learning (RL) is used. In this subfield of artificial intelligence, algorithms learn optimal decision sequences by interacting with their environment through a "trial and error" process. We show the potential of RL through a simulation model mimicking the real and highly dynamic factory context. RL policies learned increase productivity on wet lumber by at least 19% compared to the heuristic currently used in industry. These policies are also relatively robust to sudden disturbances that may occur in the system. Commande en temps réel. Bois d'œuvre -- Finition. Bois -- Séchage. Prise de décision (Statistique)
28	Stochastic systems divergence through reinforcement learning Zhioua, Sami 13 April 2018 (has links) Les mathématiques offrent un cadre convenable pour raisonner rigoureusement sur les systèmes et phénomènes réels. Par exemple, en génie logiciel, les méthodes formelles sont parmi les outils les plus efficaces pour détecter les anomalies dans les logiciels. Plusieurs systèmes réels sont stochastiques par nature dans le sens où leur comportement est sujet à un aspect d'incertitude. La représentation de ce genre de systèmes requiert des modèles stochastiques comme les processus de Markov étiquetés (LMP), les processus de Markov décisionnels (MDP), etc. Cette thèse porte sur la quantification de la différence entre les systèmes stochastiques. Les contributions majeures sont : 1. une nouvelle approche pour quantifier la divergence entre les systèmes stochastiques basée sur l'apprentissage par renforcement, 2. une nouvelle famille de notions d'équivalence qui se situe entre l'équivalence par trace et la bisimulation, et 3. un cadre plus flexible pour la définition des notions d'équivalence qui se base sur les tests. Le résultat principal de la thèse est que l'apprentissage par renforcement, qui est une branche de l'intelligence artificielle particulièrement efficace en présence d'incertitude, peut être utilisé pour quantifier efficacement cette divergence. L'idée clé est de définir un MDP à partir des systèmes à comparer de telle sorte que la valeur optimale de cet MDP corresponde à la divergence entre eux. La caractéristique la plus attrayante de l'approche proposée est qu'elle est complètement indépendante des structures internes des systèmes à comparer. Pour cette raison, l'approche peut être appliquée à différents types de systèmes stochastiques. La deuxième contribution est une nouvelle famille de notions d'équivalence, que nous appelons moment, qui est plus forte que l'équivalence par trace mais plus faible que la bisimulation. Cette famille se définit naturellement à travers la coïncidence de moments de variable aléatoires (d'où son nom) et possède une caractérisation simple en terme de tests. Nous montrons que moment fait partie d'un cadre plus grand, appelé test-observation-equivalence (TOE), qui constitue la troisième contribution de cette thèse. Il s'agit d'un cadre plus flexible pour la définition des notions d'équivalence basé sur les tests. / Modelling real-life systems and phenomena using mathematical based formalisms is ubiquitous in science and engineering. The reason is that mathematics offer a suitable framework to carry out formal and rigorous analysis of these systems. For instance, in software engineering, formal methods are among the most efficient tools to identify flaws in software. The behavior of many real-life systems is inherently stochastic which requires stochastic models such as labelled Markov processes (LMPs), Markov decision processes (MDPs), predictive state representations (PSRs), etc. This thesis is about quantifying the difference between stochastic systems. The main contributions are: 1. a new approach to quantify the divergence between pairs of stochastic systems based on reinforcement learning, 2. a new family of equivalence notions which lies between trace equivalence and bisimulation, and 3. a refined testing framework to define equivalence notions. The important point of the thesis is that reinforcement learning (RL), a branch of artificial intelligence particularly efficient in presence of uncertainty, can be used to quantify efficiently the divergence between stochastic systems. The key idea is to define an MDP out of the systems to be compared and then to interpret the optimal value of the MDP as the divergence between them. The most appealing feature of the proposed approach is that it does not rely on the knowledge of the internal structure of the systems. Only a possibility of interacting with them is required. Because of this, the approach can be extended to different types of stochastic systems. The second contribution is a new family of equivalence notions, moment, that constitute a good compromise between trace equivalence (too weak) and bisimulation (too strong). This family has a natural definition using coincidence of moments of random variables but more importantly, it has a simple testing characterization. moment turns out to be part of a bigger framework called test-observation-equivalence (TOE), which we propose as a third contribution of this thesis. It is a refined testing framework to define equivalence notions with more flexibility. QA 76.05 UL 2008 Systèmes stochastiques Processus de Markov
29	Apprentissage d'une politique de gestion de ressources en temps réel : application au combat maritime Cinq-Mars, Patrick 17 April 2018 (has links) Dans le secteur de la défense, la majorité des processus de combat soulèvent des problèmes complexes, comme l'allocation de ressources. Le projet NEREUS cherche des méthodologies de planification et d'exécution de stratégies pour le centre de commandement et de contrôle (C2) d'une frégate canadienne. L'approche par apprentissage proposée dans ee mémoire permet de constater que de nouvelles stratégies découvertes par expérimentation peuvent se comparer à des doctrines préalablement conçues. Les processus de decision de Markov ont été utilisés pour construire un cadre de développement et modéliser des agents capables d'agir dans des environnements en temps réel. Un agent basé sur l'apprentissage par renforcement a donc été évalué dans un environnement de simulation de combat maritime et un formalisme issu du Weapon-Target Assignment a été utilisé pour définir le problème en temps réel. QA 76.05 UL 2010 C575
30	Déclinaisons de bandits et leurs applications Durand, Audrey 24 April 2018 (has links) Cette thèse s’intéresse à différentes variantes du problème des bandits, une instance simplifiée d’un problème de reinforcement learning (RL) dont l’accent est mis sur le compromis entre l’exploration et l’exploitation. Plus spécifiquement, l’accent est mis sur trois variantes, soient les bandits contextuels, structurés et multi-objectifs. Dans la première, un agent recherche l’action optimale dépendant d’un contexte donné. Dans la seconde, un agent recherche l’action optimale dans un espace potentiellement grand et caractérisé par une métrique de similarité. Dans la dernière, un agent recherche le compromis optimal sur un front de Pareto selon une fonction d’articulation des préférences non observable directement. La thèse propose des algorithmes adaptés à chacune de ces variantes, dont les performances sont appuyées par des garanties théoriques ou des expériences empiriques. Ces variantes de bandits servent de cadre à deux applications réelles et à haut potentiel d’impact, soient l’allocation de traitements adaptative pour la découverte de stratégies de traitement du cancer personnalisées, et l’optimisation en-ligne de paramètres d’imagerie microscopique à grande résolution pour l’acquisition efficace d’images utilisables en neuroscience. La thèse apporte donc des contributions à la fois algorithmiques, théoriques et applicatives. Une adaptation de l’algorithme best empirical sampled average (BESA), GP BESA, est proposée pour le problème des bandits contextuels. Son potentiel est mis en lumière par des expériences en simulation, lesquelles ont motivé le déploiement de la stratégie dans une étude sur des animaux en laboratoire. Les résultats, prometteurs, montrent que GP BESA est en mesure d’étendre la longévité de souris atteintes du cancer et ainsi augmenter significativement la quantité de données recueillies sur les sujets. Une adaptation de l’algorithme Thompson sampling (TS), Kernel TS, est proposée pour le problème des bandits structurés en reproducing kernel Hilbert space (RKHS). Une analyse théorique permet d’obtenir des garanties de convergence sur le pseudo-regret cumulatif. Des résultats de concentration pour la régression à noyau avec régularisation variable ainsi qu’une procédure d’ajustement adaptative de la régularisation basée sur l’estimation empirique de la variance du bruit sont également introduits. Ces contributions permettent de lever l’hypothèse classique sur la connaissance a priori de la variance du bruit en régression à noyau en-ligne. Des résultats numériques illustrent le potentiel de ces outils. Des expériences empiriques illustrent également la performance de Kernel TS et permettent de soulever des questionnements intéressants relativement à l’optimalité des intuitions théoriques. Une nouvelle variante de bandits multi-objectifs généralisant la littérature est proposée. Plus spécifiquement, le nouveau cadre considère que l’articulation des préférences entre les objectifs provient d’une fonction non observable, typiquement d’un utilisateur (expert), et suggère d’intégrer cet expert à la boucle d’apprentissage. Le concept des rayons de préférence est ensuite introduit pour évaluer la robustesse de la fonction de préférences de l’expert à des erreurs dans l’estimation de l’environnement. Une variante de l’algorithme TS, TS-MVN, est proposée et analysée. Des expériences empiriques appuient ces résultats et constituent une investigation préliminaire des questionnements relatifs à la présence d’un expert dans la boucle d’apprentissage. La mise en commun des approches de bandits structurés et multi-objectifs permet de s’attaquer au problème d’optimisation des paramètres d’imagerie STED de manière en-ligne. Les résultats expérimentaux sur un vrai montage microscopique et avec de vrais échantillons neuronaux montrent que la technique proposée permet d’accélérer considérablement le processus de caractérisation des paramètres et facilitent l’obtention rapide d’images pertinentes pour des experts en neuroscience. / This thesis deals with various variants of the bandits problem, wihch corresponds to a simplified instance of a RL problem with emphasis on the exploration-exploitation trade-off. More specifically, the focus is on three variants: contextual, structured, and multi-objective bandits. In the first, an agent searches for the optimal action depending on a given context. In the second, an agent searches for the optimal action in a potentially large space characterized by a similarity metric. In the latter, an agent searches for the optimal trade-off on a Pareto front according to a non-observable preference function. The thesis introduces algorithms adapted to each of these variants, whose performances are supported by theoretical guarantees and/or empirical experiments. These bandit variants provide a framework for two real-world applications with high potential impact: 1) adaptive treatment allocation for the discovery of personalized cancer treatment strategies; and 2) online optimization of microscopic imaging parameters for the efficient acquisition of useful images. The thesis therefore offers both algorithmic, theoretical, and applicative contributions. An adaptation of the BESA algorithm, GP BESA, is proposed for the problem of contextual bandits. Its potential is highlighted by simulation experiments, which motivated the deployment of the strategy in a wet lab experiment on real animals. Promising results show that GP BESA is able to extend the longevity of mice with cancer and thus significantly increase the amount of data collected on subjects. An adaptation of the TS algorithm, Kernel TS, is proposed for the problem of structured bandits in RKHS. A theoretical analysis allows to obtain convergence guarantees on the cumulative pseudo-regret. Concentration results for the regression with variable regularization as well as a procedure for adaptive tuning of the regularization based on the empirical estimation of the noise variance are also introduced. These contributions make it possible to lift the typical assumption on the a priori knowledge of the noise variance in streaming kernel regression. Numerical results illustrate the potential of these tools. Empirical experiments also illustrate the performance of Kernel TS and raise interesting questions about the optimality of theoretical intuitions. A new variant of multi-objective bandits, generalizing the literature, is also proposed. More specifically, the new framework considers that the preference articulation between the objectives comes from a nonobservable function, typically a user (expert), and suggests integrating this expert into the learning loop. The concept of preference radius is then introduced to evaluate the robustness of the expert’s preference function to errors in the estimation of the environment. A variant of the TS algorithm, TS-MVN, is introduced and analyzed. Empirical experiments support the theoreitcal results and provide a preliminary investigation of questions about the presence of an expert in the learning loop. Put together, structured and multi-objective bandits approaches are then used to tackle the online STED imaging parameters optimization problem. Experimental results on a real microscopy setting and with real neural samples show that the proposed technique makes it possible to significantly accelerate the process of parameters characterization and facilitate the acquisition of images relevant to experts in neuroscience. TK 7.5 2018 Processus gaussiens Espace de Hilbert

Search results