Global ETD Search

271	Monitorage des mesures physiologiques et des comportements répétitifs associés au stress chez les enfants ayant un trouble du spectre de l’autisme Dufour, Marie-Michèle 04 1900 (has links) Le trouble du spectre de l’autisme se caractérise par la présence de difficultés au plan de la communication sociale et par la présence de comportements répétitifs et d’intérêts restreints (American Psychiatric Association, 2013). Les enfants ayant un TSA présentent plusieurs difficultés concomitantes qui les rendent plus susceptibles de vivre des niveaux de stress élevés, comme des déficits dans la sphère de la communication, de la socialisation et des fonctions exécutives, ainsi que la présence de particularités sensorielles (Groden et al., 1994, 2005). Malgré que ces enfants soient plus à risque de vivre du stress, plusieurs enjeux méthodologiques rendent difficile sa mesure et plus particulièrement chez ceux qui sont non verbaux. Pour ces raisons, le recours aux mesures physiologiques pour évaluer le stress auprès de cette clientèle est d’une grande pertinence. Par contre, les sensibilités sensorielles de ces enfants pourraient les rendre plus susceptibles de ne pas tolérer ces mesures. Le premier article de cette thèse vise donc à évaluer l’efficacité de l’intervention comportementale renforcement différentiel d’autres comportements (differential reinforcement of other behavior; DRO) pour augmenter la tolérance au port d’une ceinture cardiaque chez deux enfants non verbaux ayant un TSA. Les résultats obtenus démontrent que cette intervention a été efficace pour amener ces enfants à augmenter leur tolérance au port du dispositif cardiaque. Un autre aspect qui a reçu beaucoup d’attention dans les dernières années est l’implication du stress dans l’explication des comportements répétitifs et stéréotypés chez les personnes ayant un TSA. Les résultats des études antérieures sont contradictoires (de Vaan et al., 2018; Gabriels et al., 2013; Hutt et al., 1975; Lydon et al., 2015; Yang et al., 2015) et ont principalement utilisé des mesures indirectes des comportements répétitifs. Pour cette raison, le deuxième article de cet ouvrage vise à évaluer le lien entre le cortisol salivaire, le rythme cardiaque et des mesures d’observations directes de la stéréotypie chez quatre enfants minimalement verbaux ayant un TSA. Les résultats montrent que le cortisol et le rythme cardiaque sont significativement liés à la stéréotypie globale et motrice, sans que ces liens soient observés avec la stéréotypie vocale. Finalement, mesurer directement les comportements stéréotypés demande beaucoup de ressources, ce qui pourrait expliquer la prépondérance des mesures indirectes dans les études. Comme pour l’évaluation du stress, il importe de réfléchir aux méthodes alternatives abordables et accessibles qui pourraient améliorer la mesure de ces comportements. Le troisième article de cette thèse a évalué l’efficacité d’un algorithme d’intelligence artificielle (IA) dans la reconnaissance de la stéréotypie vocale chez des enfants ayant un TSA. Les résultats démontrent que la performance de l’algorithme est supérieure à la reconnaissance due au hasard. Bien que des recherches futures soient nécessaires pour augmenter l’efficacité de cette méthode, l’IA représente une technologie novatrice ayant le potentiel d’améliorer significativement les méthodes actuellement utilisées pour mesurer la stéréotypie. En conclusion, le présent ouvrage explore différentes avenues novatrices pour mieux comprendre et de monitorer la stéréotypie chez les enfants ayant un TSA. / Autism spectrum disorder (ASD) is characterized by the presence of difficulties in social communication and the presence of repetitive behaviors and restricted interests (American Psychiatric Association, 2013). Children with ASD have several concurrent difficulties, such as deficits in communication, socialization, and executive function, as well as the presence of sensory peculiarities that make them more likely to experience high levels of stress (Groden et al., 2005). Although these children are at increased risk for stress, a number of methodological issues make it difficult to measure, particularly in non-verbal children. For these reasons, the use of physiological measures to assess stress among this group is highly relevant. On the other hand, the sensory sensitivities of these children could potentially make them more likely to be intolerant to these measures. Therefore, the first study in this thesis aims to evaluate the effectiveness of differential reinforcement of other behavior (DRO) to increase compliance with wearing a heart rate monitor in two non-verbal children with ASD. The results obtained portray that this intervention was effective in getting these children to increase their compliance to wearing a cardiac device. Another aspect that has received much attention in recent years is the involvement of stress in explaining repetitive behaviors in individuals with ASD. However, the results of previous studies have been producing contradictory results (de Vaan et al., 2018; Gabriels et al., 2013; Hutt et al., 1975; Lydon et al., 2015; Yang et al., 2015), and have mainly been using indirect measures of stereotypy. For this reason, the second study in this thesis aims to evaluate the relationship between salivary cortisol, heart rate, and direct observational measures of stereotypy in four minimally verbal children with ASD. The results show that cortisol and heart rate are significantly related to global and motor stereotypy, but not to vocal stereotypy. Finally, measuring stereotypy requires a lot of resources, which could explain the preponderance of indirect measuring in studies on stress. As with the measurement of stress, it is important to consider affordable and alternative methods that could improve the measurement of these behaviors, and therefore the third study evaluated the effectiveness of an artificial intelligence (AI) algorithm in the recognition of vocal stereotypy in children with ASD. The results show that the performance of the algorithm is superior to recognition due to chance. Although future research is needed to increase the effectiveness of this method, AI represents an innovative technology with the potential to significantly improve the methods currently used to measure vocal stereotypy. In conclusion, this thesis explores different innovative methods to better understand and monitor stereotypy in children with ASD. autisme stéréotypie comportements répétitifs stress cortisol salivaire intelligence artificielle autism stereotypy repetitive behavior stress heart rate salivary cortisol artificial intelligence
272	On inverse reinforcement learning and dynamic discrete choice for predicting path choices Kristensen, Drew 11 1900 (has links) La modélisation du choix d'itinéraire est un sujet de recherche bien étudié avec des implications, par exemple, pour la planification urbaine et l'analyse des flux d'équilibre du trafic. En raison de l'ampleur des effets que ces problèmes peuvent avoir sur les communautés, il n'est pas surprenant que plusieurs domaines de recherche aient tenté de résoudre le même problème. Les défis viennent cependant de la taille des réseaux eux-mêmes, car les grandes villes peuvent avoir des dizaines de milliers de segments de routes reliés par des dizaines de milliers d'intersections. Ainsi, les approches discutées dans cette thèse se concentreront sur la comparaison des performances entre des modèles de deux domaines différents, l'économétrie et l'apprentissage par renforcement inverse (IRL). Tout d'abord, nous fournissons des informations sur le sujet pour que des chercheurs d'un domaine puissent se familiariser avec l'autre domaine. Dans un deuxième temps, nous décrivons les algorithmes utilisés avec une notation commune, ce qui facilite la compréhension entre les domaines. Enfin, nous comparons les performances des modèles sur des ensembles de données du monde réel, à savoir un ensemble de données couvrant des choix d’itinéraire de cyclistes collectés dans un réseau avec 42 000 liens. Nous rapportons nos résultats pour les deux modèles de l'économétrie que nous discutons, mais nous n'avons pas pu générer les mêmes résultats pour les deux modèles IRL. Cela était principalement dû aux instabilités numériques que nous avons rencontrées avec le code que nous avions modifié pour fonctionner avec nos données. Nous proposons une discussion de ces difficultés parallèlement à la communication de nos résultats. / Route choice modeling is a well-studied topic of research with implications, for example, for city planning and traffic equilibrium flow analysis. Due to the scale of effects these problems can have on communities, it is no surprise that diverse fields have attempted solutions to the same problem. The challenges, however, come with the size of networks themselves, as large cities may have tens of thousands of road segments connected by tens of thousands of intersections. Thus, the approaches discussed in this thesis will be focusing on the performance comparison between models from two different fields, econometrics and inverse reinforcement learning (IRL). First, we provide background on the topic to introduce researchers from one field to become acquainted with the other. Secondly, we describe the algorithms used with a common notation to facilitate this building of understanding between the fields. Lastly, we aim to compare the performance of the models on real-world datasets, namely covering bike route choices collected in a network of 42,000 links. We report our results for the two models from econometrics that we discuss, but were unable to generate the same results for the two IRL models. This was primarily due to numerical instabilities we encountered with the code we had modified to work with our data. We provide a discussion of these difficulties alongside the reporting of our results. Route Choice Modeling Modélisation de choix d'itinéraire Traffic Flow Prediction Prévision des flux de trafic Dynamic Discrete Choice Models Modèles de choix discret dynamique Inverse Reinforcement Learning Apprentissage par renforcement inverse
273	Leveraging deep reinforcement learning in the smart grid environment Desage, Ysaël 05 1900 (has links) L’apprentissage statistique moderne démontre des résultats impressionnants, où les or- dinateurs viennent à atteindre ou même à excéder les standards humains dans certaines applications telles que la vision par ordinateur ou les jeux de stratégie. Pourtant, malgré ces avancées, force est de constater que les applications fiables en déploiement en sont encore à leur état embryonnaire en comparaison aux opportunités qu’elles pourraient apporter. C’est dans cette perspective, avec une emphase mise sur la théorie de décision séquentielle et sur les recherches récentes en apprentissage automatique, que nous démontrons l’applica- tion efficace de ces méthodes sur des cas liés au réseau électrique et à l’optimisation de ses acteurs. Nous considérons ainsi des instances impliquant des unités d’emmagasinement éner- gétique ou des voitures électriques, jusqu’aux contrôles thermiques des bâtiments intelligents. Nous concluons finalement en introduisant une nouvelle approche hybride qui combine les performances modernes de l’apprentissage profond et de l’apprentissage par renforcement au cadre d’application éprouvé de la recherche opérationnelle classique, dans le but de faciliter l’intégration de nouvelles méthodes d’apprentissage statistique sur différentes applications concrètes. / While modern statistical learning is achieving impressive results, as computers start exceeding human baselines in some applications like computer vision, or even beating pro- fessional human players at strategy games without any prior knowledge, reliable deployed applications are still in their infancy compared to what these new opportunities could fathom. In this perspective, with a keen focus on sequential decision theory and recent statistical learning research, we demonstrate efficient application of such methods on instances involving the energy grid and the optimization of its actors, from energy storage and electric cars to smart buildings and thermal controls. We conclude by introducing a new hybrid approach combining the modern performance of deep learning and reinforcement learning with the proven application framework of operations research, in the objective of facilitating seamlessly the integration of new statistical learning-oriented methodologies in concrete applications. Buildings Deep Learning Deep Reinforcement Learning Energy Consumption Optimal Control Optimization Power Consumption Smart Grid Bâtiments Apprentissage Profond Apprentissage par Renforcement Optimisation Contrôle
274	Data-efficient reinforcement learning with self-predictive representations Schwarzer, Max 08 1900 (has links) L'efficacité des données reste un défi majeur dans l'apprentissage par renforcement profond. Bien que les techniques modernes soient capables d'atteindre des performances élevées dans des tâches extrêmement complexes, y compris les jeux de stratégie comme le StarCraft, les échecs, le shogi et le go, ainsi que dans des domaines visuels exigeants comme les jeux Atari, cela nécessite généralement d'énormes quantités de données interactives, limitant ainsi l'application pratique de l'apprentissage par renforcement. Dans ce mémoire, nous proposons la SPR, une méthode inspirée des récentes avancées en apprentissage auto-supervisé de représentations, conçue pour améliorer l'efficacité des données des agents d'apprentissage par renforcement profond. Nous évaluons cette méthode sur l'environement d'apprentissage Atari, et nous montrons qu'elle améliore considérablement les performances des agents avec un surcroît de calcul modéré. Lorsqu'on lui accorde à peu près le même temps d'apprentissage qu'aux testeurs humains, un agent d'apprentissage par renforcement augmenté de SPR atteint des performances surhumaines dans 7 des 26 jeux, une augmentation de 350% par rapport à l'état de l'art précédent, tout en améliorant fortement les performances moyennes et médianes. Nous évaluons également cette méthode sur un ensemble de tâches de contrôle continu, montrant des améliorations substantielles par rapport aux méthodes précédentes. Le chapitre 1 présente les concepts nécessaires à la compréhension du travail présenté, y compris des aperçus de l'apprentissage par renforcement profond et de l'apprentissage auto-supervisé de représentations. Le chapitre 2 contient une description détaillée de nos contributions à l'exploitation de l'apprentissage de représentation auto-supervisé pour améliorer l'efficacité des données dans l'apprentissage par renforcement. Le chapitre 3 présente quelques conclusions tirées de ces travaux, y compris des propositions pour les travaux futurs. / Data efficiency remains a key challenge in deep reinforcement learning. Although modern techniques have been shown to be capable of attaining high performance in extremely complex tasks, including strategy games such as StarCraft, Chess, Shogi, and Go as well as in challenging visual domains such as Atari games, doing so generally requires enormous amounts of interactional data, limiting how broadly reinforcement learning can be applied. In this thesis, we propose SPR, a method drawing from recent advances in self-supervised representation learning designed to enhance the data efficiency of deep reinforcement learning agents. We evaluate this method on the Atari Learning Environment, and show that it dramatically improves performance with limited computational overhead. When given roughly the same amount of learning time as human testers, a reinforcement learning agent augmented with SPR achieves super-human performance on 7 out of 26 games, an increase of 350% over the previous state of the art, while also strongly improving mean and median performance. We also evaluate this method on a set of continuous control tasks, showing substantial improvements over previous methods. Chapter 1 introduces concepts necessary to understand the work presented, including overviews of Deep Reinforcement Learning and Self-Supervised Representation learning. Chapter 2 contains a detailed description of our contributions towards leveraging self-supervised representation learning to improve data-efficiency in reinforcement learning. Chapter 3 provides some conclusions drawn from this work, including a number of proposals for future work. Deep learning Reinforcement learning Self-supervised learning Representation learning Apprentissage profond Apprentissage par renforcement Apprentissage auto-supervisé Apprentissage de représentations
275	Deep reinforcement learning for multi-modal embodied navigation Weiss, Martin 12 1900 (has links) Ce travail se concentre sur une tâche de micro-navigation en plein air où le but est de naviguer vers une adresse de rue spécifiée en utilisant plusieurs modalités (par exemple, images, texte de scène et GPS). La tâche de micro-navigation extérieure s’avère etre un défi important pour de nombreuses personnes malvoyantes, ce que nous démontrons à travers des entretiens et des études de marché, et nous limitons notre définition des problèmes à leurs besoins. Nous expérimentons d’abord avec un monde en grille partiellement observable (Grid-Street et Grid City) contenant des maisons, des numéros de rue et des régions navigables. Ensuite, nous introduisons le Environnement de Trottoir pour la Navigation Visuelle (ETNV), qui contient des images panoramiques avec des boîtes englobantes pour les numéros de maison, les portes et les panneaux de nom de rue, et des formulations pour plusieurs tâches de navigation. Dans SEVN, nous formons un modèle de politique pour fusionner des observations multimodales sous la forme d’images à résolution variable, de texte visible et de données GPS simulées afin de naviguer vers une porte d’objectif. Nous entraînons ce modèle en utilisant l’algorithme d’apprentissage par renforcement, Proximal Policy Optimization (PPO). Nous espérons que cette thèse fournira une base pour d’autres recherches sur la création d’agents pouvant aider les membres de la communauté des gens malvoyantes à naviguer le monde. / This work focuses on an Outdoor Micro-Navigation (OMN) task in which the goal is to navigate to a specified street address using multiple modalities including images, scene-text, and GPS. This task is a significant challenge to many Blind and Visually Impaired (BVI) people, which we demonstrate through interviews and market research. To investigate the feasibility of solving this task with Deep Reinforcement Learning (DRL), we first introduce two partially observable grid-worlds, Grid-Street and Grid City, containing houses, street numbers, and navigable regions. In these environments, we train an agent to find specific houses using local observations under a variety of training procedures. We parameterize our agent with a neural network and train using reinforcement learning methods. Next, we introduce the Sidewalk Environment for Visual Navigation (SEVN), which contains panoramic images with labels for house numbers, doors, and street name signs, and formulations for several navigation tasks. In SEVN, we train another neural network model using Proximal Policy Optimization (PPO) to fuse multi-modal observations in the form of variable resolution images, visible text, and simulated GPS data, and to use this representation to navigate to goal doors. Our best model used all available modalities and was able to navigate to over 100 goals with an 85% success rate. We found that models with access to only a subset of these modalities performed significantly worse, supporting the need for a multi-modal approach to the OMN task. We hope that this thesis provides a foundation for further research into the creation of agents to assist members of the BVI community to safely navigate. Embodied navigation Neural networks Reinforcement learning Multimodal representations Assistive technology Blind and visually impaired Navigation incarnée Les réseaux de neurones Apprentissage par renforcement Représentations multimodales La technologie d’assistance Aveugles et malvoyants
276	Interacting stochastic systems with individual and collective reinforcement / Systèmes stochastiques en interaction avec des renforcements individuels et collectifs Mirebrahimi, Seyedmeghdad 05 September 2019 (has links) L'urne de Polya est l'exemple typique de processus stochastique avec renforcement. La limite presque sûre (p.s.) en temps existe, est aléatoire et non dégénérée. L'urne de Friedman est une généralisation naturelle dont la limite (proportion asymptotique en temps) n'est plus aléatoire. De nombreux modèles aléatoires sont fondés sur des processus de renforcement comme pour la conception d'essais cliniques au design adaptatif, en économie, ou pour des algorithmes stochastiques à des fins d'optimisation ou d'estimation non paramétrique. Dans ce mémoire, inspirés par de nombreux articles récents, nous introduisons une nouvelle famille de systèmes (finis) de processus de renforcement où l'interaction se traduit par un phénomène de renforcement collectif additif, de type champ moyen. Les deux taux de renforcement (l'un spécifique à chaque composante, l'autre collectif et commun à toutes les composantes) sont possiblement différents. Nous prouvons deux types de résultats mathématiques. Différents régimes de paramètres doivent être considérés : type de la règle (brièvement, Polya/Friedman), taux du renforcement. Nous prouvons l'existence d'une limite p.s. coommune à toutes les composantes du système (synchronisation). La nature de la limite (aléatoire/déterministe) est étudiée en fonction du régime de paramètres. Nous étudions également les fluctuations en prouvant des théorèmes centraux de la limite. Les changements d'échelle varient en fonction du régime considéré. Différentes vitesses de convergence sont ainsi établies. / The Polya urn is the paradigmatic example of a reinforced stochastic process. It leads to a random (non degenerated) almost sure (a.s.) time-limit.The Friedman urn is a natural generalization whose a.s. time-limit is not random anymore. Many stochastic models for applications are based on reinforced processes, like urns with their use in adaptive design for clinical trials or economy, stochastic algorithms with their use in non parametric estimation or optimisation. In this work, in the stream of previous recent works, we introduce a new family of (finite) systems of reinforced stochastic processes, interacting through an additional collective reinforcement of mean field type. The two reinforcement rules strengths (one componentwise, one collective) are tuned through (possibly) different rates. In the case the reinforcement rates are like 1/n, these reinforcements are of Polya or Friedman type as in urn contexts and may thus lead to limits which may be random or not. We state two kind of mathematical results. Different parameter regimes needs to be considered: type of reinforcement rule (Polya/Friedman), strength of the reinforcement. We study the time-asymptotics and prove that a.s. convergence always holds. Moreover all the components share the same time-limit (synchronization). The nature of the limit (random/deterministic) according to the parameters' regime is considered. We then study fluctuations by proving central limit theorems. Scaling coefficients vary according to the regime considered. This gives insights into the different rates of convergence. Renforcement Comportement asymptotique Convergence presque-Sûre Théorème central de la limite Synchronisation Fluctuations Reinforced stochastic processes Interacting random systems Almost sure convergence Central limit theorems Synchronisation Fluctuations 519.2
277	Generic autonomic service management for component-based applications / Gestion autonomique générique des services pour les applications à base de composants Belhaj, Nabila 25 September 2018 (has links) Au cours de la dernière décennie, la complexité des applications a considérablement évolué afin de répondre aux besoins métiers émergeants. Leur conception implique une composition distribuée de composants logiciels. Ces applications fournissent des services à travers les interactions métiers maintenues par leurs composants. De telles applications sont intrinsèquement en évolution dynamique en raison de la dynamicité de leurs contextes. En effet, elles évoluent dans des environnements qui changent tout en présentant des conditions très dynamiques durant leur cycle de vie d’exécution. De tels contextes représentent une lourde charge pour les développeurs aussi bien pour leurs tâches de conception que de gestion. Cela a motivé́ le besoin de renforcer l’autonomie de gestion des applications pour les rendre moins dépendantes de l’intervention humaine en utilisant les principes de l’Informatique Autonomique. Les Systèmes Informatiques Autonomes (SIA) impliquent l’utilisation des boucles autonomiques, dédiées aux systèmes afin de les aider à accomplir leurs tâches de gestion. Ces boucles ont pour objectif d’adapter leurs systèmes à la dynamicité de leurs contextes, en se basant sur une logique d’adaptation intégrée. Cette logique est souvent donnée par des règles statiques codées manuellement. La construction de ces règles demande beaucoup de temps tout en exigeant une bonne expertise. En fait, elles nécessitent une compréhension approfondie de la dynamicité du système afin de prédire les adaptations précises à apporter à celui-ci. Par ailleurs, une telle logique ne peut envisager tous les scénarios d’adaptation possibles, donc, ne sera pas en mesure de prendre en compte des adaptations pour des situations précédemment inconnues. Les SIA devraient donc être assez sophistiqués afin de pouvoir faire face à la nature dynamique de leurs contextes et de pouvoir apprendre par eux-mêmes afin d’agir correctement dans des situations inconnues. Les SIA devraient également être capables d’apprendre de leur propre expérience passée afin de modifier leur logique d’adaptation en fonction de la dynamicité de leurs contextes. Dans ce manuscrit, nous abordons les lacunes décrites en utilisant les techniques d’Apprentissage par Renforcement (AR) afin de construire notre logique d’adaptation. Cependant, les approches fondées sur l’AR sont connues pour leur mauvaise performance lors des premières phases d’apprentissage. Cette mauvaise performance entrave leur utilisation dans le monde réel des systèmes déployés. Par conséquent, nous avons amélioré cette logique d’adaptation avec des capacités d’apprentissage plus performantes avec une approche AR en multi-pas. Notre objectif est d’optimiser la performance de l’apprentissage et de le rendre plus efficace et plus rapide, en particulier durant les premières phases d’apprentissage. Nous avons aussi proposé́ un cadriciel générique visant à aider les développeurs dans la construction d’applications auto-adaptatives. Nous avons donc proposé de transformer des applications existantes en ajoutant des capacités d’autonomie et d’apprentissage à leurs composants. La transformation consiste en l’encapsulation des composants dans des conteneurs autonomiques pour les doter du comportement auto-adaptatif nécessaire. Notre objectif est d’alléger la charge des tâches de gestion des développeurs et de leur permettre de se concentrer plus sur la logique métier de leurs applications. Les solutions proposées sont destinées à être génériques, granulaires et basées sur un standard connu, à savoir l’Architecture de Composant de Service. Enfin, nos propositions ont été évaluées et validées avec des résultats expérimentaux. Ils ont démontré leur efficacité en montrant un ajustement dynamique des applications transformées face aux dynamicités de leurs contextes en un temps beaucoup plus court comparé aux approches existantes / During the past decade, the complexity of applications has significantly scaled to satisfy the emerging business needs. Their design entails a composition of distributed and interacting software components. They provide services by means of the business interactions maintained by their components. Such applications are inherently in a dynamic evolution due to their context dynamics. Indeed, they evolve in changing environments while exhibiting highly dynamic conditions during their execution life-cycle (e.g., their load, availability, performance, etc.). Such contexts have burdened the applications developers with their design and management tasks. Subsequently, motivated the need to enforce the autonomy of their management to be less dependent on human interventions with the Autonomic Computing principles. Autonomic Computing Systems (ACS) implies the usage of autonomic loops, dedicated to help the system to achieve its management tasks. These loops main role is to adapt their associated systems to the dynamic of their contexts by acting upon an embedded adaptation logic. Most of time, this logic is given by static hand-coded rules, often concern-specific and potentially error-prone. It is undoubtedly time and effort-consuming while demanding a costly expertise. Actually, it requires a thorough understanding of the system design and dynamics to predict the accurate adaptations to bring to the system. Furthermore, such logic cannot envisage all the possible adaptation scenarios, hence, not able to take appropriate adaptations for previously unknown situations. ACS should be sophisticated enough to cope with the dynamic nature of their contexts and be able to learn on their own to properly act in unknown situations. They should also be able to learn from their past experiences and modify their adaptation logic according to their context dynamics. In this thesis manuscript, we address the described shortcomings by using Reinforcement Learning (RL) techniques to build our adaptation logic. Nevertheless, RL-based approaches are known for their poor performance during the early stages of learning. This poor performance hinders their usage in real-world deployed systems. Accordingly, we enhanced the adaptation logic with sophisticated and better-performing learning abilities with a multi-step RL approach. Our main objective is to optimize the learning performance and render it timely-efficient which considerably improves the ACS performance even during the beginning of learning phase. Thereafter, we pushed further our work by proposing a generic framework aimed to support the application developers in building self-adaptive applications. We proposed to transform existing applications by dynamically adding autonomic and learning abilities to their components. The transformation entails the encapsulation of components into autonomic containers to provide them with the needed self-adaptive behavior. The objective is to alleviate the burden of management tasks on the developers and let them focus on the business logic of their applications. The proposed solutions are intended to be generic, granular and based on a well known standard (i.e., Service Component Architecture). Finally, our proposals were evaluated and validated with experimental results. They demonstrated their effectiveness by showing a dynamic adjustment to the transformed application to its context changes in a shorter time as compared to existing approaches Informatique autonomique Gestion autonomique Conteneurs autonomes Applications à base de composants Prise de décision auto-adaptative Apprentissage par renforcement Autonomic computing Autonomic management Autonomic containers Component-based applications Self-adaptive decision making Reinforcement learning
278	Self-supervision for data interpretability in image classification and sample efficiency in reinforcement learning Rajkumar, Nitarshan 06 1900 (has links) L'apprentissage auto-surveillé (AAS), c'est-à-dire l'apprentissage de connaissances en exploitant la structure intrinsèque présente dans un ensemble de données non étiquettées, a beaucoup fait progresser l'apprentissage automatique dans la dernière décennie, et plus particulièrement dans les dernières deux années en vision informatique. Dans cet ouvrage, nous nous servons de l'AAS comme outil dans deux champs applicatifs: Pour interpréter efficacement les ensembles de données et les décisions prises par des modèles statistiques, et pour pré-entrainer un modèle d'apprentissage par renforcement pour grandement augmenter l'efficacité de son échantillonnage dans son contexte d'entraînement. Le Chapitre 1 présente les connaissances de fond nécessaires à la compréhension du reste du mémoire. Il offre un aperçu de l'apprentissage automatique, de l'apprentissage profond, de l'apprentissage auto-surveillé et de l'apprentissage par renforcement (profond). Le Chapitre 2 se détourne brièvement du sujet de l'auto-surveillance pour étudier comment le phénomène de la mémorisation se manifeste dans les réseaux de neurones profonds. Les observations que nous ferons seront alors utilisées comme pièces justificatives pour les travaux présentés dans le Chapitre 3. Ce chapitre aborde la manière dont l'auto-surveillance peut être utilisée pour découvrir efficacement les régularités structurelles présentes dans un ensemble de données d'entraînement, estimer le degré de mémorisation de celui-ci par le modèle, et l'influence d'un échantillon d'entraînement sur les résultats pour un échantillon-test. Nous passons aussi en revue de récents travaux touchant à l'importance de mémoriser la ``longue traîne'' d'un jeu de données. Le Chapitre 4 fait la démonstration d'une combinaison d'objectifs de pré-entraînement AAS axés sur les caractéristiques des données en apprentissage par renforcement, de ce fait élevant l'efficacité d'échantillonnage à un niveau comparable à celui d'un humain. De plus, nous montrons que l'AAS ouvre la porte à de plus grands modèles, ce qui a été par le passé un défi à surmonter en apprentissage par renforcement profond. Finalement, le Chapitre 5 conclut l'ouvrage avec un bref survol des contributions scientifiques et propose quelque avenues pour des recherches poussées dans le futur. / Self-Supervised Learning (SSL), or learning representations of data by exploiting inherent structure present in it without labels, has driven significant progress in machine learning over the past decade, and in computer vision in particular over the past two years. In this work, we explore applications of SSL towards two separate goals - first, as a tool for efficiently interpreting datasets and model decisions, and second, as a tool for pretraining in reinforcement learning (RL) to greatly advance sample efficiency in that setting. Chapter 1 introduces background material necessary to understand the remainder of this thesis. In particular, it provides an overview of Machine Learning, Deep Learning, Self-Supervised Representation Learning, and (Deep) Reinforcement Learning. Chapter 2 briefly detours away from this thesis' focus on self-supervision, to examine how the phenomena of memorization manifests in deep neural networks. These results are then used to partially justify work presented in Chapter 3, which examines how self-supervision can be used to efficiently uncover structural regularity in training datasets, and to estimate training memorization and the influence of training samples on test samples. Recent experimental work on understanding the importance of memorizing the long-tail of data is also revisited. Chapter 4 demonstrates how a combination of SSL pretraining objectives designed for the structure of data in RL can greatly improve sample efficiency to nearly human-level performance. Furthermore, it is shown that SSL enables the use of larger models, which has historically been a challenge in deep RL. Chapter 5 concludes by reviewing the contributions of this work, and discusses future directions. apprentissage automatique apprentissage profond apprentissage de représentations apprentissage auto-surveillé apprentissage par renforcement généralisation machine learning deep learning representation learning self-supervised learning reinforcement learning generalization
279	Deep Reinforcement Learning on Social Environment Aware Navigation based on Maps Sanchez, Victor January 2023 (has links) Reinforcement learning (RL) has seen a fast expansion in recent years of its successful application to a range of decision-making and complex control tasks. Moreover, deep learning offers RL the opportunity to enlarge its spectrum of complex fields. Social Robotics is a domain that involves challenges like Human-Robot Interaction which bears inspiration for development in deep RL. Autonomous systems demand a fast and efficient environment perception so as to guarantee safety. However, while being attentive to its surrounding, a robot needs to take decisions to navigate optimally and avoid potential obstacles. In this thesis, we investigate a deep RL method for mobile robot end-to-end navigation in a social environment. Using the observation collected in a simulation environment, a convolutional neural network is trained to predict an appropriate set of discrete angular and linear velocities for a robot based on its egocentric local occupancy grid map. We compare a random learning way to a curriculum learning approach to ameliorate speed convergence during training. We divide the main problem by analysing separately end-to-end navigation and obstacle avoidance in static and dynamic environments. For each problem, we propose an adaptation that aims to improve the surrounding awareness of the agent. The qualitative and quantitative evaluations of the investigated approach were performed in simulations. The results show that the end-to-end navigation map-based model is easy to set up and shows similar performance as a Model Predictive Control approach. However, we discern that obstacle avoidance is harder to translate to a deep RL framework. Despite this difficulty, using different RL methods and configurations will definitely help and bring ideas for improvement for future work. / Förstärkande Inlärning (RL) har sett en snabb expansion de senaste åren för sin fruktbara tillämpning på en rad beslutsfattande och komplexa kontrolluppgifter. Dessutom erbjuder djupinlärning RL möjligheten att utöka sitt spektrum till komplexa områden. Social Robotics är en domän som involverar utmaningar som människa-robot interaktion som bär inspiration för utveckling i djup RL. Autonoma system kräver en snabb och effektiv miljöuppfattning för att garantera säkerheten. Men samtidigt som den är uppmärksam på sin omgivning, måste en robot fatta beslut för att navigera optimalt och undvika potentiella hinder. I detta examensarbete undersöker vi en djup RL-metod för mobil robot-end-to-end-navigering i en social miljö. Med hjälp av observationen som samlats in i en simuleringsmiljö tränas ett faltningsneuralt nätverk för att förutsäga en lämplig uppsättning diskreta vinkel- och linjärhastigheter för en robot baserat på dess egocentriska rutnätskarta över lokala beläggningar. Vi jämför ett slumpmässigt inlärningssätt med läroplansinlärningsmetod för att förbättra hastighetskonvergensen. Vi delar upp huvudproblemet genom att separat analysera end-to-end-navigering och undvikande av hinder i statisk och dynamisk miljö. För varje problem föreslår vi en anpassning som syftar till att agenten bättre förstår sin omgivning. De kvalitativa och kvantitativa utvärderingarna av det undersökta tillvägagångssättet utfördes endast i simuleringar. Resultaten visar att den heltäckande navigationskartbaserade modellen är lätt att distribuera och visar liknande prestanda som en modell för prediktiv kontroll. Vi ser dock att undvikande av hinder är svårare att översätta till ett djupt RL-ramverk. Trots denna svårighet kommer användning av olika RL-metoder och konfiguration definitivt att hjälpa och ge idéer om förbättringar för framtida arbete. / L’apprentissage par renforcement (RL) a connu une expansion rapide ces dernières années pour ses applications à une gamme de tâches de prise de décision et de contrôle complexes. Le deep learning offre au RL la possibilité d’élargir son spectre à des domaines complexes. La robotique sociale est un domaine qui implique des défis tels que l’interaction homme-robot, source d’inspiration pour le développement en RL profond. Les systèmes autonomes exigent une perception rapide et efficace de l’environnement afin de garantir la sécurité. Cependant, tout en étant attentif à son environnement, un robot doit prendre des décisions pour naviguer de manière optimale et éviter les obstacles potentiels. Dans cette thèse, nous étudions une méthode de RL profond pour la navigation de bout a bout de robots mobiles dans un environnement social. À l’aide de l’observation recueillie dans un environnement de simulation, un réseau neuronal convolutif prédit un ensemble adapté de vitesses angulaires et linéaires discrètes pour un robot en fonction de sa carte de grille d’occupation locale égocentrique. Nous comparons une méthode d’apprentissage aléatoire à une approche d’apprentissage du curriculum pour accelerer la convergence durant l’entrainement. Nous divisons le problème principal en analysant séparément la navigation de bout a bout et l’évitement d’obstacles dans un environnement statique et dynamique. Pour chaque problème, nous proposons une adaptation visant à ce que l’agent comprenne mieux son environnement. Les évaluations qualitatives et quantitatives de l’approche étudiée ont été effectuées uniquement dans des simulations. Les résultats montrent que le modèle basé sur la carte de navigation de bout en bout est facile à déployer et affiche des performances similaires à celles d’une approche de contrôle prédictif de modèle. Cependant, nous discernons que l’évitement d’obstacles est plus difficile à traduire dans un cadre RL profond. Malgré cette difficulté, l’utilisation de différentes méthodes et configurations RL aidera certainement et apportera une idée d’amélioration pour les travaux futurs. Deep Reinforcement Learning Environment-aware navigation Robotics Artificial Intelligence Apprentissage par renforcement profond Navigation consciente de l’humain Intelligence Artificielle Robotique Djup Förstärkande Inlärning Människomedveten navigering Robotik Artificiell Intelligens Elektroteknik och elektronik
280	Imitation from observation using behavioral learning Djeafea Sonwa, Medric B. 11 1900 (has links) L'Imitation par observation (IPO) est un paradigme d'apprentissage qui consiste à entraîner des agents autonomes dans un processus de décision markovien (PDM) en observant les démonstrations d'un expert et sans avoir accès à ses actions. Ces démonstrations peuvent être des séquences d'états de l'environnement ou des observations visuelles brutes de l'environnement. Bien que le cadre utilisant des états à dimensions réduites ait permis d'obtenir des résultats convaincants avec des approches récentes, l'utilisation d'observations visuelles reste un défi important en IPO. Une des procédures très adoptée pour résoudre le problème d’IPO consiste à apprendre une fonction de récompense à partir des démonstrations, toutefois la nécessité d’analyser l'environnement et l'expert à partir de vidéos pour récompenser l'agent augmente la complexité du problème. Nous abordons ce problème avec une méthode basée sur la représentation des comportements de l'agent dans un espace vectoriel en utilisant des vidéos démonstratives. Notre approche exploite les techniques récentes d'apprentissage contrastif d'images et vidéos et utilise un algorithme de bootstrapping pour entraîner progressivement une fonction d'encodage de trajectoires à partir de la variation du comportement de l'agent. Simultanément, cette fonction récompense l'agent imitateur lors de l'exécution d'un algorithme d'apprentissage par renforcement. Notre méthode utilise un nombre limité de vidéos démonstratives et nous n'avons pas accès à comportement expert. Nos agents imitateurs montrent des performances convaincantes sur un ensemble de tâches de contrôle et démontrent que l'apprentissage d'une fonction de codage du comportement à partir de vidéos permet de construire une fonction de récompense efficace dans un PDM. / Imitation from observation (IfO) is a learning paradigm that consists of training autonomous agents in a Markov Decision Process (MDP) by observing an expert's demonstrations and without access to its actions. These demonstrations could be sequences of environment states or raw visual observations of the environment. Although the setting using low-dimensional states has allowed obtaining convincing results with recent approaches, the use of visual observations remains an important challenge in IfO. One of the most common procedures adopted to solve the IfO problem is to learn a reward function from the demonstrations, but the need to understand the environment and the expert's moves through videos to appropriately reward the learning agent increases the complexity of the problem. We approach this problem with a method that focuses on the representation of the agent’s behaviors in a latent space using demonstrative videos. Our approach exploits recent techniques of contrastive learning of image and video and uses a bootstrapping algorithm to progressively train a trajectory encoding function from the variation of the agent’s policy. Simultaneously, this function rewards the imitating agent through a Reinforcement Learning (RL) algorithm. Our method uses a limited number of demonstrative videos and we do not have access to any expert policy. Our imitating agents in experiments show convincing performances on a set of control tasks and demonstrate that learning a behavior encoding function from videos allows for building an efficient reward function in MDP. Apprentissage par renforcement Apprentissage par imitation Imitation par observation Apprentissage contrastif Reconnaissance d'actions Reinforcement learning Imitation learning Imitation from observation Contrastive learning Action recognition

Search results