• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 174
  • 122
  • 14
  • Tagged with
  • 318
  • 183
  • 164
  • 142
  • 108
  • 79
  • 64
  • 64
  • 56
  • 48
  • 43
  • 36
  • 35
  • 34
  • 32
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Communication inter-véhicules et route-à-véhicule : apprentissage de la communication inter-véhicules

Grégoire-Girard, Pierre-Luc 13 April 2018 (has links)
L'industrie des transports est un acteur important de l'économie mondiale. Des millions d'emplois sont touchés de près ou de loin par cette industrie. De plus, le nombre de véhicules sur terre ne cesse d'augmenter et il est rendu courant dans plusieurs pays industrialisés d'avoir plus d'une voiture par famille. Tout cela entraîne également son lot de problèmes, notamment au niveau de la sécurité routière et de la pollution. Depuis des décennies, des compagnies privées et des organisations publiques se penchent sur ces problèmes. Ils innovent constamment en améliorant les véhicules et les infrastructures du réseau routier. Les voitures ne sont pas seulement de plus en plus sécuritaires mais aussi de plus en plus confortables et conviviales. Cependant, la plupart des systèmes intelligents présents dans les voitures acquièrent de l'information grâce aux capteurs. Ceux-ci sont limités et certaines données ne peuvent être accessibles aux capteurs. La solution repose donc sur l'utilisation de la communication sans fil pour échanger des informations entre les véhicules et entre les infrastructures et les véhicules. Le sujet de cette maîtrise porte sur la communication inter-véhicules et route-à-véhicule. Elle se divise en deux parties. Tout d'abord, dans le cadre du projet AUTO21 au laboratoire DAMAS, un protocole de communication inter-véhicules doit être développé pour implanter un système de régulateur de vitesse collaboratif et adaptatif (" Collaborative Adaptative Cruise Control ", CACC). La théorie multi-agents et l'apprentissage par renforcement sont utilisés pour apprendre une politique de communication optimale. La deuxième partie porte sur la communication route-à-véhicule appliquée au problème d'optimisation des feux de signalisation. Deux approches multiagents sont utilisées pour optimiser la gestion des feux. Les agents placés aux intersections reçoivent de l'information relative au trafic grâce à la communication route-à-véhicule et tentent d'adopter une politique de contrôle optimale.
72

Pilotage en temps réel d'une ligne de finition de bois d'oeuvre intégrant du séchage à haute fréquence à l'aide de l'apprentissage par renforcement

Tremblay, François-Alexandre 06 July 2023 (has links)
Titre de l'écran-titre (visionné le 26 juin 2023) / L'industrie des produits du bois évolue dans un contexte de forte compétition qui incite les scieries à se tourner vers des procédés plus agiles, tel que le séchage du bois en continu par micro-ondes, une technologie récemment brevetée. Cette technologie permet de corriger le séchage des planches une à la fois, par opposition au séchage classique par lot. L'intégration de ce séchage de précision à une ligne de finition traditionnelle complexifie toutefois la logistique de l'entreprise. En effet, bien que la technologie permette d'améliorer la qualité du bois, la surcharge de planches trop humides occasionne des goulots d'étranglement et une réduction de la productivité. Il est donc nécessaire de développer des systèmes décisionnels qui déterminent en temps réel si une planche humide doit passer au séchoir micro-onde afin d'améliorer sa qualité ou continuer son chemin vers la fin de la ligne de finition. Ce projet consiste à concevoir et à évaluer des algorithmes de prises de décisions en temps réel sur une ligne de finition afin de maximiser la valeur générée par unité de temps. Compte tenu de l'aspect séquentiel des décisions (chaque décision affecte les taux actuels et futurs d'occupation des différents équipements, la qualité du bois et la productivité de l'usine), l'apprentissage par renforcement est utilisé. Dans ce sous-domaine de l'intelligence artificielle, les algorithmes apprennent des politiques décisionnelles optimales, pour une fonction objectif donnée, par interaction avec leur environnement à travers un processus « d'essais-erreurs ». Nous montrons le potentiel de l'apprentissage par renforcement à travers un modèle de simulation imitant le contexte fortement dynamique des scieries. Les politiques d'apprentissage par renforcement apprises ont permis d'augmenter la productivité d'au moins 19% par rapport à une heuristique semblable à celles utilisées actuellement en industrie. Ces politiques sont aussi relativement robustes aux perturbations soudaines qui peuvent survenir dans l'environnement. / The wood products industry is evolving in a context of strong competition encouraging sawmills towards more agile processes such as continuous wood drying using microwaves, a recently patented technology. This technology makes it possible to correct wood drying one plank at a time as opposed to traditional batch drying. However, the integration of this precision drying process into traditional finishing operations complicates sawmill's logistics. Although the technology improves wood quality, the overload of wet lumber causes bottlenecks and a reduction of productivity. It is therefore necessary to develop new decision-making systems to determine in real time whether wet lumber should be microwaved to improve its quality or continue on its way towards the end of the finishing line. This project consists of designing and evaluating real-time decision-making algorithms on a finishing line in order to maximize the value generated per unit of time, a constant challenge in the Canadian wood products industry. Considering the sequential aspect of decisions (each decision affects current and future occupancy rates of different equipment, wood quality and plant productivity), reinforcement learning (RL) is used. In this subfield of artificial intelligence, algorithms learn optimal decision sequences by interacting with their environment through a "trial and error" process. We show the potential of RL through a simulation model mimicking the real and highly dynamic factory context. RL policies learned increase productivity on wet lumber by at least 19% compared to the heuristic currently used in industry. These policies are also relatively robust to sudden disturbances that may occur in the system.
73

FRCM composites for strengthening corrosion-damaged structures : experimental and numerical investigations

Elghazy, Mohammed 03 May 2018 (has links)
La corrosion des armatures en acier est l'un des mécanismes les plus destructifs pour les structures en béton armé. La corrosion nuit non seulement à l'intégrité structurale et à l’aptitude au service de la structure endommagée, mais peut aussi entraîner des défaillances inattendues ou des ruptures fragiles. Malgré les dispositions rigoureuses de la plupart des codes de pratique pour éviter la corrosion, des signes de dommages dus à la corrosion sont toujours signalés. Récemment, des systèmes à matrice cimentaire renforcée de fibre (MCRF) ont été proposés comme une technique innovante de renforcement/réparation pour les structures en béton afin de surmonter les inconvénients associés à l'utilisation des systèmes de polymères renforcés de fibres (PRF). Bien que l'utilisation de composites MCRF pour renforcer les éléments en béton non endommagés ait prouvé son efficacité, très peu est connu sur la viabilité de leur utilisation pour renforcer les éléments en béton endommagés à divers niveaux dus à la corrosion. De plus, les comportements de post-réparation et la durabilité à long-terme des éléments corrodés et renforcés par les systèmes MCRF et qui seront probablement exposés aux mêmes conditions environnementales qui prévalaient avant leur réparation, n'ont pas retenu l'attention des chercheurs dans la littérature. De plus, la plupart de nos infrastructures, telles que les ponts et garages de stationnement, sont susceptibles d'être endommagées par la corrosion tout en étant soumises à des charges oscillatoires qui provoquent de la fatigue. À ce jour, aucune information n'est disponible sur l'effet de la combinaison de la charge de fatigue et de la corrosion dans les structures renforcées par les systèmes MCRF. Dans ce travail, les comportements monotones et de fatigue en flexion des poutres en béton endommagées par la corrosion et renforcées par des systèmes MCRF ont été étudiés en plus de leur performance à long-terme, c'est-à-dire après une exposition à un environnement corrosif après leur renforcement. Le travail comprend des investigations expérimentales et numériques. Les prédictions analytiques et les formulations théoriques actuellement disponibles dans les codes de conception ont été aussi vérifiées par rapport aux résultats expérimentaux. Le programme expérimental consistait à tester trente (30) poutres en béton à grande échelle de 150 × 250 × 2800 mm. Les poutres ont été construites et testées en configuration de charge à quatre points. Un processus accéléré de corrosion a été utilisé pour corroder les armatures d'acier en traction dans le tiers central des poutres. Les paramètres d'essai comprenaient le niveau de corrosion (représenté par 10, 20 et 30% de perte de masse dans l'acier de traction), le type de système de renforcement utilisé (Polyparaphénylène benzobisoxazole (PBO-MCRF), MCRF de carbone et PRF), la quantité de composites MCRF (1, 2, 3 et 4 couches), le schéma de renforcement MCRF (couches ancrées aux extrémités par rapport aux couches continues sous forme U) et le régime de chargement (monotone et fatigue). Les résultats des tests ont montré que l'utilisation de composites MCRF améliorait significativement le comportement en flexion des poutres corrodées. Les composites MCRF ont contrôlé le mode de défaillance des poutres renforcées plutôt que le niveau de corrosion des barres d'acier. Les poutres renforcées par la MCRF ont montré une augmentation de leurs résistances ultimes variant entre 7 et 65% de celles des poutres vierges (poutres ni corrodées ni renforcées) en fonction du type, de la quantité et du schéma de la MCRF utilisée. L'exposition des poutres réparées par la MCRF à d’autres cycles de corrosion a entraîné une réduction de 23% de la perte de masse de l'acier. Le schéma en U était plus efficace que le schéma d'ancrage aux extrémités à retarder le délaminage des couches de MCRF dans les poutres renforcées et testées à court terme. Il a également atténué l'effet des fissures de corrosion longitudinales et, par conséquent, a augmenté l'efficacité du renforcement MCRF. Les essais de fatigue ont montré que la corrosion des barres d'acier diminuait considérablement la résistance à la fatigue des poutres non renforcées. Le renforcement avec des composites MCRF a augmenté la durée de vie en fatigue des poutres endommagées par la corrosion de 38 à 377% de celle des poutres corrodées non-renforcées. Cependant, le renforcement par MCRF n'a pas restauré la durée de vie en fatigue des poutres vierges. Dans l'étude numérique réalisée dans ce travail, des modèles d'éléments finis (ÉF) tridimensionnels (3D) ont été développés pour simuler le comportement non linéaire des poutres corrodées et renforcées par des composites MCRF et PRF à l'aide du progiciel ATENA-3D. Les résultats de l'analyse numérique étaient en bon accord avec ceux obtenus expérimentalement en termes de modes de défaillance, de déformations, de capacités de charge et de flèches. Les modèles ÉF développés ont été capables de capturer le comportement non-linéaire des poutres testées avec une bonne précision. Une étude paramétrique a ensuite été menée pour étudier l'effet de la résistance à la compression du béton et de l'épaisseur de recouvrement des armatures sur l'efficacité de renforcement des systèmes composites. Il a été observé que la rupture des poutres renforcées par des FRCM était indépendante de la résistance à la compression du béton ou de l'épaisseur de de recouvrement et était régie uniquement par le glissement du tissu dans la matrice. Sur le plan analytique, les équations de conception de l’ACI-549.4R-13 (ACI 2013) ont été évaluées à l'aide des données expérimentales obtenues à partir des tests. Il a été conclu que les formulations théoriques de l’ACI-549.4R-13 peuvent raisonnablement prédire les résistances ultimes des poutres renforcées ancrées à l'extrémité mais sous-estimer celles des poutres ancrées en continu sous forme U. Un facteur de schéma de 1,1 a ensuite été proposé pour calculer la résistance nominale des poutres renforcées par MCRF sous forme U. Le résultat de ce travail a été publié (ou soumis pour publication) dans cinq articles de revues et cinq conférences, comme détaillé tout au long de la thèse. / Corrosion of steel reinforcement is one of the most destructive mechanisms for reinforced concrete (RC) structures. Corrosion not only impairs the structural integrity and the serviceability of the damaged structure, but it may also lead to unexpected and brittle failures. Despite the rigorous provisions of most codes of practice to avoid corrosion, evidences of corrosion damage are still being reported. Recently, fabric-reinforced cementitious matrix (FRCM) systems were proposed as an innovative strengthening/repair technique for RC structures to overcome the drawbacks associated with the use of the well-documented fiber-reinforced polymer (FRP) systems. While the use of FRCM composites to strengthen un-damaged RC members has proven its efficiency, very little is known about the viability of their use to retrofit RC members with various levels of corrosion damage. In addition, the post-repair performance and the long-term durability of the FRCM-strengthened corroded members, which most likely will be exposed to the same environmental conditions that have prevailed prior their repair, have not received attention in the literature. Moreover, most of our infrastructures such as bridges and parking garages are susceptible to corrosion damage while continuously being subjected to oscillatory loads that cause fatigue. To date, no information is available about the effect of combining fatigue loading with corrosion in FRCM-strengthened structures. In this work, the monotonic and fatigue flexural behaviors of corrosion-damaged RC beams strengthened with FRCM systems were investigated in addition to their long-term performance, i.e. after further exposure to corrosive environment following their strengthening. The work includes experimental and numerical investigations. The analytical predictions and theoretical formulations that are currently available in the design codes have been verified against the experimental results. The experimental program consisted of testing thirty (30) large-scale RC beams of 150×250×2800 mm. The beams were constructed and tested under four-point load configuration. An accelerated corrosion process was utilized to corrode the bottom steel reinforcement in the middle third of the test specimens. The test parameters included the level of corrosion damage (represented by 10, 20, and 30% mass loss in the tensile steel), the type of the strengthening system used (Polyparaphenylene benzobisoxazole (PBO-FRCM), C-FRCM, and FRP), the amount of FRCM composites (1, 2, 3, and 4 layers), the FRCM strengthening Scheme (end-anchored versus continuously wrapped layers), and the loading regime (monotonic and fatigue). The test results showed that the use of FRCM composites significantly enhanced the flexural behavior of the corroded beams. FRCM governed the failure mode of the strengthened beams rather than the level of corrosion damage of the steel bars. FRCM-strengthened beams showed an increase in their ultimate strengths that ranged between 7 and 65% of that of the virgin (neither corroded nor strengthened) beam based on the type, amount, and Scheme of the FRCM used. Exposing the repaired beams to post-repair corrosion resulted in 23% reduction in the steel mass loss. The U-wrapped scheme was more efficient than the end-anchoring scheme in delaying the delamination of the FRCM plies in the short-term repaired beams. It also mitigated the effect of the longitudinal corrosion cracks and consequently increased the post-repair strengthening effectiveness of FRCM systems. Fatigue tests showed that corrosion of steel bars dramatically decreased the fatigue life of the unstrengthened-beams. Strengthening with FRCM composites increased the fatigue life of the corrosion-damaged beams by 38 to 377% of that of the corroded-unstrengthened beams. However, FRCM strengthening did not restore the fatigue life of the virgin beams. In the numerical study carried out in this work, three-dimensional finite element (FE) models were developed to simulate the nonlinear behavior of the corroded beams strengthened with FRCM and FRP composites using the software package ATENA-3D. The results of the numerical analysis were in good agreement with those obtained experimentally in terms of failure modes, strains, load-carrying capacities, and deflections. The developed FE models were able to capture the non-linear behavior of the tested beams with good accuracy. A parametric study was then conducted to investigate the effect of concrete compressive strength and thickness of concrete cover on the strengthening effectiveness of the composite systems. It was observed that failure of RCM-strengthened beams was independent of the compressive strength of concrete or the thickness of the concrete cover and was governed only by fabric slippage within the matrix. Analytically, the design equations of ACI-549.4R-13 (ACI 2013) were assessed using the experimental data obtained from the tests. It was concluded that the theoretical formulations of CI-549.4R-13 can reasonably predict the ultimate strengths of the end-anchored strengthened beams but underestimated those of continuously-anchored beams. A scheme factor of 1.1 was then proposed to calculate the nominal strength of beams strengthened with continuously-wrapped shape of FRCM. The outcome of this work has been published (or submitted for publication) in five journal articles and five conferences, as detailed throughout the thesis.
74

Gestion du raisonnement à base de cas avec l'apprentissage par renforcement pour un jeu contraint dans le temps

Romdhane, Houcine 16 April 2018 (has links)
Dans ces travaux, nous tentons d’améliorer l’aspect comportemental dans les jeux vidéo en utilisant le raisonnement par cas (Case Based Reasoning - CBR), qui simule le comportement humain. Cette technique, provenant du domaine de l’intelligence artificielle, résout de nouveaux problèmes en retrouvant des expériences analogues dans sa base de cas et en les adaptant au nouveau problème considéré. Nous utilisons le CBR pour l’automatisation de décisions prises par des composantes d’un jeu. La construction d’un module CBR nécessite l’accumulation de plusieurs épisodes de jeu pour former la base de cas du module. Cependant, lorsqu’un grand nombre d’épisodes sont emmagasinés dans la base de cas, la réponse en temps du système s’alourdit. Nous sommes alors confrontés au défi d’améliorer le temps de réponse du module CBR tout en gardant un niveau de performance acceptable du système. Dans ce mémoire, nous utilisons le jeu de Tetris pour mener notre étude. Ce jeu présente un intérêt particulier car les décisions à prendre sont contraintes dans le temps. Nous proposons dans ce mémoire de répondre aux questions suivantes : Comment formuler un système CBR pour jouer au jeu Tetris. Quelle est la performance attendue par un système CBR appliqué à ce jeu. Quel est le niveau du jeu qui peut être atteint par l’estimation de la valeur des cas obtenus par apprentissage par renforcement. Comme Tetris est un jeu contraint par le temps, quel est le niveau de dégradation de performances qui peut être perçue par la réduction de la taille de la base de cas. / In this work, we try to improve the behavioral aspects of video games using Case Based Reasoning (CBR), which can reproduce human behavior as reasoning by similarity, as well as remembering and forgetting previous experiences. This technique, coming from the Artificial Intelligence field, solves new problems by retrieving similar past experiences in the case base and adapting solution to solve new problems. We use CBR for the automation of decisions made by the game engine. The construction of a CBR system needs to accumulate many episodes from the gaming environment to create the case base of the CBR engine. However, as the number of episodes being saved in the case base increases, the response time of the CBR system slows down. We are then facing a dilemma: reducing the size of the case base to improve the response of the CBR system while keeping an acceptable level of performance. In this master thesis, we use the game of Tetris to conduct our case studies. This game presents some particular interests, as decisions to be made are limited by time constraints. We propose in this thesis to answer the following questions: How to construct a CBR system to play the game of Tetris. What is the expected performance of the system applied to this game? Wich game level can be reached by estimating case value through reinforcement learning? As time response constraints are inherent to Tetris, which degradation of performance can be expected by removing cases from the case base?
75

Renforcement à l'effort tranchant des dalles épaisses en béton armé en conditions de service

Bédard, Frédéric 01 August 2019 (has links)
Avec l’évolution des normes de conception à l’effort tranchant, les sollicitations grandissantes sur les infrastructures et la dégradation des matériaux face aux conditions environnementales, quantité d’infrastructures sont appelées à être réhabilitées afin d’offrir une marge de sécurité suffisante. Le renforcement à l’effort tranchant des dalles épaisses avec barres ancrées à l’aide d’époxy, qui se veut une méthode prometteuse de réhabilitation des structures, a été étudié dans la dernière décennie. Dans la pratique, compte-tenu des efforts importants qui sollicitent parfois les dalles au moment de l’installation du renforcement, il est sensé de croire que l’efficacité de ce dernier puisse être diminuée par les déformations et la fissuration présentes dans la dalle. Afin d’investiguer l’effet de l’intensité de l’effort tranchant au moment d’un renforcement avec barres transversales ancrées sur la performance structurale d’une dalle post-renforcée, une étude expérimentale et numérique a été réalisée. Dans le volet expérimental, cinq (5) tranches de dalle épaisses ont été fabriquées. Les dalles ont été testées par flexion trois-points en induisant divers niveaux d’effort tranchant dans les dalles au moment de procéder au renforcement. Suite au renforcement, le chargement des dalles s’est poursuivi jusqu’à l’atteinte de leur capacité ultime à l’effort tranchant. Dans le volet numérique, un modèle numérique d’abord été développé au moyen du logiciel VecTorMD afin de représenter le comportement des dalles testées expérimentalement. L’effet de l’effort tranchant au moment du renforcement et de l’élancement sur la performance de dalles post-renforcées a été investigué à travers une étude paramétrique. Il en ressort qu’en présence de charges de service usuelles, le renforcement à l’effort tranchant d’une dalle épaisse avec barres ancrées offre un gain de résistance considérable, comparable à ce qui est obtenu lors du renforcement d’une dalle non-chargée. Toutefois, la contribution des barres transversales et du béton à la résistance ultime est modifiée, pour une dalle renforcée à des charges significativement élevées. / With improved design standards, increasing demands on infrastructure and material degradation in the face of environmental conditions, many infrastructures need to be improved to provide sufficient safety margin. The shear strengthening of thick concrete slabs with epoxy-anchored bars, which is a promising method for structural improvement, has been studied in the last decade. In practice, given the significant loads that slabs may bear at the time of strengthening, it is reasonable to believe that the effectiveness of the latter may be reduced by the deformation and cracking present in the slab. In order to investigate the effect of the shear load at the time of strengthening with anchored transverse bars on the structural performance of a post-strengthened slab, an experimental and numerical study has been carried out. For the experimental part, five (5) slices of thick slab were fabricated. The slabs were tested by a three-point bending test where shear load levels were induced in the slabs at the time of strengthening. Following strengthening, the slabs were loaded up to shear failure. For the numerical study, a finite element model was first developed using the VecTorTM software to represent the behavior of the experimentally tested slabs. The effect of shear load at the time of strengthening and slenderness on post-strengthened slab performance was investigated through a parametric study. The results show that in the presence of usual service loads, the shear strengthening of thick slabs with anchored bars offers a considerable resistance gain, similar to that executed on an unloaded slab. However, for slabs strengthened at sufficiently high loads, the contribution to the ultimate strength of transverse bars and concrete is rearranged.
76

Cooperative adaptive cruise control : a learning approach

Desjardins, Charles 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2008-2009 / L'augmentation dans les dernières décennies du nombre de véhicules présents sur les routes ne s'est pas passée sans son lot d'impacts négatifs sur la société. Même s'ils ont joué un rôle important dans le développement économique des régions urbaines à travers le monde, les véhicules sont aussi responsables d'impacts négatifs sur les entreprises, car l'inefficacité du ot de traffic cause chaque jour d'importantes pertes en productivité. De plus, la sécurité des passagers est toujours problématique car les accidents de voiture sont encore aujourd'hui parmi les premières causes de blessures et de morts accidentelles dans les pays industrialisés. Ces dernières années, les aspects environnementaux ont aussi pris de plus en plus de place dans l'esprit des consommateurs, qui demandent désormais des véhicules efficaces au niveau énergétique et minimisant leurs impacts sur l'environnement. évidemment, les gouvernements de pays industrialisés ainsi que les manufacturiers de véhicules sont conscients de ces problèmes et tentent de développer des technologies capables de les résoudre. Parmi les travaux de recherche en ce sens, le domaine des Systèmes de Transport Intelligents (STI) a récemment reçu beaucoup d'attention. Ces systèmes proposent d'intégrer des systèmes électroniques avancés dans le développement de solutions intelligentes conçues pour résoudre les problèmes liés au transport automobile cités plus haut. Ce mémoire se penche donc sur un sous-domaine des STI qui étudie la résolution de ces problèmes gr^ace au développement de véhicules intelligents. Plus particulièrement, ce mémoire propose d'utiliser une approche relativement nouvelle de conception de tels systèmes, basée sur l'apprentissage machine. Ce mémoire va donc montrer comment les techniques d'apprentissage par renforcement peuvent être utilisées afin d'obtenir des contrôleurs capables d'effectuer le suivi automatisés de véhicules. Même si ces efforts de développement en sont encore à une étape préliminaire, ce mémoire illustre bien le potentiel de telles approches pour le développement futur de véhicules plus \intelligents". / The impressive growth, in the past decades, of the number of vehicles on the road has not come without its share of negative impacts on society. Even though vehicles play an active role in the economical development of urban regions around the world, they unfortunately also have negative effects on businesses as the poor efficiency of the traffic ow results in important losses in productivity each day. Moreover, numerous concerns have been raised in relation to the safety of passengers, as automotive transportation is still among the first causes of accidental casualties in developed countries. In recent years, environmental issues have also been taking more and more place in the mind of customers, that now demand energy-efficient vehicles that limit the impacts on the environment. Of course, both the governments of industrialized countries and the vehicle manufacturers have been aware of these problems, and have been trying to develop technologies in order to solve these issues. Among these research efforts, the field of Intelligent Transportation Systems (ITS) has been gathering much interest as of late, as it is considered an efficient approach to tackle these problems. ITS propose to integrate advanced electronic systems in the development of intelligent solutions designed to address the current issues of automotive transportation. This thesis focuses on a sub-field ITS since it studies the resolution of these problems through the development of Intelligent Vehicle (IV) systems. In particular, this thesis proposes a relatively novel approach for the design of such systems, based on modern machine learning. More specifically, it shows how reinforcement learning techniques can be used in order to obtain an autonomous vehicle controller for longitudinal vehiclefollowing behavior. Even if these efforts are still at a preliminary stage, this thesis illustrates the potential of using these approaches for future development of \intelligent" vehicles.
77

Stochastic systems divergence through reinforcement learning

Zhioua, Sami 13 April 2018 (has links)
Les mathématiques offrent un cadre convenable pour raisonner rigoureusement sur les systèmes et phénomènes réels. Par exemple, en génie logiciel, les méthodes formelles sont parmi les outils les plus efficaces pour détecter les anomalies dans les logiciels. Plusieurs systèmes réels sont stochastiques par nature dans le sens où leur comportement est sujet à un aspect d'incertitude. La représentation de ce genre de systèmes requiert des modèles stochastiques comme les processus de Markov étiquetés (LMP), les processus de Markov décisionnels (MDP), etc. Cette thèse porte sur la quantification de la différence entre les systèmes stochastiques. Les contributions majeures sont : 1. une nouvelle approche pour quantifier la divergence entre les systèmes stochastiques basée sur l'apprentissage par renforcement, 2. une nouvelle famille de notions d'équivalence qui se situe entre l'équivalence par trace et la bisimulation, et 3. un cadre plus flexible pour la définition des notions d'équivalence qui se base sur les tests. Le résultat principal de la thèse est que l'apprentissage par renforcement, qui est une branche de l'intelligence artificielle particulièrement efficace en présence d'incertitude, peut être utilisé pour quantifier efficacement cette divergence. L'idée clé est de définir un MDP à partir des systèmes à comparer de telle sorte que la valeur optimale de cet MDP corresponde à la divergence entre eux. La caractéristique la plus attrayante de l'approche proposée est qu'elle est complètement indépendante des structures internes des systèmes à comparer. Pour cette raison, l'approche peut être appliquée à différents types de systèmes stochastiques. La deuxième contribution est une nouvelle famille de notions d'équivalence, que nous appelons moment, qui est plus forte que l'équivalence par trace mais plus faible que la bisimulation. Cette famille se définit naturellement à travers la coïncidence de moments de variable aléatoires (d'où son nom) et possède une caractérisation simple en terme de tests. Nous montrons que moment fait partie d'un cadre plus grand, appelé test-observation-equivalence (TOE), qui constitue la troisième contribution de cette thèse. Il s'agit d'un cadre plus flexible pour la définition des notions d'équivalence basé sur les tests. / Modelling real-life systems and phenomena using mathematical based formalisms is ubiquitous in science and engineering. The reason is that mathematics offer a suitable framework to carry out formal and rigorous analysis of these systems. For instance, in software engineering, formal methods are among the most efficient tools to identify flaws in software. The behavior of many real-life systems is inherently stochastic which requires stochastic models such as labelled Markov processes (LMPs), Markov decision processes (MDPs), predictive state representations (PSRs), etc. This thesis is about quantifying the difference between stochastic systems. The main contributions are: 1. a new approach to quantify the divergence between pairs of stochastic systems based on reinforcement learning, 2. a new family of equivalence notions which lies between trace equivalence and bisimulation, and 3. a refined testing framework to define equivalence notions. The important point of the thesis is that reinforcement learning (RL), a branch of artificial intelligence particularly efficient in presence of uncertainty, can be used to quantify efficiently the divergence between stochastic systems. The key idea is to define an MDP out of the systems to be compared and then to interpret the optimal value of the MDP as the divergence between them. The most appealing feature of the proposed approach is that it does not rely on the knowledge of the internal structure of the systems. Only a possibility of interacting with them is required. Because of this, the approach can be extended to different types of stochastic systems. The second contribution is a new family of equivalence notions, moment, that constitute a good compromise between trace equivalence (too weak) and bisimulation (too strong). This family has a natural definition using coincidence of moments of random variables but more importantly, it has a simple testing characterization. moment turns out to be part of a bigger framework called test-observation-equivalence (TOE), which we propose as a third contribution of this thesis. It is a refined testing framework to define equivalence notions with more flexibility.
78

Apprentissage d'une politique de gestion de ressources en temps réel : application au combat maritime

Cinq-Mars, Patrick 17 April 2018 (has links)
Dans le secteur de la défense, la majorité des processus de combat soulèvent des problèmes complexes, comme l'allocation de ressources. Le projet NEREUS cherche des méthodologies de planification et d'exécution de stratégies pour le centre de commandement et de contrôle (C2) d'une frégate canadienne. L'approche par apprentissage proposée dans ee mémoire permet de constater que de nouvelles stratégies découvertes par expérimentation peuvent se comparer à des doctrines préalablement conçues. Les processus de decision de Markov ont été utilisés pour construire un cadre de développement et modéliser des agents capables d'agir dans des environnements en temps réel. Un agent basé sur l'apprentissage par renforcement a donc été évalué dans un environnement de simulation de combat maritime et un formalisme issu du Weapon-Target Assignment a été utilisé pour définir le problème en temps réel.
79

Déclinaisons de bandits et leurs applications

Durand, Audrey 24 April 2018 (has links)
Cette thèse s’intéresse à différentes variantes du problème des bandits, une instance simplifiée d’un problème de reinforcement learning (RL) dont l’accent est mis sur le compromis entre l’exploration et l’exploitation. Plus spécifiquement, l’accent est mis sur trois variantes, soient les bandits contextuels, structurés et multi-objectifs. Dans la première, un agent recherche l’action optimale dépendant d’un contexte donné. Dans la seconde, un agent recherche l’action optimale dans un espace potentiellement grand et caractérisé par une métrique de similarité. Dans la dernière, un agent recherche le compromis optimal sur un front de Pareto selon une fonction d’articulation des préférences non observable directement. La thèse propose des algorithmes adaptés à chacune de ces variantes, dont les performances sont appuyées par des garanties théoriques ou des expériences empiriques. Ces variantes de bandits servent de cadre à deux applications réelles et à haut potentiel d’impact, soient l’allocation de traitements adaptative pour la découverte de stratégies de traitement du cancer personnalisées, et l’optimisation en-ligne de paramètres d’imagerie microscopique à grande résolution pour l’acquisition efficace d’images utilisables en neuroscience. La thèse apporte donc des contributions à la fois algorithmiques, théoriques et applicatives. Une adaptation de l’algorithme best empirical sampled average (BESA), GP BESA, est proposée pour le problème des bandits contextuels. Son potentiel est mis en lumière par des expériences en simulation, lesquelles ont motivé le déploiement de la stratégie dans une étude sur des animaux en laboratoire. Les résultats, prometteurs, montrent que GP BESA est en mesure d’étendre la longévité de souris atteintes du cancer et ainsi augmenter significativement la quantité de données recueillies sur les sujets. Une adaptation de l’algorithme Thompson sampling (TS), Kernel TS, est proposée pour le problème des bandits structurés en reproducing kernel Hilbert space (RKHS). Une analyse théorique permet d’obtenir des garanties de convergence sur le pseudo-regret cumulatif. Des résultats de concentration pour la régression à noyau avec régularisation variable ainsi qu’une procédure d’ajustement adaptative de la régularisation basée sur l’estimation empirique de la variance du bruit sont également introduits. Ces contributions permettent de lever l’hypothèse classique sur la connaissance a priori de la variance du bruit en régression à noyau en-ligne. Des résultats numériques illustrent le potentiel de ces outils. Des expériences empiriques illustrent également la performance de Kernel TS et permettent de soulever des questionnements intéressants relativement à l’optimalité des intuitions théoriques. Une nouvelle variante de bandits multi-objectifs généralisant la littérature est proposée. Plus spécifiquement, le nouveau cadre considère que l’articulation des préférences entre les objectifs provient d’une fonction non observable, typiquement d’un utilisateur (expert), et suggère d’intégrer cet expert à la boucle d’apprentissage. Le concept des rayons de préférence est ensuite introduit pour évaluer la robustesse de la fonction de préférences de l’expert à des erreurs dans l’estimation de l’environnement. Une variante de l’algorithme TS, TS-MVN, est proposée et analysée. Des expériences empiriques appuient ces résultats et constituent une investigation préliminaire des questionnements relatifs à la présence d’un expert dans la boucle d’apprentissage. La mise en commun des approches de bandits structurés et multi-objectifs permet de s’attaquer au problème d’optimisation des paramètres d’imagerie STED de manière en-ligne. Les résultats expérimentaux sur un vrai montage microscopique et avec de vrais échantillons neuronaux montrent que la technique proposée permet d’accélérer considérablement le processus de caractérisation des paramètres et facilitent l’obtention rapide d’images pertinentes pour des experts en neuroscience. / This thesis deals with various variants of the bandits problem, wihch corresponds to a simplified instance of a RL problem with emphasis on the exploration-exploitation trade-off. More specifically, the focus is on three variants: contextual, structured, and multi-objective bandits. In the first, an agent searches for the optimal action depending on a given context. In the second, an agent searches for the optimal action in a potentially large space characterized by a similarity metric. In the latter, an agent searches for the optimal trade-off on a Pareto front according to a non-observable preference function. The thesis introduces algorithms adapted to each of these variants, whose performances are supported by theoretical guarantees and/or empirical experiments. These bandit variants provide a framework for two real-world applications with high potential impact: 1) adaptive treatment allocation for the discovery of personalized cancer treatment strategies; and 2) online optimization of microscopic imaging parameters for the efficient acquisition of useful images. The thesis therefore offers both algorithmic, theoretical, and applicative contributions. An adaptation of the BESA algorithm, GP BESA, is proposed for the problem of contextual bandits. Its potential is highlighted by simulation experiments, which motivated the deployment of the strategy in a wet lab experiment on real animals. Promising results show that GP BESA is able to extend the longevity of mice with cancer and thus significantly increase the amount of data collected on subjects. An adaptation of the TS algorithm, Kernel TS, is proposed for the problem of structured bandits in RKHS. A theoretical analysis allows to obtain convergence guarantees on the cumulative pseudo-regret. Concentration results for the regression with variable regularization as well as a procedure for adaptive tuning of the regularization based on the empirical estimation of the noise variance are also introduced. These contributions make it possible to lift the typical assumption on the a priori knowledge of the noise variance in streaming kernel regression. Numerical results illustrate the potential of these tools. Empirical experiments also illustrate the performance of Kernel TS and raise interesting questions about the optimality of theoretical intuitions. A new variant of multi-objective bandits, generalizing the literature, is also proposed. More specifically, the new framework considers that the preference articulation between the objectives comes from a nonobservable function, typically a user (expert), and suggests integrating this expert into the learning loop. The concept of preference radius is then introduced to evaluate the robustness of the expert’s preference function to errors in the estimation of the environment. A variant of the TS algorithm, TS-MVN, is introduced and analyzed. Empirical experiments support the theoreitcal results and provide a preliminary investigation of questions about the presence of an expert in the learning loop. Put together, structured and multi-objective bandits approaches are then used to tackle the online STED imaging parameters optimization problem. Experimental results on a real microscopy setting and with real neural samples show that the proposed technique makes it possible to significantly accelerate the process of parameters characterization and facilitate the acquisition of images relevant to experts in neuroscience.
80

Application of reinforcement learning algorithms to software verification

Moturu, Krishna Priya Darsini 12 April 2018 (has links)
Cette thèse présente une forme nouvelle de vérification de systèmes probabilistes en utilisant des algorithmes d’apprentissage par renforcement. Le développement de très grands et très complexes systèmes logiciels est souvent l’aboutissement d’un travail d’équipe. L’objectif est de satisfaire le client en lui livrant le produit spécifié, sans erreurs et à temps. Des erreurs humaines sont toujours faites lors du développement de tels systèmes, mais elles sont d’autant plus faciles à corriger si elles sont détectées tôt dans le processus de production. Pour ce faire, on a recours à des méthodes de vérification et de validation. Dans cette thèse, nous avons réussi à adapter des tech- niques d’apprentissage supervisé pour solutionner des problèmes de vérification de logi- ciels. Cette approche nouvelle peut-être utilisée, même si le modle complet n’est pas disponible, ce qui est une nouveauté en théorie de la vérification probabiliste. Dans cette thèse, nous ne nous intéressons pas seulement à vérifier si, oui ou non, un système se comporte exactement comme ses spécifications, mais aussi, à trouver, dans la négative, à quel point il s’en écarte. / This thesis presents a novel form of system verification through reinforcement learning algorithms. Large and complex software systems are often developed as a team effort. The aim of the development is to satisfy the customer by delivering the right product, with the right quality, and in time. Errors made by developers will always occur when a system is developed, but their effect can be reduced by removing them as early as possible. Software verification and validation are activities that are conducted to im- prove product quality. In this thesis we will adapt the techniques used in reinforcement learning to Software verification to verify if implemented system meets its specifica- tions. This new approach can be used even if the complete model of the system is not available, which is new in probabilistic verification. This thesis main aim is not only to answer the question whether the system behaves according to its specifications but also to find the degree of divergence between the system and its specifications.

Page generated in 0.0759 seconds