Global ETD Search

1	Contributions à l'apprentissage par renforcement inverse / Contributions to inverse reinforcement learning Klein, Édouard 21 November 2013 (has links) Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus décisionnel de Markov en introduisant la structure temporelle (par le biais de l'attribut moyen) de ce processus dans un algorithme de classification structurée. Les garanties théoriques qui lui sont attachées et ses bonnes performances en pratique ont permis sa présentation dans une conférence internationale prestigieuse : NIPS. Enfin, la troisième contribution est constituée par la méthode cascaded supervised learning for inverse reinforcement learning (CSI) consistant à apprendre le comportement de l'expert par une méthode supervisée puis à introduire la structure temporelle du MDP par une régression mettant en jeu la fonction de score du classifieur utilisé. Cette méthode offre des garanties théoriques de même nature que celle de SCIRL tout en présentant l'avantage d'utiliser des composants standards pour la classification et la régression, ce qui simplifie la mise en oeuvre. Ce travail sera présenté dans une autre conférence internationale prestigieuse : ECML / This thesis, "Contributions à l'apprentissage par renforcement inverse", brings three major contributions to the community. The first one is a method for estimating the feature expectation, a quantity involved in most of state-of-the-art approaches which were thus extended to a batch off-policy setting. The second major contribution is an Inverse Reinforcement Learning algorithm, structured classification for inverse reinforcement learning (SCIRL), which relaxes a standard constraint in the field, the repeated solving of a Markov Decision Process, by introducing the temporal structure (using the feature expectation) of this process into a structured margin classification algorithm. The afferent theoritical guarantee and the good empirical performance it exhibited allowed it to be presentend in a good international conference: NIPS. Finally, the third contribution is cascaded supervised learning for inverse reinforcement learning (CSI) a method consisting in learning the expert's behavior via a supervised learning approach, and then introducing the temporal structure of the MDP via a regression involving the score function of the classifier. This method presents the same type of theoretical guarantee as SCIRL, but uses standard components for classification and regression, which makes its use simpler. This work will be presented in another good international conference: ECML Apprentissage par renforcement inverse Processus de Markov Algorithme de classification structurée Régression 003.7
2	Optimisation multi-objectives d’une infrastructure réseau dédiée aux bâtiments intelligents / Multi-objective optimization of a network infrastructure dedicated to smart buildings Benatia, Mohamed Amin 13 December 2016 (has links) Au cours de cette thèse, nous avons étudié le problème de déploiement des Réseaux de Capteurs Sans-Fil (RCSF) pour des applications indoor tel que le bâtiment intelligent. Le but de notre travail était de développer un outil de déploiement capable d'assister les concepteurs de RCSF lors de la phase de déploiement de ces derniers. Nous avons commencé cette thèse par la modélisation de tous les paramètres qui interviennent lors du déploiement des RCSF, à savoir : coût, connectivité, couverture et durée de vie. Par la suite, nous avons implémenté cinq algorithmes d'optimisation, dont trois multi-objectifs afin de résoudre le problème de déploiement. Deux cas d'études réelles (grande et petite instance) ont été identifiés afin de tester ces algorithmes. Les résultats obtenus ont montré que ces algorithmes sont efficaces quand il s'agit d'un petit bâtiment (petit espace). Par contre, dès que la surface du bâtiment augmente les performances des algorithmes étudiés se dégradent. Pour répondre à cela, nous avons développé et implémenté un algorithme d'optimisation multi-objectifs hybride. Cet algorithme se base sur des notions de clustering et d'analyse de données afin de limiter le nombre d'évaluations directes qu'entreprennent ces méthodes pendant chaque itération. Afin d'assurer cette limitation d'évaluation les fonctions de fitness sont approximées grâce aux réseaux de neurones et l'algorithme de classification K-means. Les résultats obtenus ont montré une très bonne performance sur les deux instances de tailles différentes. Ces résultats ont été comparés à ceux obtenus avec les méthodes classiques utilisées et sont compétitives et prometteuses. / In this thesis, we studied the Wireless Sensor Network deployment for indoor environments with a focus on smart building application. The goal of our work was to develop a WSN deployment tool which is able to assist network designers in the deployment phase. We begin this thesis with network modeling of all the deployment parameters and requirement, such as : cost, coverage, connectivity and network lifetime. Thereafter, we implement five optimisation methods, including three multi-objective optimization agorithms, to resolve WSN deployment problem. Then, two realistics study cases were identified to test the performances of the aforementioned algorithms. The obtained results shows that these algorithms are very efficient for deploying a small scale network in small buildings. However, when the building surface becomes more important the algorithms tends to converge to local optimum while consuming high processing time. To resolve this problem, we develop and implement a new Hybrid multi-objectif optimization algorithm wich limits the number of direct evaluation. This algorithm is based on data-mining methods (Artificial Neural Networks and K-means) and tries to approximate the fitness value of each individual in each generation. At every generation of the algorithm, the population is divided to K clusters and we evaluate only the closest individual to cluster centroide. The fitness value of the rest of population is approximated using a trained ANN. A comparative study was made and the obtained results show that our method outperformes others in the two sudy cases (small and big buildings). Réseaux de capteurs sans-fil RCSF Algorithme de classification K-means Wireless sensor network Building application Artificial neural networks
3	Etude du brouillard en zone côtière par modélisation des processus physiques de la couche limite atmosphérique : cas du Grand Casablanca (Maroc) / Fog study in the coastal areas as through the modeling of the physical processes in the atmospheric boundary layer : case of the Grand Casablanca region, Morocco Bari, Driss 15 October 2015 (has links) Le brouillard est un phénomène météorologique très difficile à prévoir, même à très courte échéance, en raison de sa grande variabilité spatiale et temporelle qui est due à des interactions complexes entre divers processus physiques. Dans cette thèse, les caractéristiques météorologiques locales et les processus synoptiques favorables aux brouillards sur la région du Grand Casablanca (Maroc) sont examinés à l'aide des observations horaires aux deux stations météorologiques permanentes de cette région côtière. Un algorithme de classification objectif est développé et utilisé pour classer les événements en des types de brouillard les plus rencontrés. Cette étude climatologique a mis en évidence que le brouillard a le plus souvent un caractère localisé et que le type d'advection-rayonnement est le plus fréquent sur la région, suivi des types d'affaissement de stratus et de rayonnement. Quand le brouillard intéresse simultanément les deux stations, la probabilité d'observer deux types différents est assez élevée. Les processus advectifs liés à la circulation de brise de mer au cours de l'après-midi, suivis de ceux radiatifs en début de nuit jouent un rôle important dans la formation du brouillard sur la région. Des simulations numériques à l'aide du modèle Méso-NH sont réalisées. Ces simulations ont confirmé que les processus physiques impliqués dans le cycle de vie du brouillard peuvent être différents selon la nature géographique de la surface. Elles ont aussi mis en évidence que la prévision numérique du brouillard en zone côtière est sensible à la température de la surface de la mer, à la topographie locale, et à l'occupation du sol. De plus, la prévision du brouillard côtier dépend fortement de la capacité du modèle à reproduire correctement la circulation de brise au cours de l'après-midi et les processus radiatifs en début de nuit. Les simulations systématiques des cas de brouillard de l'hiver 2013-2014 a montré la capacité du modèle Méso- NH à reproduire l'occurrence du brouillard avec néanmoins un taux relativement élevé de fausses alarmes, en particulier à la station côtière. / The prediction of fog remains a challenge due to its time and space variability and to the complex interaction between the numerous physical processes influencing its life cycle. During the first stage of this thesis, the local meteorological and synoptic characteristics of fog occurrence over the Grand Casablanca region (Morocco) are investigated. To achieve this, hourly surface meteorological observations, at two synoptic stations of this coastal region, are used. An objective fog-type classification has been developed in this work and used to discriminate the fog events into the well known types. This fog climatology points out that the fog is often localized and that it is predominantly of advection-radiation type, followed by fog resulting from cloud base lowering and radiation fog. Besides, two different fog types can occur when fog simultaneously concerns the two stations. The advective processes associated with sea breeze circulation during the daylight, followed by the radiative processes often leads to fog formation over this coastal region. Numerical simulations are performed later using the meso-scale non-hydrostatic model Meso-NH. These simulations confirm that the physical processes, governing the life cycle of fog, can be different according to the physiographic features of the area. Moreover, the numerical prediction of coastal fog over heterogeneous area is very sensitive to sea surface temperature, land local topography and land cover. It also depends on the model's ability to reproduce the sea breeze circulation during the daylight followed by the radiative processes early in the night. The systematic numerical simulations of the fog events that occurred during the winter 2013-2014 indicate the Meso-NH's ability to well capture the fog occurrence with a relatively high false alarm rate, particularly over the coastal station. Brouillard côtier Couche limite atmosphérique Algorithme de classification Climatologie synoptique Turbulence Modèle Méso-NH Coastal fog Atmospheric boundary layer Classification Synoptic climatology Turbulence Méso-NH model
4	Améliorer les connaissances sur les processus écologiques régissant les dynamiques de populations d'auxiliaires de culture : modélisation couplant paysages et populations pour l'aide à l'échantillonnage biologique dans l'espace et le temps / Improving knowledge about ecological processes underlying natural enemies population dynamics : coupling landscape and population modelling to optimise biological sampling in space and time Bellot, Benoit 18 April 2018 (has links) Une alternative prometteuse à la lutte chimique pour la régulation des ravageurs de culture consiste à favoriser les populations de leurs prédateurs en jouant sur la structure du paysage agricole. L'identification de structures spatio-temporelles favorables aux ennemis naturels peut se faire par l'exploration de scénarios paysagers via une modélisation couplée de paysages et de dynamiques de population. Dans cette approche, les dynamiques de populations sont simulées sur des paysages virtuels aux propriétés structurales contrôlées, et l'observation des motifs de populations associés permet l'identification de structures favorables. La modélisation des dynamiques de populations repose cependant sur une connaissance fine des processus écologiques et de leur variabilité entre les différentes unités du paysage. L'état actuel des connaissances sur les mécanismes écologiques régissant les dynamiques des ennemis naturels de la famille des carabidés demeure l'obstacle majeur à la recherche in silico de scénarios paysagers favorables. La littérature sur les liens entre motifs de population de carabes et variables paysagères permet de formuler un ensemble d'hypothèses en compétition sur ces mécanismes. Réduire le nombre de ces hypothèses en analysant les convergences entre les motifs de population qui leur sont associés, et étudier la stabilité de ces convergences le long d'un gradient paysager apparaît comme une première étape nécessaire vers l'amélioration de la connaissance sur les processus écologiques. Dans une première partie, nous proposons une heuristique méthodologique basée sur la simulation de modèles de réaction-diffusion porteurs de ces hypothèses en compétition. L'étude des motifs de population a permis d'effectuer une typologie des modèles en fonction de leur réponse à une variable paysagère, via un algorithme de classification, réduisant ainsi le nombre d’hypothèses en compétition. La sélection de l'hypothèse la plus plausible parmi cet ensemble irréductible doit s'effectuer sur la base d'une observation des motifs de population sur le terrain. Cela implique que ces derniers soient caractérisés à des résolutions spatiales et temporelles suffisantes pour sélectionner une unique hypothèse parmi celles en compétition. Dans la deuxième partie, nous proposons une heuristique méthodologique permettant de déterminer a priori des stratégies d'échantillonnage maximisant la robustesse de la sélection d'hypothèses écologiques. Dans un premier temps, la simulation de modèles de réaction-diffusion représentatifs des hypothèses écologiques en compétition permet de générer des données biologiques virtuelles en tout point de l'espace et du temps. Ces données biologiques sont ensuite échantillonnées suivant des protocoles différant dans l'effort total d'échantillonnage, le nombre de dates, le nombre de points par unité d'espace et le nombre de réplicats de paysages. Les motifs des populations sont caractérisés à partir de ces échantillons. Le potentiel des stratégies d'échantillonnage est évalué via un algorithme de classification qui classe les modèles biologiques selon les motifs de population associés. L'analyse des performances de classification, i.e. la capacité de l'algorithme à discriminer les processus écologiques, permet de sélectionner un protocole d'échantillonnage optimal. Nous montrons également que la manière de distribuer l'effort d'échantillonnage entre ses composantes spatiales et temporelles est un levier majeur sur l'inférence des processus écologiques. La réduction du nombre d'hypothèses en compétition et l'aide à l'échantillonnage pour la sélection de modèles répondent à un besoin fort dans le processus d'acquisition de connaissances écologiques pour l'exploration in silico de scénarios paysagers favorisant des services écosystémiques. Nous discutons dans une dernière partie des implications de nos travaux et de leurs perspectives d'amélioration. / A promising alternative to the chemical control of pests consists in favoring their natural enemies populations by managing the agricultural landscape structure. Identifying favorable spatio-temporal structures can be performed through the exploration of landscape scenarios using coupled models of landscapes and population dynamics. In this approach, population dynamics are simulated on virtual landscapes with controlled properties, and the observation of population patterns allows for the identification of favorable structures. Population modeling however relies on a good knowledge about the ecological processes and their variability within the landscape elements. Current state of knowledge about the ecological mechanisms underlying natural enemies’ of the carabid family population dynamics remains a major obstacle to in silico investigation of favorable landscape scenarios. Literature about the relationship between carabid population and landscape properties allows the formulation of competing hypotheses about these processes. Reducing the number of these hypotheses by analyzing the convergence between their associated population patterns and investigating the stability of their convergence along a landscape gradient appears to be a necessary tep towards a better knowledge about ecological processes. In a first step, we propose a heuristic method based on the simulation of reaction-diffusion models carrying these competing hypotheses. Comparing the population patterns allowed to set a model typology according to their response to the landscape variable, through a classification algorithm, thus reducing the initial number of competing hypotheses. The selection of the most likely hypothesis from this irreducible set must rely on the observation of population patterns on the field. This implies that population patterns are described with spatial and temporal resolutions that are fine enough to select a unique hypothesis among the ones in competition. In the second part, we propose a heuristic method that allows determining a priori sampling strategies that maximize the robustness of ecological hypotheses selection. The simulation of reaction-diffusion models carrying the ecological hypotheses allows to generate virtual population data in space and time. These data are then sampled using strategies differing in the total effort, number of sampling locations, dates and landscape replicates. Population patterns are described from these samples. The sampling strategies are assessed through a classification algorithm that classifies the models according to the associated patterns. The analysis of classification performances, i.e. the ability of the algorithm to discriminate the ecological processes, allows the selection of optimal sampling designs. We also show that the way the sampling effort is distributed between its spatial and temporal components is strongly impacting the ecological processes inference. Reducing the number of competing ecological hypotheses, along with the selection of sampling strategies for optimal model inference both meet a strong need in the process of knowledge improvement about the ecological processes for the exploration of landscape scenarios favoring ecosystem services. In the last chapter, we discuss the implications and future prospects of our work. Écologie du paysage Services écosystémiques Régulation de ravageurs Modélisation de paysages Dynamiques de population Réaction-Diffusion Sélection de modèles Inférence des processus écologiques Algorithme de classification Échantillonnage spatio-Temporel Carabidés Landscape ecology Ecosystem services Pest management Landscape modelling Population dynamics Reaction-Diffusion Model selection Ecological processes inference Classification algorithm Spatio-Temporal sampling Carabids

Search results

Contributions à l'apprentissage par renforcement inverse / Contributions to inverse reinforcement learning

Optimisation multi-objectives d’une infrastructure réseau dédiée aux bâtiments intelligents / Multi-objective optimization of a network infrastructure dedicated to smart buildings