Global ETD Search

21	PROBABILITÉ DE SURVIE D'UN PROCESSUS DE BRANCHEMENT DANS UN ENVIRONNEMENT ALÉATOIRE MARKOVIEN Ye, Yinna 08 June 2011 (has links) (PDF) L'objet de cette thèse est d'étudier la probabilité de survie d'un processus de branchement en environnement aléatoire markovien et d'étendre dans ce cadre les résultats connus en milieu aléatoire indépendant et identiquement distribué. Le coeur de l'étude repose sur l'utilisation des théorèmes limites locaux pour une marche aléatoire centrée (Sn)n 0 sur R à pas markoviens et pour (mn)n 0, où mn = min (0; S1; ; Sn). Pour traiter le cas d'un environnement aléatoire markovien, nous développons dans un premier temps une étude des théorèmes locaux pour une chaîne semi-markovienne à valeurs réelles en améliorant certains résultats déjà connus et développés initialement par E. L. Presman (voir [22] et [23]). Nous utilisons ensuite ces résultats pour l'étude du comportement asymptotique de la probabilité de survie d'un processus de branchement critique en environnement aléatoire markovien. Les résultats principaux de cette thèse ont été annoncés dans les Comptes Rendus de l'Académie des Sciences ([21]). Un article plus détaillé est soumis pour publication dans la revue Journal of Theoretical Probability. Dans cette thèse, nous précisons les énoncés de ces théorèmes et détaillons leurs démonstrations. [MATH] Mathematics Théorème limite local chaîne de Markov marche aléatoire à pas markoviens processus de branchement
22	Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée) Dutech, Alain 02 December 2010 (has links) (PDF) Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour des tâches non-Markoviennes qui est une problématique commune aux différents travaux de recherche que j'ai menés au cours des treize dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale difficulté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes de ``l'ancrage des symboles'', du ``frame problem'' et du fait ``d'être en situation'' et qu'on ne pourra y apporter des réponses que dans le cadre de l'embodiment. C'est à partir de ce constat que, dans une dernière partie, j'aborde les axes et les approches que je vais suivre pour poursuivre mes travaux en développant des techniques d'apprentissage robotique qui soient incrémentales, holistiques et motivationnelles. [INFO:INFO_OH] Computer Science/Other Sciences Cognitives Intelligence Artificielle Robotique Apprentissage par Renforcement Représentations Environnements non-Markoviens POMDP
23	Apprentissage et adaptation pour la modélisation stochastique de systèmes dynamiques réels JEANPIERRE, Laurent 03 December 2002 (has links) (PDF) L'application des algorithmes issus de l'Intelligence Artificielle à des applications concrètes est un domaine de recherche intéressant de par les perspectives que cela ouvre. En effet, les contraintes de ces problèmes sont telles que les faiblesses des algorithmes sont mises en évidence de façon beaucoup plus efficace que sur les exemples académiques classiques. Dans cette thèse, je m'intéresse plus particulièrement à deux problèmes d'aide au diagnostic médical. Les outils développés sont donc en interaction constante avec l'équipe médicale correspondante. Je montre donc comment, en alliant la puissance de raisonnement des modèles Markoviens au côté intuitif des ensembles flous, il est possible d'obtenir un système de diagnostic viable. Pour aider encore cette coopération, j'introduis la notion d'apprentissage de diagnostic. Cette méthodologie permet en effet au médecin de corriger le diagnostic établi par le système sur un laps de temps donné. Le système adapte alors le modèle du patient, de façon à se rapprocher de la consigne, tout en respectant des contraintes de stabilité numérique. Ce processus autorise donc le médecin à modifier les paramètres du modèle de manière cohérente, et, surtout, sans avoir à régler chacun des paramètres manuellement. Je montre finalement comment cette approche peut être généralisée à des problèmes éloignés de la médecine, en prenant l'exemple de la localisation d'un robot mobile. Cette approche mène à la réalisation d'une interface de conception d'agents ‘intelligents'. L'utilisateur désireux de construire une nouvelle application peut alors mettre cette bibliothèque en œuvre, en reliant des modules les uns aux autres afin d'obtenir les traitements nécessaires. De par sa conception à base d'objets, cette bibliothèque permet aisément l'ajout ou la modification d'algorithmes au fur et à mesure de leur développement. Cela devrait aider au développement de nouvelles applications, tout en réduisant le travail nécessaire des chercheurs impliqués. Intelligence Artificielle Située Télémédecine Diagnostic Apprentissage Processus stochastiques markoviens
24	Mécanismes de retransmission Hybrid-ARQ en radio-cognitive. Tajan, Romain 05 December 2013 (has links) (PDF) Dans les standards actuels tels que HSDPA ou LTE, des protocoles de retransmissions (ARQ: Automatic Repeat reQuest) sont utilisés conjointement au codage de canal afin de palier aux erreurs dues à l'absence ou la mauvaise de connaissance de canal à la transmission. On garantit ainsi la fiabilité du lien physique pour les couches OSI supérieures (du moins un taux d'erreur paquet faible). De tels protocoles sont appelés protocoles de retransmission hybrides (HARQ). L'objet de cette thèse est de proposer des outils permettant l'analyse et l'optimisation des systèmes de communication en présences de protocoles HARQ avec une emphase particulière sur les systèmes cognitifs.Dans la première partie, nous étudierons un système point-à-point dans lequel trois différents protocoles HARQ adaptatifs seront considérés. Dans un premier temps, nous considérerons le régime asymptotique (i.e. codes optimaux gaussiens). Nous proposerons, dans ce cas, deux optimisations possibles : la minimisation de la puissance moyenne sous la contrainte de débit moyen et la maximisation du débit moyen sous une contrainte de puissance moyenne. Nous montrerons que les Processus de Décision Markoviens (MDP) sont des outils adaptés aux problèmes d'optimisation considérés.Dans les standards actuels tels que HSDPA ou LTE, des protocoles de retransmissions (ARQ: Automatic Repeat reQuest) sont utilisés conjointement au codage de canal afin de palier aux erreurs dues à l'absence ou la mauvaise de connaissance de canal à la transmission. On garantit ainsi la fiabilité du lien physique pour les couches OSI supérieures (du moins un taux d'erreur paquet faible). De tels protocoles sont appelés protocoles de retransmission hybrides (HARQ). L'objectif de cette thèse est de proposer des outils permettant l'analyse et l'optimisation des systèmes de communication en présences de protocoles HARQ avec une emphase particulière sur les systèmes cognitifs. La radio cognitive est une approche permettant à des utilisateurs non-licenciés de communiquer dans les mêmes bandes de fréquences que des utilisateurs licenciés afin d'augmenter l'efficacité spectrale des réseaux sans fil. Les utilisateurs secondaires doivent néanmoins limiter les interférences générées sur les signaux des utilisateurs primaires. Dans ce contexte, nous étudierons les débits atteignables par un utilisateur secondaire utilisant l'observation du protocole HARQ de l'utilisateur primaire afin de contrôler son interférence. [SPI:OTHER] Engineering Sciences/Other Radio-cognitive Hybrid-ARQ Limitation d'interférence Processus de Décisions Markoviens
25	Traitement statistique d'images hyperspectrales pour la détection d'objets diffus : application aux données astronomiques du spectro-imageur MUSE / Statistical hyperspectral image processing for diffuse object detection : application to the astronomical images from the spectro-imager MUSE Courbot, Jean-Baptiste 13 October 2017 (has links) Nous étudions le problème de la détection et de la segmentation dans des images extrêmement bruitées. L'application est la détection, dans les données hyperspectrales astronomiques de l'instrument MUSE, de halos (localisés et homogènes dans les images) et de filaments (structures anisotropes à grande échelle). Dans un premier temps, nous. étudions le problème de détection par tests d'hypothèses dans des images hyperspectrales en nous appuyant sur des contraintes de formes spatiales, spectrales et de similarité entre spectres. Nous introduisons ensuite un modèle de champ de Markov couple convolutif, qui permet de poser le problème de détection comme le cas particulier d'un problème de segmentation, tout en apportant un a priori markovien sur la classification recherchée. Ensuite, afin de modéliser les structures orientées dans les images, nous introduisons un modèle de champ de Markov triplet permettant la segmentation simultanée des orientations et des classes. Dans le but de modéliser des structures à grande échelle dans les images, nous introduisons également un modèle d'arbre de Markov triplet permettant la prise en compte simultanée de composantes hiérarchiques inter-résolution et d'homogénéité au sein d'une résolution. Chaque modèle a été validé et comparé à l'état de l'art, puis tous ont été comparés sur des données synthétiques dans le contexte de la détection dans des images hyperspectrales astronomiques. Le manuscrit présente enfin l'analyse des résultats obtenus sur des données réelles issues de l'instrument MUSE. / We study the detection and segmentation problems in extremely noised images. The main application of these works is the detection of large-scale structures in MUSE astronomical hyperspectral images, namely haloes (localized and homogenous in images) and filaments (anisotropie large-scale structures). First, we study the hypothesis-testing detection in hyperspectral images, based on spatial and spectral shape constraints as well as similarity constraints. Then, we introduce a pairwise Markov field model which allows the formulation of the detection problem as a special case of the segmentation problem while introducing a Markovian prior on the result. Next , in order to model onented structures m images, we propose a triplet Markov field model following the ià1ntsegmentation of orientations and classes in images. Finally, we study the modelling of large-scale structures in images by introducing a triplet Markov tree model handling inter-resolution dependancy jointly with homogeneity within resolutions. The two latter models were introduced in the general framework of image segmentation. Each model was validated with respect toits alternatives, then all models were compared on synthetic data in the context of detection within astronomical hyperspectral images. Finally, this document presents the analysis of the results on real MUSE images. Segmentation Détection Modèles markoviens Images hyperspectrales astronomiques Segmentation Detection Markovian modeling Astronomical hyperspectral images 006.6 519 522
26	Approches probabilistes et numériques de modèles individus-centrés du chemostat / Probabilistic and numerical approaches of chemostat individual based models Fritsch, Coralie 08 December 2014 (has links) Dans une première partie, nous proposons un nouveau modèle de chemostat dans lequel la population bactérienne est représentée de manière individu-centrée, structurée en masse, et la dynamique du substrat est modélisée par une équation différentielle ordinaire. Nous obtenons un processus markovien que nous décrivons à l'aide de mesures aléatoires. Nous déterminons, sous une certaine renormalisation du processus, un résultat de convergence en loi de ce modèle individu-centré hybride vers la solution d'un système d'équations intégro-différentielles. Dans une seconde partie, nous nous intéressons à des modèles de dynamiques adaptatives du chemostat. Nous reprenons le modèle individu-centré étudié dans la première partie, auquel nous ajoutons un mécanisme de mutation. Sous des hypothèses de mutations rares et de grande population, les résultats asymptotiques obtenus dans la première partie nous permettent de réduire l'étude d'une population mutante à un modèle de croissance-fragmentation-soutirage en milieu constant. Nous étudions la probabilité d'extinction de cette population mutante. Nous décrivons également le modèle déterministe associé au modèle individu-centré hybride avec mutation et nous comparons les deux approches, stochastique et déterministe; notamment nous démontrons qu'elles mènent au même critère de possibilité d'invasion d'une population mutante dans une population résidente.Nous présentons des simulations numériques illustrant les résultats mathématiques obtenus. / In the first part, we propose a new chemostat model in which the bacterial population is mass structured and individual-based and the substrate dynamics are modelized by an ordinary differential equation. We obtain a Markovian process which we describe as random measures. We determine, under a certain normalization of the process, a result of convergence in distribution towards the solution of a system of integro-differential equations. In the second part, we are interested in adaptive dynamic models of the chemostat. We add a mutation mechanism to the individual-based model which was studied in the first part. Under rare mutations and large population size hypotheses, the asymptotical result of the first part allows us to reduce the study of the mutant population to a growth-fragmentation-washout model in a constant environment. We study the extinction probability of this mutant population. We also describe the deterministic model related to the hybrid individual-based model with mutations and we compare these two approaches (stochastic and deterministic). In particular we prove that the two approaches lead to the same invasion criteria of a mutant population in a resident population.We present numeric simulations in order to illustrate the mathematical results. Ibm Processus Markoviens Convergence faible Chemostat Dynamiques adaptatives Fitness d'invasion Ibm Markovian processes Weak convergence Chemostat Adaptive dynamics Invasion fitness
27	Processus de substitution markoviens : un modèle statistique pour la linguistique / Markov Substitute Processes : a statistical model for linguistics Mainguy, Thomas 11 December 2014 (has links) Ce travail de thèse propose une nouvelle approche au traitement des langues naturelles. Plutôt qu'essayer d'estimer directement la probabilité d'une phrase quelconque, nous identifions des structures syntaxiques dans le langage, qui peuvent être utilisées pour modifier et créer de nouvelles phrases à partir d'un échantillon initial. L'étude des structures syntaxiques est accomplie avec des ensembles de substitution Markoviens, ensembles de chaînes de caractères qui peuvent être échangées sans affecter la distribution. Ces ensembles définissent des processus de substitution Markoviens qui modélisent l'indépendance conditionnelle de certaines chaînes vis-À-Vis de leur contexte. Ce point de vue décompose l'analyse du langage en deux parties, une phase de sélection de modèle, où les ensembles de substitution sont sélectionnés, et une phase d'estimation des paramètres, où les fréquences pour chaque ensemble sont estimées. Nous montrons que ces processus constituent des familles exponentielles quand la structure du langage est fixée. Lorsque la structure du langage est inconnue, nous proposons des méthodes pour identifier des ensembles de substitution à partir d'un échantillon, et pour estimer les paramètres de la distribution. Les ensembles de substitution ont quelques relations avec les grammaires hors-Contexte, qui peuvent être utilisées pour aider l'analyse. Nous construisons alors des dynamiques invariantes pour les processus de substitution. Elles peuvent être utilisées pour calculer l'estimateur du maximum de vraisemblance. En effet, les processus de substitution peuvent être vus comme la limite thermodynamique de la mesure invariante d'une dynamique de crossing-Over. / This thesis proposes a new approach to natural language processing. Rather than trying to estimate directly the probability distribution of a random sentence, we will detect syntactic structures in the language, which can be used to modify and create new sentences from an initial sample.The study of syntactic structures will be done using Markov substitute sets, sets of strings that can be freely substituted in any sentence without affecting the whole distribution. These sets define the notion of Markov substitute processes, modelling conditional independence of certain substrings (given by the sets) with respect to their context. This point of view splits the issue of language analysis into two parts, a model selection stage where Markov substitute sets are selected, and a parameter estimation stage where the actual frequencies for each set are estimated.We show that these substitute processes form exponential families of distributions, when the language structure (the Markov substitute sets) is fixed. On the other hand, when the language structure is unknown, we propose methods to identify Markov substitute sets from a statistical sample, and to estimate the parameters of the distribution. Markov substitute sets show some connections with context-Free grammars, that can be used to help the analysis. We then proceed to build invariant dynamics for Markov substitute processes. They can among other things be used to effectively compute the maximum likelihood estimate. Indeed, Markov substitute models can be seen as the thermodynamical limit of the invariant measure of crossing-Over dynamics. Processus markoviens Analyse des langues naturelles Algorithme Metropolis Tests d'hypothèse pac-Bayesiens Grammaires formelles Apprentissage statistique Markov processes Natural language 510
28	Bootstrap and uniform bounds for Harris Markov chains / Bootstrap et bornes uniformes pour des chaînes de Markov Harris récurrentes Ciolek, Gabriela 14 December 2018 (has links) Cette thèse se concentre sur certaines extensions de la théorie des processus empiriques lorsque les données sont Markoviennes. Plus spécifiquement, nous nous concentrons sur plusieurs développements de la théorie du bootstrap, de la robustesse et de l’apprentissage statistique dans un cadre Markovien Harris récurrent positif. Notre approche repose sur la méthode de régénération qui s’appuie sur la décomposition d’une trajectoire de la chaîne de Markov atomique régénérative en blocs d’observations indépendantes et identiquement distribuées (i.i.d.). Les blocs de régénération correspondent à des segments de la trajectoire entre des instants aléatoires de visites dans un ensemble bien choisi (l’atome) formant une séquence de renouvellement. Dans la premiére partie de la thèse nous proposons un théorème fonctionnel de la limite centrale de type bootstrap pour des chaînes de Markov Harris récurrentes, d’abord dans le cas de classes de fonctions uniformément bornées puis dans un cadre non borné. Ensuite, nous utilisons les résultats susmentionnés pour obtenir unthéorème de la limite centrale pour des fonctionnelles Fréchet différentiables dans un cadre Markovien. Motivés par diverses applications, nous discutons la manière d’étendre certains concepts de robustesse à partir du cadre i.i.d. à un cas Markovien. En particulier, nous considérons le cas où les données sont des processus Markoviens déterministes par morceaux. Puis, nous proposons des procédures d’échantillonnage résiduel et wild bootstrap pour les processus périodiquement autorégressifs et établissons leur validité. Dans la deuxième partie de la thèse, nous établissons des versions maximales d’inégalités de concentration de type Bernstein, Hoeffding et des inégalités de moments polynomiales en fonction des nombres de couverture et des moments des temps de retour et des blocs. Enfin, nous utilisons ces inégalités sur les queues de distributions pour calculer des bornes de généralisation pour une estimation d’ensemble de volumes minimum pour les chaînes de Markov régénératives. / This thesis concentrates on some extensions of empirical processes theory when the data are Markovian. More specifically, we focus on some developments of bootstrap, robustness and statistical learning theory in a Harris recurrent framework. Our approach relies on the regenerative methods that boil down to division of sample paths of the regenerative Markov chain under study into independent and identically distributed (i.i.d.) blocks of observations. These regeneration blocks correspond to path segments between random times of visits to a well-chosen set (the atom) forming a renewal sequence. In the first part of the thesis we derive uniform bootstrap central limit theorems for Harris recurrent Markov chains over uniformly bounded classes of functions. We show that the result can be generalized also to the unbounded case. We use the aforementioned results to obtain uniform bootstrap central limit theorems for Fr´echet differentiable functionals of Harris Markov chains. Propelledby vast applications, we discuss how to extend some concepts of robustness from the i.i.d. framework to a Markovian setting. In particular, we consider the case when the data are Piecewise-determinic Markov processes. Next, we propose the residual and wild bootstrap procedures for periodically autoregressive processes and show their consistency. In the second part of the thesis we establish maximal versions of Bernstein, Hoeffding and polynomial tail type concentration inequalities. We obtain the inequalities as a function of covering numbers and moments of time returns and blocks. Finally, we use those tail inequalities toderive generalization bounds for minimum volume set estimation for regenerative Markov chains. Bootstrap Processus markoviens Apprentissage statistique Inégalités de concentration Processus régéneratifs Robustesse Bootstrap Markov processes Statistical learning Concentration inequalities Regenerative processes Robustness
29	Smart grid-aware radio engineering in 5G mobile networks / Ingénierie radio orientée smart grids dans les réseaux mobiles 5G Labidi, Wael 21 March 2019 (has links) La demande en énergie dans les réseaux de téléphonie mobile augmente en raison de l’émergence de nouvelles technologies et de nouveaux services aux exigences de plus en plus élevées (débits de données, délais, etc.). Dans ce contexte, l'opérateur de réseau mobile (ORM) doit fournir d'avantage de ressources radio et de capacité de traitement dans son réseau, entraînant ainsi des coûts financiers plus élevés. L’ORM n’a pas d’autre choix que de mettre en œuvre des stratégies d’économie d’énergie sur plusieurs niveaux de son infrastructure, notamment au niveau du réseau d’accès radio (RAN).En parallèle, le réseau électrique devient plus intelligent, avec de nouvelles fonctionnalités pour équilibrer l'offre et la demande en faisant varier les prix de l'électricité, permettant ainsi à certains agrégateurs d'énergie de faire partie du processus d'approvisionnement et en signant des accords de réponse à la demande avec ses clients les plus important. Dans le contexte d'un réseau électrique intelligent et fiable, l'ORM, qui compte des milliers de evolved NodeB (eNB) répartis sur tout le pays, doit jouer un rôle majeur dans le réseau en agissant en tant que consommateur potentiel capable de vendre de l'électricité. Toutefois, dans les pays d'Afrique subsaharienne, le réseau peut ne pas être fiable, voire même inexistant, l'ORM n'a d'autre choix que de déployer une centrale électrique virtuelle (VPP) qui l'alimente partiellement ou totalement.Dans cette thèse, nous étudions les interactions entre l’opérateur de réseau et le réseau électrique, qu’il soit fiable ou non, dans les pays développés comme dans les pays en cours de développement. Nous étudions la gestion optimale de l'énergie à long et à court terme, dans le but de minimiser le coût total de possession (TCO) en énergie de l'opérateur par station de base, qui correspond à la somme de ses dépenses d'investissement (CAPEX) et de ses dépenses opérationnelles (OPEX), en assurant la satisfaction des besoins croissants en trafic de ses utilisateurs dans la cellule.L'étude à long terme nous permet de prendre des décisions d'investissement semestrielles pour le dimensionnement de la batterie et des sources énergies renouvelables, en tenant compte de la dégradation des performances des équipements, des prévisions de la croissance du trafic des utilisateurs et de l'évolution du marché de l'électricité sur une longue période de temps comptée en années.Dans le cas où elle est alimentée par un réseau intelligent fiable, la politique à court terme aide l’opérateur à définir quotidiennement une stratégie de gestion optimale de la batterie assurant l'arbitrage ou à le trading d’électricité tout en exploitant les fluctuations horaires des prix de l’électricité afin de minimiser la facture énergétique journalière de l'ORM tout en respectant certaines règles d'utilisation de ces équipements.Dans le cas d'un réseau électrique non fiable ou complètement inexistant, l'opérateur est alimenté par des sources hybrides couplant stockage (batteries), générateurs diesel, énergie solaire et le réseau électrique si ce dernier est opérationnel. Ici, nous définissons un ordre de priorité fixe sur l’utilisation de ces sources qui vise à étendre la durée de vie de la batterie et maintenir ses performances / The energy demand in mobile networks is increasing due to the emergence of new technologies and new services with higher requirements (data rates, delays, etc). In this context, the Mobile Network Operator (MNO) has to provide more radio and processing resources in its network leading for higher financial costs. The MNO has no choice but to implement energy saving strategies in all the parts of its infrastructure and especially at the Radio Access Network (RAN).At the same time, the electrical grid is getting smarter including new functionalities to balance supply and demand by varying the electricity prices, allowing some aggregators to be part of the supply process and signing demand response agreements with its clients. In the context of reliable smart grid, the MNO having thousands of evolved NodeB (eNB) spread over all the country, has to play major role in the grid by acting as a prosumer able to sell electricity. In African Sub-Saharan countries however, the grid may be not reliable or even non existent, the MNO has no choice but to deploy a Virtual Power Plant (VPP) and rely partially or totally on it.In this thesis, we study the interactions between the network operator and the grid either reliable or not in both developed and developing countries. We investigate both long term and short term optimal energy related management, with the aim of minimising the operator's Total Cost of Ownership (TCO) for energy per base station which is the sum of its Capital Expenditure (CAPEX) and Operational Expenditure (OPEX) while satisfying the growing needs of its user traffic in the cell.The long term study enables us to make semestral based investment decisions for the battery and renewable energy sources dimensioning considering equipment performance degradation, predictions on users traffic growth and electricity market evolution over a long period of time counted in years.In the case of being powered by a reliable smart grid, the short term policy helps the operator to set on a daily basis, an optimal battery management strategy by performing electricity arbitrage or trading that takes advantage of the electricity prices hourly fluctuations in order to minimize the MNO daily energy bill while respecting some rules on the usage of its equipments.In the case of a non reliable or off-grid environment, the operator is powered by hybrid sources coupling storage, diesel generators, solar power and the grid if the latter is operational. Here, we define a fixed order of priority on the use of these sources that extends the battery lifetime and maintain its performance Smart grids Optimisation Réseaux mobiles 5G Processus de décisions markoviens 5G mobile network Optimization Smart grids Markov decision process
30	Markovian sequential decision-making in non-stationary environments : application to argumentative debates / Décision séquentielle markovienne en environnements non-stationnaires : application aux débats d'argumentation Hadoux, Emmanuel 26 November 2015 (has links) Les problèmes de décision séquentielle dans l’incertain requièrent qu’un agent prenne des décisions, les unes après les autres, en fonction de l’état de l’environnement dans lequel il se trouve. Dans la plupart des travaux, l’environnement dans lequel évolue l’agent est supposé stationnaire, c’est-à-dire qu’il n’évolue pas avec le temps. Toute- fois, l’hypothèse de stationnarité peut ne pas être vérifiée quand, par exemple, des évènements exogènes au problème interviennent. Dans cette thèse, nous nous intéressons à la prise de décision séquentielle dans des environnements non-stationnaires. Nous proposons un nouveau modèle appelé HS3MDP permettant de représenter les problèmes non-stationnaires dont les dynamiques évoluent parmi un ensemble fini de contextes. Afin de résoudre efficacement ces problèmes, nous adaptons l’algorithme POMCP aux HS3MDP. Dans le but d’apprendre les dynamiques des problèmes de cette classe, nous présentons RLCD avec SCD, une méthode utilisable sans connaître à priori le nombre de contextes. Nous explorons ensuite le domaine de l’argumentation où peu de travaux se sont intéressés à la décision séquentielle. Nous étudions deux types de problèmes : les débats stochastiques (APS ) et les problèmes de médiation face à des agents non-stationnaires (DMP). Nous présentons dans ce travail un modèle formalisant les APS et permettant de les transformer en MOMDP afin d’optimiser la séquence d’arguments d’un des agents du débat. Nous étendons cette modélisation aux DMP afin de permettre à un médiateur de répartir stratégiquement la parole dans un débat. / In sequential decision-making problems under uncertainty, an agent makes decisions, one after another, considering the current state of the environment where she evolves. In most work, the environment the agent evolves in is assumed to be stationary, i.e., its dynamics do not change over time. However, the stationarity hypothesis can be invalid if, for instance, exogenous events can occur. In this document, we are interested in sequential decision-making in non-stationary environments. We propose a new model named HS3MDP, allowing us to represent non-stationary problems whose dynamics evolve among a finite set of contexts. In order to efficiently solve those problems, we adapt the POMCP algorithm to HS3MDPs. We also present RLCD with SCD, a new method to learn the dynamics of the environments, without knowing a priori the number of contexts. We then explore the field of argumentation problems, where few works consider sequential decision-making. We address two types of problems: stochastic debates (APS ) and mediation problems with non-stationary agents (DMP). In this work, we present a model formalizing APS and allowing us to transform them into an MOMDP in order to optimize the sequence of arguments of one agent in the debate. We then extend this model to DMPs to allow a mediator to strategically organize speak-turns in a debate. Intelligence artificielle Décisions séquentielles Modèles markoviens Planification Argumentation Environnements non-Stationnaires Artificial intelligence 004

Search results