• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 11
  • 4
  • 1
  • Tagged with
  • 16
  • 16
  • 12
  • 11
  • 11
  • 9
  • 9
  • 7
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Imprecise Prior for Imprecise Inference on Poisson Sampling Model

2014 April 1900 (has links)
Prevalence is a valuable epidemiological measure about the burden of disease in a community for planning health services; however, true prevalence is typically underestimated and there exists no reliable method of confirming the estimate of this prevalence in question. This thesis studies imprecise priors for the development of a statistical reasoning framework regarding this epidemiological decision making problem. The concept of imprecise probabilities introduced by Walley (1991) is adopted for the construction of this inferential framework in order to model prior ignorance and quantify the degree of imprecision associated with the inferential process. The study is restricted to the standard and zero-truncated Poisson sampling models that give an exponential family with a canonical log-link function because of the mechanism involved with the estimation of population size. A three-parameter exponential family of posteriors which includes the normal and log-gamma as limiting cases is introduced by applying normal priors on the canonical parameter of the Poisson sampling models. The canonical parameters simplify dealing with families of priors as Bayesian updating corresponds to a translation of the family in the canonical hyperparameter space. The canonical link function creates a linear relationship between regression coefficients of explanatory variables and the canonical parameters of the sampling distribution. Thus, normal priors on the regression coefficients induce normal priors on the canonical parameters leading to a higher-dimensional exponential family of posteriors whose limiting cases are again normal or log-gamma. All of these implementations are synthesized to build the ipeglim package (Lee, 2013) that provides a convenient method for characterizing imprecise probabilities and visualizing their translation, soft-linearity, and focusing behaviours. A characterization strategy for imprecise priors is introduced for instances when there exists a state of complete ignorance. The learning process of an individual intentional unit, the agreement process between several intentional units, and situations concerning prior-data conflict are graphically illustrated. Finally, the methodology is applied for re-analyzing the data collected from the epidemiological disease surveillance of three specific cases – Cholera epidemic (Dahiya, 1973), Down’s syndrome (Zelterman, 1988), and the female users of methamphetamine and heroin (B ̈ ohning, 2009).
2

Jogos markovianos alternados sob incerteza / Alternating Markov games under uncertainty

Franco, Fábio de Oliveira 12 November 2012 (has links)
Um Jogo Markoviano Alternado (Alternating Markov Game - AMG) é uma extensão de um Processo de Decisão Markoviano (Markov Decision Process - MDP) para ambientes multiagentes. O modelo AMG é utilizado na tomada de decisão sequencial de n agentes quando são conhecidas as probabilidades de transição das ações a serem tomadas por cada agente. Nesse trabalho estamos interessados em AMGs com probabilidades de transição de estados imprecisas, por exemplo, quando elas são dadas na forma de intervalos de probabilidades. Apresentamos um novo modelo de AMG, que chamamos de Jogo Markoviano Alternado com Probabilidades Imprecisas (Alternate Markov Game with Imprecise Probabilities - AMGIP) que permite que as imprecisões nas probabilidades de transições de estados sejam dadas na forma de parâmetros sujeitos a restrições lineares que estende trabalhos anteriores em que a imprecisão é dada por intervalos de probabilidades (AMG-INTERVAL). Dizemos que a imprecisão representa escolhas da Natureza. A imprecisão desses modelos implica no valor do jogo ser dado por uma função intervalar. Existem diversas formas de calcular a solução do jogo, que depende do comportamento da Natureza e dos critérios de preferência dos jogadores diante das escolhas da Natureza. Assim, neste trabalho discutimos diversas soluções para o AMG-IP e AMG-INTERVAL. Também como resultado do estudo das relações existentes entre os MDPs e os AMGs, propomos um novo modelo chamado de AMG-ST (Alternating Markov Game with Set-valued Transition), capaz de modelar a incerteza do modelo MDP-ST (Markovian Decision Process with Set-valued Transition) como um jogo entre o agente e a Natureza, isto é, um jogo em que a Natureza faz o papel de um dos jogadores. / An Alternating Markov Game (AMG) is an extension of a Markov Decision Process (MDP) for multiagent environments. This model is used on sequencial decision making for n agents when we know the state transition probabilities of actions being taken by each agent. In this work we are interested in AMGs with imprecise probabilities on state transition function, for example, when they are given by probabilities intervals. We present a new AMG model, which we call Alternating Markov Game with Imprecise Probabilities (AMG-IP) that allows imprecision on state transition probabilities given by parameters subject to linear constraints that extend previous works which the imprecision is given by probabilities intervals (AMG-INTERVAL). We say that the imprecision represents the Nature choices. The imprecision of these models implies the game value is given by interval function. There are several ways to calculate the solution of the game, that depend on the behavior of the Nature and the preference criteria of the players on the choices of Nature. Therefore, in this work we discuss various solutions to AMG-IP and AMG-INTERVAL. Also from our study on the relationship among the MDPs and AMGs, we propose a new model called Alternating Markov Game with Set-valued Transition (AMG-ST), that can be used to model the uncertainty of an MDP-ST (Markovian Decision Process with Set-valued Transition) as a result of the match between the agent and the Nature, i.e., a game where the Nature is seen as one of the players.
3

Jogos markovianos alternados sob incerteza / Alternating Markov games under uncertainty

Fábio de Oliveira Franco 12 November 2012 (has links)
Um Jogo Markoviano Alternado (Alternating Markov Game - AMG) é uma extensão de um Processo de Decisão Markoviano (Markov Decision Process - MDP) para ambientes multiagentes. O modelo AMG é utilizado na tomada de decisão sequencial de n agentes quando são conhecidas as probabilidades de transição das ações a serem tomadas por cada agente. Nesse trabalho estamos interessados em AMGs com probabilidades de transição de estados imprecisas, por exemplo, quando elas são dadas na forma de intervalos de probabilidades. Apresentamos um novo modelo de AMG, que chamamos de Jogo Markoviano Alternado com Probabilidades Imprecisas (Alternate Markov Game with Imprecise Probabilities - AMGIP) que permite que as imprecisões nas probabilidades de transições de estados sejam dadas na forma de parâmetros sujeitos a restrições lineares que estende trabalhos anteriores em que a imprecisão é dada por intervalos de probabilidades (AMG-INTERVAL). Dizemos que a imprecisão representa escolhas da Natureza. A imprecisão desses modelos implica no valor do jogo ser dado por uma função intervalar. Existem diversas formas de calcular a solução do jogo, que depende do comportamento da Natureza e dos critérios de preferência dos jogadores diante das escolhas da Natureza. Assim, neste trabalho discutimos diversas soluções para o AMG-IP e AMG-INTERVAL. Também como resultado do estudo das relações existentes entre os MDPs e os AMGs, propomos um novo modelo chamado de AMG-ST (Alternating Markov Game with Set-valued Transition), capaz de modelar a incerteza do modelo MDP-ST (Markovian Decision Process with Set-valued Transition) como um jogo entre o agente e a Natureza, isto é, um jogo em que a Natureza faz o papel de um dos jogadores. / An Alternating Markov Game (AMG) is an extension of a Markov Decision Process (MDP) for multiagent environments. This model is used on sequencial decision making for n agents when we know the state transition probabilities of actions being taken by each agent. In this work we are interested in AMGs with imprecise probabilities on state transition function, for example, when they are given by probabilities intervals. We present a new AMG model, which we call Alternating Markov Game with Imprecise Probabilities (AMG-IP) that allows imprecision on state transition probabilities given by parameters subject to linear constraints that extend previous works which the imprecision is given by probabilities intervals (AMG-INTERVAL). We say that the imprecision represents the Nature choices. The imprecision of these models implies the game value is given by interval function. There are several ways to calculate the solution of the game, that depend on the behavior of the Nature and the preference criteria of the players on the choices of Nature. Therefore, in this work we discuss various solutions to AMG-IP and AMG-INTERVAL. Also from our study on the relationship among the MDPs and AMGs, we propose a new model called Alternating Markov Game with Set-valued Transition (AMG-ST), that can be used to model the uncertainty of an MDP-ST (Markovian Decision Process with Set-valued Transition) as a result of the match between the agent and the Nature, i.e., a game where the Nature is seen as one of the players.
4

Managing Uncertainty in Engineering Design Using Imprecise Probabilities and Principles of Information Economics

Aughenbaugh, Jason Matthew 22 June 2006 (has links)
The engineering design community recognizes that an essential part of the design process is decision making. Because decisions are generally made under uncertainty, engineers need appropriate methods for modeling and managing uncertainty. Two important characteristics of uncertainty in the context of engineering design are imprecision and irreducible uncertainty. In order to model both of these characteristics, it is valuable to use probabilities that are most generally imprecise and subjective. These imprecise probabilities generalize traditional, precise probabilities; when the available information is extensive, imprecise probabilities reduce to precise probabilities. An approach for comparing the practical value of different uncertainty models is developed. The approach examines the value of a model using the principles of information economics: value equals benefits minus costs. The benefits of a model are measured in terms of the quality of the product that results from the design process. Costs are measured not only in terms of direct design costs, but also the costs of creating and using the model. Using this approach, the practical value of using an uncertainty model that explicitly recognizes both imprecision and irreducible uncertainty is demonstrated in the context of a high-risk engineering design example in which the decision-maker has few statistical samples to support the decision. It is also shown that a particular imprecise probability model called probability bounds analysis generalizes sensitivity analysis, a process of identifying whether a particular decision is robust given the decision makers lack of complete information. An approach for bounding the value of future statistical data samples while collecting information to support design decisions is developed, and specific policies for making decisions in the presence of imprecise information are examined in the context of engineering.
5

Programação dinâmica em tempo real para processos de decisão markovianos com probabilidades imprecisas / Real-time dynamic programming for Markov Decision Processes with Imprecise Probabilities

Dias, Daniel Baptista 28 November 2014 (has links)
Em problemas de tomada de decisão sequencial modelados como Processos de Decisão Markovianos (MDP) pode não ser possível obter uma medida exata para as probabilidades de transição de estados. Visando resolver esta situação os Processos de Decisão Markovianos com Probabilidades Imprecisas (Markov Decision Processes with Imprecise Transition Probabilities, MDP-IPs) foram introduzidos. Porém, enquanto estes MDP-IPs se mostram como um arcabouço robusto para aplicações de planejamento no mundo real, suas soluções consomem muito tempo na prática. Em trabalhos anteriores, buscando melhorar estas soluções foram propostos algoritmos de programação dinâmica síncrona eficientes para resolver MDP-IPs com uma representação fatorada para as funções de transição probabilística e recompensa, chamados de MDP-IP fatorados. Entretanto quando o estado inicial de um problema do Caminho mais Curto Estocástico (Stochastic Shortest Path MDP, SSP MDP) é dado, estas soluções não utilizam esta informação. Neste trabalho será introduzido o problema do Caminho mais Curto Estocástico com Probabilidades Imprecisas (Stochastic Shortest Path MDP-IP, SSP MDP-IP) tanto em sua forma enumerativa, quanto na fatorada. Um algoritmo de programação dinâmica assíncrona para SSP MDP-IP enumerativos com probabilidades dadas por intervalos foi proposto por Buffet e Aberdeen (2005). Entretanto, em geral um problema é dado de forma fatorada, i.e., em termos de variáveis de estado e nesse caso, mesmo se for assumida a imprecisão dada por intervalos sobre as variáveis, ele não poderá ser mais aplicado, pois as probabilidades de transição conjuntas serão multilineares. Assim, será mostrado que os SSP MDP-IPs fatorados são mais expressivos que os enumerativos e que a mudança do SSP MDP-IP enumerativo para o caso geral de um SSP MDP-IPs fatorado leva a uma mudança de resolução da função objetivo do Bellman backup de uma função linear para uma não-linear. Também serão propostos algoritmos enumerativos, chamados de RTDP-IP (Real-time Dynamic Programming with Imprecise Transition Probabilities), LRTDP-IP (Labeled Real-time Dynamic Programming with Imprecise Transition Probabilities), SSiPP-IP (Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities) e LSSiPP-IP (Labeled Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities) e fatorados chamados factRTDP-IP (factored RTDP-IP) e factLRTDP-IP (factored LRTDP-IP). Eles serão avaliados em relação aos algoritmos de programação dinâmica síncrona em termos de tempo de convergência da solução e de escalabilidade. / In sequential decision making problems modelled as Markov Decision Processes (MDP) we may not have the state transition probabilities. To solve this issue, the framework based in Markov Decision Processes with Imprecise Transition Probabilities (MDP-IPs) is introduced. Therefore, while MDP-IPs is a robust framework to use in real world planning problems, its solutions are time-consuming in practice. In previous works, efficient algorithms based in synchronous dynamic programming to solve MDP-IPs with factored representations of the probabilistic transition function and reward function, called factored MDP-IPs. However, given a initial state of a system, modeled as a Stochastic Shortest Path MDP (SSP MDP), solutions does not use this information. In this work we introduce the Stochastic Shortest Path MDP-IPs (SSP MDP-IPs) in enumerative form and in factored form. An efficient asynchronous dynamic programming solution for SSP MDP-IPs with enumerated states has been proposed by Buffet e Aberdeen (2005) before which is restricted to interval-based imprecision. Nevertheless, in general the problem is given in a factored form, i.e., in terms of state variables and in this case even if we assume interval-based imprecision over the variables, the previous solution is no longer applicable since we have multilinear parameterized joint transition probabilities. In this work we show that the innocuous change from the enumerated SSP MDP-IP cases to the general case of factored SSP MDP-IPs leads to a switch from a linear to nonlinear objectives in the Bellman backup. Also we propose assynchronous dynamic programming enumerative algorithms, called RTDP-IP (Real-time Dynamic Programming with Imprecise Transition Probabilities), LRTDP-IP (Labeled Real-time Dynamic Programming with Imprecise Transition Probabilities), SSiPP-IP (Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities) and LSSiPP-IP (Labeled Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities), and factored algorithms called factRTDP-IP (factored RTDP-IP) and factLRTDP-IP (factored LRTDP-IP). There algorithms will be evaluated with the synchronous dynamic programming algorithms previously proposed in terms of convergence time and scalability.
6

Tomada de decisão sequencial com preferências parcialmente ordenadas. / Sequential decision making with partially ordered preferences.

Kikuti, Daniel 20 August 2008 (has links)
Nesta tese, exploramos tomada de decisão com preferências parcialmente ordenadas: dadas duas ações, o indivíduo pode preferir uma ação a outra, julgá-las equivalentes, ou julgá-las incomparáveis. Tais preferências são originárias da incerteza sobre determinados estados do modelo de decisão e são reveladas pela imprecisão nos valores de probabilidade. Investigamos seis critérios de escolha de estratégias em problemas de decisão seqüenciais, representados por árvores de decisão e diagramas de influência, com probabilidades imprecisas: T-maximin, T-maximax, T-maximix, Dominação por Intervalos, Maximalidade e E-admissibilidade. Apresentamos novos algoritmos que geram estratégias para todos estes critérios. As principais contribuições deste trabalho estão na implementação dos algoritmos e na análise, sob o ponto de vista computacional, dos diversos critérios considerados como racionais em situações de incerteza representada por conjuntos de probabilidades. / In this thesis we explore situations where preferences are partially ordered: given two acts, the agent may prefer one to another, or nd them to be equivalent, or nd them to be incomparable. Such preferences stem from the uncertainty associated to some states of the decisions model and are revealed by imprecision in probability values. We investigate six criteria for strategy selection in decision trees and inuence diagrams with imprecise probabilities: -maximin, -maximax, -maximix, Interval Dominance, Maximality and E-admissibility. We present new algorithms that generate strategies for all these criteria. The main contributions of this work are twofold: the implementation of these algorithms and the analysis, under the computational point of view, of the criteria considered ratio- nal in uncertain situations represented by set of probabilities.
7

Tomada de decisão sequencial com preferências parcialmente ordenadas. / Sequential decision making with partially ordered preferences.

Daniel Kikuti 20 August 2008 (has links)
Nesta tese, exploramos tomada de decisão com preferências parcialmente ordenadas: dadas duas ações, o indivíduo pode preferir uma ação a outra, julgá-las equivalentes, ou julgá-las incomparáveis. Tais preferências são originárias da incerteza sobre determinados estados do modelo de decisão e são reveladas pela imprecisão nos valores de probabilidade. Investigamos seis critérios de escolha de estratégias em problemas de decisão seqüenciais, representados por árvores de decisão e diagramas de influência, com probabilidades imprecisas: T-maximin, T-maximax, T-maximix, Dominação por Intervalos, Maximalidade e E-admissibilidade. Apresentamos novos algoritmos que geram estratégias para todos estes critérios. As principais contribuições deste trabalho estão na implementação dos algoritmos e na análise, sob o ponto de vista computacional, dos diversos critérios considerados como racionais em situações de incerteza representada por conjuntos de probabilidades. / In this thesis we explore situations where preferences are partially ordered: given two acts, the agent may prefer one to another, or nd them to be equivalent, or nd them to be incomparable. Such preferences stem from the uncertainty associated to some states of the decisions model and are revealed by imprecision in probability values. We investigate six criteria for strategy selection in decision trees and inuence diagrams with imprecise probabilities: -maximin, -maximax, -maximix, Interval Dominance, Maximality and E-admissibility. We present new algorithms that generate strategies for all these criteria. The main contributions of this work are twofold: the implementation of these algorithms and the analysis, under the computational point of view, of the criteria considered ratio- nal in uncertain situations represented by set of probabilities.
8

Programação dinâmica em tempo real para processos de decisão markovianos com probabilidades imprecisas / Real-time dynamic programming for Markov Decision Processes with Imprecise Probabilities

Daniel Baptista Dias 28 November 2014 (has links)
Em problemas de tomada de decisão sequencial modelados como Processos de Decisão Markovianos (MDP) pode não ser possível obter uma medida exata para as probabilidades de transição de estados. Visando resolver esta situação os Processos de Decisão Markovianos com Probabilidades Imprecisas (Markov Decision Processes with Imprecise Transition Probabilities, MDP-IPs) foram introduzidos. Porém, enquanto estes MDP-IPs se mostram como um arcabouço robusto para aplicações de planejamento no mundo real, suas soluções consomem muito tempo na prática. Em trabalhos anteriores, buscando melhorar estas soluções foram propostos algoritmos de programação dinâmica síncrona eficientes para resolver MDP-IPs com uma representação fatorada para as funções de transição probabilística e recompensa, chamados de MDP-IP fatorados. Entretanto quando o estado inicial de um problema do Caminho mais Curto Estocástico (Stochastic Shortest Path MDP, SSP MDP) é dado, estas soluções não utilizam esta informação. Neste trabalho será introduzido o problema do Caminho mais Curto Estocástico com Probabilidades Imprecisas (Stochastic Shortest Path MDP-IP, SSP MDP-IP) tanto em sua forma enumerativa, quanto na fatorada. Um algoritmo de programação dinâmica assíncrona para SSP MDP-IP enumerativos com probabilidades dadas por intervalos foi proposto por Buffet e Aberdeen (2005). Entretanto, em geral um problema é dado de forma fatorada, i.e., em termos de variáveis de estado e nesse caso, mesmo se for assumida a imprecisão dada por intervalos sobre as variáveis, ele não poderá ser mais aplicado, pois as probabilidades de transição conjuntas serão multilineares. Assim, será mostrado que os SSP MDP-IPs fatorados são mais expressivos que os enumerativos e que a mudança do SSP MDP-IP enumerativo para o caso geral de um SSP MDP-IPs fatorado leva a uma mudança de resolução da função objetivo do Bellman backup de uma função linear para uma não-linear. Também serão propostos algoritmos enumerativos, chamados de RTDP-IP (Real-time Dynamic Programming with Imprecise Transition Probabilities), LRTDP-IP (Labeled Real-time Dynamic Programming with Imprecise Transition Probabilities), SSiPP-IP (Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities) e LSSiPP-IP (Labeled Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities) e fatorados chamados factRTDP-IP (factored RTDP-IP) e factLRTDP-IP (factored LRTDP-IP). Eles serão avaliados em relação aos algoritmos de programação dinâmica síncrona em termos de tempo de convergência da solução e de escalabilidade. / In sequential decision making problems modelled as Markov Decision Processes (MDP) we may not have the state transition probabilities. To solve this issue, the framework based in Markov Decision Processes with Imprecise Transition Probabilities (MDP-IPs) is introduced. Therefore, while MDP-IPs is a robust framework to use in real world planning problems, its solutions are time-consuming in practice. In previous works, efficient algorithms based in synchronous dynamic programming to solve MDP-IPs with factored representations of the probabilistic transition function and reward function, called factored MDP-IPs. However, given a initial state of a system, modeled as a Stochastic Shortest Path MDP (SSP MDP), solutions does not use this information. In this work we introduce the Stochastic Shortest Path MDP-IPs (SSP MDP-IPs) in enumerative form and in factored form. An efficient asynchronous dynamic programming solution for SSP MDP-IPs with enumerated states has been proposed by Buffet e Aberdeen (2005) before which is restricted to interval-based imprecision. Nevertheless, in general the problem is given in a factored form, i.e., in terms of state variables and in this case even if we assume interval-based imprecision over the variables, the previous solution is no longer applicable since we have multilinear parameterized joint transition probabilities. In this work we show that the innocuous change from the enumerated SSP MDP-IP cases to the general case of factored SSP MDP-IPs leads to a switch from a linear to nonlinear objectives in the Bellman backup. Also we propose assynchronous dynamic programming enumerative algorithms, called RTDP-IP (Real-time Dynamic Programming with Imprecise Transition Probabilities), LRTDP-IP (Labeled Real-time Dynamic Programming with Imprecise Transition Probabilities), SSiPP-IP (Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities) and LSSiPP-IP (Labeled Short-Sighted Probabilistic Planner with Imprecise Transition Probabilities), and factored algorithms called factRTDP-IP (factored RTDP-IP) and factLRTDP-IP (factored LRTDP-IP). There algorithms will be evaluated with the synchronous dynamic programming algorithms previously proposed in terms of convergence time and scalability.
9

Processos de decisão Markovianos com probabilidades imprecisas e representações relacionais: algoritmos e fundamentos. / Markov decision processes with imprecise probabilities and relational representations: foundations and algorithms.

Shirota Filho, Ricardo 03 May 2012 (has links)
Este trabalho é dedicado ao desenvolvimento teórico e algorítmico de processos de decisão markovianos com probabilidades imprecisas e representações relacionais. Na literatura, essa configuração tem sido importante dentro da área de planejamento em inteligência artificial, onde o uso de representações relacionais permite obter descrições compactas, e o emprego de probabilidades imprecisas resulta em formas mais gerais de incerteza. São três as principais contribuições deste trabalho. Primeiro, efetua-se uma discussão sobre os fundamentos de tomada de decisão sequencial com probabilidades imprecisas, em que evidencia-se alguns problemas ainda em aberto. Esses resultados afetam diretamente o (porém não restrito ao) modelo de interesse deste trabalho, os processos de decisão markovianos com probabilidades imprecisas. Segundo, propõe-se três algoritmos para processos de decisão markovianos com probabilidades imprecisas baseadas em programação (otimização) matemática. E terceiro, desenvolvem-se ideias propostas por Trevizan, Cozman e de Barros (2008) no uso de variantes do algoritmo Real-Time Dynamic Programming para resolução de problemas de planejamento probabilístico descritos através de versões estendidas da linguagem de descrição de domínios de planejamento (PPDDL). / This work is devoted to the theoretical and algorithmic development of Markov Decision Processes with Imprecise Probabilities and relational representations. In the literature, this configuration is important within artificial intelligence planning, where the use of relational representations allow compact representations and imprecise probabilities result in a more general form of uncertainty. There are three main contributions. First, we present a brief discussion of the foundations of decision making with imprecise probabilities, pointing towards key questions that remain unanswered. These results have direct influence upon the model discussed within this text, that is, Markov Decision Processes with Imprecise Probabilities. Second, we propose three algorithms for Markov Decision Processes with Imprecise Probabilities based on mathematical programming. And third, we develop ideas proposed by Trevizan, Cozman e de Barros (2008) on the use of variants of Real-Time Dynamic Programming to solve problems of probabilistic planning described by an extension of the Probabilistic Planning Domain Definition Language (PPDDL).
10

Algoritmos assíncronos de iteração de política para Processos de Decisão Markovianos com Probabilidades Intervalares / Asynchronous policy iteration algorithms for Bounded-parameter Markov Decision Processes

Reis, Willy Arthur Silva 02 August 2019 (has links)
Um Processo de Decisão Markoviano (MDP) pode ser usado para modelar problemas de decisão sequencial. No entanto, podem existir limitações na obtenção de probabilidades para modelagem da transição de estados ou falta de confiabilidade nas informações existentes sobre estas probabilidades. Um modelo menos restritivo e que pode resolver este problema é o Processo de Decisão Markoviano com Probabilidades Intervalares (BMDP), que permite a representação imprecisa das probabilidades de transição de estados e raciocínio sobre uma solução robusta. Para resolver BMDPs de horizonte infinito, existem os algoritmos síncronos de Iteração de Valor Intervalar e Iteração de Política Robusto, que são ineficientes quando o tamanho do espaço de estados é grande. Neste trabalho são propostos algoritmos assíncronos de Iteração de Política baseados no particionamento do espaço de estados em subconjuntos aleatórios (Robust Asynchronous Policy Iteration - RAPI) ou em componentes fortemente conexos (Robust Topological Policy Iteration - RTPI). Também são propostas formas de inicializar a função valor e a política dos algoritmos, de forma a melhorar a convergência destes. O desempenho dos algoritmos propostos é avaliado em comparação com o algoritmo de Iteração de Política Robusto para BMDPs para domínios de planejamento existentes e um novo domínio proposto. Os resultados dos experimentos realizados mostram que (i) quanto mais estruturado é o domínio, melhor é o desempenho do algoritmo RTPI; (ii) o uso de computação paralela no algoritmo RAPI possui um pequeno ganho computacional em relação à sua versão sequencial; e (iii) uma boa inicialização da função valor e política pode impactar positivamente o tempo de convergência dos algoritmos. / A Markov Decision Process (MDP) can be used to model sequential decision problems. However, there may be limitations in obtaining probabilities for state transition modeling or lack of reliability in existing information on these probabilities. A less restrictive model that can solve this problem is the Bounded-parameter Markov Decision Process (BMDP), which allows the imprecise representation of the transition probabilities and reasoning about a robust solution. To solve infinite horizon BMDPs, there are synchronous algorithms such as Interval Value Iteration and Robust Policy Iteration, which are inefficient for large state spaces. In this work, we propose new asynchronous Policy Iteration algorithms based on state space partitioning in random subsets (Robust Asynchronous Policy Iteration - RAPI) or in strongly connected components (Robust Topological Policy Iteration - RTPI). We also propose ways to initialize the value function and policy of the algorithms, in order to improve their convergence. The performance of the proposed algorithms is evaluated in comparison with the Robust Policy Iteration algorithm for BMDPs for existing planning domains and a proposed new domain. The results of the experiments show that (i) the more structured the domain, the better is the performance of the RTPI algorithm; (ii) the use of parallel computing in the RAPI algorithm has a small computational gain compared to its sequential version; and (iii) a good initialization of the value function and policy can positively impact the convergence time of the algorithms.

Page generated in 0.1017 seconds