Spelling suggestions: "subject:"markovianos"" "subject:"markoviano""
61 |
Alcançabilidade e controlabilidade médias para sistemas lineares com saltos markovianos a tempo contínuo / Average reachability and average controllability for continuous-time markov jum linear systemsNarvaez, Alfredo Rafael Roa 06 March 2015 (has links)
Neste trabalho estudamos as noções de alcançabilidade e controlabilidade para sistemas lineares a tempo contínuo com perturbações aditivas e saltos nos parâmetros sujeitos a uma cadeia de Markov geral. Definimos conceitos de alcançabilidade e controlabilidade médios de maneira natural exigindo que os valores esperados dos gramianos correspondentes sejam definidos positivos. Visando obter uma condição testável para ambos os conceitos, introduzimos conjuntos de matrizes de alcançabilidade e de controlabilidade para esta classe de sistemas e usamos certas propriedades de invariância para mostrar que: o sistema é alcançável em média, e, analogamente, controlável em média, se e somente se as matrizes respectivas, de alcançabilidade e de controlabilidade, têm posto completo. Usamos alcançabilidade média de sistemas para mostrar que a matriz de segundo momento do estado é definida positiva com uma margem uniforme. Uma consequência deste resultado no problema de estimação linear do estado é que a matriz de covariância do erro de estimação é positiva definida em média, no sentido que existe um nível mínimo de ruído nas estimativas. Na sequência, para estimadores lineares markovianos, estudamos a limitação do valor esperado da matriz de covariância do erro para mostrar que o filtro é estável num certo sentido, sendo esta uma propriedade desejável em aplicações reais. Quanto às aplicações da controlabilidade média, usamos este conceito para estabelecer condições necessárias e suficientes que garantem a existência de um processo de controle que leva a componente contínua do estado do sistema para a origem em tempo finito e com probabilidade positiva. / In this work we study the reachability and controllability notions for continuous-time linear systems with exogenous inputs and jump parameters driven by a quite general Markov chain. We define a rather natural average reachability and controllability concepts by requiring that the associated gramians are average positive definite, respectively. Aiming at testable conditions for each concept, we introduce certain sets of matrices linked with the gramians, and employ some invariance properties to find rank-based conditions. We show for average reachable systems that the state second moment is positive definite. One consequence of this result in the context of linear estimation for reachable systems is that the expectation of the error covariance matrix is positive definite. Moreover, for linear markovian filters we study the average boundedness of the error covariance matrix to show that the filter is stable in an appropriate sense, which consists in a property that is desirable in real applications. Regarding the average controllability concept, we show that it is a necessary and sufficient condition for the feasibility of the following control problem: find a control process that drives the continuous component of the state to zero in finite time with positive probability.
|
62 |
Combinação de modelos de campos aleatórios markovianos para classificação contextual de imagens multiespectrais / Combining markov random field models for multispectral image contextual classificationLevada, Alexandre Luis Magalhães 05 May 2010 (has links)
Este projeto de doutorado apresenta uma nova abordagem MAP-MRF para a classificação contextual de imagens multiespectrais utilizando combinação de modelos de Campos Aleatórios Markovianos definidos em sistemas de ordens superiores. A modelagem estatística para o problema de classificação segue o paradigma Bayesiano, com a definição de um modelo Markoviano para os dados observados (Gaussian Markov Random Field multiespectral) e outro modelo para representar o conhecimento a priori (Potts). Nesse cenário, o parâmetro β do modelo de Potts atua como um parâmetro de regularização, tendo papel fundamental no compromisso entre as observações e o conhecimento a priori, de modo que seu correto ajuste é necessário para a obtenção de bons resultados. A introdução de sistemas de vizinhança de ordens superiores requer a definição de novos métodos para a estimação dos parâmetros dos modelos Markovianos. Uma das contribuições desse trabalho é justamente propor novas equações de pseudo-verossimilhança para a estimação desses parâmetros no modelo de Potts em sistemas de segunda e terceira ordens. Apesar da abordagem por máxima pseudo-verossimilhança ser amplamente utilizada e conhecida na literatura de campos aleatórios, pouco se conhece acerca da acurácia dessa estimação. Foram derivadas aproximações para a variância assintótica dos estimadores propostos, caracterizando-os completamente no caso limite, com o intuito de realizar inferências e análises quantitativas sobre os parâmetros dos modelos Markovianos. A partir da definição dos modelos e do conhecimento dos parâmetros, o próximo estágio é a classificação das imagens multiespectrais. A solução para esse problema de inferência Bayesiana é dada pelo critério de estimação MAP, onde a solução ótima é determinada maximizando a probabilidade a posteriori, o que define um problema de otimização. Como não há solução analítica para esse problema no caso de prioris Markovianas, algoritmos iterativos de otimização combinatória foram empregados para aproximar a solução ótima. Nesse trabalho, adotam-se três métodos sub-ótimos: Iterated Conditional Modes, Maximizer of the Posterior Marginals e Game Strategy Approach. Porém, é demonstrado na literatura que tais métodos convergem para máximos locais e não globais, pois são altamente dependentes de sua condição inicial. Isto motivou o desenvolvimento de uma nova abordagem para combinação de classificadores contextuais, que utiliza múltiplas inicializações simultâneas providas por diferentes classificadores estatísticos pontuais. A metodologia proposta define um framework MAP-MRF bastante robusto para solução de problemas inversos, pois permite a utilização e a integração de diferentes condições iniciais em aplicações como classificação, filtragem e restauração de imagens. Como medidas quantitativas de desempenho, são adotados o coeficiente Kappa de Cohen e o coeficiente Tau de Kendall para verificar a concordância entre as saídas dos classificadores e a verdade terrestre (amostras pré-rotuladas). Resultados obtidos mostram que a inclusão de sistemas de vizinhança de ordens superiores é de fato capaz de melhorar significativamente não apenas o desempenho da classificação como também a estimação dos parâmetros dos modelos Markovianos, reduzindo tanto o erro de estimação quanto a variância assintótica. Além disso, a combinação de classificadores contextuais através da utilização de múltiplas inicializações simultâneas melhora significativamente o desempenho da classificação se comparada com a abordagem tradicional com apenas uma inicialização. / This work presents a novel MAP-MRF approach for multispectral image contextual classification by combining higher-order Markov Random Field models. The statistical modeling follows the Bayesian paradigm, with the definition of a multispectral Gaussian Markov Random Field model for the observations and a Potts MRF model to represent the a priori knowledge. In this scenario, the Potts MRF model parameter (β) plays the role of a regularization parameter by controlling the tradeoff between the likelihood and the prior knowledge, in a way that a suitable tunning for this parameter is required for a good performance in contextual classification. The introduction of higher-order MRF models requires the specification of novel parameter estimation methods. One of the contributions of this work is the definition of novel pseudo-likelihood equations for the estimation of these MRF parameters in second and third order neighborhood systems. Despite its widely usage in practical MRF applications, little is known about the accuracy of maximum pseudo-likelihood approach. Approximations for the asymptotic variance of the proposed MPL estimators were derived, completely characterizing their behavior in the limiting case, allowing statistical inference and quantitative analysis. From the statistical modeling and having the model parameters estimated, the next step is the multispectral image classification. The solution for this Bayesian inference problem is given by the MAP criterion, where the optimal solution is obtained by maximizing the a posteriori distribution, defining an optimization problem. As there is no analytical solution for this problem in case of Markovian priors, combinatorial optimization algorithms are required to approximate the optimal solution. In this work, we use three suboptimal methods: Iterated Conditional Modes, Maximizer of the Posterior Marginals and Game Strategy Approach, a variant approach based on non-cooperative game theory. However, it has been shown that these methods converge to local maxima solutions, since they are extremelly dependent on the initial condition. This fact motivated the development of a novel approach for combination of contextual classifiers, by making use of multiple initializations at the same time, where each one of these initial conditions is provided by different pointwise pattern classifiers. The proposed methodology defines a robust MAP-MRF framework for the solution of general inverse problems since it allows the use and integration of several initial conditions in a variety of applications as image classification, denoising and restoration. To evaluate the performance of the classification results, two statistical measures are used to verify the agreement between the classifiers output and the ground truth: Cohens Kappa and Kendalls Tau coefficient. The obtained results show that the use of higher-order neighborhood systems is capable of significantly improve not only the classification performance, but also the MRF parameter estimation by reducing both the estimation error and the asymptotic variance. Additionally, the combination of contextual classifiers through the use of multiple initializations also improves the classificatoin performance, when compared to the traditional single initialization approach.
|
63 |
Limite hidrodinâmico para neurônios interagentes estruturados espacialmente / Hydrodynamic limit for spatially structured interacting neuronsAguiar, Guilherme Ost de 17 July 2015 (has links)
Nessa tese, estudamos o limite hidrodinâmico de um sistema estocástico de neurônios cujas interações são dadas por potenciais de Kac que imitam sinapses elétricas e químicas, e as correntes de vazamento. Esse sistema consiste de $\\ep^$ neurônios imersos em $[0,1)^2$, cada um disparando aleatoriamente de acordo com um processo pontual com taxa que depende tanto do seu potential de membrana como da posição. Quando o neurônio $i$ dispara, seu potential de membrana é resetado para $0$, enquanto que o potencial de membrana do neurônio $j$ é aumentado por um valor positivo $\\ep^2 a(i,j)$, se $i$ influencia $j$. Além disso, entre disparos consecutivos, o sistema segue uma movimento determinístico devido às sinapses elétricas e às correntes de vazamento. As sinapses elétricas estão envolvidas na sincronização do potencial de membrana dos neurônios, enquanto que as correntes de vazamento inibem a atividade de todos os neurônios, atraindo simultaneamente todos os potenciais de membrana para $0$. No principal resultado dessa tese, mostramos que a distribuição empírica dos potenciais de membrana converge, quando o parâmetro $\\ep$ tende à 0 , para uma densidade de probabilidade $ho_t(u,r)$ que satisfaz uma equação diferencial parcial nâo linear do tipo hiperbólica . / We study the hydrodynamic limit of a stochastic system of neurons whose interactions are given by Kac Potentials that mimic chemical and electrical synapses and leak currents. The system consists of $\\ep^$ neurons embedded in $[0,1)^2$, each spiking randomly according to a point process with rate depending on both its membrane potential and position. When neuron $i$ spikes, its membrane potential is reset to $0$ while the membrane potential of $j$ is increased by a positive value $\\ep^2 a(i,j)$, if $i$ influences $j$. Furthermore, between consecutive spikes, the system follows a deterministic motion due both to electrical synapses and leak currents. The electrical synapses are involved in the synchronization of the membrane potentials of the neurons, while the leak currents inhibit the activity of all neurons, attracting simultaneously their membrane potentials to 0. We show that the empirical distribution of the membrane potentials converges, as $\\ep$ vanishes, to a probability density $ho_t(u,r)$ which is proved to obey a nonlinear PDE of Hyperbolic type.
|
64 |
Model selection for discrete Markov random fields on graphs / Seleção de modelos para campos aleatórios Markovianos discretos sobre grafosFrondana, Iara Moreira 28 June 2016 (has links)
In this thesis we propose to use a penalized maximum conditional likelihood criterion to estimate the graph of a general discrete Markov random field. We prove the almost sure convergence of the estimator of the graph in the case of a finite or countable infinite set of variables. Our method requires minimal assumptions on the probability distribution and contrary to other approaches in the literature, the usual positivity condition is not needed. We present several examples with a finite set of vertices and study the performance of the estimator on simulated data from theses examples. We also introduce an empirical procedure based on k-fold cross validation to select the best value of the constant in the estimators definition and show the application of this method in two real datasets. / Nesta tese propomos um critério de máxima verossimilhança penalizada para estimar o grafo de dependência condicional de um campo aleatório Markoviano discreto. Provamos a convergência quase certa do estimador do grafo no caso de um conjunto finito ou infinito enumerável de variáveis. Nosso método requer condições mínimas na distribuição de probabilidade e contrariamente a outras abordagens da literatura, a condição usual de positividade não é necessária. Introduzimos alguns exemplos com um conjunto finito de vértices e estudamos o desempenho do estimador em dados simulados desses exemplos. Também propomos um procedimento empírico baseado no método de validação cruzada para selecionar o melhor valor da constante na definição do estimador, e mostramos a aplicação deste procedimento em dois conjuntos de dados reais.
|
65 |
Desenvolvimento de recursos para a construção de um sistema texto-fala para o português brasileiroCOUTO, Igor Costa do 23 December 2010 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2012-04-18T19:53:48Z
No. of bitstreams: 2
Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Edisangela Bastos(edisangela@ufpa.br) on 2012-04-18T19:54:07Z (GMT) No. of bitstreams: 2
Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-04-18T19:54:07Z (GMT). No. of bitstreams: 2
Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2010 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB. / Text-to-speech (TTS) is currently a mature technology that is used in many applications.
Some modules of a TTS depend on the language and, while there are many public resources
for English, the resources for some underrepresented languages are still limited. This work
describes the development of a complete TTS system for Brazilian Portuguese (BP) which
expands the already available resources. The system uses the MARY framework and is based
on the hidden Markov model (HMM) speech synthesis approach. Some of the contributions
of this work consist in implementing syllabification, determination of stressed syllable and
grapheme-tophoneme (G2P) conversion. This work also describes the steps for organizing
the developed resources and implementing a BP voice within the MARY. These resources are
made available and facilitate the research in text normalization and HMM-based synthesis for
BP.
|
66 |
Sistemas Markovianos para estimativa de ângulos absolutos em exoesqueletos de membros inferiores / Markovians systems to estimate absolute angles in lower limb exoskeletonsSamuel Lourenço Nogueira 14 January 2015 (has links)
Nesta tese de doutorado são apresentados sistemas globais de estimativa baseados em modelos Markovianos aplicados na área de reabilitação robótica. Os sistemas propostos foram desenvolvidos para estimar as posições angulares dos elos de exoesqueletos para membros inferiores, desenvolvidos para reabilitação motora em pacientes que sofreram Acidente Vascular Cerebral (AVC) ou lesão medular. Filtros baseados no filtro de Kalman, um nominal e outro considerando incertezas no modelo, foram utilizados em estratégias de fusão de dados de sensores provenientes de sensores inerciais, possibilitando estimativas de posicionamentos angulares. Algoritmos genéticos são utilizados na otimização dos filtros, ajustando as matrizes de peso destes. Em oposição as modelagens tradicionais, via estimativa local, utilizando somente uma unidade inercial para cada modelo, propõe-se um sistema global de estimativa, obtendo-se a melhor informação de cada sensor combinando-os em um modelo Markoviano. Resultados experimentais com um exoesqueleto foram utilizados para comparar a abordagem Markoviana às convencionais. / In this thesis are presented global estimation systems based on Markov models applied in robotic rehabilitation area. The proposed systems have been developed to estimate the angular positions of the exoskeletons for lower limbs, designed to provide motor rehabilitation of stroke and spinal cord injured people. Filters based on the Kalman filter, one nominal and other considering uncertainties in the model, were used in sensor data fusion strategies from inertial sensors, to estimate angular positions. Genetic algorithms are used to the optimization of filters, tuning the weighting matrices. In opposition to these modelling via local estimation, using only one inertial unit, we also chose a global modelling getting the best information from each sensor, combining them in a Markov model. Experimental results with an exoskeleton were used to compare the Markovian approach to conventional.
|
67 |
Reguladores robustos recursivos para sistemas lineares sujeitos a saltos Markovianos com matrizes de transição incertas / Recursive robust regulators for Markovian jump linear systems with uncertain transition matricesDaiane Cristina Bortolin 05 May 2017 (has links)
Esta tese aborda o problema de regulação para sistemas lineares sujeitos a saltos Markovianos de tempo discreto com matrizes de transição incertas. Considera-se que as incertezas são limitadas em norma e os estados da cadeia de Markov podem não ser completamente observados pelo controlador. No cenário com observação completa dos estados, a solução é deduzida com base em um funcional quadrático dado em termos das probabilidades de transição incertas. Enquanto que no cenário sem observação, a solução é obtida por meio da reformulação do sistema Markoviano como um sistema determinístico, independente da cadeia de Markov. Três modelos são propostos para essa reformulação: um modelo é baseado no primeiro momento do sistema Markoviano, o segundo é obtido a partir da medida de Dirac e resulta em um sistema aumentado, e o terceiro fornece um sistema aumentado singular. Os reguladores recursivos robustos são projetados a partir de critérios de custo quadrático, dados em termos de problemas de otimização restritos. A solução é derivada da técnica de mínimos quadrados regularizados robustos e apresentada em uma estrutura matricial. A recursividade é estabelecida por equações de Riccati, que se assemelham às soluções dos reguladores clássicos, para essa classe de sistemas, quando não estão sujeitos a incertezas. / This thesis deals with regulation problem for discrete-time Markovian jump linear systems with uncertain transition matrix. The uncertainties are assumed to be normbounded type. The states of the Markov chain can not be completely observed by the controller. In the scenario with complete observation of the states, the solution is deduced based on a quadratic functional given in terms of uncertain transition probabilities. While in the scenario without observation, the solution is obtained from reformulation of the Markovian system as a deterministic system, independent of the Markov chain. Three models are proposed for the reformulation process: a model is based on the first moment of the Markovian system, the second is obtained from Dirac measure which results in an augmented system, and the third provides a singular augmented system. Recursive robust regulators are designed from quadratic cost criteria given in terms of constrained optimization problems. The solution is derived from the robust regularized least-square approach, whose framework is given in terms of a matrix structure. The recursiveness is established by Riccati equations which resemble the solutions of standard regulators for this class of systems, when they are not subject to uncertainties.
|
68 |
Construção de um índice de cointegração e utilização do modelo de regimes Markovianos de conversão para a identificação de risco e retorno: evidência a partir de ações na Bolsa de Valores de São PauloAlmeida, Patrícia Marília Ricomini e 09 March 2006 (has links)
Made available in DSpace on 2016-03-15T19:25:32Z (GMT). No. of bitstreams: 1
Patricia Marilia Ricomini e Almeida.pdf: 585196 bytes, checksum: d95885c7a4db627bc6882b2064a1efeb (MD5)
Previous issue date: 2006-03-09 / Fundo Mackenzie de Pesquisa / One of the most popular subjects in finance is about the search and the learning of the securities return generation process and originate with the publication of Bachelier s thesis, in 1900. In 1978, Jensen affirmed that, any strategy of business, that produces economic profits in a consistent way, discounted the risk, for a sufficient long period, observing the transaction costs, consist in evidence against market efficiency. However, occurs that empirical evidences, mainly as from 60 s decade, have verified a succession of events, that originate production of literary work in finance: conglomerate of volatility, no normality of returns, negative asymmetry, excess of kurtosis and stochastic volatility. As result of these verifications, theories arose, especially of economic nature, about the characteristic nonlinear of the data, as rational speculative bubble. This paper examines the performance of a general dynamic equity indexing strategy based on cointegration, from a market efficiency perspective, observing the different levels of risk and regimes. The identification of these regimes auto regressive in the process of generating returns in the Brazilian Market, especially in Bovespa, for the Plano Real period (January of 1995 to September of 2004), will be elaborated trough a Markov Switching Model. With this model, is possible to identify the nonlinear structure of the data and it is relation to the conditional mean and conditional variance. As result the dynamics of the data generation process, the returns can be described as function of the growth cycle ("bull markets") and decrease ("bear markets"). / Um dos mais populares assuntos em finanças trata da pesquisa e estudo do processo de geração de retornos de títulos, tendo sua origem com a publicação da tese de Bachelier, em 1900. Em 1978, Jensen afirmou que, qualquer estratégia de negócio, que produza de forma consistente ganho econômico, já descontado o risco, por um período suficientemente longo, considerando os custos de transação, constitui-se em uma evidência contra eficiência de mercado. A eficiência de mercado, portanto, pode ser traduzida para a hipótese de que o valor esperado do excesso da taxa de retorno é, na média, igual a zero, quando se leva em consideração uma medida de probabilidade que desconta o prêmio pelo risco, dado um conjunto de informações (históricas, públicas ou privadas). Todavia, ocorre que as evidências empíricas, principalmente a partir da década de sessenta, têm constatado uma série de fatos, que deram origem a uma vasta literatura em finanças: conglomerados de volatilidade, não normalidade dos retornos, assimetria negativa, excesso de curtose, volatilidade estocástica, auto- regressividade dos retornos e da volatilidade, anomalias de mercado relacionadas com a sazonalidade ou com o funcionamento dos mercados, anomalias de mercado relacionadas ao tamanho da empresa e a sua estrutura de capital, processo de reversão para o retorno médio e valores extremos. Em função dessas constatações, surgiram teorias, especialmente de natureza econômica, sobre a característica não linear dos dados, tais como: modismos, manias e pânicos e bolhas especulativas racionais. Um dos objetivos do presente estudo consiste em elaborar uma estratégia ativa baseada na construção de um Índice de Cointegração, considerando-se os diferentes níveis de riscos e de regimes auto regressivo. A identificação desses regimes no processo de geração de retornos no mercado brasileiro de ações na
BOVESPA, para o período pós Plano Real (janeiro de 1995 a setembro de 2004) será elaborado através do Modelo de Regimes de Conversão de Markov. A utilização desse modelo de regimes permite identificar a estrutura não linear dos dados seja em relação à média condicional, seja em relação à variância condicional. Como resultado, a dinâmica do processo de geração poderá ser função de ciclos de crescimento persistente ( bull markets ) e de não crescimento ( bear markets ).
|
69 |
Algoritmos assíncronos de iteração de política para Processos de Decisão Markovianos com Probabilidades Intervalares / Asynchronous policy iteration algorithms for Bounded-parameter Markov Decision ProcessesReis, Willy Arthur Silva 02 August 2019 (has links)
Um Processo de Decisão Markoviano (MDP) pode ser usado para modelar problemas de decisão sequencial. No entanto, podem existir limitações na obtenção de probabilidades para modelagem da transição de estados ou falta de confiabilidade nas informações existentes sobre estas probabilidades. Um modelo menos restritivo e que pode resolver este problema é o Processo de Decisão Markoviano com Probabilidades Intervalares (BMDP), que permite a representação imprecisa das probabilidades de transição de estados e raciocínio sobre uma solução robusta. Para resolver BMDPs de horizonte infinito, existem os algoritmos síncronos de Iteração de Valor Intervalar e Iteração de Política Robusto, que são ineficientes quando o tamanho do espaço de estados é grande. Neste trabalho são propostos algoritmos assíncronos de Iteração de Política baseados no particionamento do espaço de estados em subconjuntos aleatórios (Robust Asynchronous Policy Iteration - RAPI) ou em componentes fortemente conexos (Robust Topological Policy Iteration - RTPI). Também são propostas formas de inicializar a função valor e a política dos algoritmos, de forma a melhorar a convergência destes. O desempenho dos algoritmos propostos é avaliado em comparação com o algoritmo de Iteração de Política Robusto para BMDPs para domínios de planejamento existentes e um novo domínio proposto. Os resultados dos experimentos realizados mostram que (i) quanto mais estruturado é o domínio, melhor é o desempenho do algoritmo RTPI; (ii) o uso de computação paralela no algoritmo RAPI possui um pequeno ganho computacional em relação à sua versão sequencial; e (iii) uma boa inicialização da função valor e política pode impactar positivamente o tempo de convergência dos algoritmos. / A Markov Decision Process (MDP) can be used to model sequential decision problems. However, there may be limitations in obtaining probabilities for state transition modeling or lack of reliability in existing information on these probabilities. A less restrictive model that can solve this problem is the Bounded-parameter Markov Decision Process (BMDP), which allows the imprecise representation of the transition probabilities and reasoning about a robust solution. To solve infinite horizon BMDPs, there are synchronous algorithms such as Interval Value Iteration and Robust Policy Iteration, which are inefficient for large state spaces. In this work, we propose new asynchronous Policy Iteration algorithms based on state space partitioning in random subsets (Robust Asynchronous Policy Iteration - RAPI) or in strongly connected components (Robust Topological Policy Iteration - RTPI). We also propose ways to initialize the value function and policy of the algorithms, in order to improve their convergence. The performance of the proposed algorithms is evaluated in comparison with the Robust Policy Iteration algorithm for BMDPs for existing planning domains and a proposed new domain. The results of the experiments show that (i) the more structured the domain, the better is the performance of the RTPI algorithm; (ii) the use of parallel computing in the RAPI algorithm has a small computational gain compared to its sequential version; and (iii) a good initialization of the value function and policy can positively impact the convergence time of the algorithms.
|
70 |
Sistemas lineares singulares sujeitos a saltos Markovianos / Singular linear systems subject to Markov jumpsAmanda Liz Pacífico Manfrim 08 October 2010 (has links)
Esta tese trata das propriedades estruturais e do controle de sistemas lineares singulares sujeitos a saltos Markovianos (SLSSM). Três questões fundamentais são consideradas para esta classe de sistemas. A primeira estabelece condições necessárias para que o sistema seja estocasticamente regular em um período de tempo determinado. A segunda trata da estabilidade exponencial estocástica de SLSSM. Equações de Lyapunov acopladas generalizadas são deduzidas para caracterizar estabilidade deste tipo de sistema. Em virtude da complexidade das soluções numéricas dessas equações, cada equação de Lyapunov do conjunto acoplado está em função de duas variáveis desconhecidas, estamos propondo um algoritmo para resolver este problema. A terceira questão diz respeito à síntese de um regulador para este tipo de sistema singular definida em termos de equações algébricas generalizadas de Riccati acopladas. / This thesis deals with the structural features and with the control of singular linear systems with Markovian jump parameters (SLSMJP). Three fundamental questions are considered to this class of systems. The first provides necessary conditions to characterize stochastic regularity in a determined period of time. The second deals with exponential stability of SLSMJP. Coupled generalized Lyapunov Equations are deduced to check the stability of this class of systems. In virtue of the complexity of the numerical solutions of these equations, there exist two unknown variables for each equation of the set of coupled Lyapunov equations, we are proposing an algorithm to solve this problem. The third question is related with the synthesis of a regulator for this class of singular systems defined in terms of coupled algebraic generalized Riccati equations.
|
Page generated in 0.058 seconds