Spelling suggestions: "subject:"processo dde decisão"" "subject:"processo dee decisão""
31 |
Planejamento probabilístico usando programação dinâmica assíncrona e fatorada / Probabilistic planning using asynchronous and factored dynamic programming.Holguin, Mijail Gamarra 03 April 2013 (has links)
Processos de Decisão Markovianos (Markov Decision Process - MDP) modelam problemas de tomada de decisão sequencial em que as possíveis ações de um agente possuem efeitos probabilísticos sobre os estados sucessores (que podem ser definidas por matrizes de transição de estados). Programação dinâmica em tempo real (Real-time dynamic programming - RTDP), é uma técnica usada para resolver MDPs quando existe informação sobre o estado inicial. Abordagens tradicionais apresentam melhor desempenho em problemas com matrizes esparsas de transição de estados porque podem alcançar eficientemente a convergência para a política ótima, sem ter que visitar todos os estados. Porém essa vantagem pode ser perdida em problemas com matrizes densas de transição, nos quais muitos estados podem ser alcançados em um passo (por exemplo, problemas de controle com eventos exógenos). Uma abordagem para superar essa limitação é explorar regularidades existentes na dinâmica do domínio através de uma representação fatorada, isto é, uma representação baseada em variáveis de estado. Nesse trabalho de mestrado, propomos um novo algoritmo chamado de FactRTDP (RTDP Fatorado), e sua versão aproximada aFactRTDP (RTDP Fatorado e Aproximado), que é a primeira versão eficiente fatorada do algoritmo clássico RTDP. Também propomos outras 2 extensões desses algoritmos, o FactLRTDP e aFactLRTDP, que rotulam estados cuja função valor convergiu para o ótimo. Os resultados experimentais mostram que estes novos algoritmos convergem mais rapidamente quando executados em domínios com matrizes de transição densa e tem bom comportamento online em domínios com matrizes de transição densa com pouca dependência entre as variáveis de estado. / Markov Decision Process (MDP) model problems of sequential decision making, where the possible actions have probabilistic effects on the successor states (defined by state transition matrices). Real-time dynamic programming (RTDP), is a technique for solving MDPs when there exists information about the initial state. Traditional approaches show better performance in problems with sparse state transition matrices, because they can achieve the convergence to optimal policy efficiently, without visiting all states. But, this advantage can be lose in problems with dense state transition matrices, in which several states can be achieved in a step (for example, control problems with exogenous events). An approach to overcome this limitation is to explore regularities existing in the domain dynamics through a factored representation, i.e., a representation based on state variables. In this master thesis, we propose a new algorithm called FactRTDP (Factored RTDP), and its approximate version aFactRTDP (Approximate and Factored RTDP), that are the first factored efficient versions of the classical RTDP algorithm. We also propose two other extensions, FactLRTDP and aFactLRTDP, that label states for which the value function has converged to the optimal. The experimental results show that when these new algorithms are executed in domains with dense transition matrices, they converge faster. And they have a good online performance in domains with dense transition matrices and few dependencies among state variables.
|
32 |
Processos de decisão Markovianos com probabilidades imprecisas e representações relacionais: algoritmos e fundamentos. / Markov decision processes with imprecise probabilities and relational representations: foundations and algorithms.Shirota Filho, Ricardo 03 May 2012 (has links)
Este trabalho é dedicado ao desenvolvimento teórico e algorítmico de processos de decisão markovianos com probabilidades imprecisas e representações relacionais. Na literatura, essa configuração tem sido importante dentro da área de planejamento em inteligência artificial, onde o uso de representações relacionais permite obter descrições compactas, e o emprego de probabilidades imprecisas resulta em formas mais gerais de incerteza. São três as principais contribuições deste trabalho. Primeiro, efetua-se uma discussão sobre os fundamentos de tomada de decisão sequencial com probabilidades imprecisas, em que evidencia-se alguns problemas ainda em aberto. Esses resultados afetam diretamente o (porém não restrito ao) modelo de interesse deste trabalho, os processos de decisão markovianos com probabilidades imprecisas. Segundo, propõe-se três algoritmos para processos de decisão markovianos com probabilidades imprecisas baseadas em programação (otimização) matemática. E terceiro, desenvolvem-se ideias propostas por Trevizan, Cozman e de Barros (2008) no uso de variantes do algoritmo Real-Time Dynamic Programming para resolução de problemas de planejamento probabilístico descritos através de versões estendidas da linguagem de descrição de domínios de planejamento (PPDDL). / This work is devoted to the theoretical and algorithmic development of Markov Decision Processes with Imprecise Probabilities and relational representations. In the literature, this configuration is important within artificial intelligence planning, where the use of relational representations allow compact representations and imprecise probabilities result in a more general form of uncertainty. There are three main contributions. First, we present a brief discussion of the foundations of decision making with imprecise probabilities, pointing towards key questions that remain unanswered. These results have direct influence upon the model discussed within this text, that is, Markov Decision Processes with Imprecise Probabilities. Second, we propose three algorithms for Markov Decision Processes with Imprecise Probabilities based on mathematical programming. And third, we develop ideas proposed by Trevizan, Cozman e de Barros (2008) on the use of variants of Real-Time Dynamic Programming to solve problems of probabilistic planning described by an extension of the Probabilistic Planning Domain Definition Language (PPDDL).
|
33 |
Gás natural satisfação dos usuários residenciais em salvadorOliveira, Gustavo Freitas de January 2008 (has links)
p. 1 - 117 / Submitted by Santiago Fabio (fabio.ssantiago@hotmail.com) on 2013-01-23T19:22:59Z
No. of bitstreams: 1
aaaaaaaaa.pdf: 739341 bytes, checksum: b96f6857bde51353e8ee4682866977b7 (MD5) / Made available in DSpace on 2013-01-23T19:22:59Z (GMT). No. of bitstreams: 1
aaaaaaaaa.pdf: 739341 bytes, checksum: b96f6857bde51353e8ee4682866977b7 (MD5)
Previous issue date: 2008 / Este trabalho teve dois objetivos: investigar o grau a satisfação dos usuários residenciais de
gás natural em Salvador (Ba), e refletir sobre os aspectos do processo de compra (adesão) do
gás natural neste segmento de mercado. Neste estudo, através da aplicação de um roteiro de
entrevistas semi-estruturado, (questionário) foi realizada uma pesquisa de campo com os
usuários residenciais de gás natural em Salvador, buscando argumentos para os seguintes
pressupostos: (1) os usuários do segmento residencial não conhecem a diferença entre gás
natural e o gás liquefeito de petróleo; (2) apesar da maior segurança, o fornecimento contínuo
seria o maior atrativo para adesão; (3) os usuários de gás natural no segmento residencial, têm
necessidades de serviços que não são prestados pela distribuidora; (4) uma das barreiras à
escolha do gás natural é o receio da possibilidade de desabastecimento e (5) os usuários deste
segmento na cidade de Salvador, estão satisfeitos com os serviços prestados pela
distribuidora. Os resultados mostraram fortes indícios a favor dos pressupostos (1) e (5),
como também indicaram que os pressupostos (3) e (4) não se verificaram. Quanto ao
pressuposto (2), a comodidade/praticidade do fornecimento contínuo se mostrou se um forte
atrativo, porém o preço, também teve um peso importante na motivação para adesão ao
serviço. Além disso, foram identificados vetores de sentido que levam os usuários a fazer
opção pelo gás natural: a comodidade/praticidade, vantagem econômica relacionada ao preço,
segurança e de forma ainda embrionária, o gás natural foi percebido como um combustível
ecologicamente correto. Estes vetores de sentido poderão ser utilizados pela distribuidora nas
suas estratégias para difusão de informações sobre o gás natural como diferencial para o
segmento residencial. / Salvador
|
34 |
Transporte de carga fracionada: comportamento de compra dos lojistas de shopping centers em salvadorOliveira, Francisco Asevêdo January 2007 (has links)
p. 1 - 123 / Submitted by Santiago Fabio (fabio.ssantiago@hotmail.com) on 2013-02-19T20:25:26Z
No. of bitstreams: 1
2222.pdf: 2383061 bytes, checksum: e8578d410e0315cbcb968a7dddc2e78a (MD5) / Approved for entry into archive by Fatima Cleômenis Botelho Maria (botelho@ufba.br) on 2013-02-20T13:52:00Z (GMT) No. of bitstreams: 1
2222.pdf: 2383061 bytes, checksum: e8578d410e0315cbcb968a7dddc2e78a (MD5) / Made available in DSpace on 2013-02-20T13:52:00Z (GMT). No. of bitstreams: 1
2222.pdf: 2383061 bytes, checksum: e8578d410e0315cbcb968a7dddc2e78a (MD5)
Previous issue date: 2007 / Este trabalho investigou os principais fatores de decisão de compra de serviços de
carga fracionada pelo lojista de confecções dos principais shopping centers de
Salvador. Para isto, foi realizada uma pesquisa de campo, com a aplicação de um
roteiro de entrevistas semi-estruturado, através do qual procuramos observar as
variáveis (1) preço, (2) relacionamento interpessoal e (3) satisfação com o serviço
prestado. Os resultados mostram que o preço é um dos principais fatores da escolha
da empresa transportadora, mas nem sempre é o elemento determinante; ele
aparece em associação com dois outros fatores: relacionamento interpessoal e
condições de entrega da mercadoria. Observou-se um elevado grau de satisfação
dos lojistas com as transportadoras que, atualmente, lhes prestam serviço. / Salvador
|
35 |
Processo de decisão de mídiaMurakami, Luiz Carlos 28 November 2002 (has links)
Made available in DSpace on 2010-04-20T20:08:22Z (GMT). No. of bitstreams: 0
Previous issue date: 2002-11-28T00:00:00Z / Este estudo propõe-se a investigar o processo de decisão para seleção de mídia. Baseado na teoria de decisão e de uma pesquisa junto aos gerentes de marketing das empresas e os gerentes de mídia das agências de propaganda, o estudo procura compreender como é o processo de selecionar a melhor mídia na estratégia de comunicação. O estudo levanta hipóteses sobre o processo de decisão, os tipos de informações requeridas, possíveis fatores envolvidos e prováveis perfis de decisores neste processo.
|
36 |
Busca de informações na internet e o processo de decisão de comprasNogueira, Cláudia Mendes 27 April 2001 (has links)
Made available in DSpace on 2010-04-20T20:15:07Z (GMT). No. of bitstreams: 0
Previous issue date: 2001-04-27T00:00:00Z / Esta dissertação tem objetivos focados na análise da utilização da Internet como fonte de informação durante o processo de decisão de compras do consumidor. O primeiro objetivo é o de rever o processo de decisão de compras e apresentar suas fases de modo a identificar um referencial conceitual que sustente o desenvolvimento do tema proposto. O segundo objetivo é o de apresentar o conceito de sobrecarga de informação e seus efeitos sobre o consumidor. O terceiro objetivo visa discutir conceitualmente a Internet como mídia e fonte de Informação. No quarto objetivo busca-se evidências de que a Internet contribui para o aumento da sobrecarga de informações. O quinto objetivo visa identificar os mecanismos e ferramentas criados para disponibilizar, acessar e facilitar a busca de informações na Internet. Finalmente, com o sexto objetivo, buscou-se identificar um referencial conceitual que ajude a fornecer uma base para o estudo sobre a busca de informações de compras na Internet evidenciando a utilização das ferramentas e mecanismos identificados, durante o processo de decisão de compras, destacando os que possam minimizar a sobrecarga de informação durante esse processo. / This dissertation focus on the Internet as an information source during the consumer decision making process. The first objective reviews this process presenting its phases and its framework. The second one presents the concept of information overload and the effect over the consumer. The third goal is the conceptualization of the Internet as a medium and information source. To achieve the forth objective is presented evidences that Internet contributes to the .growth of information overload. The fifth objective presents the tools and the mechanisms to access, search and find information on the web. Finally , the last objective presents conceptual references to help the study of the information seeking process for buying purposes on the web, presertting to 11s and mechanisms utilization during the process.
|
37 |
A percepção de valor do consumidor frente ao recall de veículos no Brasil: um estudo exploratório em São PauloPastori Filho, Odair 15 December 2004 (has links)
Made available in DSpace on 2010-04-20T20:51:58Z (GMT). No. of bitstreams: 3
44973.pdf.jpg: 28254 bytes, checksum: 9d22b23af1bb08f3e5c7624db87f05da (MD5)
44973.pdf: 626225 bytes, checksum: 05fcce6f6856f384fe5b221a24595e7e (MD5)
44973.pdf.txt: 279277 bytes, checksum: 46885070119c1e1e35fcd21313c602f2 (MD5)
Previous issue date: 2004-12-15T00:00:00Z / This study analyses the behavior of the Brazilian customer facing automotive vehicle recall. The behaviour during purchase, use and disposal of auto vehicles that go through recalls is analysed through the ponti of view of the theory of psychological reactance, originary from psychology and that explains the reactions against limitations of individual freedom. The objective of this study is to measure individual psychological reactance and to study client perception to automotive vehicles recall, through the indicatives of customer perceived value and customer perceived relationship quality. The resultant of the process is the purchase behavior post-recall. The most interested group in this study is the customers themselves as well as the auto manufacturers, customer defense agencies and legal agencies interested in the subject. The originality of evaluating the implications of this occurrence from the customer’s point of view is a contribution of the study because the recall has not yet been studied in Brazil from the customer’s value perception point of view, although it has been under constant scrutiny of the media. This study begins with a historical analysis of the recall in United States of America and in Brazil. Then a bibliographic revision uniting the main concepts previously presented was done and a scheme uniting all variables was proposed. Two researches were ellaborated in São Paulo: one qualitative, exploratory aimed at examining the customer’s purchase process and thoughts about recall and another one quantitative, aiming to translate the following scales to portuguese: (a) the QMPR - Questionnaire for the Measurement of Psychological Reactance - from Merz (1983); (b) customer perceived value, measured by PERVAL, from Sweeney & Soutar (2001) and (c) the RQ (relationship quality) scale from Roberts et al (2003) and to introduce the relationship existent among them. The results indicate that the the recall does not pass unnoticed by the consumer. The consumer creates a memory and a knowledge of the consequences of the recall. Two consumer perspectives towards the recall were identified: one negative vision, more reactant, that apparently is more concerned with the disturbance caused by the process than with the potential risks of security itself, thus more propense to leave the automaker; and another one more positive, less reactant and that considers the process a responsible attitude from the producer, that transmits credibility and trust, thus more propense to stay with the automaker. / Este estudo analisa o comportamento do consumidor brasileiro frente ao recall de veículos automotivos. O processo de compra, uso e descarte dos automóveis que sofreram o chamamento é analisado sob a ótica da teoria da reatância psicológica, originária da psicologia e que visa explanar a reação de indivíduos a limitações em sua liberdade. O objetivo do estudo é dimensionar a reatância psicológica individual e verificar a percepção dos consumidores ao recall de veículos automotivos, através dos indicativos de valor percebido e a qualidade no relacionamento percebida pelo indivíduo. A resultante do processo foi o comportamento de compra pós recall. Os maiores beneficiários deste estudo serão os próprios consumidores bem como as montadoras de veículos, os órgãos de defesa dos consumidores e entidades jurídicas interessadas neste tema. A originalidade de avaliar as implicações deste acontecimento sob a ótica do consumidor é uma contribuição deste estudo, pois o recall ainda não foi estudado sob este ponto de vista anteriormente no Brasil, apesar do constante escrutínio do tema na mídia. O estudo tem início com um histórico do recall nos Estados Unidos da América e no Brasil. Em seguida, foi elaborada uma revisão de conhecimento reunindo os principais conceitos apresentados anteriormente e foi proposto um esquema unindo as variáveis. Em seguida, foram elaboradas na cidade de São Paulo duas pesquisas: uma qualitativa, exploratória a fim de examinar o processo de compra e pensamentos sobre o recall e outra quantitativa a fim de traduzir as escalas para o dimensionamento das variáveis: (a) reatância psicológica (o questionário para o dimensionamento da reatância psicológica de Merz (1983), (b) o valor percebido pelo consumidor (dimensionado através da escala PERVAL de Sweeney e Soutar (2001) e (c) a qualidade percebida no relacionamento entre consumidor e organização de Roberts et al (2003) e apresentar as relações existentes entre elas. Os resultados indicam que o consumidor não passa ileso pelo recall. Ele cria uma memória e sabedoria das conseqüências do chamamento. Duas perspectivas do consumidor frente ao recall foram identificadas: uma visão negativa, mais reatante, que aparentemente fica mais preocupada com o incômodo que o processo todo causa do que com uma potencial ameaça a sua segurança e mais propensa a mudar de fornecedor; e outra visão positiva, pouco reatante e que considera o processo como uma atitude responsável, que transmite credibilidade e confiança do fabricante, esta por sua vez mais propensa a permanecer na marca.
|
38 |
A influÃncia da internet no processo de decisÃo de compra de produtos eletrÃnicos do consumidor de baixa renda na grande Fortaleza / Internet influence on the process of Electronic Products Purchase Decision of Low Income Consumers in Greater FortalezaAlexandre Pinho Pessoa de Hollanda 28 July 2014 (has links)
nÃo hà / O estudo teve como objetivo geral analisar a influÃncia da Internet no processo de decisÃo de compra de produtos eletroeletrÃnicos do consumidor de baixa renda na Grande Fortaleza. Os objetivos especÃficos buscaram levantar o perfil do consumidor de baixa renda no processo de decisÃo de compra, investigar qual perfil seria mais influenciado pela Internet em cada fase e identificar em qual (is) fase(s) a Internet influenciava mais esse consumidor. A escolha do tema foi motivada pela importÃncia que o mercado de baixa renda tem tido nos Ãltimos anos na economia brasileira e a influÃncia cada vez maior que a Internet exerce no processo de decisÃo de compra desses consumidores, principalmente relacionada à compra de produtos eletroeletrÃnicos. O referencial teÃrico foi organizado com os principais conceitos sobre o comportamento do consumidor, os modelos de decisÃo de compra, com foco no modelo de Blackwell et al. (2011) que foi utilizado como base do estudo, sendo simplificado e adaptado a realidade da Internet, o mercado de baixa renda brasileiro e o seu relacionamento com a Internet e com as compras de produtos eletroeletrÃnicos. No que diz respeito à metodologia do estudo, pode ser classificada como de carÃter exploratÃrio e descritivo com natureza quantitativa atravÃs do mÃtodo survey com utilizaÃÃo de um questionÃrio aplicado a uma amostra nÃo probabilÃstica acidental constituÃda por 517 respondentes. O tratamento dos dados foi realizado por meio de tÃcnicas estatÃsticas de anÃlise multivariada como a anÃlise fatorial exploratÃria e confirmatÃria, testes de hipÃteses e modelagem de Ãrvores de regressÃo com o uso dos softwares estatÃsticos SPSS e Amos. Os resultados encontrados permitiram comprovar as hipÃteses de que os jovens de baixa renda sÃo mais influenciados pela Internet em seu processo de compra; de que quanto maior a frequÃncia de uso da Internet, maior a influÃncia que a mesma tem no processo de decisÃo de compra e de que a fase de busca de informaÃÃes aliada a fase de avaliaÃÃo de alternativas, sÃo as fases mais influenciadas pela Internet no processo de compra. As informaÃÃes obtidas com o estudo, podem ser Ãteis para organizaÃÃes, estudiosos da Ãrea e demais interessados no mercado de baixa renda. Por fim, o estudo tem suas limitaÃÃes, quanto ao tamanho e tipo de amostra adotado e quanto à regiÃo geogrÃfica trabalhada. O estudo pode ser ampliado, no intuito de compreender o comportamento do consumidor em outras capitais brasileiras ou a partir de outras variÃveis. / The study aimed to analyze the influence of the Internet in the purchasing decision process for electronic products the low-income consumers in the Greater Fortaleza. The specific objectives sought to raise the low-income consumer profile in the purchase decision process, investigate which profile would be influenced by the Internet in each phase and identify which one (s) phase (s) the Internet more influenced this consumer. The choice of subject was motivated by the importance of the low-income market has had in recent years in the Brazilian economy and the growing influence that the Internet plays in the purchase decision process for these consumers, mainly related to the purchase of electronic products. The theoretical framework was organized with the main concepts on consumer behavior, models of purchasing decisions, focusing on the model of Blackwell et al. (2011) that was used as the basis of the study being simplified and adapted to the reality of the Internet, the low-income Brazilian market and its relationship with the Internet and the electronic product purchases. With regard to the methodology of the study can be classified as exploratory and descriptive with quantitative through the survey method using a questionnaire applied to a non-probabilistic sample consisting of 517 respondents accidental. Data analysis was performed using statistical techniques of multivariate analysis as exploratory and confirmatory factor analysis, hypothesis testing and regression tree modeling using statistical software SPSS and Amos. Findings allowed to prove the hypothesis that low-income young people are more influenced by the Internet in their purchase process; that the higher the frequency of Internet use, the more influence it has in the purchasing decision process and that the search phase information together with the evaluation phase of alternatives, are the most influenced by the Internet stages in the process purchase. Information obtained from the study can be useful for organizations, area scholars and others interested in the low-income market. Finally, the study has its limitations as to the size and type of sample adopted and on the geographic region worked. The study may be expanded in order to understand consumer behavior in other state capitals or from other variables
|
39 |
Processos de decisão Markovianos com probabilidades imprecisas e representações relacionais: algoritmos e fundamentos. / Markov decision processes with imprecise probabilities and relational representations: foundations and algorithms.Ricardo Shirota Filho 03 May 2012 (has links)
Este trabalho é dedicado ao desenvolvimento teórico e algorítmico de processos de decisão markovianos com probabilidades imprecisas e representações relacionais. Na literatura, essa configuração tem sido importante dentro da área de planejamento em inteligência artificial, onde o uso de representações relacionais permite obter descrições compactas, e o emprego de probabilidades imprecisas resulta em formas mais gerais de incerteza. São três as principais contribuições deste trabalho. Primeiro, efetua-se uma discussão sobre os fundamentos de tomada de decisão sequencial com probabilidades imprecisas, em que evidencia-se alguns problemas ainda em aberto. Esses resultados afetam diretamente o (porém não restrito ao) modelo de interesse deste trabalho, os processos de decisão markovianos com probabilidades imprecisas. Segundo, propõe-se três algoritmos para processos de decisão markovianos com probabilidades imprecisas baseadas em programação (otimização) matemática. E terceiro, desenvolvem-se ideias propostas por Trevizan, Cozman e de Barros (2008) no uso de variantes do algoritmo Real-Time Dynamic Programming para resolução de problemas de planejamento probabilístico descritos através de versões estendidas da linguagem de descrição de domínios de planejamento (PPDDL). / This work is devoted to the theoretical and algorithmic development of Markov Decision Processes with Imprecise Probabilities and relational representations. In the literature, this configuration is important within artificial intelligence planning, where the use of relational representations allow compact representations and imprecise probabilities result in a more general form of uncertainty. There are three main contributions. First, we present a brief discussion of the foundations of decision making with imprecise probabilities, pointing towards key questions that remain unanswered. These results have direct influence upon the model discussed within this text, that is, Markov Decision Processes with Imprecise Probabilities. Second, we propose three algorithms for Markov Decision Processes with Imprecise Probabilities based on mathematical programming. And third, we develop ideas proposed by Trevizan, Cozman e de Barros (2008) on the use of variants of Real-Time Dynamic Programming to solve problems of probabilistic planning described by an extension of the Probabilistic Planning Domain Definition Language (PPDDL).
|
40 |
Planejamento probabilístico usando programação dinâmica assíncrona e fatorada / Probabilistic planning using asynchronous and factored dynamic programming.Mijail Gamarra Holguin 03 April 2013 (has links)
Processos de Decisão Markovianos (Markov Decision Process - MDP) modelam problemas de tomada de decisão sequencial em que as possíveis ações de um agente possuem efeitos probabilísticos sobre os estados sucessores (que podem ser definidas por matrizes de transição de estados). Programação dinâmica em tempo real (Real-time dynamic programming - RTDP), é uma técnica usada para resolver MDPs quando existe informação sobre o estado inicial. Abordagens tradicionais apresentam melhor desempenho em problemas com matrizes esparsas de transição de estados porque podem alcançar eficientemente a convergência para a política ótima, sem ter que visitar todos os estados. Porém essa vantagem pode ser perdida em problemas com matrizes densas de transição, nos quais muitos estados podem ser alcançados em um passo (por exemplo, problemas de controle com eventos exógenos). Uma abordagem para superar essa limitação é explorar regularidades existentes na dinâmica do domínio através de uma representação fatorada, isto é, uma representação baseada em variáveis de estado. Nesse trabalho de mestrado, propomos um novo algoritmo chamado de FactRTDP (RTDP Fatorado), e sua versão aproximada aFactRTDP (RTDP Fatorado e Aproximado), que é a primeira versão eficiente fatorada do algoritmo clássico RTDP. Também propomos outras 2 extensões desses algoritmos, o FactLRTDP e aFactLRTDP, que rotulam estados cuja função valor convergiu para o ótimo. Os resultados experimentais mostram que estes novos algoritmos convergem mais rapidamente quando executados em domínios com matrizes de transição densa e tem bom comportamento online em domínios com matrizes de transição densa com pouca dependência entre as variáveis de estado. / Markov Decision Process (MDP) model problems of sequential decision making, where the possible actions have probabilistic effects on the successor states (defined by state transition matrices). Real-time dynamic programming (RTDP), is a technique for solving MDPs when there exists information about the initial state. Traditional approaches show better performance in problems with sparse state transition matrices, because they can achieve the convergence to optimal policy efficiently, without visiting all states. But, this advantage can be lose in problems with dense state transition matrices, in which several states can be achieved in a step (for example, control problems with exogenous events). An approach to overcome this limitation is to explore regularities existing in the domain dynamics through a factored representation, i.e., a representation based on state variables. In this master thesis, we propose a new algorithm called FactRTDP (Factored RTDP), and its approximate version aFactRTDP (Approximate and Factored RTDP), that are the first factored efficient versions of the classical RTDP algorithm. We also propose two other extensions, FactLRTDP and aFactLRTDP, that label states for which the value function has converged to the optimal. The experimental results show that when these new algorithms are executed in domains with dense transition matrices, they converge faster. And they have a good online performance in domains with dense transition matrices and few dependencies among state variables.
|
Page generated in 0.0954 seconds