Spelling suggestions: "subject:"decisionprocess"" "subject:"decisionsprocess""
211 |
Planejamento probabilístico sensível a risco com ILAO* e função utilidade exponencial / Probabilistic risk-sensitive planning with ILAO* and exponential utility functionElthon Manhas de Freitas 18 October 2018 (has links)
Os processos de decisão de Markov (Markov Decision Process - MDP) têm sido usados para resolução de problemas de tomada de decisão sequencial. Existem problemas em que lidar com os riscos do ambiente para obter um resultado confiável é mais importante do que maximizar o retorno médio esperado. MDPs que lidam com esse tipo de problemas são chamados de processos de decisão de Markov sensíveis a risco (Risk-Sensitive Markov Decision Process - RSMDP). Dentre as diversas variações de RSMDP, estão os trabalhos baseados em utilidade exponencial que utilizam um fator de risco, o qual modela a atitude a risco do agente e que pode ser propensa ou aversa. Os algoritmos existentes na literatura para resolver esse tipo de RSMDPs são ineficientes se comparados a outros algoritmos de MDP. Neste projeto, é apresentada uma solução que pode ser usada em problemas maiores, tanto por executar cálculos apenas em estados relevantes para atingir um conjunto de estados meta partindo de um estado inicial, quanto por permitir processamento de números com expoentes muito elevados para os ambientes computacionais atuais. Os experimentos realizados evidenciam que (i) o algoritmo proposto é mais eficiente, se comparado aos algoritmos estado-da-arte para RSMDPs; e (ii) o uso da técnica LogSumExp permite resolver o problema de trabalhar com expoentes muito elevados em RSMDPs. / Markov Decision Process (MDP) has been used very efficiently to solve sequential decision-making problems. There are problems where dealing with environmental risks to get a reliable result is more important than maximizing the expected average return. MDPs that deal with this type of problem are called risk-sensitive Markov decision processes (RSMDP). Among the several variations of RSMDP are the works based on exponential utility that use a risk factor, which models the agent\'s risk attitude that can be prone or averse. The algorithms in the literature to solve this type of RSMDPs are inefficient when compared to other MDP algorithms. In this project, a solution is presented that can be used in larger problems, either by performing calculations only in relevant states to reach a set of meta states starting from an initial state, or by allowing the processing of numbers with very high exponents for the current computational environments. The experiments show that (i) the proposed algorithm is more efficient when compared to state-of-the-art algorithms for RSMDPs; and (ii) the LogSumExp technique solves the problem of working with very large exponents in RSMDPs
|
212 |
Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda / Batch reinforcement learning: a case study for the problem of decision making in sales processesLacerda, Dênis Antonio 12 December 2013 (has links)
Planejamento Probabilístico estuda os problemas de tomada de decisão sequencial de um agente, em que as ações possuem efeitos probabilísticos, modelados como um processo de decisão markoviano (Markov Decision Process - MDP). Dadas a função de transição de estados probabilística e os valores de recompensa das ações, é possível determinar uma política de ações (i.e., um mapeamento entre estado do ambiente e ações do agente) que maximiza a recompensa esperada acumulada (ou minimiza o custo esperado acumulado) pela execução de uma sequência de ações. Nos casos em que o modelo MDP não é completamente conhecido, a melhor política deve ser aprendida através da interação do agente com o ambiente real. Este processo é chamado de aprendizado por reforço. Porém, nas aplicações em que não é permitido realizar experiências no ambiente real, por exemplo, operações de venda, é possível realizar o aprendizado por reforço sobre uma amostra de experiências passadas, processo chamado de aprendizado por reforço em lote (Batch Reinforcement Learning). Neste trabalho, estudamos técnicas de aprendizado por reforço em lote usando um histórico de interações passadas, armazenadas em um banco de dados de processos, e propomos algumas formas de melhorar os algoritmos existentes. Como um estudo de caso, aplicamos esta técnica no aprendizado de políticas para o processo de venda de impressoras de grande formato, cujo objetivo é a construção de um sistema de recomendação de ações para vendedores iniciantes. / Probabilistic planning studies the problems of sequential decision-making of an agent, in which actions have probabilistic effects, and can be modeled as a Markov decision process (MDP). Given the probabilities and reward values of each action, it is possible to determine an action policy (in other words, a mapping between the state of the environment and the agent\'s actions) that maximizes the expected reward accumulated by executing a sequence of actions. In cases where the MDP model is not completely known, the best policy needs to be learned through the interaction of the agent in the real environment. This process is called reinforcement learning. However, in applications where it is not allowed to perform experiments in the real environment, for example, sales process, it is possible to perform the reinforcement learning using a sample of past experiences. This process is called Batch Reinforcement Learning. In this work, we study techniques of batch reinforcement learning (BRL), in which learning is done using a history of past interactions, stored in a processes database. As a case study, we apply this technique for learning policies in the sales process for large format printers, whose goal is to build a action recommendation system for beginners sellers.
|
213 |
A influência dos grupos de referência no processo decisório do consumidor: um estudo no segmento de veículos utilitários esportivosSastre, Priscila Tereza de Nadai 20 May 2009 (has links)
Made available in DSpace on 2016-04-25T16:45:16Z (GMT). No. of bitstreams: 1
Priscila Tereza de Nadai Sastre.pdf: 1178894 bytes, checksum: ed98b9cd97b43099710583ece05a7d5d (MD5)
Previous issue date: 2009-05-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This dissertation had as its general objective to know what types of influence of the reference
group relies upon an individual, in his purchase decision process of sports utilitarian vehicles
(SUV). The purchase process was assumed as social experiences that individuals make every
day and the purchase of products and services is mediated by interpersonal influences. In the
marketing field, the relationship between the individual s purchase decision process and the
influences received by his social environment has been targeted by relevant discussions in the
academic arena, as well as in the corporate world. The theoretical background describes the
main constructs of the individual purchase decision process and reference group influence
(interpersonal influence), from the American perspective. The justification for this study relies
upon the Marketing Science Institute (MSI) priority studies, for the 2006-2008 period. These
priorities were formed from research made with the MSI sponsors, who identified the role of
social network in the purchase decision process as a priority study in the academic and
corporate fields. The methodology approach is the case study method since the investigations
aims to explore contemporaneous phenomena from the real life. Among the SUV sellers, in
the Brazilian market, Troller, the Ford Motors SUVs subdivision was the one chosen to
conduct this research. The data collection started with documents and secondary data of
public domain. The empirical verification was supported by self-applied structured
questionnaires, distributed electronically for Troller s clients. The results point that the
reference group has a significant influence in the Troller s purchase decision process. The
informational influence was the main type of influence observed / Esta dissertação teve como objetivo geral conhecer quais os tipos de influência que o grupo de
referência exerce sobre o indivíduo, em seu processo decisório de compra de veículos
utilitários esportivos ou, simplesmente, jipes 4x4. Partiu-se do princípio que as relações de
troca comerciais são tidas como experiências sociais que os indivíduos realizam,
normalmente, todos os dias e que o consumo de produtos e serviços é, em grande parte,
moldado pela influência de outros indivíduos neste processo. No Marketing, a relação
processo de decisão de compra do indivíduo e a influência recebida por parte de seu contexto
social tem sido alvo de relevantes discussões tanto no âmbito acadêmico, quanto no âmbito
empresarial. O construto teórico foi desenvolvido tendo-se por base as fundamentações
relativas ao comportamento do consumidor, especificamente, o processo decisório de compra
e a influência do grupo de referência. Atuaram como eixo conceitual os estudos preconizados
pela escola americana. A justificativa para este estudo reside nas prioridades de pesquisa do
Marketing Science Institute (MSI), para o biênio 2006-2008. Tais prioridades, por sua vez,
estão alicerçadas em pesquisas realizadas juntamente às organizações patrocinadoras do
próprio MSI (instituições acadêmicas dos Estados Unidos e corporações globais) que
identificaram o estudo do papel da rede social no processo de decisão de compra, como uma
das primazias de pesquisa nas instâncias acadêmica e empresarial. Decidiu-se por realizar um
estudo de caso, dadas as particularidades do fenômeno em estudo e as características
exploratórias determinantes da investigação, uma vez que foram estudados fenômenos
contemporâneos inseridos na vida real. Dentre as montadoras fabricantes de jipes 4x4, no
mercado nacional, a Troller, divisão de 4x4 pertencente à Ford Motors, foi a empresa
escolhida para o desenvolvimento do estudo de caso. A coleta de informações para a
realização do estudo de caso foi realizada a partir do levantamento documental de dados
secundários de domínio público e da própria empresa. A verificação empírica se deu por meio
de questionários estruturados e auto-aplicáveis que foram distribuídos, eletronicamente, a uma
base de 2000 clientes, da Troller. A observação participante também se fez presente por meio
da participação na Copa Troller, na temporada de 2008. O que se concluiu é que, de fato, há
considerável influência dos grupos de referência, na decisão de compra dos consumidores dos
jipes Troller. A principal forma de influência observada foi a influência informacional,
seguida da influência utilitária e, por fim, a influência expressiva de valor
|
214 |
En kvantitativ studie om köpbeslutsprocessen : En undersökning inriktad på kvinnors konsumtion av konfektionsvaror till låga priser / A quantitative study about buyer decision process : A survey focused on women´s consumption of clothing at low pricesHENNING, CAROLINE, KÅMARK, MALIN January 2011 (has links)
Den svenska klädimporten har ökat dramatiskt och vårt samhälle har förändrats till ett konsumtionssamhälle där vi shoppar efter ”köp och släng” istället för ”slit och släng”. Den ökade klädkonsumtion är ett omdiskuterat samhällsproblem och mode är en färskvara som uppdateras i en allt snabbare takt. Ett stort utbud tillsammans med de låga priser som klädmarknaden är uppbyggd av uppmuntrar till impulsköp vilket gör det allt svårare för kunden att fatta medvetna köpbeslut. I denna studie kommer vi att utgå från Armstrong och Kotlers modell av köpbeslutprocessens som är uppbyggd av fem steg som innefattar hela processen. Första steget är att ett behov upptäcks vilket följs av informationssökning därefter sker utvärdering. Det följande steget handlar om att ett köpbeslut fattas och slutligen utvärderas köpet av konsumenten. Observationsstudier visar att många konsumenter inhandlar kläder utan att följa de steg som presenteras i många klassiska köpbeslutmodeller.Undersökning klargör omfattningen av den nutida kvinnans köpbeslutsprocess när konfektionsvaror till lågpris införskaffas. Kopplingar dras mellan olika typer av köpbeslutsprocesser och köpbeteenden till konsumtion av lågprisvaror. Avslutad studie tyder på att samtliga fem steg i köpbeslutsprocessen av Armstrong och Kotler inte alltid förekommer dock har majoriteten av de individer som deltog i undersökningen gått igenom en köpbeslutsprocess där alla steg funnit med men endast i en liten utsträckning. Studien visar på att i köpbeslutsprocessens första steg identifieras enbart ett behov av att konsumera hos de allra flesta av de kvinnor som deltog och många kvinnor har ett behov av att ständigt förnya sin garderob. Detta förändrade köpbeteende har en betydelsefull koppling till den överkonsumtion av konfektionsvaror som råder i dagens samhälle.The Swedish clothing imports have increased dramatically and our society has become a society where we “buy and toss” instead of “wear out and toss”. The increase in clothing consumption is a controversial social issue and fashion is a perishable product that is quickly updated. A wide range of clothes together with low prices encourages customers to make impulsive purchase and make it complicated for the customer to do conscious purchase. In this study, we will start from a model of the buying decision process made of Armstrong and Kotler. This model consists of five steps, which includes the entire process. The first step is recognition of a need which is followed by information search and further by evaluation of alternatives. The next step is purchase decision and at last the customers evaluation of the product and post purchase behavior. Observational studies show that many consumers purchase clothes without following the steps that exists in many classic models about the buying decision process.This study clarifies the extent of the contemporary woman's buying decision process when clothing at low pieces is purchased. Links is drawn between different types of buying decision processes and buying habits in the consumption of low-priced clothes. This study suggests that all five steps in the buying decision process by Armstrong and Kotler do not always occur. The majority of the individuals who participated in the survey have gone through a buying decision process in which all of the steps are being followed but only in a little extent. The study shows that the first step in the buying decision process is identified only as a need to consume. The majority of the women who took part of the survey had a need to constantly renew their wardrobe. This change in buying behavior has an important link with the overconsumption of clothing that exists in the contemporary society. / Program: Textilekonomutbildningen
|
215 |
En kvantitativ studie om köpbeslutsprocessen : En undersökning inriktad på kvinnors konsumtion av konfektionsvaror till låga priser / A quantitative study about buyer decision process : A survey focused on women´s consumption of clothing at low pricesHenning, Carolina, Kåmark, Malin January 2011 (has links)
Den svenska klädimporten har ökat dramatiskt och vårt samhälle har förändrats till ett konsumtionssamhälle där vi shoppar efter ”köp och släng” istället för ”slit och släng”. Den ökade klädkonsumtion är ett omdiskuterat samhällsproblem och mode är en färskvara som uppdateras i en allt snabbare takt. Ett stort utbud tillsammans med de låga priser som klädmarknaden är uppbyggd av uppmuntrar till impulsköp vilket gör det allt svårare för kunden att fatta medvetna köpbeslut. I denna studie kommer vi att utgå från Armstrong och Kotlers modell av köpbeslutprocessens som är uppbyggd av fem steg som innefattar hela processen. Första steget är att ett behov upptäcks vilket följs av informationssökning därefter sker utvärdering. Det följande steget handlar om att ett köpbeslut fattas och slutligen utvärderas köpet av konsumenten. Observationsstudier visar att många konsumenter inhandlar kläder utan att följa de steg som presenteras i många klassiska köpbeslutmodeller.Undersökning klargör omfattningen av den nutida kvinnans köpbeslutsprocess när konfektionsvaror till lågpris införskaffas. Kopplingar dras mellan olika typer av köpbeslutsprocesser och köpbeteenden till konsumtion av lågprisvaror. Avslutad studie tyder på att samtliga fem steg i köpbeslutsprocessen av Armstrong och Kotler inte alltid förekommer dock har majoriteten av de individer som deltog i undersökningen gått igenom en köpbeslutsprocess där alla steg funnit med men endast i en liten utsträckning. Studien visar på att i köpbeslutsprocessens första steg identifieras enbart ett behov av att konsumera hos de allra flesta av de kvinnor som deltog och många kvinnor har ett behov av att ständigt förnya sin garderob. Detta förändrade köpbeteende har en betydelsefull koppling till den överkonsumtion av konfektionsvaror som råder i dagens samhälle.The work was done in collaboration with the Ka of Sweden where the task was to produce a better fit for the blouses of woven material. The current fit does not have a good bust adjustment and have similar armhole front and back. I chose to work out the theoretical part first and compile lists of measurements and then work out the empirical part of constructions, fittings and finished the first sample. The result of my work was very good and it's been fun working against a company. / Program: Textilekonomutbildningen
|
216 |
Combinatorial optimization and Markov decision process for planning MRI examinations / Planification des examens IRM à l'aide de processus de décision markovien et optimisation combinatoireGeng, Na 29 April 2010 (has links)
Cette thèse propose un nouveau processus de réservation d'examens IRM (Imagerie par Résonance Magnétique) afin de réduire les temps d’attente d’examens d'imagerie des patients atteint d'un AVC (Accident Vasculaire Cérébral) soignés dans une unité neurovasculaire. Le service d’imagerie réserve chaque semaine pour l'unité neurovasculaire un nombre donné de créneaux d'examens IRM appelés CTS afin d’assurer un diagnostic rapide aux patients. L'unité neurovasculaire garde la possibilité de réservations régulières appelées RTS pour pallier les variations des flux de patients.Nous donnons d'abord une formulation mathématique du problème d'optimisation pour déterminer le nombre et la répartition des créneaux CTS appelée contrat et une politique d'affectation des patients entre les créneaux CTS ou les réservations RTS. L'objectif est de trouver le meilleur compromis entre le délai d'examens et le nombre de créneaux CTS non utilisés. Pour un contrat donné, nous avons mis en évidence les propriétés et la forme des politiques d'affectation optimales à l'aide d'une approche de processus de décision markovien à coût moyen et coût actualisé. Le contrat est ensuite déterminé par une approche d'approximation Monté Carlo et amélioré par des recherches locales. Les expérimentations numériques montrent que la nouvelle méthode de réservation permet de réduire de manière importante les délais d'examens au prix des créneaux inutilisés.Afin de réduire le nombre de CTS inutilisé, nous explorons ensuite la possibilité d’annuler des créneaux CTS un ou deux jours en avance. Une approche de processus de décision markovien est de nouveau utilisée pour prouver les propriétés et la forme de la politique optimale d’annulation. Les expérimentations numériques montrent que l'annulation avancée des créneaux CTS permet de réduire de manière importante les créneaux CTS inutilisés avec une augmentation légère des délais d'attente. / This research is motivated by our collaborations with a large French university teaching hospital in order to reduce the Length of Stay (LoS) of stroke patients treated in the neurovascular department. Quick diagnosis is critical for stroke patients but relies on expensive and heavily used imaging facilities such as MRI (Magnetic Resonance Imaging) scanners. Therefore, it is very important for the neurovascular department to reduce the patient LoS by reducing their waiting time of imaging examinations. From the neurovascular department perspective, this thesis proposes a new MRI examinations reservation process in order to reduce patient waiting times without degrading the utilization of MRI. The service provider, i.e., the imaging department, reserves each week a certain number of appropriately distributed contracted time slots (CTS) for the neurovascular department to ensure quick MRI examination of stroke patients. In addition to CTS, it is still possible for stroke patients to get MRI time slots through regular reservation (RTS). This thesis first proposes a stochastic programming model to simultaneously determine the contract decision, i.e., the number of CTS and its distribution, and the patient assignment policy to assign patients to either CTS or RTS. To solve this problem, structure properties of the optimal patient assignment policy for a given contract are proved by an average cost Markov decision process (MDP) approach. The contract is determined by a Monte Carlo approximation approach and then improved by local search. Computational experiments show that the proposed algorithms can efficiently solve the model. The new reservation process greatly reduces the average waiting time of stroke patients. At the same time, some CTS cannot be used for the lack of patients.To reduce the unused CTS, we further explore the possibility of the advance cancellation of CTS. Structure properties of optimal control policies for one-day and two-day advance cancellation are established separately via an average-cost MDP approach with appropriate modeling and advanced convexity concepts used in control of queueing systems. Computational experiments show that appropriate advance cancellations of CTS greatly reduce the unused CTS with nearly the same waiting times.
|
217 |
Kupní rozhodovací proces spotřebitele na trhu detergentů / Purchasing decision process of consumers in the detergents marketJanoušková, Veronika January 2011 (has links)
The aim of my Master thesis is to analyze consumer process of purchasing decision in the detergents market. Through this aim I am trying to confirm or deny defined hypothesis by research. In theoretical part is detailed description of consumer behavior and marketing research. Next chapter is dedicated to specifications of main producers in the detergent market which is followed by my own research. To my research were used primary and secondary researching sources. Questionnaire was used as primary source. Analysis is accomplished through excel tabs and graphs. At the end of my thesis is a summary based on analysis and recommendations for the companies, which occur in the detergent market.
|
218 |
Tutor de ensino: módulo de agente de avaliação do comportamento de alunos no aprendizado em cursos de engenharia / Teaching tutor: evaluation agent module students behavior learning in engineering courses.Valdomiro dos Santos 15 June 2016 (has links)
O comportamento e o desempenho acadêmico dos alunos em cursos de Engenharia é um campo fértil, interessante e crescente de investigação. Este trabalho apresenta os resultados obtidos na análise estocástica do progresso dos alunos em 15 cursos de graduação das diferentes opções oferecidas pela Escola Politécnica da Universidade de São Paulo (EPUSP). Para realizar esta análise, foi desenvolvido um agente de avaliação aplicando-se o Processo de Decisão de Markov (PDM). Esse agente de avaliação extrai observações parciais dos estados atuais das notas dos alunos nas disciplinas cursadas e possibilita a identificação de ações adequadas para modelar autonomamente o comportamento futuro do aluno. O algoritmo aplicado estima o esforço que representa o estado cognitivo do aluno baseado em uma relação de pares estado/ação, calculada com base nas notas obtidas ao longo do período compreendido entre os 2000 e 2010. O período em que um aluno obteve uma nota de aprovação torna possível o estudo temporal desse evento, o que permite a utilização de métodos de agrupamento de dados, como os modelos ocultos de Markov, para a avaliação do comportamento das notas dos alunos durante os cursos de Engenharia. O presente estudo se fundamentou no agrupamento das notas dos alunos em três níveis para a classificação dos comportamentos das notas desses alunos. / The students behavior and academic performance in engineering programs is a fruitful field, interesting and crescent research. This paper presents the results of student progress obtained in stochastic analysis in 15 undergraduate courses of offered by the Escola Politécnica of the São Paulo University (EPUSP). An evaluation agent was developed to perform this analysis, applying the Markov Decision Process (PDM). This evaluation agent extracts partial observations of the current state of students\' grades in courses taken, enabling the identification of appropriate actions to autonomously shape the student future behaviour. The algorithm applied estimates the effort that represents the cognitive state of the student on states/action, based on the grades obtained during the period between 2000 and 2010. The period which a student received a passing grade makes possible the temporal study of this event, allowing the use of data grouping methods, such as hidden Markov models for the evaluation of the behaviours of students\' grades for the courses of engineering. This study is based on students grades at three different levels, classifying the behaviour of the notes.
|
219 |
Gest?o da informa??o e do conhecimento: an?lise dos processos de tomada de decis?o dos gestores da sa?de p?blica de Campinas/SP / Information and knowledge management: analysis of the decision making processes by the public health s managers in the city of Campinas/SPOliveira, Simone Lucas Gon?alves de 22 March 2005 (has links)
Made available in DSpace on 2016-04-04T18:36:25Z (GMT). No. of bitstreams: 1
Simone Lucas de Oliveira.pdf: 969111 bytes, checksum: 6617257ed0be3b7a792207d7b8a1cbe4 (MD5)
Previous issue date: 2005-03-22 / The present dissertation is an integrant part of a research project registered at the CNPq Directory as Information Management Research Group. Consisted in an analysis of the decision-making processes taken by public health managers working at the Health Municipal Secretary of Campinas/SP about of the use of information and knowledge. The general objective was the analysis of the decision-making processes by the Public Health s managers in the city of Campinas/SP with the aim to consider suggestions of improvements about the access and use of information and knowledge. The specific objectives were the understanding, analysis, mapping, evaluation and proposal of improvements to the decision making process with support by information and knowledge management. The adopted method was the qualitative research and the instrument applied was the interview. The universe consisted of the Health Municipal Secretary of Campinas/SP, where was possible to interview the professional decision makers operating at the Public Health of the same City. The results: identification of the processes that demand the entrance and the exit of information, the use of knowledge in the decision making processes, as well as the evaluation of the level of the resulting quality by using information and knowledge, as well as development of a decision making proposal supported by information and knowledge management. / O presente trabalho ? parte de um projeto de pesquisa inscrito no CNPq como Grupo de Pesquisa de Gest?o da Informa??o sob coordena??o da orientadora desta disserta??o. Consistiu-se numa an?lise do processo decis?rio dos gestores da Sa?de P?blica da cidade de Campinas/SP no que diz respeito ao uso de informa??o e de conhecimento. O objetivo geral foi a an?lise dos processos de tomada de decis?o dos gestores da Sa?de P?blica, vinculados ? Secretaria Municipal de Sa?de de Campinas/SP a fim de propor sugest?es de melhorias no que diz respeito ao acesso e ao uso de informa??o e de conhecimento. Os objetivos espec?ficos foram a compreens?o, a an?lise, o mapeamento, a avalia??o e a proposi??o de melhorias aos processos de tomadas de decis?o com suporte da gest?o da informa??o e do conhecimento. O m?todo utilizado foi a pesquisa qualitativa, sendo aplicado atrav?s de entrevistas. O universo foi a Secretaria Municipal da Sa?de de Campinas/SP onde foi poss?vel contatar profissionais gestores (tomadores de decis?o) atuantes na Sa?de P?blica da mesma Cidade. Como resultados obtiveram-se a identifica??o de processos que demandam a entrada e a sa?da de informa??es e a utiliza??o de conhecimento nos processos de tomada de decis?o, a avalia??o da qualidade das decis?es decorrentes da utiliza??o de informa??o e de conhecimento e o delineamento de uma proposta de processo decis?rio amparado pela gest?o da informa??o e do conhecimento.
|
220 |
Planejamento probabilístico sensível a risco com ILAO* e função utilidade exponencial / Probabilistic risk-sensitive planning with ILAO* and exponential utility functionFreitas, Elthon Manhas de 18 October 2018 (has links)
Os processos de decisão de Markov (Markov Decision Process - MDP) têm sido usados para resolução de problemas de tomada de decisão sequencial. Existem problemas em que lidar com os riscos do ambiente para obter um resultado confiável é mais importante do que maximizar o retorno médio esperado. MDPs que lidam com esse tipo de problemas são chamados de processos de decisão de Markov sensíveis a risco (Risk-Sensitive Markov Decision Process - RSMDP). Dentre as diversas variações de RSMDP, estão os trabalhos baseados em utilidade exponencial que utilizam um fator de risco, o qual modela a atitude a risco do agente e que pode ser propensa ou aversa. Os algoritmos existentes na literatura para resolver esse tipo de RSMDPs são ineficientes se comparados a outros algoritmos de MDP. Neste projeto, é apresentada uma solução que pode ser usada em problemas maiores, tanto por executar cálculos apenas em estados relevantes para atingir um conjunto de estados meta partindo de um estado inicial, quanto por permitir processamento de números com expoentes muito elevados para os ambientes computacionais atuais. Os experimentos realizados evidenciam que (i) o algoritmo proposto é mais eficiente, se comparado aos algoritmos estado-da-arte para RSMDPs; e (ii) o uso da técnica LogSumExp permite resolver o problema de trabalhar com expoentes muito elevados em RSMDPs. / Markov Decision Process (MDP) has been used very efficiently to solve sequential decision-making problems. There are problems where dealing with environmental risks to get a reliable result is more important than maximizing the expected average return. MDPs that deal with this type of problem are called risk-sensitive Markov decision processes (RSMDP). Among the several variations of RSMDP are the works based on exponential utility that use a risk factor, which models the agent\'s risk attitude that can be prone or averse. The algorithms in the literature to solve this type of RSMDPs are inefficient when compared to other MDP algorithms. In this project, a solution is presented that can be used in larger problems, either by performing calculations only in relevant states to reach a set of meta states starting from an initial state, or by allowing the processing of numbers with very high exponents for the current computational environments. The experiments show that (i) the proposed algorithm is more efficient when compared to state-of-the-art algorithms for RSMDPs; and (ii) the LogSumExp technique solves the problem of working with very large exponents in RSMDPs
|
Page generated in 0.0835 seconds