Global ETD Search

1	Uma contribui??o ? solu??o do problema dos k-servos usando aprendizagem por refor?o Lima J?nior, Manoel Leandro de 06 April 2005 (has links) Made available in DSpace on 2014-12-17T14:55:59Z (GMT). No. of bitstreams: 1 ManoelLJ.pdf: 474615 bytes, checksum: 061ee02f4ad5cc23a561d346dd73a9da (MD5) Previous issue date: 2005-04-06 / Neste trabalho ? proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solu??o ? comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os par?metros de compara??o significativos. Um algoritmo que apresente desempenho eficiente em rela??o aos mesmos tende a ser competitivo tamb?m, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solu??o do PKS ? baseado em t?cnicas de aprendizagem por refor?o. Para tanto, o problema foi modelado como um processo de decis?o em m?ltiplas etapas, ao qual ? aplicado o algoritmo Q-Learning, um dos m?todos de solu??o mais populares para o estabelecimento de pol?ticas ?timas neste tipo de problema de decis?o. Entretanto, deve-se observar que a dimens?o da estrutura de armazenamento utilizada pela aprendizagem por refor?o para se obter a pol?tica ?tima cresce em fun??o do n?mero de estados e de a??es, que por sua vez ? proporcional ao n?mero n de n?s e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplica??o do m?todo a problemas de menor porte, onde o n?mero de n?s e de servos ? reduzido. Este problema, denominado maldi??o da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execu??o de um algoritmo para certas inst?ncias de um problema pelo esgotamento de recursos computacionais para obten??o de sua sa?da. De modo a evitar que a solu??o proposta, baseada exclusivamente na aprendizagem por refor?o, seja restrita a aplica??es de menor porte, prop?e-se uma solu??o alternativa para problemas mais realistas, que envolvam um n?mero maior de n?s e de servos. Esta solu??o alternativa ? hierarquizada e utiliza dois m?todos de solu??o do PKS: a aprendizagem por refor?o, aplicada a um n?mero reduzido de n?s obtidos a partir de um processo de agrega??o, e um m?todo guloso, aplicado aos subconjuntos de n?s resultantes do processo de agrega??o, onde o crit?rio de escolha do agendamento dos servos ? baseado na menor dist?ncia ao local de demanda K-Servos Aprendizado por Refor?o Q-Learning K-Servos Reinforcement Learning Q-Learning CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
2	Uma aplica??o da apredizagem por refor?o na otimiza??o da produ??o em um campo de petr?leo Oliveira, Amanda Gondim de 27 January 2010 (has links) Made available in DSpace on 2014-12-17T14:08:36Z (GMT). No. of bitstreams: 1 AmandaGO.pdf: 1269225 bytes, checksum: bb3d37e917eb9a6a37d5196f82512218 (MD5) Previous issue date: 2010-01-27 / The objective of reservoir engineering is to manage fields of oil production in order to maximize the production of hydrocarbons according to economic and physical restrictions. The deciding of a production strategy is a complex activity involving several variables in the process. Thus, a smart system, which assists in the optimization of the options for developing of the field, is very useful in day-to-day of reservoir engineers. This paper proposes the development of an intelligent system to aid decision making, regarding the optimization of strategies of production in oil fields. The intelligence of this system will be implemented through the use of the technique of reinforcement learning, which is presented as a powerful tool in problems of multi-stage decision. The proposed system will allow the specialist to obtain, in time, a great alternative (or near-optimal) for the development of an oil field known / O objetivo da engenharia de reservat?rios ? o de gerenciar campos de produ??o de petr?leo de forma a maximizar a produ??o dos hidrocarbonetos obedecendo a restri??es f?sicas e econ?micas existentes. A defini??o de estrat?gias de produ??o ? uma atividade complexa por envolver diversas vari?veis do processo. Deste modo, um sistema inteligente, que auxilie na otimiza??o das alternativas de desenvolvimento do campo, torna-se bastante ?til no dia-a-dia dos engenheiros de reservat?rios. Este trabalho prop?e o estudo preliminar de um sistema inteligente de aux?lio ? tomadas de decis?es, no que diz respeito ? otimiza??o de estrat?gias de produ??o em campos de petr?leo. A intelig?ncia desse sistema ser? implementada por meio do uso da t?cnica de aprendizado por refor?o, a qual se apresenta como uma poderosa ferramenta em problemas de decis?o multi-est?gios. O sistema estudado visa permitir que o especialista obtenha, em tempo h?bil, a alternativa ?tima (ou quase-?tima) para o desenvolvimento de um campo de petr?leo conhecido Aprendizado por refor?o Simula??o matem?tica de reservat?rios Otimiza??o da produ??o de petr?leo Reinforcement learning Reservoir simulator Optimization of oil production CNPQ::OUTROS::CIENCIAS
3	Aprendizado por Refor?o com Valores deInflu?ncia em Sistemas Multi-Agente Aranibar, Dennis Barrios 19 March 2009 (has links) Made available in DSpace on 2014-12-17T14:54:54Z (GMT). No. of bitstreams: 1 DennisBA_TESE.pdf: 1043376 bytes, checksum: 6b47eea8aa7b8a53ea716b636db4663b (MD5) Previous issue date: 2009-03-19 / Conselho Nacional de Desenvolvimento Cient?fico e Tecnol?gico / We propose a new paradigm for collective learning in multi-agent systems (MAS) as a solution to the problem in which several agents acting over the same environment must learn how to perform tasks, simultaneously, based on feedbacks given by each one of the other agents. We introduce the proposed paradigm in the form of a reinforcement learning algorithm, nominating it as reinforcement learning with influence values. While learning by rewards, each agent evaluates the relation between the current state and/or action executed at this state (actual believe) together with the reward obtained after all agents that are interacting perform their actions. The reward is a result of the interference of others. The agent considers the opinions of all its colleagues in order to attempt to change the values of its states and/or actions. The idea is that the system, as a whole, must reach an equilibrium, where all agents get satisfied with the obtained results. This means that the values of the state/actions pairs match the reward obtained by each agent. This dynamical way of setting the values for states and/or actions makes this new reinforcement learning paradigm the first to include, naturally, the fact that the presence of other agents in the environment turns it a dynamical model. As a direct result, we implicitly include the internal state, the actions and the rewards obtained by all the other agents in the internal state of each agent. This makes our proposal the first complete solution to the conceptual problem that rises when applying reinforcement learning in multi-agent systems, which is caused by the difference existent between the environment and agent models. With basis on the proposed model, we create the IVQ-learning algorithm that is exhaustive tested in repetitive games with two, three and four agents and in stochastic games that need cooperation and in games that need collaboration. This algorithm shows to be a good option for obtaining solutions that guarantee convergence to the Nash optimum equilibrium in cooperative problems. Experiments performed clear shows that the proposed paradigm is theoretical and experimentally superior to the traditional approaches. Yet, with the creation of this new paradigm the set of reinforcement learning applications in MAS grows up. That is, besides the possibility of applying the algorithm in traditional learning problems in MAS, as for example coordination of tasks in multi-robot systems, it is possible to apply reinforcement learning in problems that are essentially collaborative / Propomos um novo paradigma de aprendizado coletivo em sistemas multi-agentes (SMA) como uma solu??o para o problema em que v?rios agentes devem aprender como realizar tarefas agindo sobre um mesmo ambiente, simultaneamente, baseando-se em retornos fornecidos por cada um dos outros agentes. Introduzimos o paradigma proposto na forma do algoritmo de aprendizado por refor?o, denominando-o de aprendizado por refor?o com valores de influ?ncia. Cada agente aprendendo por refor?o avalia a rela??o existente entre o valor do seu estado atual e/ou a a??o executada no estado (cren?as atuais) junto com a recompensa obtida ap?s todos os agentes que est?o interagindo executarem suas a??es (resultado da interfer?ncia dos outros). O agente pondera as opini?es de todos os seus colegas na tentativa de mudar os valores dos seus estados e/ou a??es. A id?ia ? que o sistema como um todo deve chegar a um equil?brio, onde todos os agentes se sentem satisfeitos com os resultados obtidos, significando que os valores dos estados ou pares estado/a??o casam-se com a recompensa obtida por cada agente. Esta forma din?mica de atualizar o valor dos estados e/ou a??es faz deste novo paradigma de aprendizado por refor?o o primeiro a incluir, naturalmente, o fato de que a presen?a de outros agentes no ambiente o torna din?mico. Como resultado direto, inclu?mos implicitamente o estado interno, as a??es e a recompensa obtida por todos os outros agentes dentro do estado interno de cada agente. Isso faz de nossa proposta a primeira solu??o completa para o problema conceitual que surge ao aplicar aprendizado por refor?o em sistemas multi-agente, causado pela diferen?a existente entre o modelo do ambiente e o modelo do agente. Com base no modelo proposto, criamos o algoritmo IVQ-Learning, testado exaustivamente em jogos repetitivos com dois, tr?s e quatro agentes e em jogos estoc?sticos que exijam coopera??o e em jogos que exijam colabora??o. Este algoritmo mostra-se como uma boa op??o na tentativa de obter solu??es que garantam a converg?ncia para o equil?brio de Nash ?timo em problemas cooperativos. Os experimentos realizados deixam claro que o paradigma proposto ? te?rica e experimentalmente superior aos paradigmas tradicionais. Ainda, com a cria??o deste novo paradigma, o conjunto de aplica??es de aprendizado por refor?o em SMA foi ampliado. Ou seja, al?m da possibilidade de aplicar os algoritmos nos problemas tradicionais de aprendizado em SMA, como por exemplo coordena??o de tarefas em sistemas multi-rob?, ? poss?vel aplicar aprendizado por refor?o nos problemas essencialmente colaborativos Sistemas Multi-Agente Coordena??o Colabora??o Aprendizado por refor?o Auto-Organiza??o Multi agent systems Coordination Collaboration Reinforcement learning Self-organization CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
4	Roteamento em Redes de Sensores Sem Fios Com Base Em Aprendizagem Por Refor?o Campos, Leonardo Rene dos Santos 19 December 2011 (has links) Made available in DSpace on 2014-12-17T14:56:07Z (GMT). No. of bitstreams: 1 LeonardoRSC_DISSERT.pdf: 726277 bytes, checksum: d47bf4e8090a3b1fadc03b4c34ebecda (MD5) Previous issue date: 2011-12-19 / The use of wireless sensor and actuator networks in industry has been increasing past few years, bringing multiple benefits compared to wired systems, like network flexibility and manageability. Such networks consists of a possibly large number of small and autonomous sensor and actuator devices with wireless communication capabilities. The data collected by sensors are sent directly or through intermediary nodes along the network to a base station called sink node. The data routing in this environment is an essential matter since it is strictly bounded to the energy efficiency, thus the network lifetime. This work investigates the application of a routing technique based on Reinforcement Learning s Q-Learning algorithm to a wireless sensor network by using an NS-2 simulated environment. Several metrics like energy consumption, data packet delivery rates and delays are used to validate de proposal comparing it with another solutions existing in the literature / A utiliza??o das redes de sensores e atuadores sem fio nas plantas das ind?strias vem crescendo nos ?ltimos anos, trazendo v?rios benef?cios em rela??o aos sistemas cabeados, como flexibilidade na instala??o e manuten??o da rede. Tais redes consistem basicamente de um n?mero possivelmente grande de dispositivos sensores e atuadores pequenos e aut?nomos que possuem capacidade de comunica??o sem fio. Os dados coletados pelos sensores s?o enviados seja diretamente ou passando atrav?s de n?s intermedi?rios pela rede at? uma esta??o-base conhecida como n? sink. O roteamento nesse ambiente ? uma quest?o essencial j? que est? intimamente ligado ? efici?ncia energ?tica e consequentemente ao tempo de vida da rede. Este trabalho investiga a aplica??o de uma t?cnica de roteamento baseado no algoritmo Q-Learning de Aprendizagem por Refor?o a uma rede de sensores sem fio atrav?s de simula??es no ambiente NS-2. Diversas m?tricas como consumo de energia, taxa de pacotes entregues com sucesso e atrasos s?o utilizadas para validar a proposta comparando-a com outras solu??es existentes na literatura CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA

1

Page generated in 0.0596 seconds