Spelling suggestions: "subject:"refor?o"" "subject:"befor?o""
11 |
Uma t?cnica de lineariza??o por realimenta??o para compensa??o de agarramento em v?lvulas de controle pneum?ticasAlmeida, Tiago Alves de 17 December 2015 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-06-14T20:06:09Z
No. of bitstreams: 1
TiagoAlvesDeAlmeida_DISSERT.pdf: 4023553 bytes, checksum: 78962742727907f1310638eedf05cc38 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-06-15T23:24:57Z (GMT) No. of bitstreams: 1
TiagoAlvesDeAlmeida_DISSERT.pdf: 4023553 bytes, checksum: 78962742727907f1310638eedf05cc38 (MD5) / Made available in DSpace on 2016-06-15T23:24:57Z (GMT). No. of bitstreams: 1
TiagoAlvesDeAlmeida_DISSERT.pdf: 4023553 bytes, checksum: 78962742727907f1310638eedf05cc38 (MD5)
Previous issue date: 2015-12-17 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior (CAPES) / Agarramento em v?lvulas ? um problema muito comum em malhas de controle e geralmente ? a principal causa do mau desempenho de sistemas industriais. Os efeitos desta n?o linearidade mais comumente observados s?o oscila??es nas vari?veis de processo. Para contornar os efeitos indesej?veis, compensadores de atrito t?m sido propostos, com o objetivo de reduzir a variabilidade na sa?da. Neste trabalho ? analisada a compensa??o do atrito em v?lvulas de controle pneum?ticas por meio de uma t?cnica de lineariza??o por realimenta??o. O modelo da v?lvula utilizado inclui tanto zona morta quanto salto. Resultados de simula??o mostram que o uso desse modelo mais completo resulta em controladores com desempenho superior. O m?todo ? tamb?m comparado por meio de simula??es com o m?todo conhecido como Refor?o Constante (CR), bastante utilizado neste problema. / In control loops valve stiction is a very common problem. Generally, it is one of main
causes of poor performance of industrial systems. Its most commonly observed effect is
oscillation in the process variables. To circumvent the undesirable effects, friction compensators
have been proposed in order to reduce the variability in the output. This work
analyzes the friction compensation in pneumatic control valves by using feedback linearization
technique. The valve model includes both dead zone and jump. Simulations show
that the use of this more complete model results in controllers with superior performance.
The method is also compared through simulations with the method known as Constant
Reinforcement (CR), widely used in this problem.
|
12 |
Aprendizado por Refor?o com Valores deInflu?ncia em Sistemas Multi-AgenteAranibar, Dennis Barrios 19 March 2009 (has links)
Made available in DSpace on 2014-12-17T14:54:54Z (GMT). No. of bitstreams: 1
DennisBA_TESE.pdf: 1043376 bytes, checksum: 6b47eea8aa7b8a53ea716b636db4663b (MD5)
Previous issue date: 2009-03-19 / Conselho Nacional de Desenvolvimento Cient?fico e Tecnol?gico / We propose a new paradigm for collective learning in multi-agent systems (MAS) as a solution to the problem in which several agents acting over the same environment must learn how to perform tasks, simultaneously, based on feedbacks given by each one of the other agents. We introduce the proposed paradigm in the form of a reinforcement learning algorithm, nominating it as reinforcement learning with influence values. While learning by rewards, each agent evaluates the relation between the current state and/or action executed at this state (actual believe) together with the reward obtained after all agents that are interacting perform their actions. The reward is a result of the interference of others. The agent considers the opinions of all its colleagues in order to attempt to change the
values of its states and/or actions. The idea is that the system, as a whole, must reach an equilibrium, where all agents get satisfied with the obtained results. This means that the values of the state/actions pairs match the reward obtained by each agent. This dynamical way of setting the values for states and/or actions makes this new reinforcement learning paradigm the first to include, naturally, the fact that the presence of other agents in the environment turns it a dynamical model. As a direct result, we implicitly include the internal state, the actions and the rewards obtained by all the other agents in the internal
state of each agent. This makes our proposal the first complete solution to the conceptual problem that rises when applying reinforcement learning in multi-agent systems, which is caused by the difference existent between the environment and agent models. With basis on the proposed model, we create the IVQ-learning algorithm that is exhaustive tested in repetitive games with two, three and four agents and in stochastic games that need cooperation and in games that need collaboration. This algorithm shows to be a good option for obtaining solutions that guarantee convergence to the Nash optimum equilibrium in
cooperative problems. Experiments performed clear shows that the proposed paradigm is theoretical and experimentally superior to the traditional approaches. Yet, with the creation of this new paradigm the set of reinforcement learning applications in MAS grows up. That is, besides the possibility of applying the algorithm in traditional learning problems in MAS, as for example coordination of tasks in multi-robot systems, it is possible to apply reinforcement learning in problems that are essentially collaborative / Propomos um novo paradigma de aprendizado coletivo em sistemas multi-agentes (SMA) como uma solu??o para o problema em que v?rios agentes devem aprender como realizar tarefas agindo sobre um mesmo ambiente, simultaneamente, baseando-se em retornos fornecidos por cada um dos outros agentes. Introduzimos o paradigma proposto na forma do algoritmo de aprendizado por refor?o, denominando-o de aprendizado por refor?o com valores de influ?ncia. Cada agente aprendendo por refor?o avalia a rela??o existente entre o valor do seu estado atual e/ou a a??o executada no estado (cren?as atuais) junto com a recompensa obtida ap?s todos os agentes que est?o interagindo executarem suas a??es (resultado da interfer?ncia dos outros). O agente pondera as opini?es de todos
os seus colegas na tentativa de mudar os valores dos seus estados e/ou a??es. A id?ia ? que o sistema como um todo deve chegar a um equil?brio, onde todos os agentes se sentem satisfeitos com os resultados obtidos, significando que os valores dos estados ou pares estado/a??o casam-se com a recompensa obtida por cada agente. Esta forma din?mica de atualizar o valor dos estados e/ou a??es faz deste novo paradigma de aprendizado por refor?o o primeiro a incluir, naturalmente, o fato de que a presen?a de outros agentes no ambiente o torna din?mico. Como resultado direto, inclu?mos implicitamente o estado interno, as a??es e a recompensa obtida por todos os outros agentes dentro do estado interno de cada agente. Isso faz de nossa proposta a primeira solu??o completa para o problema conceitual que surge ao aplicar aprendizado por refor?o em sistemas multi-agente, causado pela diferen?a existente entre o modelo do ambiente e o modelo do agente. Com base no modelo proposto, criamos o algoritmo IVQ-Learning, testado exaustivamente em jogos repetitivos com dois, tr?s e quatro agentes e em jogos estoc?sticos que exijam coopera??o e em jogos que exijam colabora??o. Este algoritmo mostra-se como uma boa op??o na tentativa de obter solu??es que garantam a converg?ncia para o equil?brio de Nash ?timo em problemas cooperativos. Os experimentos realizados deixam claro que o paradigma proposto ? te?rica e experimentalmente superior aos paradigmas tradicionais. Ainda, com a cria??o deste novo paradigma, o conjunto de aplica??es de aprendizado por refor?o em SMA foi ampliado. Ou seja, al?m da possibilidade de aplicar os algoritmos nos problemas tradicionais de aprendizado em SMA, como por exemplo coordena??o de tarefas em sistemas multi-rob?, ? poss?vel aplicar aprendizado por refor?o nos problemas essencialmente colaborativos
|
13 |
Roteamento em Redes de Sensores Sem Fios Com Base Em Aprendizagem Por Refor?oCampos, Leonardo Rene dos Santos 19 December 2011 (has links)
Made available in DSpace on 2014-12-17T14:56:07Z (GMT). No. of bitstreams: 1
LeonardoRSC_DISSERT.pdf: 726277 bytes, checksum: d47bf4e8090a3b1fadc03b4c34ebecda (MD5)
Previous issue date: 2011-12-19 / The use of wireless sensor and actuator networks in industry has been increasing past
few years, bringing multiple benefits compared to wired systems, like network flexibility
and manageability. Such networks consists of a possibly large number of small and autonomous
sensor and actuator devices with wireless communication capabilities. The data
collected by sensors are sent directly or through intermediary nodes along the network
to a base station called sink node. The data routing in this environment is an essential
matter since it is strictly bounded to the energy efficiency, thus the network lifetime. This
work investigates the application of a routing technique based on Reinforcement Learning s
Q-Learning algorithm to a wireless sensor network by using an NS-2 simulated
environment. Several metrics like energy consumption, data packet delivery rates and delays
are used to validate de proposal comparing it with another solutions existing in the
literature / A utiliza??o das redes de sensores e atuadores sem fio nas plantas das ind?strias vem
crescendo nos ?ltimos anos, trazendo v?rios benef?cios em rela??o aos sistemas cabeados,
como flexibilidade na instala??o e manuten??o da rede. Tais redes consistem basicamente
de um n?mero possivelmente grande de dispositivos sensores e atuadores pequenos e
aut?nomos que possuem capacidade de comunica??o sem fio. Os dados coletados pelos
sensores s?o enviados seja diretamente ou passando atrav?s de n?s intermedi?rios pela
rede at? uma esta??o-base conhecida como n? sink. O roteamento nesse ambiente ?
uma quest?o essencial j? que est? intimamente ligado ? efici?ncia energ?tica e consequentemente
ao tempo de vida da rede. Este trabalho investiga a aplica??o de uma t?cnica de
roteamento baseado no algoritmo Q-Learning de Aprendizagem por Refor?o a uma rede
de sensores sem fio atrav?s de simula??es no ambiente NS-2. Diversas m?tricas como
consumo de energia, taxa de pacotes entregues com sucesso e atrasos s?o utilizadas para
validar a proposta comparando-a com outras solu??es existentes na literatura
|
14 |
Uma abordagem utilizando aprendizagem por refor?o hier?rquica e computa??o paralela para o problema dos K-ServosCosta, Mademerson Leandro da 09 June 2017 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2017-10-18T20:55:13Z
No. of bitstreams: 1
MademersonLeandroDaCosta_TESE.pdf: 1891375 bytes, checksum: 6977d7d34bb28c61fa6a511b98c8df53 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-10-24T22:28:38Z (GMT) No. of bitstreams: 1
MademersonLeandroDaCosta_TESE.pdf: 1891375 bytes, checksum: 6977d7d34bb28c61fa6a511b98c8df53 (MD5) / Made available in DSpace on 2017-10-24T22:28:39Z (GMT). No. of bitstreams: 1
MademersonLeandroDaCosta_TESE.pdf: 1891375 bytes, checksum: 6977d7d34bb28c61fa6a511b98c8df53 (MD5)
Previous issue date: 2017-06-09 / Um sistema de tarefas em espa?os m?tricos ? um modelo abstrato para uma classe de problemas de otimiza??o online, incluindo o problema de pagina??o de mem?ria, listas de acesso, problemas na ind?stria do petr?leo como o gerenciamento de sondas de produ??o terrestre (workover rigs) e de log?stica na produ??o de petr?leo offshore, o problema dos K-Servos, dentre outros. A utiliza??o da aprendizagem por refor?o na solu??o destes problemas, embora tenha se mostrado eficiente, est? restrita a uma classe simples de problemas, devido ? maldi??o da dimensionalidade inerente ao m?todo. Neste trabalho, apresenta-se uma solu??o que utiliza a aprendizagem por refor?o, baseada em t?cnicas de decomposi??o hier?rquica e computa??o paralela para solu??o de problemas de otimiza??o em espa?os m?tricos, com o objetivo de estender a aplicabilidade do m?todo a problemas complexos na ind?stria petrol?fera, contornando a restri??o da sua utiliza??o a problemas te?ricos de menor porte. A dimens?o da estrutura de armazenamento utilizada pela aprendizagem por refor?o para se obter a pol?tica ?tima cresce em fun??o do n?mero de estados e de a??es, sendo diretamente proporcional ao n?mero n de n?s e k de servos, fazendo com que o crescimento da complexidade do problema se d? de maneira exponencial (?????(??)). Para contorn?-lo, o problema foi modelado com um processo de decis?o em m?ltiplas etapas onde inicialmente utilizamos o algoritmo k-means como m?todo de agrupamento visando decompor o problema em subproblemas de menor dimens?o. Em seguida foi aplicado o algoritmo Q-learning nos subgrupos buscando-se atingir a melhor pol?tica de deslocamento dos servos. Nesta etapa, foram utilizadas t?cnicas de computa??o paralela para que os processos de aprendizado e armazenamento nos subgrupos fossem executados de forma paralela. Desta forma, a dimens?o do problema e o tempo total de execu??o do algoritmo foram reduzidos, viabilizando a aplica??o do m?todo proposto ?s grandes inst?ncias. A abordagem proposta apresentou melhores resultados quando comparada com a aprendizagem por refor?o cl?ssica e o m?todo guloso. Al?m de ter atingido ganhos de speedup e efici?ncia na avalia??o das m?tricas de desempenho paralelo. / A metrical task system is an abstract model for a class of online optimization problems, including paging, access lists, industry oil problems such as the management of workover rigs and logistics in the production of offshore oil, the problem of K-Servos, among others. The use of reinforcement learning to solving these problems, although proved to be efective, is restricted to a simple class of problems due to the curse of dimensionality inherent to the method. This work presents a solution that uses reinforcement learning based on hierarchical decomposition techniques and parallel computing to solve optimization problems in metric spaces. The use of these techniques allowed to extend the applicability of the method to more complex problems, bypassing the restriction of its use to smaller problems. As the size of the storage structure used by reinforcement learning to obtain the optimal policy grows as a function of the number of states and actions, which in turn is proportional to the number n of nodes and k of servers, it is noticed that their growth is given exponentially (?????(??)). To circumvent this, the problem was modeled with a multi-step decision process where we initially used the k-means algorithm as a grouping method to decompose the problem into smaller subproblems. Then, the Q-learning algorithm was applied in the subgroups, aiming at achieving the best server displacement policy. In this step, the learning and storage processes in the subgroups were executed in parallel. In this way, the problem dimension and the total execution time of the algorithm were reduced, making possible the application of the proposed method to the large instances. The proposed approach presented better results when compared to the classical reinforcement learning and the greedy method. In addition to achieving speedup and efficiency gains in the evaluation of parallel performance metrics.
Keywords? Metrical Task Systems, The K-Server Problem, Curse of Dimensionality, Hierarchical Reinforcement Learning, Q-Learning Algorithm, Parallel Computing.
|
15 |
Classifica??o de padr?es atrav?s de um comit? de m?quinas aprimorado por aprendizagem por refor?oLima, Naiyan Hari C?ndido 13 August 2012 (has links)
Made available in DSpace on 2014-12-17T14:56:07Z (GMT). No. of bitstreams: 1
NaiyanHCL_DISSERT.pdf: 1452285 bytes, checksum: 018fb1e8fa51e8f7094cce68a18c6c73 (MD5)
Previous issue date: 2012-08-13 / Reinforcement learning is a machine learning technique that, although finding a large
number of applications, maybe is yet to reach its full potential. One of the inadequately tested
possibilities is the use of reinforcement learning in combination with other methods for the
solution of pattern classification problems.
It is well documented in the literature the problems that support vector machine ensembles
face in terms of generalization capacity. Algorithms such as Adaboost do not deal appropriately
with the imbalances that arise in those situations. Several alternatives have been proposed,
with varying degrees of success.
This dissertation presents a new approach to building committees of support vector machines.
The presented algorithm combines Adaboost algorithm with a layer of reinforcement
learning to adjust committee parameters in order to avoid that imbalances on the committee
components affect the generalization performance of the final hypothesis. Comparisons were
made with ensembles using and not using the reinforcement learning layer, testing benchmark
data sets widely known in area of pattern classification / A aprendizagem por refor?o ? uma t?cnica de aprendizado de m?quina que, embora j? tenha
encontrado uma grande quantidade de aplica??es, talvez ainda n?o tenha alcan?ado seu
pleno potencial. Uma das possibilidades que n?o foi devidamente testada at? hoje foi a utiliza??o
da aprendizagem por refor?o em conjunto com outros m?todos para a solu??o de problemas
de classifica??o de padr?es.
? bem documentada na literatura a problem?tica que ensembles de m?quinas de vetor de
suporte encontram em termos de capacidade de generaliza??o. Algoritmos como Adaboost
n?o lidam apropriadamente com os desequil?brios que podem surgir nessas situa??es. V?rias
alternativas j? foram propostas, com margens variadas de sucesso.
Esta disserta??o apresenta uma nova abordagem para a constru??o de comit?s de m?quinas
de vetor de suporte. O algoritmo apresentado combina o algoritmo Adaboost com uma
camada de aprendizagem por refor?o, para ajustar par?metros do comit? evitando que desequil?brios
nos classificadores componentes do comit? prejudiquem o desempenho de generaliza??o
da hip?tese final. Foram efetuadas compara??es de comit?s com e sem essa camada
adicional de aprendizagem por refor?o, testando conjuntos de dados benchmarks amplamente
conhecidos na ?rea de classifica??o de padr?es
|
Page generated in 0.0303 seconds