Global ETD Search

1	Proposta de arquitetura em Hardware para FPGA da t?cnica Qlearning de aprendizagem por refor?o Silva, Lucileide Medeiros Dantas da 18 November 2016 (has links) Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2017-03-20T19:50:20Z No. of bitstreams: 1 LucileideMedeirosDantasDaSilva_DISSERT.pdf: 995627 bytes, checksum: c5a0cf7ba1df8a88275e1f7c185e1eac (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-03-22T19:38:28Z (GMT) No. of bitstreams: 1 LucileideMedeirosDantasDaSilva_DISSERT.pdf: 995627 bytes, checksum: c5a0cf7ba1df8a88275e1f7c185e1eac (MD5) / Made available in DSpace on 2017-03-22T19:38:28Z (GMT). No. of bitstreams: 1 LucileideMedeirosDantasDaSilva_DISSERT.pdf: 995627 bytes, checksum: c5a0cf7ba1df8a88275e1f7c185e1eac (MD5) Previous issue date: 2016-11-18 / O Q-learning ? uma t?cnica de aprendizagem por refor?o off-policy que tem como principal vantagem a possibilidade de obter uma pol?tica ?tima interagindo com o ambiente sem que o modelo deste ambiente necessite ser conhecido. Este trabalho descreve uma proposta de arquitetura paralela em ponto fixo da t?cnica usando hardware reconfigur?vel do FPGA (Field Programmable Gates Arrays). O objetivo de desenvolver essa t?cnica em hardware ? otimizar o tempo de processamento do sistema. S?o apresentados resultados de converg?ncia do algoritmo, ?rea de ocupa??o e frequ?ncia de amostragem. Tamb?m s?o apresentados detalhes de implementa??o da arquitetura. O projeto foi desenvolvido utilizando a plataforma de desenvolvimento System Generator da Xilinx sendo projetado para o FPGA Virtex 6 xc6vcx240t-1ff1156. / Q-learning is a off-policy reinforcement learning technique which has as main advantage the possibility of obtaining an optimal policy interacting with an unknown model environment. This work proposes a parallel fixed-point Q-learning algorithm architecture, implemented in FPGA. Fundamental to this approach is optimize system processing time. Convergence results are presented. The processing time and occupied area were analyzed for diferentes scenarios and various fixed point formats. Architecture implementation details were featured. The entire project was developed using the System Generator platform (Xilinx), with a Virtex-6 xc6vcx240t-1ff1156 as the target FPGA. FPGA Q-learning Aprendizagem por refor?o Hardware
2	T?cnicas de conforma??o de feixe em arranjo de antenas utilizando aprendizagem por refor?o Almeida, Nathalee Cavalcante de 19 June 2015 (has links) Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-04-08T23:04:23Z No. of bitstreams: 1 NathaleeCavalcanteDeAlmeida_TESE.pdf: 4977201 bytes, checksum: df7d2782334c22ea8da632616ca9ce27 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-04-11T22:52:17Z (GMT) No. of bitstreams: 1 NathaleeCavalcanteDeAlmeida_TESE.pdf: 4977201 bytes, checksum: df7d2782334c22ea8da632616ca9ce27 (MD5) / Made available in DSpace on 2016-04-11T22:52:17Z (GMT). No. of bitstreams: 1 NathaleeCavalcanteDeAlmeida_TESE.pdf: 4977201 bytes, checksum: df7d2782334c22ea8da632616ca9ce27 (MD5) Previous issue date: 2015-06-19 / Conselho Nacional de Desenvolvimento Cient?fico e Tecnol?gico - CNPq / A conforma??o de feixe, tamb?m conhecida como beamforming, ? uma t?cnica bastante utilizada em diversas ?reas. Com o aux?lio de um arranjo de antenas, a conforma??o de feixe tem como objetivo minimizar sinais interferentes de dire??es desconhecidas e capturar um sinal desejado de uma dire??o espec?fica. Nesta tese s?o propostas t?cnicas de conforma??o de feixe utilizando Aprendizagem por Refor?o (AR) atrav?s do algoritmo Q-Learning, em arranjo de antenas. Uma das propostas ? utilizar AR para encontrar a pol?tica ?tima de sele??o entre a conforma??o de feixe (CF) e o controle de pot?ncia (CP) a fim de aproveitar melhor as caracter?sticas individuais de cada uma delas para um determinado valor de Rela??o Sinal-Ru?do Interferente (SINR). Outra proposta ? utilizar AR na determina??o da pol?tica ?tima para comuta??o dos algoritmos de conforma??o cega de feixes, Algoritmo do M?dulo Constante (CMA) e o algoritmo de Decis?o Direta (DD) em ambientes com multipercurso. Atrav?s de simula??es destas propostas foi poss?vel concluir que a AR pode ser eficaz para implementar uma pol?tica de comuta??o entre diferentes t?cnicas buscando aproveitar caracter?sticas positivas de cada uma delas. / Beamforming is a technique widely used in various fields. With the aid of an antenna array, the beamforming aims to minimize the contribution of unknown interferents directions, while capturing the desired signal in a given direction. In this thesis are proposed beamforming techniques using Reinforcement Learning (RL) through the Q-Learning algorithm in antennas array. One proposal is to use RL to find the optimal policy selection between the beamforming (BF) and power control (PC) in order to better leverage the individual characteristics of each of them for a certain amount of Signal to Interference plus noise Ration (SINR). Another proposal is to use RL to determine the optimal policy between blind beamforming algorithm of CMA (Constant Modulus Algorithm) and DD (Decision Direct) in multipath environments. Results from simulations showed that the RL technique could be effective in achieving na optimal of switching between different techniques. Arranjo de antenas Aprendizagem por refor?o Algoritmos adaptativos Conforma??o de feixe
3	Utiliza??o de M?dia M?vel Exponencialmente Ponderada para detectar e corrigir os Estilos de Aprendizagem do estudante Ribeiro, Patrick Aur?lio Luiz 28 September 2017 (has links) Incluir a Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM) como ag?ncia financiadora. / Submitted by Jos? Henrique Henrique (jose.neves@ufvjm.edu.br) on 2017-12-14T16:46:41Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) patrick_aurelio_luiz_ribeiro.pdf: 6159348 bytes, checksum: 5978e3ca5ff417ce94712c998e8c5c8a (MD5) / Approved for entry into archive by Rodrigo Martins Cruz (rodrigo.cruz@ufvjm.edu.br) on 2018-01-03T12:20:58Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) patrick_aurelio_luiz_ribeiro.pdf: 6159348 bytes, checksum: 5978e3ca5ff417ce94712c998e8c5c8a (MD5) / Made available in DSpace on 2018-01-03T12:20:58Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) patrick_aurelio_luiz_ribeiro.pdf: 6159348 bytes, checksum: 5978e3ca5ff417ce94712c998e8c5c8a (MD5) Previous issue date: 2017 / Na modalidade de ensino a dist?ncia, os Ambientes Virtuais de Aprendizagem (AVAs) s?o elementos fundamentais no processo de ensino e aprendizagem, atrav?s da disponibiliza??o de conte?dos e ?reas de discuss?o e comunica??o entre os atores do processo. Entretanto, tais ambientes, na sua maioria, caracterizam-se pelo fato de serem est?ticos, abordando m?todos pedag?gicos gen?ricos atrav?s dos quais estudantes com caracter?sticas e Estilos de Aprendizagem (EAs) diferentes buscam o conhecimento. Dessa maneira, ? importante que sejam levados em considera??o os EAs de cada estudante como forma de tornar a aprendizagem mais eficaz. Question?rios psicom?tricos na maioria das vezes s?o utilizados para que as caracter?sticas de aprendizagem do estudante sejam identificadas, por?m nem sempre tais question?rios apresentam resultados precisos quanto ao EAs de determinado estudante. Assim, faz-se necess?ria a utiliza??o de outras t?cnicas de detec??o, haja vista que uma identifica??o precisa ? capaz de melhorar o processo de aprendizagem por meio de escolhas de estrat?gias pedag?gicas melhores. Diante disso, surge a necessidade de utiliza??o de sistemas inteligentes que se adaptem ?s caracter?sticas de aprendizagem do estudante, utilizando como pressupostos as experi?ncias vivenciadas por ele e as an?lises estat?sticas dessas experi?ncias. Isso pode ser feito atrav?s de avalia??es dos EAs apresentados pelo estudante, em que a partir dos resultados um novo modelo de aprendizagem do estudante ? definido para que o conte?do seja disponibilizado de acordo com esse modelo. Nesse intuito a presente abordagem objetivou identificar e corrigir os EAs do estudante por meio da utiliza??o do conceito de M?dia M?vel Exponencialmente Ponderada no processo de decis?o sobre a aplica??o do refor?o de maneira a ajustar o Modelo do Estudante (ME), de modo que os resultados obtidos, ap?s a realiza??o do teste estat?stico n?o-param?trico de Mann-Whitney, mostraram-se significativamente melhores do que os resultados apresentados por Dor?a (2012), cujo trabalho foi refer?ncia para o desenvolvimento desta proposta. / Disserta??o (Mestrado Profissional) ? Programa de P?s-Gradua??o em Educa??o, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2017. / In Distance Learning, Learning Management Systems (LMS) are extremely important elements in teaching and learning process, because they can offer content and spaces of discussion and comunication between people who are part of that process. However they are static and do not consider students? Learning Styles (LS) to show the content, they just use the same pedagogical methods for all learners. It is important to consider students? Learning Styles because this can make the learning process more efective. Most of the time people use Psychometric Instruments to detect students? preferences, but sometimes the outcomes of those methods are not precise. Because of this other techniques of detection of LS can be used to identify precisely the student?s LS and consequently to choose better pedagogical strategies than when are used manual techniques of detection of LS. For this reason intelligent systems which adapt to students? learning characteristics get importance since they use experiences and statistical analysis over these experiences to be adaptive. It can be done based on learner?s Learning Styles that are adjusted by a part of the system, then these new LS are used by another part of the system to select a pedagogical strategy which fit to student?s characteristics. Thus, this work presents an approach which aimed to identify and to correct the Learning Styles of the learner using for this the Exponentially Weighted Moving Average (EWMA) concept. This concept was used to decide if reinforcement signs have to be used to make the student?s modeling. This approach was tested and the outcomes were submitted to non parametric test Mann-Whitney which pointed they were significantly better than the results of Dor?a (2012), whose work was the base of the work presented here. Aprendizagem por Refor?o Estilos de Aprendizagem Sistemas Inteligentes M?dia M?vel Exponencialmente Ponderada Reinforcement Learning Learning Styles Intelligent Systems Exponentially Weighted Moving Average
4	Estrat?gias de busca reativa utilizando aprendizagem por refor?o e algoritmos de busca local Santos, Jo?o Paulo Queiroz dos 12 September 2014 (has links) Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2015-11-27T13:12:56Z No. of bitstreams: 1 JoaoPauloQueirozDosSantos_TESE.pdf: 2943111 bytes, checksum: d4f55a9718f28707aa96893d2b66b4e5 (MD5) / Approved for entry into archive by Elisangela Moura (lilaalves@gmail.com) on 2015-11-27T14:58:26Z (GMT) No. of bitstreams: 1 JoaoPauloQueirozDosSantos_TESE.pdf: 2943111 bytes, checksum: d4f55a9718f28707aa96893d2b66b4e5 (MD5) / Made available in DSpace on 2015-11-27T14:58:26Z (GMT). No. of bitstreams: 1 JoaoPauloQueirozDosSantos_TESE.pdf: 2943111 bytes, checksum: d4f55a9718f28707aa96893d2b66b4e5 (MD5) Previous issue date: 2014-09-12 / T?cnicas de otimiza??o conhecidas como as metaheur?sticas tem conseguido resolversatisfatoriamente problemas conhecidos, mas desenvolvimento das metaheur?sticas ?caracterizado por escolha de par?metros para sua execu??o, na qual a op??o apropriadadestes par?metros (valores). Onde o ajuste de par?metro ? essencial testa-se os par?metrosat? que resultados vi?veis sejam obtidos, normalmente feita pelo desenvolvedor que estaimplementando a metaheuristica. A qualidade dos resultados de uma inst?ncia1 de testen?o ser? transferida para outras inst?ncias a serem testadas e seu feedback pode requererum processo lento de ?tentativa e erro? onde o algoritmo t?m que ser ajustado para umaaplica??o especifica. Diante deste contexto das metaheur?sticas surgiu a Busca Reativaque defende a integra??o entre o aprendizado de m?quina dentro de buscas heur?sticaspara solucionar problemas de otimiza??o complexos. A partir da integra??o que a BuscaReativa prop?e entre o aprendizado de m?quina e as metaheur?sticas, surgiu a ideia dese colocar a Aprendizagem por Refor?o mais especificamente o algoritmo Q-learning deforma reativa, para selecionar qual busca local ? a mais indicada em determinado instanteda busca, para suceder uma outra busca local que n?o pode mais melhorar a solu??ocorrente na metaheur?stica VNS. Assim, neste trabalho propomos uma implementa??o reativa,utilizando aprendizado por refor?o para o auto-tuning do algoritmo implementado,aplicado ao problema do caixeiro viajante sim?trico e ao problema escalonamento sondaspara manuten??o de po?os. CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Aprendizagem por refor?o Busca reativa Otimiza??o combinat?ria Busca local Busca em vizinhan?a vari?vel
5	Uma abordagem utilizando aprendizagem por refor?o hier?rquica e computa??o paralela para o problema dos K-Servos Costa, Mademerson Leandro da 09 June 2017 (has links) Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2017-10-18T20:55:13Z No. of bitstreams: 1 MademersonLeandroDaCosta_TESE.pdf: 1891375 bytes, checksum: 6977d7d34bb28c61fa6a511b98c8df53 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-10-24T22:28:38Z (GMT) No. of bitstreams: 1 MademersonLeandroDaCosta_TESE.pdf: 1891375 bytes, checksum: 6977d7d34bb28c61fa6a511b98c8df53 (MD5) / Made available in DSpace on 2017-10-24T22:28:39Z (GMT). No. of bitstreams: 1 MademersonLeandroDaCosta_TESE.pdf: 1891375 bytes, checksum: 6977d7d34bb28c61fa6a511b98c8df53 (MD5) Previous issue date: 2017-06-09 / Um sistema de tarefas em espa?os m?tricos ? um modelo abstrato para uma classe de problemas de otimiza??o online, incluindo o problema de pagina??o de mem?ria, listas de acesso, problemas na ind?stria do petr?leo como o gerenciamento de sondas de produ??o terrestre (workover rigs) e de log?stica na produ??o de petr?leo offshore, o problema dos K-Servos, dentre outros. A utiliza??o da aprendizagem por refor?o na solu??o destes problemas, embora tenha se mostrado eficiente, est? restrita a uma classe simples de problemas, devido ? maldi??o da dimensionalidade inerente ao m?todo. Neste trabalho, apresenta-se uma solu??o que utiliza a aprendizagem por refor?o, baseada em t?cnicas de decomposi??o hier?rquica e computa??o paralela para solu??o de problemas de otimiza??o em espa?os m?tricos, com o objetivo de estender a aplicabilidade do m?todo a problemas complexos na ind?stria petrol?fera, contornando a restri??o da sua utiliza??o a problemas te?ricos de menor porte. A dimens?o da estrutura de armazenamento utilizada pela aprendizagem por refor?o para se obter a pol?tica ?tima cresce em fun??o do n?mero de estados e de a??es, sendo diretamente proporcional ao n?mero n de n?s e k de servos, fazendo com que o crescimento da complexidade do problema se d? de maneira exponencial (?????(??)). Para contorn?-lo, o problema foi modelado com um processo de decis?o em m?ltiplas etapas onde inicialmente utilizamos o algoritmo k-means como m?todo de agrupamento visando decompor o problema em subproblemas de menor dimens?o. Em seguida foi aplicado o algoritmo Q-learning nos subgrupos buscando-se atingir a melhor pol?tica de deslocamento dos servos. Nesta etapa, foram utilizadas t?cnicas de computa??o paralela para que os processos de aprendizado e armazenamento nos subgrupos fossem executados de forma paralela. Desta forma, a dimens?o do problema e o tempo total de execu??o do algoritmo foram reduzidos, viabilizando a aplica??o do m?todo proposto ?s grandes inst?ncias. A abordagem proposta apresentou melhores resultados quando comparada com a aprendizagem por refor?o cl?ssica e o m?todo guloso. Al?m de ter atingido ganhos de speedup e efici?ncia na avalia??o das m?tricas de desempenho paralelo. / A metrical task system is an abstract model for a class of online optimization problems, including paging, access lists, industry oil problems such as the management of workover rigs and logistics in the production of offshore oil, the problem of K-Servos, among others. The use of reinforcement learning to solving these problems, although proved to be efective, is restricted to a simple class of problems due to the curse of dimensionality inherent to the method. This work presents a solution that uses reinforcement learning based on hierarchical decomposition techniques and parallel computing to solve optimization problems in metric spaces. The use of these techniques allowed to extend the applicability of the method to more complex problems, bypassing the restriction of its use to smaller problems. As the size of the storage structure used by reinforcement learning to obtain the optimal policy grows as a function of the number of states and actions, which in turn is proportional to the number n of nodes and k of servers, it is noticed that their growth is given exponentially (?????(??)). To circumvent this, the problem was modeled with a multi-step decision process where we initially used the k-means algorithm as a grouping method to decompose the problem into smaller subproblems. Then, the Q-learning algorithm was applied in the subgroups, aiming at achieving the best server displacement policy. In this step, the learning and storage processes in the subgroups were executed in parallel. In this way, the problem dimension and the total execution time of the algorithm were reduced, making possible the application of the proposed method to the large instances. The proposed approach presented better results when compared to the classical reinforcement learning and the greedy method. In addition to achieving speedup and efficiency gains in the evaluation of parallel performance metrics. Keywords? Metrical Task Systems, The K-Server Problem, Curse of Dimensionality, Hierarchical Reinforcement Learning, Q-Learning Algorithm, Parallel Computing. Aprendizagem por refor?o hier?rquica Computa??o paralela
6	Classifica??o de padr?es atrav?s de um comit? de m?quinas aprimorado por aprendizagem por refor?o Lima, Naiyan Hari C?ndido 13 August 2012 (has links) Made available in DSpace on 2014-12-17T14:56:07Z (GMT). No. of bitstreams: 1 NaiyanHCL_DISSERT.pdf: 1452285 bytes, checksum: 018fb1e8fa51e8f7094cce68a18c6c73 (MD5) Previous issue date: 2012-08-13 / Reinforcement learning is a machine learning technique that, although finding a large number of applications, maybe is yet to reach its full potential. One of the inadequately tested possibilities is the use of reinforcement learning in combination with other methods for the solution of pattern classification problems. It is well documented in the literature the problems that support vector machine ensembles face in terms of generalization capacity. Algorithms such as Adaboost do not deal appropriately with the imbalances that arise in those situations. Several alternatives have been proposed, with varying degrees of success. This dissertation presents a new approach to building committees of support vector machines. The presented algorithm combines Adaboost algorithm with a layer of reinforcement learning to adjust committee parameters in order to avoid that imbalances on the committee components affect the generalization performance of the final hypothesis. Comparisons were made with ensembles using and not using the reinforcement learning layer, testing benchmark data sets widely known in area of pattern classification / A aprendizagem por refor?o ? uma t?cnica de aprendizado de m?quina que, embora j? tenha encontrado uma grande quantidade de aplica??es, talvez ainda n?o tenha alcan?ado seu pleno potencial. Uma das possibilidades que n?o foi devidamente testada at? hoje foi a utiliza??o da aprendizagem por refor?o em conjunto com outros m?todos para a solu??o de problemas de classifica??o de padr?es. ? bem documentada na literatura a problem?tica que ensembles de m?quinas de vetor de suporte encontram em termos de capacidade de generaliza??o. Algoritmos como Adaboost n?o lidam apropriadamente com os desequil?brios que podem surgir nessas situa??es. V?rias alternativas j? foram propostas, com margens variadas de sucesso. Esta disserta??o apresenta uma nova abordagem para a constru??o de comit?s de m?quinas de vetor de suporte. O algoritmo apresentado combina o algoritmo Adaboost com uma camada de aprendizagem por refor?o, para ajustar par?metros do comit? evitando que desequil?brios nos classificadores componentes do comit? prejudiquem o desempenho de generaliza??o da hip?tese final. Foram efetuadas compara??es de comit?s com e sem essa camada adicional de aprendizagem por refor?o, testando conjuntos de dados benchmarks amplamente conhecidos na ?rea de classifica??o de padr?es CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA

1

Page generated in 0.074 seconds