• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 340
  • 4
  • 3
  • 1
  • Tagged with
  • 348
  • 197
  • 67
  • 57
  • 53
  • 51
  • 48
  • 47
  • 46
  • 43
  • 43
  • 41
  • 39
  • 37
  • 36
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
341

Estudo comparativo da interação solo-geogrelha por meio de ensaios de arrancamento monotônico e cíclico utilizando equipamentos de pequenas e grandes dimensões / Comparative study of soil-geogrid interaction through monotonic and cyclic pullout tests using small and large dimensions equipments

Rincón Barajas, Sergio Arturo 02 August 2016 (has links)
O melhor comportamento de uma estrutura de solo reforçado com geossintéticos não depende só da elevada resistência à tração da inclusão, mas também da sua rigidez e do nível de carregamento sob o qual a estrutura está submetida. Dessa maneira, a interação entre o reforço e as respectivas camadas de solo ao seu redor torna-se de grande importância, pois a mobilização cisalhante combina a deformação da interface solo-reforço e o alongamento do geossintético. Sendo que a melhor forma de avaliar a interação entre o solo e a geogrelha é por meio de ensaios de arrancamento, pensa-se na realização de ensaios de arrancamento cíclico para analisar a interação dinâmica entre o solo e a inclusão quando certas estruturas são submetidas a esse tipo de solicitação. Por causa disso, o objetivo principal deste trabalho é analisar o efeito produzido por carregamentos monotônicos e cíclicos de interface numa geogrelha biaxial de polipropileno, quando inserida na interface de um solo argiloso e um solo arenoso sob diferentes tensões de confinamento. Para isso, são utilizados os equipamentos de pequenas e grandes dimensões do Laboratório de Geossintéticos da EESC-USP, visando avaliar a sua relação e a viabilidade de uso do equipamento de pequenas dimensões. Inicialmente foram realizados ensaios de arrancamento monotônico em ambos os equipamentos sob tensões de confinamento de 25, 50 e 100 kPa, sendo que as resistências obtidas com as tensões de 25 e 100 kPa permitiram definir as amplitudes do carregamento cíclico correspondentes ao 20% de tais valores. Adicionalmente, após a aplicação dos 10.000 ciclos de carga correspondentes à capacidade do equipamento, foi aplicado novamente um carregamento monotônico com o intuito de determinar o efeito do carregamento dinâmico na resistência ao arrancamento e assim poder realizar as respectivas comparações com os valores iniciais. Com base nos resultados obtidos, foi possível observar a diferença no grau de confinamento entre ambos os equipamentos, sendo maior no de grandes dimensões por causa da melhor distribuição das tensões sobre a área ocupada pela geogrelha. Adicionalmente, o grau de confinamento em ambos os equipamentos também influenciou a diferença no efeito do carregamento dinâmico, sendo de desconfinamento no de grandes dimensões e de densificação no de pequenas dimensões. / The best behavior of a reinforced soil structure with geosynthetics not only depends on the high tensile strength of the inclusion, but also on its rigidity and the loading level in which the structure is subjected. Thus, the interaction between the reinforcement and the respective layers of soil around, becomes very important because the shear mobilization combines the deformation of the soil-reinforcement interface and the lengthening of the geosynthetic. Since the best way to assess the soil-geogrid interaction is through pullout tests, it is thought in performing cyclic pullout tests to examine the dynamic soil-inclusion interaction when some structures are submitted to that kind of loads. Because of that, the main objective of this work is to analize the effect that is produced by monotonic and cyclic interface loading on a biaxial polypropylene geogrid, when it is inserted into the interface of a clayey soil and a sandy soil under different confinement stresses. For that, the small and large dimensions equipments of the Geosynthetics Laboratory at EESC-USP are used, looking to evaluate their relationship and the feasibility of using a small dimensions equipment. Initially, they were performed monotonic pullout tests in both equipments under confinement stresses of 25, 50 and 100 kPa, wherein the pullout strengths obtained with 25 and 100 kPa allowed the definition of the load cyclic amplitudes, which corresponded to 20% of such values. Additionally, after applying 10.000 load cycles, corresponding to the capacity of the equipment, it was applied a monotonic loading in order to determine the dynamic loading effect on pullout strength, being useful to compare such values with the initial response. Based on the obtained results, it was possible to observe the difference in the confinement degree between both equipments, being higher in the large one because of the better stress distribution on the geogrid area. Aditionally, the confinement degree in both equipments also influenced the difference in the dynamic loading effect, being deconfinement in the soil-geogrid interface of the large one and densification in the other one.
342

Melhorias de estabilidade numérica e custo computacional de aproximadores de funções valor de estado baseados em estimadores RLS para projeto online de sistemas de controle HDP-DLQR / Numerical Stability and Computational Cost Implications of State Value Functions based on RLS Estimators for Online Design of HDP-DLQR control systems

Ferreira, Ernesto Franklin Marçal 08 March 2016 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-06-23T20:34:27Z No. of bitstreams: 1 ErnestoFerreira.pdf: 1744167 bytes, checksum: c125c90e5eb2aab2618350567f88cb31 (MD5) / Made available in DSpace on 2017-06-23T20:34:27Z (GMT). No. of bitstreams: 1 ErnestoFerreira.pdf: 1744167 bytes, checksum: c125c90e5eb2aab2618350567f88cb31 (MD5) Previous issue date: 2016-03-08 / The development and the numerical stability analysis of a new adaptive critic algorithm to approximate the state-value function for online discrete linear quadratic regulator (DLQR) optimal control system design based on heuristic dynamic programming (HDP) are presented in this work. The proposed algorithm makes use of unitary transformations and QR decomposition methods to improve the online learning e-ciency in the critic network through the recursive least-squares (RLS) approach. The developed learning strategy provides computational performance improvements in terms of numerical stability and computational cost which aim at making possible the implementations in real time of optimal control design methodology based upon actor-critic reinforcement learning paradigms. The convergence behavior and numerical stability of the proposed online algorithm, called RLSµ-QR-HDP-DLQR, are evaluated by computational simulations in three Multiple-Input and Multiple-Output (MIMO) models, that represent the automatic pilot of an F-16 aircraft of third order, a fourth order RLC circuit with two input voltages and two controllable voltage levels, and a doubly-fed induction generator with six inputs and six outputs for wind energy conversion systems. / Neste trabalho, apresenta-se o desenvolvimento e a análise da estabilidade numérica de um novo algoritmo crítico adaptativo para aproximar a função valor de estado para o projeto do sistema de controle ótimo online, utilizando o regulador linear quadrático discreto (DLQR), com base em programação dinâmica heurística (HDP). O algoritmo proposto faz uso de transformações unitárias e métodos de decomposição QR para melhorar a e-ciência da aprendizagem online na rede crítica por meio da abordagem dos mínimos quadrados recursivos (RLS). A estratégia de aprendizagem desenvolvida fornece melhorias no desempenho computacional em termos de estabilidade numérica e custo computacional, que visam tornar possíveis as implementações em tempo real da metodologia do projeto de controle ótimo com base em paradigmas de aprendizado por reforço ator-crítico. O comportamento de convergência e estabilidade numérica do algoritmo online proposto, denominado RLSµ-QR-HDP-DLQR, são avaliados por meio de simulações computacionais em três modelos Múltiplas-Entradas e Múltiplas-Saídas (MIMO), que representam o piloto automático de uma aeronave F-16 de terceira ordem, um circuito de quarta ordem RLC com duas tensões de entrada e dois níveis de tensão controláveis, e um gerador de indução duplamente alimentados com seis entradas e seis saídas para sistemas de conversão de energia eólica.
343

Aprendizagem por Reforço e Programação Dinâmica Aproximada para Controle Ótimo: Uma Abordagem para o Projeto Online do Regulador Linear Quadrático Discreto com Programação Dinâmica Heurística Dependente de Estado e Ação. / Reinforcement and Programming Learning Approximate Dynamics for Optimal Control: An Approach to the Linear Regulator Online Project Discrete Quadratic with Heuristic Dynamic Programming Dependent on State and Action.

RÊGO, Patrícia Helena Moraes 24 July 2014 (has links)
Submitted by Maria Aparecida (cidazen@gmail.com) on 2017-08-30T15:33:12Z No. of bitstreams: 1 Patricia Helena.pdf: 11110405 bytes, checksum: ca1f067231658f897d84b86181dbf1b9 (MD5) / Made available in DSpace on 2017-08-30T15:33:12Z (GMT). No. of bitstreams: 1 Patricia Helena.pdf: 11110405 bytes, checksum: ca1f067231658f897d84b86181dbf1b9 (MD5) Previous issue date: 2014-07-24 / In this thesis a proposal of an uni ed approach of dynamic programming, reinforcement learning and function approximation theories aiming at the development of methods and algorithms for design of optimal control systems is presented. This approach is presented in the approximate dynamic programming context that allows approximating the optimal feedback solution as to reduce the computational complexity associated to the conventional dynamic programming methods for optimal control of multivariable systems. Speci cally, in the state and action dependent heuristic dynamic programming framework, this proposal is oriented for the development of online approximated solutions, numerically stable, of the Riccati-type Hamilton-Jacobi-Bellman equation associated to the discrete linear quadratic regulator problem which is based on a formulation that combines value function estimates by means of a RLS (Recursive Least-Squares) structure, temporal di erences and policy improvements. The development of the proposed methodologies, in this work, is focused mainly on the UDU T factorization that is inserted in this framework to improve the RLS estimation process of optimal decision policies of the discrete linear quadratic regulator, by circumventing convergence and numerical stability problems related to the covariance matrix ill-conditioning of the RLS approach. / Apresenta-se nesta tese uma proposta de uma abordagem uni cada de teorias de programação dinâmica, aprendizagem por reforço e aproximação de função que tem por objetivo o desenvolvimento de métodos e algoritmos para projeto online de sistemas de controle ótimo. Esta abordagem é apresentada no contexto de programação dinâmica aproximada que permite aproximar a solução de realimentação ótima de modo a reduzir a complexidade computacional associada com métodos convencionais de programação dinâmica para controle ótimo de sistemas multivariáveis. Especi camente, no quadro de programação dinâmica heurística e programação dinâmica heurística dependente de ação, esta proposta é orientada para o desenvolvimento de soluções aproximadas online, numericamente estáveis, da equação de Hamilton-Jacobi-Bellman do tipo Riccati associada ao problema do regulador linear quadrático discreto que tem por base uma formulação que combina estimativas da função valor por meio de uma estrutura RLS (do inglês Recursive Least-Squares), diferenças temporais e melhorias de política. O desenvolvimento das metodologias propostas, neste trabalho, tem seu foco principal voltado para a fatoração UDU T que é inserida neste quadro para melhorar o processo de estimação RLS de políticas de decisão ótimas do regulador linear quadrá- tico discreto, contornando-se problemas de convergência e estabilidade numérica relacionados com o mal condicionamento da matriz de covariância da abordagem RLS.
344

Comportamento estrutural de vigas de aço com abertura na alma / Structural behaviour of steel beams with web opening

Flávio Rodrigues 14 March 2007 (has links)
Limitações de altura são frequentemente impostas à edificações de múltiplos pavimentos por regulamentos de zoneamento urbano, aspectos econômicos e considerações estéticas. Um pé-direito alto é normalmente requerido para se permitir a passagem de tubulações e dutos de grande diâmetro sob vigas de aço, conduzindo muitas vezes à alturas inaceitáveis entre pavimentos de edificações. Várias são as soluções possíveis para se resolver tal inconveniência, dentre elas pode-se citar: Vigas com inércia variável, stub girders , treliças mistas e vigas misuladas. Outra solução frequentemente utilizada é a abertura de furos na alma das vigas d e aço para a passagem das tubulações de serviço. A presente dissertação tem por objetivo avaliar e descrever o comportamento estrutural de vigas de aço com aberturas de diferentes tamanhos e formas na alma. Outro propósito deste trabalho de pesquisa é a avaliação dos parâmetros que influenciam diretamente a capacidade de resistência das vigas com diferentes tipos de abertura na alma, tais como: Tipo de furo, localização do furo ao longo do vão, altura do furo em relação à altura do perfil, esbeltez da alma, localização da carga solicitante ao longo do vão, entre outros. Também é objetivo deste trabalho, a avaliação dos diferentes mecanismos de ruína para as vigas com aberturas na alma e as causas que conduziram o colapso das mesmas. Finalmente, apresenta-se um estudo da eficácia de enrijecedores longitudinais nos locais de abertura da alma das vigas de aço. A metodologia empregada para tal estudo baseou-se em uma análise paramétrica com o auxílio do método numérico dos elementos finitos. / Height limitations are frequent in multi-storey buildings due to zoning regulations, economic requirements and esthetical considerations . In order to provide the passage of large pipes and ducts beneath steel beams, huge spaces are normally required, leading many times to unacceptable heights between storeys. There are many possible solutions to solve these problems, such as: Tapered beams, stub girders, composite trusses and haunched beams. Another frequent solution is the opening of holes in the web beam steel to enable the passage of the services. This dissertation has the objective of evaluating and describing the structural behavior of steel beams with web openings of different shapes and sizes. Another aim of this research work is the evaluation of the parameters that directly influence the load carry capacity of the beams with different web openings, such as: Holesh ape, the location of the opening throughout the span, the height hole to height profile ratio, the web slenderness and the location of the load point throughout the span. The evaluation of the different failure mechanisms of steel beams with web openings and the reasons that conducted the collapse of them are also focused on the present work. Finally, a study of the efficiency of the use of longitudinal stiffeners at web openings locations is also presented. The methodology employed for such study was based on a parametric analysis based on the finite elements method.
345

Comportamento estrutural de vigas de aço com abertura na alma / Structural behaviour of steel beams with web opening

Flávio Rodrigues 14 March 2007 (has links)
Limitações de altura são frequentemente impostas à edificações de múltiplos pavimentos por regulamentos de zoneamento urbano, aspectos econômicos e considerações estéticas. Um pé-direito alto é normalmente requerido para se permitir a passagem de tubulações e dutos de grande diâmetro sob vigas de aço, conduzindo muitas vezes à alturas inaceitáveis entre pavimentos de edificações. Várias são as soluções possíveis para se resolver tal inconveniência, dentre elas pode-se citar: Vigas com inércia variável, stub girders , treliças mistas e vigas misuladas. Outra solução frequentemente utilizada é a abertura de furos na alma das vigas d e aço para a passagem das tubulações de serviço. A presente dissertação tem por objetivo avaliar e descrever o comportamento estrutural de vigas de aço com aberturas de diferentes tamanhos e formas na alma. Outro propósito deste trabalho de pesquisa é a avaliação dos parâmetros que influenciam diretamente a capacidade de resistência das vigas com diferentes tipos de abertura na alma, tais como: Tipo de furo, localização do furo ao longo do vão, altura do furo em relação à altura do perfil, esbeltez da alma, localização da carga solicitante ao longo do vão, entre outros. Também é objetivo deste trabalho, a avaliação dos diferentes mecanismos de ruína para as vigas com aberturas na alma e as causas que conduziram o colapso das mesmas. Finalmente, apresenta-se um estudo da eficácia de enrijecedores longitudinais nos locais de abertura da alma das vigas de aço. A metodologia empregada para tal estudo baseou-se em uma análise paramétrica com o auxílio do método numérico dos elementos finitos. / Height limitations are frequent in multi-storey buildings due to zoning regulations, economic requirements and esthetical considerations . In order to provide the passage of large pipes and ducts beneath steel beams, huge spaces are normally required, leading many times to unacceptable heights between storeys. There are many possible solutions to solve these problems, such as: Tapered beams, stub girders, composite trusses and haunched beams. Another frequent solution is the opening of holes in the web beam steel to enable the passage of the services. This dissertation has the objective of evaluating and describing the structural behavior of steel beams with web openings of different shapes and sizes. Another aim of this research work is the evaluation of the parameters that directly influence the load carry capacity of the beams with different web openings, such as: Holesh ape, the location of the opening throughout the span, the height hole to height profile ratio, the web slenderness and the location of the load point throughout the span. The evaluation of the different failure mechanisms of steel beams with web openings and the reasons that conducted the collapse of them are also focused on the present work. Finally, a study of the efficiency of the use of longitudinal stiffeners at web openings locations is also presented. The methodology employed for such study was based on a parametric analysis based on the finite elements method.
346

MP-Draughts - Um Sistema Multiagente de Aprendizagem Automática para Damas Baseado em Redes Neurais de Kohonen e Perceptron Multicamadas

Duarte, Valquíria Aparecida Rosa 17 July 2009 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The goal of this work is to present MP-Draughts (MultiPhase- Draughts), that is a multiagent environment for Draughts, where one agent - named IIGA- is built and trained such as to be specialized for the initial and the intermediate phases of the games and the remaining ones for the final phases of them. Each agent of MP-Draughts is a neural network which learns almost without human supervision (distinctly from the world champion agent Chinook). MP-Draughts issues from a continuous activity of research whose previous product was the efficient agent VisionDraughts. Despite its good general performance, VisionDraughts frequently does not succeed in final phases of a game, even being in advantageous situation compared to its opponent (for instance, getting into endgame loops). In order to try to reduce this misbehavior of the agent during endgames, MP-Draughts counts on 25 agents specialized for endgame phases, each one trained such as to be able to deal with a determined cluster of endgame boardstates. These 25 clusters are mined by a Kohonen-SOM Network from a Data Base containing a large quantity of endgame boardstates. After trained, MP-Draughts operates in the following way: first, an optimized version of VisionDraughts is used as IIGA; next, the endgame agent that represents the cluster which better fits the current endgame board-state will replace it up to the end of the game. This work shows that such a strategy significantly improves the general performance of the player agents. / O objetivo deste trabalho é propor um sistema de aprendizagem de Damas, o MPDraughts (MultiPhase- Draughts): um sistema multiagentes, em que um deles - conhecido como IIGA (Initial/Intermediate Game Agent)- é desenvolvido e treinado para ser especializado em fases iniciais e intermediárias de jogo e os outros 25 agentes, em fases finais. Cada um dos agentes que compõe o MP-Draughts é uma rede neural que aprende a jogar com o mínimo possível de intervenção humana (distintamente do agente campeão do mundo Chinook). O MP-Draughts é fruto de uma contínua atividade de pesquisa que teve como produto anterior o VisionDraughts. Apesar de sua eficiência geral, o Vision- Draughts, muitas vezes, tem seu bom desempenho comprometido na fase de finalização de partidas, mesmo estando em vantagem no jogo em comparação com o seu oponente (por exemplo, entrando em loop de final de jogo). No sentido de reduzir o comportamento indesejado do jogador, o MP-Draughts conta com 25 agentes especializados em final de jogo, sendo que cada um é treinado para lidar com um determinado tipo de cluster de tabuleiros de final de jogo. Esses 25 clusters são minerados por redes de Kohonen-SOM de uma base de dados que contém uma grande quantidade de estado de tabuleiro de final de jogo. Depois de treinado, o MP-Draughts atua da seguinte maneira: primeiro, uma versão aprimorada do VisionDraughts é usada como o IIGA; depois, um agente de final de jogo que representa o cluster que mais se aproxima do estado corrente do tabuleiro do jogo deverá substituir o IIGA e conduzir o jogo até o final. Este trabalho mostra que essa estratégia melhorou, significativamente, o desempenho geral do agente jogador. / Mestre em Ciência da Computação
347

Estudo comparativo da interação solo-geogrelha por meio de ensaios de arrancamento monotônico e cíclico utilizando equipamentos de pequenas e grandes dimensões / Comparative study of soil-geogrid interaction through monotonic and cyclic pullout tests using small and large dimensions equipments

Sergio Arturo Rincón Barajas 02 August 2016 (has links)
O melhor comportamento de uma estrutura de solo reforçado com geossintéticos não depende só da elevada resistência à tração da inclusão, mas também da sua rigidez e do nível de carregamento sob o qual a estrutura está submetida. Dessa maneira, a interação entre o reforço e as respectivas camadas de solo ao seu redor torna-se de grande importância, pois a mobilização cisalhante combina a deformação da interface solo-reforço e o alongamento do geossintético. Sendo que a melhor forma de avaliar a interação entre o solo e a geogrelha é por meio de ensaios de arrancamento, pensa-se na realização de ensaios de arrancamento cíclico para analisar a interação dinâmica entre o solo e a inclusão quando certas estruturas são submetidas a esse tipo de solicitação. Por causa disso, o objetivo principal deste trabalho é analisar o efeito produzido por carregamentos monotônicos e cíclicos de interface numa geogrelha biaxial de polipropileno, quando inserida na interface de um solo argiloso e um solo arenoso sob diferentes tensões de confinamento. Para isso, são utilizados os equipamentos de pequenas e grandes dimensões do Laboratório de Geossintéticos da EESC-USP, visando avaliar a sua relação e a viabilidade de uso do equipamento de pequenas dimensões. Inicialmente foram realizados ensaios de arrancamento monotônico em ambos os equipamentos sob tensões de confinamento de 25, 50 e 100 kPa, sendo que as resistências obtidas com as tensões de 25 e 100 kPa permitiram definir as amplitudes do carregamento cíclico correspondentes ao 20% de tais valores. Adicionalmente, após a aplicação dos 10.000 ciclos de carga correspondentes à capacidade do equipamento, foi aplicado novamente um carregamento monotônico com o intuito de determinar o efeito do carregamento dinâmico na resistência ao arrancamento e assim poder realizar as respectivas comparações com os valores iniciais. Com base nos resultados obtidos, foi possível observar a diferença no grau de confinamento entre ambos os equipamentos, sendo maior no de grandes dimensões por causa da melhor distribuição das tensões sobre a área ocupada pela geogrelha. Adicionalmente, o grau de confinamento em ambos os equipamentos também influenciou a diferença no efeito do carregamento dinâmico, sendo de desconfinamento no de grandes dimensões e de densificação no de pequenas dimensões. / The best behavior of a reinforced soil structure with geosynthetics not only depends on the high tensile strength of the inclusion, but also on its rigidity and the loading level in which the structure is subjected. Thus, the interaction between the reinforcement and the respective layers of soil around, becomes very important because the shear mobilization combines the deformation of the soil-reinforcement interface and the lengthening of the geosynthetic. Since the best way to assess the soil-geogrid interaction is through pullout tests, it is thought in performing cyclic pullout tests to examine the dynamic soil-inclusion interaction when some structures are submitted to that kind of loads. Because of that, the main objective of this work is to analize the effect that is produced by monotonic and cyclic interface loading on a biaxial polypropylene geogrid, when it is inserted into the interface of a clayey soil and a sandy soil under different confinement stresses. For that, the small and large dimensions equipments of the Geosynthetics Laboratory at EESC-USP are used, looking to evaluate their relationship and the feasibility of using a small dimensions equipment. Initially, they were performed monotonic pullout tests in both equipments under confinement stresses of 25, 50 and 100 kPa, wherein the pullout strengths obtained with 25 and 100 kPa allowed the definition of the load cyclic amplitudes, which corresponded to 20% of such values. Additionally, after applying 10.000 load cycles, corresponding to the capacity of the equipment, it was applied a monotonic loading in order to determine the dynamic loading effect on pullout strength, being useful to compare such values with the initial response. Based on the obtained results, it was possible to observe the difference in the confinement degree between both equipments, being higher in the large one because of the better stress distribution on the geogrid area. Aditionally, the confinement degree in both equipments also influenced the difference in the dynamic loading effect, being deconfinement in the soil-geogrid interface of the large one and densification in the other one.
348

Uma nova abordagem de aprendizagem de máquina combinando elicitação automática de casos, aprendizagem por reforço e mineração de padrões sequenciais para agentes jogadores de damas

Castro Neto, Henrique de 21 November 2016 (has links)
Fundação de Amparo a Pesquisa do Estado de Minas Gerais / Agentes que operam em ambientes onde as tomadas de decisão precisam levar em conta, além do ambiente, a atuação minimizadora de um oponente (tal como nos jogos), é fundamental que o agente seja dotado da habilidade de, progressivamente, traçar um perĄl de seu adversário que o auxilie em seu processo de seleção de ações apropriadas. Entretanto, seria improdutivo construir um agente com um sistema de tomada de decisão baseado apenas na elaboração desse perĄl, pois isso impediria o agente de ter uma Şidentidade própriaŤ, o que o deixaria a mercê de seu adversário. Nesta direção, este trabalho propõe um sistema automático jogador de Damas híbrido, chamado ACE-RL-Checkers, dotado de um mecanismo dinâmico de tomada de decisões que se adapta ao perĄl de seu oponente no decorrer de um jogo. Em tal sistema, o processo de seleção de ações (movimentos) é conduzido por uma composição de Rede Neural de Perceptron Multicamadas e biblioteca de casos. No caso, a Rede Neural representa a ŞidentidadeŤ do agente, ou seja, é um módulo tomador de decisões estático já treinado e que faz uso da técnica de Aprendizagem por Reforço TD( ). Por outro lado, a biblioteca de casos representa o módulo tomador de decisões dinâmico do agente que é gerada pela técnica de Elicitação Automática de Casos (um tipo particular de Raciocínio Baseado em Casos). Essa técnica possui um comportamento exploratório pseudo-aleatório que faz com que a tomada de decisão dinâmica do agente seja guiada, ora pelo perĄl de jogo do adversário, ora aleatoriamente. Contudo, ao conceber tal arquitetura, é necessário evitar o seguinte problema: devido às características inerentes à técnica de Elicitação Automática de Casos, nas fases iniciais do jogo Ű em que a quantidade de casos disponíveis na biblioteca é extremamente baixa em função do exíguo conhecimento do perĄl do adversário Ű a frequência de tomadas de decisão aleatórias seria muito elevada, o que comprometeria o desempenho do agente. Para atacar tal problema, este trabalho também propõe incorporar à arquitetura do ACE-RLCheckers um terceiro módulo, composto por uma base de regras de experiência extraída a partir de jogos de especialistas humanos, utilizando uma técnica de Mineração de Padrões Sequenciais. O objetivo de utilizar tal base é reĄnar e acelerar a adaptação do agente ao perĄl de seu adversário nas fases iniciais dos confrontos entre eles. Resultados experimentais conduzidos em torneio envolvendo ACE-RL-Checkers e outros agentes correlacionados com este trabalho, conĄrmam a superioridade da arquitetura dinâmica aqui proposta. / ake into account, in addition to the environment, the minimizing action of an opponent (such as in games), it is fundamental that the agent has the ability to progressively trace a proĄle of its adversary that aids it in the process of selecting appropriate actions. However, it would be unsuitable to construct an agent with a decision-making system based on only the elaboration of this proĄle, as this would prevent the agent from having its Şown identityŤ, which would leave it at the mercy of its opponent. Following this direction, this work proposes an automatic hybrid Checkers player, called ACE-RL-Checkers, equipped with a dynamic decision-making mechanism, which adapts to the proĄle of its opponent over the course of the game. In such a system, the action selection process (moves) is conducted through a composition of Multi-Layer Perceptron Neural Network and case library. In the case, Neural Network represents the ŞidentityŤ of the agent, i.e., it is an already trained static decision-making module and makes use of the Reinforcement Learning TD( ) techniques. On the other hand, the case library represents the dynamic decision-making module of the agent, which is generated by the Automatic Case Elicitation technique (a particular type of Case-Based Reasoning). This technique has a pseudo-random exploratory behavior, which makes the dynamic decision-making on the part of the agent to be directed, either by the game proĄle of the opponent or randomly. However, when devising such an architecture, it is necessary to avoid the following problem: due to the inherent characteristics of the Automatic Case Elicitation technique, in the game initial phases, in which the quantity of available cases in the library is extremely low due to low knowledge content concerning the proĄle of the adversary, the decisionmaking frequency for random decisions is extremely high, which would be detrimental to the performance of the agent. In order to attack this problem, this work also proposes to incorporate onto the ACE-RL-Checkers architecture a third module composed of a base of experience rules, extracted from games played by human experts, using a Sequential Pattern Mining technique. The objective behind using such a base is to reĄne and accelerate the adaptation of the agent to the proĄle of its opponent in the initial phases of their confrontations. Experimental results conducted in tournaments involving ACE-RL-Checkers and other agents correlated with this work, conĄrm the superiority of the dynamic architecture proposed herein. / Tese (Doutorado)

Page generated in 0.0318 seconds