Global ETD Search

21	Arquitetura robótica inspirada na análise do comportamento / Robotic architecture inpired from Behavior analysis Cláudio Adriano Policastro 24 October 2008 (has links) Robôs sociáveis devem ser capazes de interagir, se comunicar, compreender e se relacionar com os seres humanos de uma forma natural. Existem diversas motivações práticas e científicas para o desenvolvimento de robôs sociáveis como plataforma de pesquisas, educação e entretenimento. Entretanto, embora diversos robôs sociáveis já tenham sido desenvolvidos com sucesso, ainda existe muito trabalho para aprimorar a sua eficácia. A utilização de uma arquitetura robótica pode reduzir fortemente o esforço requerido para o desenvolvimento de um robô sociável. Tal arquitetura robótica deve possuir estruturas e mecanismos para permitir a interação social, o controle do comportamento e o aprendizagem a partir do ambiente. Tal arquitetura deve ainda possuir estruturas e mecanismos para permitir a percepção e a atenção, a fim de permitir que um robô sociável perceba a riqueza do comportamento humano e do meio ambiente, e para aprender a partir de interações sociais. Os processos de aprendizado evidenciados na Análise do Comportamento podem levar ao desenvolvimento de métodos e estruturas promissoras para a construção de robôs sociáveis capazes de aprender por meio da interação com o meio ambiente e de exibir comportamento social apropriado. O proposito deste trabalho é o desenvolvimento de uma arquitetura robótica inspirada na Análise do Comportamento. A arquitetura desenvolvida é capaz de simular o aprendizado do comportamento operante e os métodos e estruturas propostos permitem o controlo e a exibição de comportamentos sociais apropriados e o aprendizado a partir da interação com o meio ambiente. A arquitetura proposta foi avaliada no contexto de um problema real não trivial: o aprendizado da atenção compartilhada. Os resultados obtidos mostram que a arquitetura é capaz de exibir comportamentos apropriados durante uma interação social real e controlada. Ainda, os resultados mostram também que a arquitetura pode aprender a partir de uma interação social. Este trabalho é a base para o desenvolvimento de uma ferramenta para a construção dos robôs sociáveis. Os resultados obtidos abrem muitas oportunidades de trabalhos futuros / Sociable robots should be able to interact, to communicate, to understand and to relate with human beings in a natural way. There are several scientific and practical motivations for developing sociable robots as platform of researches, education and entertainment. However, although several sociable robots have already been developed with success, much work remains to increase their effectiveness. The use of a robotic architecture may strongly reduce the time and effort required to construct a sociable robot. Such robotic architecture must have structures and mechanisms to allow social interaction, behavior control and learning from environment. Such architecture must also have structures and mechanisms to allow perception and attention, to enable a sociable robot to perceive the richness of the human behavior and of the environment, and to learn from social interactions. Learning processes evidenced on Behavior Analysis can led to the development of promising methods and structures for the construction social robots that are able to learn through interaction from the environment and to exhibit appropriate social behavior. The purpose of this work is the development of a robotic architecture inspired from Behavior Analysis. The developed architecture is able to simulate operant behavior learning and the proposed methods and structures allow the control and exhibition of appropriate social behavior and learning from interaction in the environment. The proposed architecture was evaluated in the context of a non trivial real problem: the learning of the shared attention. The obtained results show that the architecture is able to exhibit appropriate behaviors during a real and controlled social interaction. Additionally, the results show also that the architecture can learn from a social interaction. This work is the basis for developing a tool for the construction of social robots. The obtained results open oportunities of many future works Análise de comportamento Aprendizado de máquina Aprendizado por reforço Arquitetura robótica Representação híbrida do conhecimento Robôs sociáveis Behavior analysis Hybrid knowledge representation Machine learning Reinforcement learning Robotic architecture Sociable robots
22	Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda / Batch reinforcement learning: a case study for the problem of decision making in sales processes Dênis Antonio Lacerda 12 December 2013 (has links) Planejamento Probabilístico estuda os problemas de tomada de decisão sequencial de um agente, em que as ações possuem efeitos probabilísticos, modelados como um processo de decisão markoviano (Markov Decision Process - MDP). Dadas a função de transição de estados probabilística e os valores de recompensa das ações, é possível determinar uma política de ações (i.e., um mapeamento entre estado do ambiente e ações do agente) que maximiza a recompensa esperada acumulada (ou minimiza o custo esperado acumulado) pela execução de uma sequência de ações. Nos casos em que o modelo MDP não é completamente conhecido, a melhor política deve ser aprendida através da interação do agente com o ambiente real. Este processo é chamado de aprendizado por reforço. Porém, nas aplicações em que não é permitido realizar experiências no ambiente real, por exemplo, operações de venda, é possível realizar o aprendizado por reforço sobre uma amostra de experiências passadas, processo chamado de aprendizado por reforço em lote (Batch Reinforcement Learning). Neste trabalho, estudamos técnicas de aprendizado por reforço em lote usando um histórico de interações passadas, armazenadas em um banco de dados de processos, e propomos algumas formas de melhorar os algoritmos existentes. Como um estudo de caso, aplicamos esta técnica no aprendizado de políticas para o processo de venda de impressoras de grande formato, cujo objetivo é a construção de um sistema de recomendação de ações para vendedores iniciantes. / Probabilistic planning studies the problems of sequential decision-making of an agent, in which actions have probabilistic effects, and can be modeled as a Markov decision process (MDP). Given the probabilities and reward values of each action, it is possible to determine an action policy (in other words, a mapping between the state of the environment and the agent\'s actions) that maximizes the expected reward accumulated by executing a sequence of actions. In cases where the MDP model is not completely known, the best policy needs to be learned through the interaction of the agent in the real environment. This process is called reinforcement learning. However, in applications where it is not allowed to perform experiments in the real environment, for example, sales process, it is possible to perform the reinforcement learning using a sample of past experiences. This process is called Batch Reinforcement Learning. In this work, we study techniques of batch reinforcement learning (BRL), in which learning is done using a history of past interactions, stored in a processes database. As a case study, we apply this technique for learning policies in the sales process for large format printers, whose goal is to build a action recommendation system for beginners sellers. Aprendizado de processos de venda Aprendizado por reforço em lote Planejamento probabilístico Processo de decisão markoviano Batch reinforcement learning Markov decision process Probabilistic planning Sales process learning
23	Derivação de modelos de trading de alta frequência em juros utilizando aprendizado por reforço Castro, Uirá Caiado de 24 August 2017 (has links) Submitted by Uirá Caiado de Castro (ucaiado@yahoo.com.br) on 2017-08-28T20:17:54Z No. of bitstreams: 1 uira_caiado_tradingRL.pdf: 1000833 bytes, checksum: d530c31d30ddfd98e5978aaaf3170959 (MD5) / Approved for entry into archive by Joana Martorini (joana.martorini@fgv.br) on 2017-08-28T21:06:42Z (GMT) No. of bitstreams: 1 uira_caiado_tradingRL.pdf: 1000833 bytes, checksum: d530c31d30ddfd98e5978aaaf3170959 (MD5) / Made available in DSpace on 2017-08-29T12:42:53Z (GMT). No. of bitstreams: 1 uira_caiado_tradingRL.pdf: 1000833 bytes, checksum: d530c31d30ddfd98e5978aaaf3170959 (MD5) Previous issue date: 2017-08-24 / O presente estudo propõe o uso de um modelo de aprendizagem por reforço para derivar uma estratégia de trading em taxa de juros diretamente de dados históricos de alta frequência do livro de ofertas. Nenhuma suposição sobre a dinâmica do mercado é feita, porém é necessário criar um simulador com o qual o agente de aprendizagem possa interagir para adquirir experiência. Diferentes variáveis relacionadas a microestrutura do mercado são testadas para compor o estado do ambiente. Funções baseadas em P&L e/ou na coerência do posicionamento das ofertas do agente são testadas para avaliar as ações tomadas. Os resultados deste trabalho sugerem algum sucesso na utilização das técnicas propostas quando aplicadas à atividade de trading. Porém, conclui-se que a obtenção de estratégias consistentemente lucrativas dependem muito das restrições colocadas na aprendizagem. / The present study proposes the use of a reinforcement learning model to develop an interest rate trading strategy directly from historical high-frequency order book data. No assumption about market dynamics is made, but it requires creating a simulator wherewith the learning agent can interact to gain experience. Different variables related to the microstructure of the market are tested to compose the state of the environment. Functions based on P&L and/or consistency in the order placement by the agent are tested to evaluate the actions taken. The results suggest some success in bringing the proposed techniques to trading. However, it is presumed that the achievement of consistently profitable strategies is highly dependent on the constraints placed on the learning task. Aprendizado de máquina Aprendizado por reforço Curva de juros Operação de alta frequência Machine learning Reinforcement learning Yield curve High frequency trading Q-learning Economia Aprendizado do computador Modelos econômicos Ações (Finanças) Investimentos - Análise
24	Análise do modelo de Kiyotaki-Wright em simulações multiagentes que utilizam a plataforma Swarm / Analysis of the Kiyotaki-Wright Model in Multi-Agent Simulations that Use the Swarm Platform RODOVALHO, Wildener Monteiro 10 February 2011 (has links) Made available in DSpace on 2014-07-29T15:08:16Z (GMT). No. of bitstreams: 1 Dissertacao_Wildener_Monteiro.pdf: 504804 bytes, checksum: 182065e82ecb49614ac91a869030a772 (MD5) Previous issue date: 2011-02-10 / The goal of this dissertation is to make a methodological repetition of Duffy and Ochs's and Rouchier's works. Nonetheless, it tries to have a different focus. Among many theoreticaleconomical models which explain the emergence of money, there is one that distinguishes itself due to its simplicity, efficiency, and robustness: Kiyotaki-Wright's model. Therefore, some economists devoted themselves to apply this model in experiments with human beings and in computer simulations. Among those economists, Duffy and Ochs applied it later, correcting some flaws of the application process used by their predecessors. Duffy and Ochs's studies showed that Kiyotaki-Wright's model is actually valid for its purpose. However, besides all the efforts made, their agents were not able to achieve the foreseen equilibrium. In the same way, the French researcher Rouchier repeated methodologically the works of Duffy and Ochs while criticizing their implementation details. From this research, Rouchier creates other four sub-models in order to take her agents to the proposed equilibrium, obtaining partial success. In this dissertation, the computer system development platform is Swarm, especially created to multi-agent simulations and used, most of the time, in social and biological scope models. The agents' rationalization process is undertaken in trial and error way in accordance with the reinforcement learning technique, analyzing the answer given by the environment in each period. Finally, a new entity called Mediator is created to intermediate the relations between agents and mainly to pair them randomly. The obtained results are, in general, closer to the equilibrium when compared to the results of previous research. From them, some studies are made about the relation between the number of agents and the number of periods of simulation as values approximates the equilibrium. / O objetivo deste trabalho é realizar uma repetição metodológica dos trabalhos de Duffy, Ochs e Rouchier. Entretanto, ele possui um enfoque diferente. Dos vários modelos teóricoeconômicos que explicam o surgimento do dinheiro, um se destaca por sua simplicidade, eficiência e robustez: o modelo de Kiyotaki-Wright. Por este motivo, alguns economistas se propuseram a aplicar este modelo em experimentos com seres humanos e em simulações computacionais. Destes, Duffy e Ochs vieram pouco depois, corrigindo algumas falhas do processo de aplicação usado pelos que lhes antecederam. Os estudos de Duffy e Ochs mostraram que o modelo de Kiyotaki-Wright é realmente válido para aquilo a que se propõe. No entanto, apesar dos esforços empreendidos, seus agentes não conseguiram alcançar o equilíbrio previsto. Nesta mesma linha, a francesa Rouchier repetiu metodologicamente os trabalhos de Duffy e Ochs ao mesmo tempo em que criticava os detalhes de suas implementações. Ao aproveitar a pesquisa, Rouchier criou quatro outros sub-modelos na tentativa de levar seus agentes ao equilíbrio proposto, alcançando um sucesso parcial. No presente trabalho, a plataforma de desenvolvimento do sistema computacional é a Swarm, criada especificamente para simulações multi-agentes e usada, na maioria das vezes, em modelos dos campos social e biológico. O processo de racionalização dos agentes é dado na forma de tentativa e erro como rege a técnica de aprendizado por reforço. Ele analisa, em cada período, a resposta dada pelo ambiente. Finalmente, uma nova entidade chamada de Mediador é criada para intermediar as relações entre os agentes e, principalmente, para colocá-los em pares de forma aleatória. Os resultados alcançados são, em geral, mais próximos do equilíbrio quando comparados aos resultados das pesquisas anteriores. A partir deles, são feitos alguns estudos sobre a relação entre o número de agentes e o número de períodos da simulação com a aproximação dos valores para o equilíbrio. Sistema multi-agentes Plataforma Swarm Modelo de Kiyotaki-Wright Aprendizado por Reforço Multi-Agent System Swarm Platform Kiyotaki-Wright Model Reinforcement Learning

Page generated in 0.1055 seconds