• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 57
  • 9
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 66
  • 66
  • 54
  • 42
  • 28
  • 25
  • 17
  • 11
  • 10
  • 8
  • 7
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Análise comparativa de modelos de estatística multivariada aplicados à previsão de níveis de poluentes atmosféricos. / Comparative analysis of multivariate statistical models applied to the prediction of air pollutant levels.

Renata Ramos Rodrigues de Paula 07 February 2017 (has links)
O presente estudo visa à análise comparativa do desempenho dos modelos de estatística multivariada Multi-layer Perceptron Neural Networks, Random Forests e Support Vector Machine na previsão de máxima concentração diária de ozônio na baixa atmosfera na Região Metropolitana de São Paulo (RMSP), caracterizada pela alta concentração de habitantes e intensa atividade econômica, onde a qualidade do ar é afetada principalmente por episódios de altos níveis de ozônio. Foram aplicados tanto modelos de regressão quanto de classificação. Nos casos de classificação, estudou-se também o desempenho de dois modelos de análise de discriminantes: Linear Discriminant Analysis e Fisher Discriminant Analysis. Para a construção dos modelos utilizou-se uma base de dados com medições de variáveis meteorológicas, além da concentração de ozônio, fornecida pela Companhia Ambiental do Estado de São Paulo (CETESB). Dada a grande importância e a complexidade do processo de formação de ozônio na baixa atmosfera, a Universidade de São Paulo (USP) e a CETESB têm desenvolvido estudos no tema desde 1999, através dos quais produziram-se modelos de previsão baseados em redes neurais, implementados pela equipe da CETESB. O presente estudo é uma continuação do desenvolvimento anterior e contém as seguintes inovações quanto à metodologia e resultados esperados: (1) ajuste de novos modelos com novas estruturas, incluindo-se técnicas de Support Vector Machine, Random Forests e Discriminação; (2) uso de uma base de dados mais ampla e atualizada, de modo a melhorar a representatividade dos modelos; (3) ajuste dos modelos à nova legislação, Decreto Estadual 59.113 de 23/04/2013, que estabelece novos padrões de qualidade do ar para os poluentes atmosféricos, dentre os quais o ozônio. Embora nos casos de classificação nenhum dos modelos tenha apresentado bons resultados, nos casos de regressão foi possível obter resultados melhores do que os esperados. O modelo de Multi-layer Perceptron foi o que mostrou melhor desempenho para prever concentrações máximas de ozônio, tanto para a previsão de máximas concentrações baseadas em médias horárias quanto em médias móveis de 8 horas, que resultaram em coeficientes de correlação 0,867 e 0,891, respectivamente. / The present study aims to compare the performance of the multivariate statistical models Multi-layer Perceptron Neural Networks, Random Forests and Support Vector Machine applied to the prediction of daily maximum concentrations of groundlevel ozone in the Metropolitan Area of São Paulo (MASP), characterized by the high population density and the intense economic activity, where the air quality is mostly affected by high ozone levels. Both regression and classification models were applied. In the classification cases, two more models were applied: Linear Discriminant Analysis and Fisher Discriminant Analysis. The models were constructed using a database containing meteorological variables and daily maximum ozone concentration values, which were provided by the Environmental Agency of São Paulo State (CETESB). Given the great importance and complexity of the process of ozone formation in the troposphere, the University of São Paulo (USP) and CETESB have made studies in this area since 1999 and developed a prediction model based on neural networks, which was implemented by CETESB. The present study is a continuation of the previous one and contains the following innovations regarding the methodology and expected results: (1) comparison with other models such as support vector machines, random forests and discriminant analysis; (2) use of a wider and up-to-date database, which improves the representativeness of the models; (3) the models took into acount the new legislation, State decree 59113 of 04/23/2013, that establishes new air quality standards for ozone. Although none of the classification models had a good performance, the regression models yielded better than expected results. The multi-layer perceptron model was the one with higher performance in the prediction of daily maximum ozone concentrations based both on hourly averages and on eight-hour moving averages, which yielded correlation coefficients of 0.867 and 0.891 respectively.
32

Um método baseado em inteligência computacional para a geração automática de casos de teste de caixa preta. / A method based on computational intelligence for automatic Black Box test cases generation.

Sá, Hindenburgo Elvas Gonçalves de 09 September 2010 (has links)
Este trabalho de dissertação apresenta um método baseado em técnicas de inteligência computacional, como aprendizado de conjunto de regras, redes neurais artificiais e lógica fuzzy, para propor o desenvolvimento de ferramentas capazes de gerar e classificar casos de testes de caixa preta com as finalidades de auxiliar na atividade de preparação de testes, na detecção de defeitos em características ou funcionalidades e na diminuição do tempo de detecção de correção do software visando, com isto, atingir uma cobertura de testes qualitativamente superior ao processo criação manual. A obtenção de novos casos de testes e a classificação dos casos de testes gerados utilizam técnicas de aprendizado de um conjunto de regras, utilizando algoritmos de cobertura seqüencial, e de uma máquina de inferência fuzzy. A definição dos métodos, tanto para gerar como para classificar os casos de testes, foram fundamentados em experimentos visando comparar as similaridades entre os métodos fuzzy, redes neurais artificiais e aprendizado de conjunto de regras. Por fim, procurou-se desenvolver uma ferramenta à titulo de prova de conceitos objetivando aplicar os métodos que obtiveram melhores resultados nas experimentações. Os critérios adotados para definir os métodos foram às métricas de complexidade ciclomática e total de linhas de código (LOC). / This dissertation work presents a method based on computational intelligence techniques, such as learning set of rules, artificial neural networks and fuzzy logic, proposed the development of tools that generate test cases and sort of black box with the purposes of assisting activity in the preparation of tests for detection of defects in features or functionality and decreasing the detection time correction software aimed, with this, reach a qualitatively higher test coverage to the manual creation process. The acquisition of new test cases and classification of test cases generated using techniques Learning learning a whole set of Regrasregras using sequential covering algorithms, and a fuzzy inference machine. The definition of methods, both to generate and to classify the test cases were substantiated in experiments aimed at comparing the similarities between the fuzzy methods, neural networks and learning of the rule set. Finally, we sought to develop a tool for evidence of concepts aiming to apply the methods which obtained better results in trials. The criteria adopted to define the methods were metrics cyclomatic complexity and total lines of code (LOC).
33

Redução no esforço de interação em segmentação de imagens digitais através de aprendizagem computacional / Reducing the interaction effort in digital image segmentation through machine learning

Klava, Bruno 08 October 2014 (has links)
A segmentação é um passo importante em praticamente todas as tarefas que envolvem processamento de imagens digitais. Devido à variedade de imagens e diferentes necessidades da segmentação, a automação da segmentação não é uma tarefa trivial. Em muitas situações, abordagens interativas, nas quais o usuário pode intervir para guiar o processo de segmentação, são bastante úteis. Abordagens baseadas na transformação watershed mostram-se adequadas para a segmentação interativa de imagens: o watershed a partir de marcadores possibilita que o usuário marque as regiões de interesse na imagem; o watershed hierárquico gera uma hierarquia de partições da imagem sendo analisada, hierarquia na qual o usuário pode navegar facilmente e selecionar uma particular partição (segmentação). Em um trabalho prévio, propomos um método que integra as duas abordagens de forma que o usuário possa combinar os pontos fortes dessas duas formas de interação intercaladamente. Apesar da versatilidade obtida ao se integrar as duas abordagens, as hierarquias construídas dificilmente contêm partições interessantes e o esforço de interação necessário para se obter um resultado desejado pode ser muito elevado. Nesta tese propomos um método, baseado em aprendizagem computacional, que utiliza imagens previamente segmentadas para tentar adaptar uma dada hierarquia de forma que esta contenha partições mais próximas de uma partição de interesse. Na formulação de aprendizagem computacional, diferentes características da imagem são associadas a possíveis contornos de regiões, e esses são classificados como contornos que devem ou não estar presentes na partição final por uma máquina de suporte vetorial previamente treinada. A hierarquia dada é adaptada de forma a conter uma partição que seja consistente com a classificação obtida. Essa abordagem é particularmente interessante em cenários nos quais lotes de imagens similares ou sequências de imagens, como frames em sequências de vídeo ou cortes produzidas por exames de diagnóstico por imagem, precisam ser segmentadas. Nesses casos, é esperado que, a cada nova imagem a ser segmentada, o esforço de interação necessário para se obter a segmentação desejada seja reduzido em relação ao esforço que seria necessário com o uso da hierarquia original. Para não dependermos de experimentos com usuários na avaliação da redução no esforço de interação, propomos e utilizamos um modelo de interação que simula usuários humanos no contexto de segmentação hierárquica. Simulações deste modelo foram comparadas com sequências de interação observadas em experimentos com usuários humanos. Experimentos com diferentes lotes e sequências de imagens mostram que o método é capaz de reduzir o esforço de interação. / Segmentation is an important step in nearly all tasks involving digital image processing. Due to the variety of images and segmentation needs, automation of segmentation is not a trivial task. In many situations, interactive approaches in which the user can intervene to guide the segmentation process, are quite useful. Watershed transformation based approaches are suitable for interactive image segmentation: the watershed from markers allows the user to mark the regions of interest in the image; the hierarchical watershed generates a hierarchy of partitions of the image being analyzed, hierarchy in which the user can easily navigate and select a particular partition (segmentation). In a previous work, we have proposed a method that integrates the two approaches so that the user can combine the strong points of these two forms of interaction interchangeably. Despite the versatility obtained by integrating the two approaches, the built hierarchies hardly contain interesting partitions and the interaction effort needed to obtain a desired outcome can be very high. In this thesis we propose a method, based on machine learning, that uses images previously segmented to try to adapt a given hierarchy so that it contains partitions closer to the partition of interest. In the machine learning formulation, different image features are associated to the possible region contours, and these are classified as ones that must or must not be present in the final partition by a previously trained support vector machine. The given hierarchy is adapted to contain a partition that is consistent with the obtained classification. This approach is particularly interesting in scenarios where batches of similar images or sequences of images, such as frames in video sequences or cuts produced by imaging diagnosis procedures, need to be segmented. In such cases, it is expected that for each new image to be segmented, the interaction effort required to achieve the desired segmentation is reduced relative to the effort that would be required when using the original hierarchy. In order to do not depend on experiments with users in assessing the reduction in interaction effort, we propose and use an interaction model that simulates human users in the context of hierarchical segmentation. Simulations of this model were compared with interaction sequences observed in experiments with humans users. Experiments with different bacthes and image sequences show that the method is able to reduce the interaction effort.
34

Interpreting embedding models of knowledge bases. / Interpretando modelos de embedding de bases de conhecimento.

Arthur Colombini Gusmão 26 November 2018 (has links)
Knowledge bases are employed in a variety of applications, from natural language processing to semantic web search; alas, in practice, their usefulness is hurt by their incompleteness. To address this issue, several techniques aim at performing knowledge base completion, of which embedding models are efficient, attain state-of-the-art accuracy, and eliminate the need for feature engineering. However, embedding models predictions are notoriously hard to interpret. In this work, we propose model-agnostic methods that allow one to interpret embedding models by extracting weighted Horn rules from them. More specifically, we show how the so-called \"pedagogical techniques\", from the literature on neural networks, can be adapted to take into account the large-scale relational aspects of knowledge bases, and show experimentally their strengths and weaknesses. / Bases de conhecimento apresentam diversas aplicações, desde processamento de linguagem natural a pesquisa semântica da web; contudo, na prática, sua utilidade é prejudicada por não serem totalmente completas. Para solucionar esse problema, diversas técnicas focam em completar bases de conhecimento, das quais modelos de embedding são eficientes, atingem estado da arte em acurácia, e eliminam a necessidade de fazer-se engenharia de características dos dados de entrada. Entretanto, as predições dos modelos de embedding são notoriamente difíceis de serem interpretadas. Neste trabalho, propomos métodos agnósticos a modelo que permitem interpretar modelos de embedding através da extração de regras Horn ponderadas por pesos dos mesmos. Mais espeficicamente, mostramos como os chamados \"métodos pedagógicos\", da literatura de redes neurais, podem ser adaptados para lidar com os aspectos relacionais e de larga escala de bases de conhecimento, e mostramos experimentalmente seus pontos fortes e fracos.
35

Interpreting embedding models of knowledge bases. / Interpretando modelos de embedding de bases de conhecimento.

Gusmão, Arthur Colombini 26 November 2018 (has links)
Knowledge bases are employed in a variety of applications, from natural language processing to semantic web search; alas, in practice, their usefulness is hurt by their incompleteness. To address this issue, several techniques aim at performing knowledge base completion, of which embedding models are efficient, attain state-of-the-art accuracy, and eliminate the need for feature engineering. However, embedding models predictions are notoriously hard to interpret. In this work, we propose model-agnostic methods that allow one to interpret embedding models by extracting weighted Horn rules from them. More specifically, we show how the so-called \"pedagogical techniques\", from the literature on neural networks, can be adapted to take into account the large-scale relational aspects of knowledge bases, and show experimentally their strengths and weaknesses. / Bases de conhecimento apresentam diversas aplicações, desde processamento de linguagem natural a pesquisa semântica da web; contudo, na prática, sua utilidade é prejudicada por não serem totalmente completas. Para solucionar esse problema, diversas técnicas focam em completar bases de conhecimento, das quais modelos de embedding são eficientes, atingem estado da arte em acurácia, e eliminam a necessidade de fazer-se engenharia de características dos dados de entrada. Entretanto, as predições dos modelos de embedding são notoriamente difíceis de serem interpretadas. Neste trabalho, propomos métodos agnósticos a modelo que permitem interpretar modelos de embedding através da extração de regras Horn ponderadas por pesos dos mesmos. Mais espeficicamente, mostramos como os chamados \"métodos pedagógicos\", da literatura de redes neurais, podem ser adaptados para lidar com os aspectos relacionais e de larga escala de bases de conhecimento, e mostramos experimentalmente seus pontos fortes e fracos.
36

Relational transfer across reinforcement learning tasks via abstract policies. / Transferência relacional entre tarefas de aprendizado por reforço via políticas abstratas.

Koga, Marcelo Li 21 November 2013 (has links)
When designing intelligent agents that must solve sequential decision problems, often we do not have enough knowledge to build a complete model for the problems at hand. Reinforcement learning enables an agent to learn behavior by acquiring experience through trial-and-error interactions with the environment. However, knowledge is usually built from scratch and learning the optimal policy may take a long time. In this work, we improve the learning performance by exploring transfer learning; that is, the knowledge acquired in previous source tasks is used to accelerate learning in new target tasks. If the tasks present similarities, then the transferred knowledge guides the agent towards faster learning. We explore the use of a relational representation that allows description of relationships among objects. This representation simplifies the use of abstraction and the extraction of the similarities among tasks, enabling the generalization of solutions that can be used across different, but related, tasks. This work presents two model-free algorithms for online learning of abstract policies: AbsSarsa(λ) and AbsProb-RL. The former builds a deterministic abstract policy from value functions, while the latter builds a stochastic abstract policy through direct search on the space of policies. We also propose the S2L-RL agent architecture, containing two levels of learning: an abstract level and a ground level. The agent simultaneously builds a ground policy and an abstract policy; not only the abstract policy can accelerate learning on the current task, but also it can guide the agent in a future task. Experiments in a robotic navigation environment show that these techniques are effective in improving the agents learning performance, especially during the early stages of the learning process, when the agent is completely unaware of the new task. / Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou seja, utilizar o conhecimento adquirido para se resolver tarefas passadas no aprendizado de novas tarefas. Assim, se as tarefas tiverem similaridades, o conhecimento prévio guiará o agente para um aprendizado mais rápido. Neste trabalho é explorado o uso de uma representação relacional, que explicita relações entre objetos e suas propriedades. Essa representação possibilita que se explore abstração e semelhanças estruturais entre as tarefas, possibilitando a generalização de políticas de ação para o uso em tarefas diferentes, porém relacionadas. Este trabalho contribui com dois algoritmos livres de modelo para construção online de políticas abstratas: AbsSarsa(λ) e AbsProb-RL. O primeiro constrói uma política abstrata determinística através de funções-valor, enquanto o segundo constrói uma política abstrata estocástica através de busca direta no espaço de políticas. Também é proposta a arquitetura S2L-RL para o agente, que possui dois níveis de aprendizado: o nível abstrato e o nível concreto. Uma política concreta é construída simultaneamente a uma política abstrata, que pode ser utilizada tanto para guiar o agente no problema atual quanto para guiá-lo em um novo problema futuro. Experimentos com tarefas de navegação robótica mostram que essas técnicas são efetivas na melhoria do desempenho do agente, principalmente nas fases inicias do aprendizado, quando o agente desconhece completamente o novo problema.
37

Aplicação de algoritmos genéticos multiobjetivo ao problema de seleção de atributos

Spolaôr, Newton January 2010 (has links)
Orientadora: Ana Carolina Lorena. / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação.
38

Um método baseado em inteligência computacional para a geração automática de casos de teste de caixa preta. / A method based on computational intelligence for automatic Black Box test cases generation.

Hindenburgo Elvas Gonçalves de Sá 09 September 2010 (has links)
Este trabalho de dissertação apresenta um método baseado em técnicas de inteligência computacional, como aprendizado de conjunto de regras, redes neurais artificiais e lógica fuzzy, para propor o desenvolvimento de ferramentas capazes de gerar e classificar casos de testes de caixa preta com as finalidades de auxiliar na atividade de preparação de testes, na detecção de defeitos em características ou funcionalidades e na diminuição do tempo de detecção de correção do software visando, com isto, atingir uma cobertura de testes qualitativamente superior ao processo criação manual. A obtenção de novos casos de testes e a classificação dos casos de testes gerados utilizam técnicas de aprendizado de um conjunto de regras, utilizando algoritmos de cobertura seqüencial, e de uma máquina de inferência fuzzy. A definição dos métodos, tanto para gerar como para classificar os casos de testes, foram fundamentados em experimentos visando comparar as similaridades entre os métodos fuzzy, redes neurais artificiais e aprendizado de conjunto de regras. Por fim, procurou-se desenvolver uma ferramenta à titulo de prova de conceitos objetivando aplicar os métodos que obtiveram melhores resultados nas experimentações. Os critérios adotados para definir os métodos foram às métricas de complexidade ciclomática e total de linhas de código (LOC). / This dissertation work presents a method based on computational intelligence techniques, such as learning set of rules, artificial neural networks and fuzzy logic, proposed the development of tools that generate test cases and sort of black box with the purposes of assisting activity in the preparation of tests for detection of defects in features or functionality and decreasing the detection time correction software aimed, with this, reach a qualitatively higher test coverage to the manual creation process. The acquisition of new test cases and classification of test cases generated using techniques Learning learning a whole set of Regrasregras using sequential covering algorithms, and a fuzzy inference machine. The definition of methods, both to generate and to classify the test cases were substantiated in experiments aimed at comparing the similarities between the fuzzy methods, neural networks and learning of the rule set. Finally, we sought to develop a tool for evidence of concepts aiming to apply the methods which obtained better results in trials. The criteria adopted to define the methods were metrics cyclomatic complexity and total lines of code (LOC).
39

Um processo para modelagem e aplicação de técnicas computacionais para detecção de fraudes em transações eletrônicas / A process for modeling and application of computational techniques for fraud detection in electronic transactions

Santiago, Gabriel Preti 08 May 2014 (has links)
Nos últimos anos, tem-se observado um aumento significativo no volume de transações financeiras realizadas pela Internet. Esse crescimento no volume financeiro, associado à fragilidade inerente à ausência de verificações básicas, possíveis somente em transações do mundo físico, tem atraído a atenção de pessoas com o objetivo de obter vantagens financeiras de forma ilícita. Devido aos prejuízos causados pelas fraudes, surgiram empresas de pagamento online com o objetivo de tornar as transações de compra e venda na Internet mais seguras. Essas empresas atuam como um intermediário das transações e assumem os riscos associados, mostrando-se ser esse um negócio de alto risco. Dado o alto volume de transações com as quais essas empresas precisam lidar, torna-se clara a necessidade de métodos computacionais para detecção de transações fraudulentas, visto que a utilização estrita de verificações manuais é inviável para lidar com tal volume de transações. Essa tarefa de análise e identificação de transações fraudulentas pode ser vista como um problema computacional de classificação, sendo então aplicáveis técnicas de classificação, aprendizado computacional e mineração de dados. Porém, dada a complexidade do problema, a aplicação de técnicas computacionais só é possível após um profundo entendimento do problema e a definição de uma modelagem eficiente associada a um processo consistente e abrangente, capaz de lidar com todas as etapas necessárias para a análise eficiente de uma transação. Face a isso, o presente trabalho propõe uma abordagem abrangente para tratar o problema da fraude nesse novo mercado de intermediação de pagamentos online utilizando como base um processo já muito bem estabelecido na indústria. Abordaremos mais especificamente uma das fases desse processo, que se refere justamente a utilização de ferramentas computacionais para a detecção das fraudes, e apresentaremos um sub-processo que envolve a utilização de várias ferramentas para o tratamento do ponto de vista computacional do problema de detecção de fraudes. Para a validação dos resultados da proposta, utilizaremos uma enorme quantidade de dados reais disponibilizados por uma grande empresa do setor de intermediação de pagamentos online que colaborou com nossa pesquisa. / In recent years, there has been a significant increase in the volume of electronic transactions in the Web. This growth in trading volume, associated with the risks caused by the absence of basic checks, possible only in transactions of the physical world, has attracted the attention of people with the intention of taking advantage to obtain illicit financial benefits. Due to the injuries caused by fraud, online payment service companies emerged, with the goal of making Web transactions safer. These companies act as an intermediary between buyers and sellers, assuming all the risks, and so it is clear that it is a high-risk business. Given the high volume of transactions with which these companies must deal, it is clear the need for computational methods for detecting fraudulent transactions, as the strict use of manual checks is infeasible to handle such a volume. The task of analysis and identification of fraudulent transactions can be seen as a classification problem, and so classification, data mining and machine learning techniques can be applied to it. However, given the complexity of the problem, the application of computational techniques is only possible after a thorough understanding of the problem and the definition of an efficient model, associated with a consistent and comprehensive process which would be able to handle all the steps needed to analyze a transaction in an efficient way. Given this scenario, this work proposes a comprehensive approach to address the problem of fraud in this new business of online payment intermediation, using as basis a process already established in the industry. We will discuss more specifically one of the phases of this process, which refers to the use of computational tools to detect frauds, and we will present a sub-process using several tools to deal with the problem from a computational point of view. To validate our results, we will use a huge amount of real data provided by an important company of the online payment industry, which cooperated with our research.
40

Relational transfer across reinforcement learning tasks via abstract policies. / Transferência relacional entre tarefas de aprendizado por reforço via políticas abstratas.

Marcelo Li Koga 21 November 2013 (has links)
When designing intelligent agents that must solve sequential decision problems, often we do not have enough knowledge to build a complete model for the problems at hand. Reinforcement learning enables an agent to learn behavior by acquiring experience through trial-and-error interactions with the environment. However, knowledge is usually built from scratch and learning the optimal policy may take a long time. In this work, we improve the learning performance by exploring transfer learning; that is, the knowledge acquired in previous source tasks is used to accelerate learning in new target tasks. If the tasks present similarities, then the transferred knowledge guides the agent towards faster learning. We explore the use of a relational representation that allows description of relationships among objects. This representation simplifies the use of abstraction and the extraction of the similarities among tasks, enabling the generalization of solutions that can be used across different, but related, tasks. This work presents two model-free algorithms for online learning of abstract policies: AbsSarsa(λ) and AbsProb-RL. The former builds a deterministic abstract policy from value functions, while the latter builds a stochastic abstract policy through direct search on the space of policies. We also propose the S2L-RL agent architecture, containing two levels of learning: an abstract level and a ground level. The agent simultaneously builds a ground policy and an abstract policy; not only the abstract policy can accelerate learning on the current task, but also it can guide the agent in a future task. Experiments in a robotic navigation environment show that these techniques are effective in improving the agents learning performance, especially during the early stages of the learning process, when the agent is completely unaware of the new task. / Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou seja, utilizar o conhecimento adquirido para se resolver tarefas passadas no aprendizado de novas tarefas. Assim, se as tarefas tiverem similaridades, o conhecimento prévio guiará o agente para um aprendizado mais rápido. Neste trabalho é explorado o uso de uma representação relacional, que explicita relações entre objetos e suas propriedades. Essa representação possibilita que se explore abstração e semelhanças estruturais entre as tarefas, possibilitando a generalização de políticas de ação para o uso em tarefas diferentes, porém relacionadas. Este trabalho contribui com dois algoritmos livres de modelo para construção online de políticas abstratas: AbsSarsa(λ) e AbsProb-RL. O primeiro constrói uma política abstrata determinística através de funções-valor, enquanto o segundo constrói uma política abstrata estocástica através de busca direta no espaço de políticas. Também é proposta a arquitetura S2L-RL para o agente, que possui dois níveis de aprendizado: o nível abstrato e o nível concreto. Uma política concreta é construída simultaneamente a uma política abstrata, que pode ser utilizada tanto para guiar o agente no problema atual quanto para guiá-lo em um novo problema futuro. Experimentos com tarefas de navegação robótica mostram que essas técnicas são efetivas na melhoria do desempenho do agente, principalmente nas fases inicias do aprendizado, quando o agente desconhece completamente o novo problema.

Page generated in 0.9007 seconds