Return to search

Modelagem de aprendizagem por reforço e controle em nível meta para melhorar a performance da comunicação em gerência de tráfego aéreo

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006. / Submitted by Natália Cristina Ramos dos Santos (nataliaguilera3@hotmail.com) on 2009-10-31T15:00:36Z
No. of bitstreams: 1
2006_Daniela Pereira Alves.pdf: 755800 bytes, checksum: 8757605da6ec5e32fe3a9bd198bc3076 (MD5) / Approved for entry into archive by Luanna Maia(luanna@bce.unb.br) on 2010-06-11T15:45:14Z (GMT) No. of bitstreams: 1
2006_Daniela Pereira Alves.pdf: 755800 bytes, checksum: 8757605da6ec5e32fe3a9bd198bc3076 (MD5) / Made available in DSpace on 2010-06-11T15:45:14Z (GMT). No. of bitstreams: 1
2006_Daniela Pereira Alves.pdf: 755800 bytes, checksum: 8757605da6ec5e32fe3a9bd198bc3076 (MD5)
Previous issue date: 2006-11-09 / Uma solução computacional que utiliza troca de mensagens lida com a dificuldade em decidir qual a melhor ação a ser executada à medida que uma nova mensagem chega. No caso específico da área de tráfego aéreo, o uso de troca de mensagens é empregado para manter consistentes as informações distribuídas entre os aeroportos, sujeitas ás características estocásticas deste contexto. O uso de gerência em nível meta e a aprendizagem por reforço foram empregados, neste trabalho, com intuito de apresentar uma estratégia para tratar o
problema de gerência da imensa quantidade de mensagens geradas no contexto de tráfego aéreo. A estratégia proposta fundamenta-se na busca pela adaptação por meio da aprendizagem durante o processo de tomada de decisão. A idéia é empregar uma camada adicional de controle em nível meta sobre a camada de controle já existente no sistema hospedeiro para auxiliar o processo de tomada de decisão. A decisão passa a ser tomada com uso da experiência adquirida pelo
agente com a aprendizagem por reforço melhorada por heurísticas propostas. O trabalho, então, propõe um modelo de computação inteligente para auxílio do processo de tomada de decisão de um sistema distribuído aplicado a Air Traffic Flow Management (ATFM). Ele é indicado para atuar na comunicação via troca de mensagens entre aeroportos, trabalhando como uma camada adicional em um aeroporto que usa os metadados das mensagens em suas decisões, com vistas à otimização na definição de uma hierarquia para atendimento às mensagens.
O modelo é considerado inovador porque usa aprendizagem por reforço adequada às características deste ambiente estocástico, preocupando-se com a velocidade e qualidade do processo de tomada de decisão. Na modelagem, três estratégias foram propostas para a aprendizagem: heurística inicial, epsilon adaptativo e heurística baseada em performance. Elas são combinadas aos algoritmos de aprendizado por reforço: Q-learning e SARSA. Os estudos de caso avaliam o desempenho, a qualidade do aprendizado quanto às três melhorias propostas e também o comportamento do Q-learning quando são alterados parâmetros do algoritmo. ___________________________________________________________________________________________ ABSTRACT / A computational solution which uses message exchange deals with difficulty to decide what is the best action to execute when a new message arrives. In the specific case of Air Traffic field, the use of message exchange is employed to keep consistency among distributed airport information which are subject to random characteristics of the context. In this work meta-level management and reinforcement learning is employed, with the intention to present one strategy to deal with the problem of managing huge quantity of messages that are created in the aero air traffic context. The
proposed strategy is based in the search for adapt action through the learning during the decision make process. The idea is to employ one additional meta-level control layer over the existing control layer in the host system to assist the
decision process. The decision is then made using the experience acquired by the
agent with the improved heuristical proposals. This work proposes one intelligent computational model to assist the decision make process in a distributed systems applied to the Air Traffic Flow Manage- ment - ATFM. It is indicated to deal with the communication through message
exchanges between airports, working like an additional layer in an airport that uses message’s metadata in its decision of pursuing the optimization in the hie-
rarchy to attendance messages. The model is considered innovative because it uses reinforcement learning adjusted to the characteristics of the random environment, concerned with the speed and quality in decision make process. In the modeling, three strategy was proposed for learning: initial heuristics, adaptative heuristics and performance heuristics. They are combined with algo- rithms: Q-learning and SARSA. The case studies evaluate by the three enhan- cements proposed - performance, learning quality and Q-learning behavior when parameters is modified.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/4996
Date09 November 2006
CreatorsAlves, Daniela Pereira
ContributorsWeigang, Li
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds