Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-02T13:31:20Z
No. of bitstreams: 2
Dissertação_Albert F. J. Costa.pdf: 4215192 bytes, checksum: 995a811676e714bffa60b5d73a387cfa (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-02T13:31:36Z (GMT) No. of bitstreams: 2
Dissertação_Albert F. J. Costa.pdf: 4215192 bytes, checksum: 995a811676e714bffa60b5d73a387cfa (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-03-02T13:31:36Z (GMT). No. of bitstreams: 2
Dissertação_Albert F. J. Costa.pdf: 4215192 bytes, checksum: 995a811676e714bffa60b5d73a387cfa (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-12-11 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Current machine learning techniques used for prediction tasks rely on the assumption that the environment where data is generated is static and supervised. However, most of the real-world problems present dynamic and semi-supervised environments, which invalidate this assumed assumption. In these environments, it is possible the occurrence of a phenomenon known in the literature as concept drift. The main characteristic of such a phenomenon is that the relationship between instances’ features and their true classes changes over time. The primary effect of the concept drift occurrence is the decrease on classifier performance, which leads the classifier to be obsolete for the task. There are methods in the literature that deal with concept drift implicitly or explicitly. The main drawback to blind (implicit) methods is the cost on retraining the classifier constantly, even with no concept drift occurrence, while the informed (explicit) methods generally work based on classifier performance decrease, or based on assumptions about the samples distribution. In order to try to overcome these drawbacks, in this work we propose to use density variation of the most significant instances as an explicit trigger for concept drift detection. Density variation measurement is based on Active Learning, and is calculated from virtual margins projected onto the input space according to the classifier confidence. Focusing on demonstrating the validity of the proposed method, called Concept Drift Detection Method Based on Active Learning (DMAA), were have carried out experiments divided into two series. In the first series, DMAA was investigated on six databases, which represent four synthetic and two real problems. The obtained results show that the proposed method achieved 95.45% of drift detection rate on synthetic databases, and 16.5% as mean error rate in both synthetic and real databases. In the second series of experiments, DMAA was compared to three baselines, including two supervised drift detectors and one Active Learning-based method. The obtained results show that DMAA reached statistically significant better recognition rates in the majority of databases. Besides, it reduced the amount of labeled instances needed to keep the system updated. / As atuais técnicas de aprendizado de máquina aplicadas na tarefa de predição são baseadas na premissa de que o ambiente em que os dados são gerados apresenta um comportamento estacionário e supervisionado. Porém, os ambientes, na maioria dos problemas do mundo real, são considerados dinâmicos e semi-supervisionados, fatos que invalidam as premissas normalmente utilizadas. Nesses ambientes há a possibilidade da ocorrência do fenômeno conhecido na literatura por mudança de conceito (do inglês concept drift), que caracteriza-se pela alteração na relação entre as características das instâncias e a sua verdadeira classe com a passagem do tempo. Como efeito primário da ocorrência desse fenômeno tem-se a degradação significativa na taxa de desempenho do classificador, tornando-o obsoleto para a tarefa. Encontram-se na literatura métodos que lidam implicitamente ou explicitamente com a mudança de conceito, sendo que os métodos cegos (implícitos) arcam com os custos de retreinar o classificador de forma constante, enquanto que os métodos informados (explícitos) atuam normalmente baseados no monitoramento da degradação do desempenho do classificador, ou na realização de suposições sobre a distribuição das instâncias. Para contornar essas dificuldades, esta dissertação propõe o uso da variação da densidade das instâncias mais significativas, calculada com base em Aprendizado Ativo, como sinalizador explícito da ocorrência de mudança de conceito. A densidade é mensurada a partir do conceito de margens virtuais projetadas no espaço de entrada, sendo que as margens virtuais são obtidas com base na incerteza do classificador. Objetivando-se demonstrar a validade do método proposto, denominado de Método de Detecção de Mudança de Conceito Baseada em Aprendizado Ativo (DMAA), experimentos foram realizados em duas etapas. A primeira consistiu na aplicação do DMAA em seis bases de dados, sendo quatro sintéticas e duas reais. Os resultados obtidos demonstram que o método proposto identificou em média 95,45% das mudanças existentes nas bases sintéticas, e alcançou uma média geral de erro de 16,5%. Na segunda etapa de experimentos, foi feita uma comparação entre o DMAA e três baselines, incluindo dois métodos supervisionados e um método baseado em aprendizado ativo. Os resultados indicam que o DMAA alcançou resultados estatisticamente superiores em mais da metade das bases de dados investigadas, além de reduzir significativamente a quantidade de instâncias rotuladas necessárias para manter o sistema atualizado.
Identifer | oai:union.ndltd.org:IBICT/oai:http://localhost:tede/6189 |
Date | 11 December 2017 |
Creators | Costa, Albert França Josuá, 68-99211-7175 |
Contributors | secretaria@icomp.ufam.edu.br, Santos, Eulanda Miranda dos, Souto, Eduardo James Pereira, Cristo, Marcos Antônio Pinheiro de, Pio, José Luiz de Souza |
Publisher | Universidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM |
Rights | http://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess |
Relation | -312656415484870643, 600, 500, 4163267508810754609 |
Page generated in 0.0058 seconds