Return to search

Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados

Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-07-25T18:20:19Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf: 1429893 bytes, checksum: 5720dd51e613a82826c1577ad86a1adf (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-07-27T16:53:15Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf: 1429893 bytes, checksum: 5720dd51e613a82826c1577ad86a1adf (MD5) / Made available in DSpace on 2018-07-27T16:53:15Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf: 1429893 bytes, checksum: 5720dd51e613a82826c1577ad86a1adf (MD5)
Previous issue date: 2017-02-03 / O aprendizado online objetiva a extração de informações a partir de fluxos de dados compostos de uma grande quantidade de exemplos. Esses fluxos frequentemente contêm mudanças de conceitos que na maioria dos casos são caracterizadas como modificações nas distribuições dos dados. Métodos detectores de mudanças de conceitos são algoritmos projetados para trabalharem conjuntamente com um – ou mais – classificador base, a fim de estimarem as posições das mudanças e quando necessário substituírem o preditor, com o objetivo de melhorar a sua acurácia. DDM, EDDM e STEPD são exemplos de detectores simples, eficientes e bem-conceituados. Apesar de sua eficácia em bases pequenas, o DDM tende a perder precisão quando apresentado a conjuntos de dados consideravelmente grandes. Por outro lado, o EDDM funciona bem com bases de dados graduais, porém alcança baixos índices de acurácia em bases com mudanças de conceitos abruptas. O STEPD, por sua vez, foi projetado para a detecção de mudanças de conceitos através do teste de hipóteses entre duas proporções, entretanto, estatisticamente, esse teste não é recomendado para amostras pequenas e/ou desbalanceadas. Este trabalho propõe quatro novos detectores (formando o total de sete versões) que objetivam melhorar o DDM, EDDM e STEPD. Todos os métodos propostos são baseados em testes estatísticos, sendo o EMZD baseado no teste de hipóteses entre médias de duas amostras independentes e, o FPDD, FSDD e FTDD baseados no teste exato de Fisher. Os experimentos realizados, com dois classificadores base, usando 36 conjuntos de dados artificiais e três bases de dados reais, demonstraram a eficácia e eficiência dos detectores propostos. No que diz respeito a avaliação dos detectores, uma das versões do EMZD obteve as melhores acurácias e o FPDD foi o mais preciso na análise das detecções de mudanças de conceitos. / Online learning aims to extract information from data streams composed of a large number of examples. These flows often contain concept drifts that in most cases are characterized as changes in data distributions. Concept drifts detectors are algorithms designed to work with one or more base classifier in order to estimate the change positions and, when necessary, replace the predictor to improve its accuracy. DDM, EDDM and STEPD are simple, efficient and well-known detectors. Despite its effectiveness on small bases, DDM tends to lose accuracy when faced with considerably large data sets. On the other hand, EDDM works well with gradual databases, but achieves low accuracy on bases with abrupt drifts. STEPD was designed to detect changes in distribution using a hypothesis test between two proportions, however, statistically this test is not recommended for small and/or imbalanced samples. This work proposes four new detectors (seven versions in total) that aim to improve DDM, EDDM and STEPD. All the proposed methods are inspired by statistical tests, where EMZD is based on hypothesis test between means of two independent samples and FPDD, FSDD and FTDD are based on Fisher’s exact test. Experiments with two base classifiers using 36 artificial data sets and three real-world datasets demonstrated the effectiveness and efficiency of the proposed detectors. Regarding the evaluation of detectors, one of the versions of the EMZD obtained the best accuracy and the FPDD was the most accurate in the analysis of the concept drifts detections.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/25233
Date03 February 2017
CreatorsCABRAL, Danilo Rafael de Lima
Contributorshttp://lattes.cnpq.br/2153962690732683, BARROS, Roberto Souto Maior de
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.003 seconds