Return to search

Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data

Orientadora: Profa. Dra. Patrícia Belfiore Fávero / Coorientador: Prof. Dr. Marcelo de Souza Lauretto / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2017. / Big data trouxe vários desafios para os conceitos dos algoritmos de mineração de dados,
a iniciar pelas limitações de memória e tempo, bem como dados de natureza e
distribuição com variação constante. Essa massa de dados interessa públicos diversos
pelas informações intrínsecas em seu interior e a análise de dados é uma importante
fonte estratégica aplicada com objetivos de conhecimento, desenvolvimento e planejamento.
Nos últimos anos, diversos métodos baseados em ensembles de classificadores
têm sido propostos. Nesses métodos, a idéia central é construir vários classificadores
"fracos" para formar um classificador "robusto", que utiliza como convergência a soma
(ponderada) dos votos dos subclassificadores nas possíveis classes. Os objetivos deste
trabalho foram realizar análises comparativas de desempenho de classificadores de
Big Data das famílias de árvores de classificação quando combinados na forma de
ensembles (ou metaclassificadores) bagging e boosting. Foi implementado um ambiente
de testes, utilizando algoritmos de árvores de classificação sobre datasets públicos a fim
de verificar três itens fundamentais:
a . Para um certo algoritmo de classificação, a configuração de ensemble (entre
Bagging e Boosting) que resulta em maior acurácia.
b . Para um certo tipo de ensemble, o melhor algoritmo de classificação.
c . A possibilidade de identificar as famílias de Big Data (agrupado segundo um
conjunto de características) em que cada tipo de classificador possui melhor
desempenho.
Os resultados indicaram que o ensemble Boosting apresenta acurácia superior para
um número maior das amostras testadas em comparação com os demais algoritmos
abordados. Entre os classificadores, sugere-se que representantes de árvores de decisão
são suscetíveis à escolha do método de ensemble e, principalmente, da amostra. A análise
da aplicação dos ensembles sobre as amostras e as características dos conjuntos exibiu
resultados muito variáveis, entretanto notou-se uma melhoria de desempenho quando
a classificação é binária. / Big data has brought several challenges to the concepts of data mining algorithms,
starting with the limitations of memory and time, as well as data of nature and
distribution with constant variation. This mass of data interests diverse publics by
the intrinsic information inside and the data analysis is an important strategic source
applied with objectives of knowledge, development and planning. In recent years,
several methods based on ensembles of classifiers have been proposed. In those methods,
the central idea is to construct several "weak" classifiers to form a "robust" classifier,
which uses as a convergence the (weighted) sum of the subclassifier¿s votes in the
possible classes. The objectives of this work were to perform comparative performance
analysis of Big Data classifiers of the classification tree families when combined in the
form of bagging and boosting ensembles (or metaclassifiers). A test environment was
implemented using classification tree algorithms on public datasets in order to verify
three fundamental items:
a . For a certain classification algorithm, the ensemble configuration (between
Bagging and Boosting) results in greater accuracy.
b . For a certain type of ensemble, the best classification algorithm.
c . The possibility of identifying Big Data families (grouped according to a set of
characteristics) in which each type of classifier performs better.
The results indicated that the Boosting ensemble presents superior accuracy for a
larger number of samples tested in comparison to the other algorithms. Among the
classifiers, it is suggested that representatives of decisions trees are susceptible to the
choice of the ensemble method and, mainly, of the sample. The ensembles application
analysis on the samples and the characteristics of the sets showed very variable results,
however a performance improvement was noticed when the classification was binary.

Identiferoai:union.ndltd.org:IBICT/oai:BDTD:110466
Date January 2017
CreatorsAlves, Melina Brilhadori
ContributorsFávero, Patrícia Belfiore, Lauretto, Marcelo de Souza, Gazziro, Mario Alexandre, Lima, Ariane Machado
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf, 52 f. : il.
Sourcereponame:Repositório Institucional da UFABC, instname:Universidade Federal do ABC, instacron:UFABC
Rightsinfo:eu-repo/semantics/openAccess
Relationhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76124, http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76123, Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=110466

Page generated in 0.0018 seconds