Return to search

Algoritmos de Geração de Protótipos Para Bases Desbalanceadas

Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-06T19:37:29Z
No. of bitstreams: 2
DISSERTAÇÃO Dayvid Victor Rodrigues de Oliveira.pdf: 798881 bytes, checksum: 3b4ac40fda11573b025340c2b03e8903 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-06T19:37:29Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Dayvid Victor Rodrigues de Oliveira.pdf: 798881 bytes, checksum: 3b4ac40fda11573b025340c2b03e8903 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-02-25 / Técnicas de redução de instâncias são técnicas usadas para reduzir a quantidade de
instâncias em um conjunto de dados. Estas técnicas podem atuar removendo dados redundantes
ou gerando novos dados. As instâncias resultantes são chamadas de protótipos. Técnicas de
seleção de protótipos, são técnicas de redução de instâncias que realizam esta tarefa selecionando
um subconjunto do conjunto de dados original. Já as técnicas de geração de protótipos, são
técnicas de redução de instâncias que criam instâncias que não necessariamente pertencem ao
conjunto de dados original. Algoritmos evolucionários têm sido frequentemente utilizados em
seleção de protótipos, tal abordagem é chamada de evolutionary prototype selection. Algumas
bases de dados do mundo real possuem muitas instâncias de uma classe, a classe majoritária,
e poucas de outra, classe minoritária, estas bases são chamadas de bases desbalanceadas. Em
tais bases, muitos algoritmos de redução de instâncias se tornam inviáveis, retornando muitas
instâncias da classe majoritária e poucas, ou até nenhuma, da classe minoritária. Este efeito é
ainda mais acentuado em técnicas de remoção de ruídos. Neste trabalho, são propostas duas
técnicas de geração de protótipos que minimizam o efeito de desbalanceamento entre classes.
A primeira proposta é o Creative Steady-State Memetic Algorithm (CSSMA), um algoritmo de
geração de protótipos que utiliza um algoritmo evolucionário, incorporando uma busca local, para
encontrar o conjunto de protótipos artificiais que maximiza a função de aptidão. Esta técnica é
inspirada no Steady-State Memetic Algorithm, uma das melhores técnicas de seleção de protótipos
na literatura, tanto em redução quanto em classificação. A segunda proposta é o Adaptive Self-
Generating Prototypes (ASGP), esta técnica gera instâncias levando em consideração o tamanho
do maior agrupamento de cada classe. O ASGP é uma derivação do Self-Generating Prototypes
(SGP), considerada uma das técnicas de geração de protótipos de maior poder de generalização,
sendo, porém, ineficiente em bases desbalanceadas. As bases de dados usadas nos experimentos
são do módulo imbalanced datasets do KEEL software, dicotômicas, e com diferentes níveis de
desbalanceamento. Cada base é dividida em 5 partições para aplicação do k-fold cross validation
(k=5). As métricas usadas para avaliar a performance dos algoritmos foram a area under the ROC
curve (AUC) e a taxa de redução. Para comparar os resultados, foi utilizado o teste estatístico de
Wilcoxon. Os resultados mostram que o CSSMA foi superior em taxa de acerto, AUC, a outros
algoritmos evolucionários de redução de instâncias recentemente propostos. O ASGP também
obteve uma AUC superior ao Self-Generating Prototypes 2, versão mais atual do SGP.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/11330
Date25 February 2014
CreatorsOliveira, Dayvid Victor Rodrigues de
ContributorsCavalcanti, George Darmiton da Cunha
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguageBreton
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.002 seconds