Spelling suggestions: "subject:"cases desbalanceadas"" "subject:"cases desbalanceados""
1 |
Seleção de características e aprendizado ativo para classificação de imagens de sensoriamento remoto / Feature selection and active learning for remote sensing image classificationJorge, Fábio Rodrigues 29 April 2015 (has links)
Em aplicações de sensoriamento remoto, há diversos problemas nos quais há conhecimento predominante sobre uma categoria ou classe alvo, e pouco conhecimento sobre as demais categorias. Nesses casos, o treinamento de um classificador é prejudicado pelo desbalanceamento de classes. Assim, o estudo de características visuais para se definir o melhor subespaço de características pode ser uma alternativa viável para melhorar o desempenho dos classificadores. O uso de abordagens baseadas em detecção de anomalias também pode auxiliar por meio da modelagem da classe normal (comumente majoritária) enquanto todas as outras classes são consideradas como anomalias. Este estudo apresentou uma base de imagens de sensoriamento remoto, cuja aplicação é identificar entre regiões de cobertura vegetal e regiões de não cobertura vegetal. Para solucionar o problema de desbalanceamento entre as classes, foram realizados estudos das características visuais a fim de definir qual o conjunto de atributos que melhor representa os dados. Também foi proposta a criação de um pipeline para se tratar bases desbalanceadas de cobertura vegetal. Este pipeline fez uso de técnicas de seleção de características e aprendizado ativo. A análise de características apresentou que o subespaço usando o extrator BIC com o índice de vegetação ExG foi o que melhor distinguiu os dados. Além disso, a técnica de ordenação proposta mostrou bom desempenho com poucas dimensões. O aprendizado ativo também ajudou na criação de um modelo melhor, com resultados comparáveis com as melhores características visuais. / In remote sensing applications, there are several problems in which there is predominant knowledge about a target category or class, and little knowledge of the other categories. In such cases, the training of a classifier is hampered by the class imbalance. Thus, the study of visual characteristics to determine the best subspace characteristics may be a feasible alternative to improve the performance of classifiers. The use of anomaly detection-based approaches can also help through the normal class modeling (usually the major class) while considering all other classes as anomalies. This study presents a remote sensing image dataset, whose application is to classify regions of the image into vegetation coverage (related to plantation) and non-vegetation coverage. To solve the class imbalance problem, studies were conducted using several visual characteristics in order to define the set of attributes that best represent the data. A pipeline that deals with the vegetation classification problem and its class imbalance issues is also proposed. This pipeline made use of feature selection techniques and active learning. The visual features analysis showed that a subspace using the BIC extractor with EXG vegetation index was the best to distinguished the data. Also, and the proposed sorting-based feature selection achieved good results with a low dimensional subspaces. Furthermore, the active learning helped creating a better model, with results comparable with the best visual features.
|
2 |
Algoritmos de Geração de Protótipos Para Bases DesbalanceadasOliveira, Dayvid Victor Rodrigues de 25 February 2014 (has links)
Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-06T19:37:29Z
No. of bitstreams: 2
DISSERTAÇÃO Dayvid Victor Rodrigues de Oliveira.pdf: 798881 bytes, checksum: 3b4ac40fda11573b025340c2b03e8903 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-06T19:37:29Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Dayvid Victor Rodrigues de Oliveira.pdf: 798881 bytes, checksum: 3b4ac40fda11573b025340c2b03e8903 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-02-25 / Técnicas de redução de instâncias são técnicas usadas para reduzir a quantidade de
instâncias em um conjunto de dados. Estas técnicas podem atuar removendo dados redundantes
ou gerando novos dados. As instâncias resultantes são chamadas de protótipos. Técnicas de
seleção de protótipos, são técnicas de redução de instâncias que realizam esta tarefa selecionando
um subconjunto do conjunto de dados original. Já as técnicas de geração de protótipos, são
técnicas de redução de instâncias que criam instâncias que não necessariamente pertencem ao
conjunto de dados original. Algoritmos evolucionários têm sido frequentemente utilizados em
seleção de protótipos, tal abordagem é chamada de evolutionary prototype selection. Algumas
bases de dados do mundo real possuem muitas instâncias de uma classe, a classe majoritária,
e poucas de outra, classe minoritária, estas bases são chamadas de bases desbalanceadas. Em
tais bases, muitos algoritmos de redução de instâncias se tornam inviáveis, retornando muitas
instâncias da classe majoritária e poucas, ou até nenhuma, da classe minoritária. Este efeito é
ainda mais acentuado em técnicas de remoção de ruídos. Neste trabalho, são propostas duas
técnicas de geração de protótipos que minimizam o efeito de desbalanceamento entre classes.
A primeira proposta é o Creative Steady-State Memetic Algorithm (CSSMA), um algoritmo de
geração de protótipos que utiliza um algoritmo evolucionário, incorporando uma busca local, para
encontrar o conjunto de protótipos artificiais que maximiza a função de aptidão. Esta técnica é
inspirada no Steady-State Memetic Algorithm, uma das melhores técnicas de seleção de protótipos
na literatura, tanto em redução quanto em classificação. A segunda proposta é o Adaptive Self-
Generating Prototypes (ASGP), esta técnica gera instâncias levando em consideração o tamanho
do maior agrupamento de cada classe. O ASGP é uma derivação do Self-Generating Prototypes
(SGP), considerada uma das técnicas de geração de protótipos de maior poder de generalização,
sendo, porém, ineficiente em bases desbalanceadas. As bases de dados usadas nos experimentos
são do módulo imbalanced datasets do KEEL software, dicotômicas, e com diferentes níveis de
desbalanceamento. Cada base é dividida em 5 partições para aplicação do k-fold cross validation
(k=5). As métricas usadas para avaliar a performance dos algoritmos foram a area under the ROC
curve (AUC) e a taxa de redução. Para comparar os resultados, foi utilizado o teste estatístico de
Wilcoxon. Os resultados mostram que o CSSMA foi superior em taxa de acerto, AUC, a outros
algoritmos evolucionários de redução de instâncias recentemente propostos. O ASGP também
obteve uma AUC superior ao Self-Generating Prototypes 2, versão mais atual do SGP.
|
3 |
Seleção de características e aprendizado ativo para classificação de imagens de sensoriamento remoto / Feature selection and active learning for remote sensing image classificationFábio Rodrigues Jorge 29 April 2015 (has links)
Em aplicações de sensoriamento remoto, há diversos problemas nos quais há conhecimento predominante sobre uma categoria ou classe alvo, e pouco conhecimento sobre as demais categorias. Nesses casos, o treinamento de um classificador é prejudicado pelo desbalanceamento de classes. Assim, o estudo de características visuais para se definir o melhor subespaço de características pode ser uma alternativa viável para melhorar o desempenho dos classificadores. O uso de abordagens baseadas em detecção de anomalias também pode auxiliar por meio da modelagem da classe normal (comumente majoritária) enquanto todas as outras classes são consideradas como anomalias. Este estudo apresentou uma base de imagens de sensoriamento remoto, cuja aplicação é identificar entre regiões de cobertura vegetal e regiões de não cobertura vegetal. Para solucionar o problema de desbalanceamento entre as classes, foram realizados estudos das características visuais a fim de definir qual o conjunto de atributos que melhor representa os dados. Também foi proposta a criação de um pipeline para se tratar bases desbalanceadas de cobertura vegetal. Este pipeline fez uso de técnicas de seleção de características e aprendizado ativo. A análise de características apresentou que o subespaço usando o extrator BIC com o índice de vegetação ExG foi o que melhor distinguiu os dados. Além disso, a técnica de ordenação proposta mostrou bom desempenho com poucas dimensões. O aprendizado ativo também ajudou na criação de um modelo melhor, com resultados comparáveis com as melhores características visuais. / In remote sensing applications, there are several problems in which there is predominant knowledge about a target category or class, and little knowledge of the other categories. In such cases, the training of a classifier is hampered by the class imbalance. Thus, the study of visual characteristics to determine the best subspace characteristics may be a feasible alternative to improve the performance of classifiers. The use of anomaly detection-based approaches can also help through the normal class modeling (usually the major class) while considering all other classes as anomalies. This study presents a remote sensing image dataset, whose application is to classify regions of the image into vegetation coverage (related to plantation) and non-vegetation coverage. To solve the class imbalance problem, studies were conducted using several visual characteristics in order to define the set of attributes that best represent the data. A pipeline that deals with the vegetation classification problem and its class imbalance issues is also proposed. This pipeline made use of feature selection techniques and active learning. The visual features analysis showed that a subspace using the BIC extractor with EXG vegetation index was the best to distinguished the data. Also, and the proposed sorting-based feature selection achieved good results with a low dimensional subspaces. Furthermore, the active learning helped creating a better model, with results comparable with the best visual features.
|
Page generated in 0.0373 seconds