Return to search

Algoritmo genético compacto com dominância para seleção de variáveis / Compact genetic algorithm with dominance for variable selection

Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-23T11:37:07Z
No. of bitstreams: 2
Dissertação - Heber Valdo Nogueira - 2017.pdf: 1812540 bytes, checksum: 14c0f7496303095925cd3ae974fd4b7b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-23T11:37:50Z (GMT) No. of bitstreams: 2
Dissertação - Heber Valdo Nogueira - 2017.pdf: 1812540 bytes, checksum: 14c0f7496303095925cd3ae974fd4b7b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-05-23T11:37:51Z (GMT). No. of bitstreams: 2
Dissertação - Heber Valdo Nogueira - 2017.pdf: 1812540 bytes, checksum: 14c0f7496303095925cd3ae974fd4b7b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-04-20 / The features selection problem consists in to select a subset of attributes that is able to reduce computational processing and storage resources, decrease curse of dimensionality effects and improve the performance of predictive models. Among the strategies used to solve this type of problem, we highlight evolutionary algorithms, such as the Genetic Algorithm. Despite the relative success of the Genetic Algorithm in solving various types of problems, different improvements have been proposed in order to improve their performance. Such improvements focus mainly on population representation, search mechanisms, and evaluation methods. In one of these proposals, the Genetic Compact Algorithm (CGA) arose, which proposes new ways of representing the population and guide the search for better solutions. Applying this type of strategy to solve the problem of variable selection often involves overfitting. In this context, this work proposes the implementation of a version of the Compact Genetic Algorithm to minimize more than one objective simultaneously. Such algorithm makes use of the concept of Pareto dominance and, therefore, is called Genetic Algorithm Compacted with Dominance (CGAD). As a case study, to evaluate the performance of the proposed algorithm, AGC-D is combined with Multiple Linear Regression (MLR) to select variables to better predict protein concentration in wheat samples. The proposed algorithm is compared to CGA and the Mutation-based Compact Genetic Algorithm. The results indicate that the CGAD is able to select a small set of variables, reducing the prediction error of the calibration model, reducing the possibility of overfitting. / O problema de seleção de variáveis consiste em selecionar um subconjunto de atributos que seja capaz reduzir os recursos computacionais de processamento e armazenamento, diminuir os efeitos da maldição da dimensionalidade e melhorar a performance de modelos de predição. Dentre as estratégias utilizadas para solucionar esse tipo de problema, destacam-se os algoritmos evolutivos, como o Algoritmo Genético. Apesar do relativo sucesso do Algoritmo Genético na solução de variados tipos de problemas, diferentes propostas de melhoria têm sido apresentadas no sentido de aprimorar seu desempenho. Tais melhorias focam, sobretudo, na representação da população, nos mecanismos de busca e nos métodos de avaliação. Em uma dessas propostas, surgiu o Algoritmo Genético Compacto (AGC), que propõe novas formas de representar a população e de conduzir a busca por melhores soluções. A aplicação desse tipo de estratégia para solucionar o problema de seleção de variáveis, muitas vezes implica no overfitting. Diversas pesquisas na área têm indicado a abordagem multiobjetivo pode ser capaz de mitigar esse tipo de problema. Nesse contexto, este trabalho propõe a implementação de uma versão do Algoritmo Genético Compacto capaz de minimizar mais de um objetivo simultaneamente. Tal algoritmo faz uso do conceito de dominância de Pareto e, por isso, é chamado de Algoritmo Genético Compacto com Dominância (AGC-D). Como estudo de caso, para avaliar o desempenho dos algoritmos propostos, o AGC-D é combinado com a Regressão Linear Múltipla (RLM) com o objetivo de selecionar variáveis para melhor predizer a concentração de proteína em amostras de trigo. O algoritmo proposto é comparado ao AGC e ao AGC com operador de mutação. Os resultados obtidos indicam que o AGC-D é capaz de selecionar um pequeno conjunto de variáveis, reduzindo o erro de predição do modelo de calibração e minimizando a possibilidade de overfitting.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/7360
Date20 April 2017
CreatorsNogueira, Heber Valdo
ContributorsSoares, Anderson da Silva, Soares, Telma Woerle de Lima, Soares, Anderson da Silva, Soares, Telma Woerle de Lima, Coelho , Clarimar José, Dias , Jailson Cardoso
PublisherUniversidade Federal de Goiás, Programa de Pós-graduação em Ciência da Computação (INF), UFG, Brasil, Instituto de Informática - INF (RG)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation-3303550325223384799, 600, 600, 600, -7712266734633644768, 3671711205811204509

Page generated in 0.0027 seconds