Return to search

Algoritmo evolutivo com representação inteira para seleção de características / Evolutionary algorithm using integer representation for feature selection

Submitted by JÚLIO HEBER SILVA (julioheber@yahoo.com.br) on 2017-05-31T17:56:45Z
No. of bitstreams: 2
Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-06-01T11:00:44Z (GMT) No. of bitstreams: 2
Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-06-01T11:00:44Z (GMT). No. of bitstreams: 2
Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-04-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Machine learning problems usually involve a large number of features or variables. In
this context, feature selection algorithms have the challenge of determining a reduced
subset from the original set. The main difficulty in this task is the high number of solutions
available in the search space. In this context, genetic algorithm is one of the
most used techniques in this type of problem due to its implicit parallelism in the exploration
of the search space of the problem considered. However, a binary type representation
is usually used to encode the solutions. This work proposes an implementation
solution that makes use of integer representation called intEA-MLR instead of binary.
The integer representation optimizes the understanding of the data, as the features
to be selected are represented by integer values, reducing the size of the chromosome
used in the search process. The intEA-MLR in this context is presented as an alternative
way of solving high dimensional problems in regression problems. As a case study,
three different sets of data are used concerning problems involving determination of properties
of interest in samples of 1) Grain Wheat, 2) Medicine tablets and 3) petroleum.
Such sets were used in competitions held at the International Diffuse Reflectance Conference
(IDRC) (http://cnirs.clubexpress.com/content.aspx?page_id=22&club_
id=409746&module_id=190211), in the years 2008, 2012 and 2014, respectively. The results
showed that the proposed solution was able to improve the obtained solutions when
compared to the classical implementation that makes use of binary coding, with both more
accurate prediction models and with reduced number of features. IntEA-MLR also outperformed
the competition winners, reaching 91.17% better than the competition winner
for the petroleum data set. In addition, the results also indicated that the computation time
required by the intEA-MLR is relatively smaller as more features are available. / Problemas de aprendizado de máquina geralmente envolvem um grande número de características
ou variáveis. Nesse contexto, algoritmos de seleção de características tem
como desafio determinar um subconjunto reduzido a partir do conjunto original. A principal
dificuldade nesta tarefa é o elevado número de soluções disponíveis no espaço de
busca. Nesse contexto, algoritmo genético é uma das técnicas mais utilizadas nesse tipo
de problema em razão de seu paralelismo implícito na exploração do espaço de busca do
problema considerado. Entretanto, geralmente utiliza-se uma representação do tipo biná-
ria para codificar as soluções. Neste trabalho é proposto uma solução de implementação
que faz uso de representação inteira denominada intEA-MLR em detrimento da binária.
A representação inteira otimiza o entendimento dos dados, na medida em que as características
a serem selecionadas são determinadas por valores inteiros reduzindo o tamanho
do cromossomo utilizado no processo de busca. O intEA-MLR nesse contexto, se apresenta
como uma forma alternativa de resolução de problemas de alta dimensionalidade
em problemas de regressão. Como estudo de caso, utiliza-se três diferentes conjuntos de
dados referente a problemas envolvendo determinação de propriedades de interesse em
amostra de 1) Grãos de Trigo, 2) Comprimidos de remédio e 3) Petróleo. Tais conjuntos
foram utilizados nas competições realizadas no International Diffuse Reflectance Conference
(IDRC) (http://cnirs.clubexpress.com/content.aspx?page_id=22&club_
id=409746&module_id=190211), nos anos de 2008, 2012 e 2014, respectivamente. Os
resultados mostraram que a solução proposta foi capaz de aprimorar as soluções obtidas
quando comparadas com a implementação clássica que faz uso da codificação binária,
tanto com modelos de predição mais acurados quanto com número reduzido de características.
intEA-MLR também obteve resultados superiores aos dos vencedores das competições,
chegando a obter soluções 91,17% melhores do que o vencedor da competição
para o conjunto de dados de petróleo. Adicionalmente, os resultados também indicaram
que o tempo de computação requerido pelo intEA-MLR é relativamente menor a medida
em que um número maior de características estão disponíveis.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/7395
Date20 April 2017
CreatorsSousa, Rhelcris Salvino de
ContributorsSoares, Telma Woerle de Lima, Soares, Anderson da Silva, Soares, Telma Woerle de Lima, Soares, Anderson da Silva, Camilo Junior , Celso Gonçalves, Dias , Jailson Cardoso
PublisherUniversidade Federal de Goiás, Programa de Pós-graduação em Ciência da Computação (INF), UFG, Brasil, Instituto de Informática - INF (RG)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation-3303550325223384799, 600, 600, 600, 600, -7712266734633644768, 3671711205811204509, 2075167498588264571

Page generated in 0.0023 seconds