Return to search

Variable selection in multivariate calibration considering non-decomposability assumption and building blocks hypothesis / Seleção de variáveis em calibração multivariada considerando a presunção de não-decomponibilidade e a hipótese de blocos construtores

Submitted by Liliane Ferreira (ljuvencia30@gmail.com) on 2018-12-12T10:14:40Z
No. of bitstreams: 2
Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-12-12T10:36:08Z (GMT) No. of bitstreams: 2
Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-12-12T10:36:08Z (GMT). No. of bitstreams: 2
Tese - Lauro Cássio Martins de Paula - 2018.pdf: 7484273 bytes, checksum: a3c47ef9c05d03a8dce4dce89a2df34b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2018-12-06 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The procedure used to select a subset of suitable features in a given data set consists in variable selection, which is important when the dataset contains large number of variables and many of them are redundant. Multivariate calibration combines variable selection with statistical techniques to build mathematical models which relate the data to a given property of interest in order to predict this property by selecting informative variables. In this context, variable selection techniques have been widely applied to the solution of several optimization problems. For instance, Genetic Algorithms (GAs) are easy to implement and consist in a population-based model that uses selection and recombination operators to generate new solutions. However, usually in multivariate calibration the dataset present a considerable correlation degree among variables and this provides an evidence about the problem not being properly decomposed. Moreover, some studies in literature have claimed genetic operators used by GAs can cause the building blocks (BBs) disruption of viable solutions. Therefore, this work aims to claim that selecting variables in multivariate calibration is a non-completely decomposable problem (hypothesis 1) as well as that recombination operators affects the non-decomposability assumption (hypothesis 2). Additionally, we are proposing two heuristics, one local search-based operator and two versions of an Epistasis-based Feature Selection Algorithm (EbFSA) to improve model prediction performance and avoid BBs disruption. Based on the performed inquiry and experimental results, we are able to endorse the viability of our hypotheses and demonstrate EbFSA can overcome some traditional algorithms. / Seleção de variáveis é um procedimento para selecionar um subconjunto de características viáveis em um conjunto de dados, o qual se torna importante quando esse conjunto contém muitas variáveis redundantes. A calibração multivariada combina seleção de variáveis com técnicas estatísticas para construir modelos matemáticos com o intuito de predizer uma propriedade de interesse. Nesse contexto, técnicas de seleção têm sido aplicadas na solução de diversos problemas. Por exemplo, Algoritmos Genéticos (AGs) são fáceis de implementar e consistem em um modelo baseado em população, o qual utiliza operadores de seleção e recombinação para gerar novos indivíduos. No entanto, geralmente em calibração multivariada, o conjunto de dados apresenta um grau de correlação considerável entre as variáveis e isso nos fornece uma evidência de que tal problema não pode ser decomposto adequadamente. Além disso, alguns estudos da literatura têm afirmado que os operadores genéticos utilizados pelos AGs podem causar o rompimento dos Blocos Construtores (Building Blocks - BBs) das soluções viáveis. Portanto, este trabalho objetiva demonstrar que a seleção de variáveis em calibração multivariada é um problema não-completamente decomponível (hipótese 1), assim como que operadores de recombinação afetam a presunção de não-decomponibilidade (hipótese 2). Adicionalmente, este trabalho propõe duas heurísticas, um operador de busca local e duas versões de um Algoritmo para Seleção de Variáveis baseado em Epistasia (EbFSA) para aprimorar a capacidade de predição do modelo e evitar o rompimento de BBs. Baseando-se na pesquisa realizada e nos resultados obtidos, torna-se possível confirmar a viabilidade de nossas hipóteses e demonstrar que o EbFSA consegue superar alguns algoritmos tradicionais.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/9140
Date06 December 2018
CreatorsPaula, Lauro Cássio Martins de
ContributorsSoares, Anderson da Silva, Coelho, Clarimar José, Soares, Anderson da Silva, Coelho, Clarimar José, Camilo Junior, Celso Gonçalves, Soares, Fabrízzio Alphonsus Alves de Melo Nunes, Oliveira, Anselmo Elcana de
PublisherUniversidade Federal de Goiás, Programa de Pós-graduação em Ciência da Computação em Rede UFG/UFMS (INF), UFG, Brasil, Instituto de Informática - INF (RG)
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation7383127587728995171, 600, 600, 600, 600, -7712266734633644768, 3671711205811204509, 2075167498588264571

Page generated in 0.0024 seconds