Return to search

Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados

Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-01-03T14:53:16Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Tese_EstrategiasEvolucionariasOtimizacao.pdf: 5582868 bytes, checksum: 54c5dbfe417941cefd31b320a9aa99bb (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-01-10T16:57:42Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Tese_EstrategiasEvolucionariasOtimizacao.pdf: 5582868 bytes, checksum: 54c5dbfe417941cefd31b320a9aa99bb (MD5) / Made available in DSpace on 2017-01-10T16:57:42Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Tese_EstrategiasEvolucionariasOtimizacao.pdf: 5582868 bytes, checksum: 54c5dbfe417941cefd31b320a9aa99bb (MD5)
Previous issue date: 2016-02-16 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A análise de dados envolve aquisição e organização de informação com o objetivo
de se obter conhecimento a partir deles, propiciando avanços científicos nos mais variados
campos, bem como provendo vantagens competitivas às corporações. Neste âmbito,
um problema ubíquo na área merece destaque, os valores ausentes, pois a maior parte das
técnicas de análise de dados não consegue lidar de forma satisfatória com dados incompletos,
impactando negativamente o resultado final. Visando contornar os efeitos danosos
desta problemática, diversos trabalhos vêm sendo desenvolvidos nas áreas de análise estatística
e aprendizado de máquina, com destaque para o estudo de métodos de Imputação
Múltipla de Dados (IMD), que consiste no preenchimento dos dados ausentes por valores
plausíveis. Tal metodologia pode ser vista como um problema de otimização combinatória,
onde buscam-se valores candidatos à imputação de forma a reduzir o viés imposto por esta
problemática. Meta-heurísticas, em especial, métodos baseados em Computação Evolucionária
(CE) têm sido aplicadas com sucesso em problemas de otimização combinatórios.
Apesar dos recentes avanços na área, percebe-se algumas falhas na modelagem dos métodos
de imputação baseados em CE existentes. Visando preencher tais lacunas encontradas
na literatura, esta tese apresenta uma descrição da IMD como um problema de otimização
combinatória e propõe métodos baseados em CE neste contexto. Além disso, em virtude
das falhas encontradas na modelagem dos métodos recentemente propostos na literatura
e da necessidade de se adotar diferentes medidas de desempenho para avaliar a eficiência
dos métodos de imputação, também é proposto neste projeto de tese um algoritmo genético
multiobjetivo para a imputação de dados no contexto de classificação de padrões. Este
método mostra-se flexível quanto aos tipos de dados, além de evitar a análise de caso completo.
Dado a flexibilidade da abordagem proposta, é possível ainda utilizá-lo em outros
cenários como no aprendizado não supervisionado, classificação multirrótulo e em análise
de séries temporais. / The data analysis process includes information acquisition and organization in order
to obtain knowledge from them, bringing scientific advances in various fields, as well as
providing competitive advantages to corporations. In this context, an ubiquitous problem in
the area deserves attention, the missing data, since most of the data analysis techniques can
not deal satisfactorily with this problem, which negatively impacts the final results. In order
to avoid the harmful effects of missing data, several studies have been proposed in the areas
of statistical analysis and machine learning, especially the study of Multiple Data Imputation,
which consists in the missing data substitution by plausible values. This methodology
can be seen as a combinatorial optimization problem, where the goal is to find candidate
values to substitute the missing ones in order to reduce the bias imposed by this issue. Metaheuristics,
in particular, methods based in evolutionary computing have been successfully
applied in combinatorial optimization problems. Despite the recent advances in this area, it
is perceived some shortcomings in the modeling of imputation methods based on evolutionary
computing. Aiming to fill these gaps in the literature, this thesis presents a description of
multiple data imputation as a combinatorial optimization problem and proposes imputation
methods based on evolutionary computing. In addition, due to the limitations found in the
methods presented in the recent literature, and the necessity of adoption of different evaluation
measures to assess the imputation methods performance, a multi-objective genetic
algorithm for data imputation in pattern classification context is also proposed. This method
proves to be flexible regarding to data types and avoid the complete-case analysis. Because
the flexibility of the proposed approach, it is also possible to use it in other scenarios such
as the unsupervised learning, multi-label classification and time series analysis.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpa.br:2011/7267
Date16 February 2016
CreatorsLOBATO, Fábio Manoel França
ContributorsSANTANA, Ádamo Lima de
PublisherUniversidade Federal do Pará, Programa de Pós-Graduação em Engenharia Elétrica, UFPA, Brasil, Instituto de Tecnologia
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFPA, instname:Universidade Federal do Pará, instacron:UFPA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0088 seconds