Return to search

Imputação de dados baseado em otimização por enxame de partículas considerando os principais mecanismos de ausência de dados

Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2014-01-13T19:54:55Z
No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_ImputacaoDadosBaseado.pdf: 1208259 bytes, checksum: 2e7b9d1f0b1637d5e64621ecdbc0f82f (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2014-01-17T14:29:14Z (GMT) No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_ImputacaoDadosBaseado.pdf: 1208259 bytes, checksum: 2e7b9d1f0b1637d5e64621ecdbc0f82f (MD5) / Made available in DSpace on 2014-01-17T14:29:14Z (GMT). No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_ImputacaoDadosBaseado.pdf: 1208259 bytes, checksum: 2e7b9d1f0b1637d5e64621ecdbc0f82f (MD5)
Previous issue date: 2013 / Durante o processo de extração do conhecimento em bases de dados, alguns problemas podem ser encontrados como por exemplo, a ausência de determinada instância de um atributo. A ocorrência de tal problemática pode causar efeitos danosos nos resultados finais do processo, pois afeta diretamente a qualidade dos dados a ser submetido a um algoritmo de aprendizado de máquina. Na literatura, diversas propostas são apresentadas a fim de contornar tal dano, dentre eles está a de imputação de dados, a qual estima um valor plausível para substituir o ausente.
Seguindo essa área de solução para o problema de valores ausentes, diversos trabalhos foram
analisados e algumas observações foram realizadas como, a pouca utilização de bases sintéticas
que simulem os principais mecanismos de ausência de dados e uma recente tendência a utilização
de algoritmos bio-inspirados como tratamento do problema. Com base nesse cenário, esta
dissertação apresenta um método de imputação de dados baseado em otimização por enxame de
partículas, pouco explorado na área, e o aplica para o tratamento de bases sinteticamente geradas,
as quais consideram os principais mecanismos de ausência de dados, MAR, MCAR e NMAR. Os
resultados obtidos ao comprar diferentes configurações do método à outros dois conhecidos na
área (KNNImpute e SVMImpute) são promissores para sua utilização na área de tratamento de valores ausentes uma vez que alcançou os melhores valores na maioria dos experimentos realizados. / During the knowledge discovery in database process some problems may be found, e.g.
some instance of one attribute may be missing. Such issue can even cause harmful effects to the
final results of the process, since directly affects the data quality of a database which some
machine learning algorithm may be applied to. In the literature are some proposals to solve such
harm; among them is the data imputation process that estimates a plausible value to fill in the
missing one. Inside the area of missing value treatment, some researches were analyzed and
observations were raised such as, a few utilization of synthetic datasets that simulates the main
mechanisms of missingness and a tendency to use bioinspired algorithm to treat the missing
values. From this scenario, the present dissertation analyses an imputation method based on
particle swarm optimization, an underexplored one, and applies it to the treatment of synthetics
datasets generated considering the main mechanisms of missingness, MAR, MCAR and NMAR.
The results obtained when comparing the algorithm against different configurations of itself and
another two treatments known in the area (KNNImpute and SVMImpute) are promising for its
use as missing value treatment whereas the bioinspired method reached the bests values for the
major of the experiments.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpa.br:2011/4617
Date18 June 2013
CreatorsDIAS, Lilian de Jesus Chaves
ContributorsSANTANA, Ádamo Lima de
PublisherUniversidade Federal do Pará, Programa de Pós-Graduação em Engenharia Elétrica, UFPA, Brasil, Instituto de Tecnologia
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPA, instname:Universidade Federal do Pará, instacron:UFPA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds