Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:02Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:21Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-03-07T10:02:39Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5) / Made available in DSpace on 2017-03-07T10:02:39Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertação - Davi G. Silva.pdf: 8079863 bytes, checksum: 2089dbe710945d9e8fad27e7fd2a98aa (MD5)
Previous issue date: 2016-08-03 / The amount of information available through digital media has increased considerably
in recent decades. This fact causes concern among managers of large data repositories.
Dealing with this growth and protect the data effectively is an even greater challenge.
In many repositories, one of the main problems is the existence of replicated data.
This can impact the quality of data and the ability to provide services able to meet the
demands of its customers. However, the removal of replicated records is a task that
requires a lot of time and processing effort.
Nowadays, one of the techniques that has been effectively applied in the task of
identify records that are replicated is the Genetic Programming (GP). One of the main
requirements of this technique is the use examples (usually created manually) in its
training step. Another GP major requirement is its processing time. This happens
because during the training step each record is compared to all other existing ones in
the data repository. Thus, the time required to perform all these comparisons during
the GP training step can be very costly, even for small repositories.
For those reasons, this dissertation proposes a novel approach based in a strategy
the combines a clustering technique with a sliding window, aiming at minimize the
number of comparisons required in the PG training stage. Experiments using synthetic
and real datasets show that it is possible to reduce the time cost of GP training step
up to 70%, without a significant reduction in the quality of generated solutions / O volume de informação em formato digital tem aumentado consideravelmente nas
últimas décadas, e isso tem causado preocupação entre os administradores de grandes
repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma
eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a
existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade
de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção
de registros replicados é uma tarefa que exige muito tempo e poder de processamento
computacional.
Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo
de remoção de registros replicados é a Programação Genética (PG). Uma das
principais características dessa técnica é que ela exige exemplos para a realização da
etapa de treinamento. Outra característica importante é que a PG exige um alto custo
computacional para ser aplicada, além do esforço para gerar os exemplos do treino.
No problema de deduplicação um dos maiores custos durante a etapa de treino é causado
pela necessidade de comparar cada um dos registros com todos os outros registros
existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações
durante o treino é muito grande.
A partir desse problema, esta dissertação propõe uma abordagem baseada na
combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a
quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando
dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento
em até 70%, sem uma redução significativa na qualidade das soluções geradas.
Identifer | oai:union.ndltd.org:IBICT/oai:http://localhost:tede/5552 |
Date | 03 August 2016 |
Creators | Silva, Davi Guimarães da |
Contributors | Silva, Altigran Soares da, Silva, Altigran Soares da, Oliveira, David Braga Fernandes de, Carvalho, Moisés Gomes de, Galante, Renata de Matos |
Publisher | Universidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM |
Rights | http://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess |
Relation | -312656415484870643, 600, 500, 1052477850274827528 |
Page generated in 0.0027 seconds