Submitted by Liliane Ferreira (ljuvencia30@gmail.com) on 2018-10-01T13:06:03Z
No. of bitstreams: 2
Dissertação - Diego Junior do Carmo Oliveira - 2018.pdf: 2678764 bytes, checksum: c32f645ce8abd8a764bec1993d41337b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-10-01T14:48:43Z (GMT) No. of bitstreams: 2
Dissertação - Diego Junior do Carmo Oliveira - 2018.pdf: 2678764 bytes, checksum: c32f645ce8abd8a764bec1993d41337b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-10-01T14:48:43Z (GMT). No. of bitstreams: 2
Dissertação - Diego Junior do Carmo Oliveira - 2018.pdf: 2678764 bytes, checksum: c32f645ce8abd8a764bec1993d41337b (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2018-08-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / A recurrent problem that degrades the quality of the information in databases is the presence
of duplicates, i.e., multiple representations of the same real-world entity. Despite being
computationally expensive, the use of similarity operations is fundamental to identify
duplicates. Furthermore, real-world data is typically composed of different attributes and each
attribute represents a distinct type of information. The application of complex similarity
expressions is important in this context because they allow considering the importance of
each attribute in the similarity evaluation. However, due to a large amount of data present in
Big Data applications, it has become crucial to perform these operations in parallel and
distributed processing environments. In order to solve such problems of great relevance to
organizations, this work proposes a novel strategy to identify duplicates in textual data by
using similarity joins with complex expressions in a distributed environment. / Um problema recorrente que degrada a qualidade das informações em banco de dados é a
presença de duplicatas, isto é, múltiplas representações de uma mesma entidade do mundo
real. Apesar de ser computacionalmente oneroso, para realizar a identificação de duplicatas é
fundamental o emprego operações de similaridade. Além disso, os dados atuais são
tipicamente compostos por diferentes atributos, cada um destes contendo um tipo distinto de
informação. A aplicação de expressões de similaridade complexas é importante neste contexto
uma vez que permitem considerar a importância de cada atributo na avaliação da
similaridade. No entanto, em virtude da grande quantidade de dados presentes em aplicações
Big Data, fez-se necessário realizar o processamento destas operações em ambientes de
programação paralelo ou distribuído. Visando solucionar estes problemas de grande relevância
para as organizações, este trabalho propõe uma nova estratégia de processamento para identificação de duplicatas em dados textuais utilizando junções por similaridade com
expressões complexas em um ambiente distribuído.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/8928 |
Date | 31 August 2018 |
Creators | Oliveira, Diego Junior do Carmo |
Contributors | Ribeiro, Leonardo Andrade, Ribeiro, Leonardo Andrade, Martins, Wellington Santos, Esmin, Ahmed Ali Abdalla |
Publisher | Universidade Federal de Goiás, Programa de Pós-graduação em Ciência da Computação (INF), UFG, Brasil, Instituto de Informática - INF (RG) |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG |
Rights | http://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess |
Relation | -3303550325223384799, 600, 600, 600, 600, -7712266734633644768, 3671711205811204509, 2075167498588264571 |
Page generated in 0.0027 seconds