Return to search

Dedupeer: um algoritmo para deduplicação de arquivos através de processamento particionado

Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-12T12:54:34Z
No. of bitstreams: 2
Dissertação Paulo Soares.pdf: 1814911 bytes, checksum: 49222357c42fc4ab6506dff18824fa1d (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T12:53:37Z (GMT) No. of bitstreams: 2
Dissertação Paulo Soares.pdf: 1814911 bytes, checksum: 49222357c42fc4ab6506dff18824fa1d (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T12:53:37Z (GMT). No. of bitstreams: 2
Dissertação Paulo Soares.pdf: 1814911 bytes, checksum: 49222357c42fc4ab6506dff18824fa1d (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-08-28 / A deduplicação é uma técnica de compressão de dados sem perda que elimina dados
redundantes tanto intra-file como inter-file, diferente de ferramentas de compressão de
dados como o gzip que só eliminam a redundância intra-file. A deduplicação reduz a
necessidade de armazenamento através da eliminação de blocos de dados redundantes.
Na deduplicação, todos os blocos de dados que estão duplicados em um sistema de
armazenamento podem ser reduzidos à uma única cópia, esses blocos desalocados pela
deduplicação são transformados em referência para o que foi mantido no sistema.
Técnicas de deduplicação começaram a ser estudadas para sistemas de armazenamento
comerciais em meados de 2004. Hoje, os principais sistemas de armazenamento de
dados usam deduplicação, mas os algoritmos implementados e as técnicas utilizadas
não são detalhadas publicamente. Existem alguns trabalhos acadêmicos focados na
implementação de algoritmos de deduplicação, mas eles são raros e não são voltados para
a sua utilização em sistemas de armazenamento existentes. O principal objetivo deste
trabalho é criar um algoritmo para deduplicação de arquivos no cliente de forma remota,
através de processamento particionado e utilizando comparação por fingerprints. Este
algoritmo foi incorporado em um componente de software com interface interoperável
para facilitar a utilização em qualquer sistema de armazenamento de dados e beneficiá-los
com economia de armazenamento, e na transferência de dados no caso dos sistemas de
armazenamento distribuídos.
Além do componente de software, foi desenvolvido também um sistema de armazenamento
com gerenciamento de dados baseado no Apache Cassandra, o que o torna capaz
de ser distribuído, com o objetivo de validar o algoritmo de deduplicação. A integração do
componente de software com o sistema de armazenamento foi implementada e avaliada
neste trabalho.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/12355
Date28 August 2013
CreatorsSoares, Paulo Fernando Almeida
ContributorsMeira, Silvio Romero de Lemos, Garcia, Vinicius Cardoso
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguageBreton
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0029 seconds