Global ETD Search

Return to search

Dedupeer: um algoritmo para deduplicação de arquivos através de processamento particionado

Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-12T12:54:34Z
No. of bitstreams: 2
Dissertação Paulo Soares.pdf: 1814911 bytes, checksum: 49222357c42fc4ab6506dff18824fa1d (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T12:53:37Z (GMT) No. of bitstreams: 2
Dissertação Paulo Soares.pdf: 1814911 bytes, checksum: 49222357c42fc4ab6506dff18824fa1d (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T12:53:37Z (GMT). No. of bitstreams: 2
Dissertação Paulo Soares.pdf: 1814911 bytes, checksum: 49222357c42fc4ab6506dff18824fa1d (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-08-28 / A deduplicação é uma técnica de compressão de dados sem perda que elimina dados
redundantes tanto intra-file como inter-file, diferente de ferramentas de compressão de
dados como o gzip que só eliminam a redundância intra-file. A deduplicação reduz a
necessidade de armazenamento através da eliminação de blocos de dados redundantes.
Na deduplicação, todos os blocos de dados que estão duplicados em um sistema de
armazenamento podem ser reduzidos à uma única cópia, esses blocos desalocados pela
deduplicação são transformados em referência para o que foi mantido no sistema.
Técnicas de deduplicação começaram a ser estudadas para sistemas de armazenamento
comerciais em meados de 2004. Hoje, os principais sistemas de armazenamento de
dados usam deduplicação, mas os algoritmos implementados e as técnicas utilizadas
não são detalhadas publicamente. Existem alguns trabalhos acadêmicos focados na
implementação de algoritmos de deduplicação, mas eles são raros e não são voltados para
a sua utilização em sistemas de armazenamento existentes. O principal objetivo deste
trabalho é criar um algoritmo para deduplicação de arquivos no cliente de forma remota,
através de processamento particionado e utilizando comparação por fingerprints. Este
algoritmo foi incorporado em um componente de software com interface interoperável
para facilitar a utilização em qualquer sistema de armazenamento de dados e beneficiá-los
com economia de armazenamento, e na transferência de dados no caso dos sistemas de
armazenamento distribuídos.
Além do componente de software, foi desenvolvido também um sistema de armazenamento
com gerenciamento de dados baseado no Apache Cassandra, o que o torna capaz
de ser distribuído, com o objetivo de validar o algoritmo de deduplicação. A integração do
componente de software com o sistema de armazenamento foi implementada e avaliada
neste trabalho.

Deduplicação

Compressão de dados

Economia de armazenamento

Sistemas de armazenamento de dados

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/12355
Date	28 August 2013
Creators	Soares, Paulo Fernando Almeida
Contributors	Meira, Silvio Romero de Lemos, Garcia, Vinicius Cardoso
Publisher	Universidade Federal de Pernambuco
Source Sets	IBICT Brazilian ETDs
Language	Breton
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds

Dedupeer: um algoritmo para deduplicação de arquivos através de processamento particionado

Description

Links & Downloads

Tags

Additional Fields