Processamento eficiente de junção espacial em ambiente paralelo e distribuído baseado em Spatialhadoop

Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-08-17T12:19:08Z
No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Approved for entry into archive by Ronildo Prado (producaointelectual.bco@ufscar.br) on 2017-10-25T17:55:23Z (GMT) No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Approved for entry into archive by Ronildo Prado (producaointelectual.bco@ufscar.br) on 2017-10-25T17:55:35Z (GMT) No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Made available in DSpace on 2017-10-25T18:01:51Z (GMT). No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5)
Previous issue date: 2017-02-17 / Não recebi financiamento / The huge volume of spatial data generated and made available in recent years from
different sources, such as remote sensing, smart phones, space telescopes, and
satellites, has motivated researchers and practitioners around the world to find out a way
to process efficiently this huge volume of spatial data. Systems based on the MapReduce
programming paradigm, such as Hadoop, have proven to be an efficient framework for
processing huge volumes of data in many applications. However, Hadoop has showed
not to be adequate in native support for spatial data due to its central structure is not
aware of the spatial characteristics of such data. The solution to this problem gave rise to
SpatialHadoop, which is a Hadoop extension with native support for spatial data.
However, SpatialHadoop does not enable to jointly allocate related spatial data and also
does not take into account any characteristics of the data in the process of task scheduler
for processing on the nodes of a cluster of computers. Given this scenario, this PhD
dissertation aims to propose new strategies to improve the performance of the processing
of the spatial join operations for huge volumes of data using SpatialHadoop. For this
purpose, the proposed solutions explore the joint allocation of related spatial data and the
scheduling strategy of MapReduce for related spatial data also allocated in a jointly form.
The efficient data access is an essential step in achieving better performance during
query processing. Therefore, the proposed solutions allow the reduction of network traffic
and I/O operations to the disk and consequently improve the performance of spatial join
processing by using SpatialHadoop. By means of experimental evaluations, it was
possible to show that the novel data allocation policies and scheduling tasks actually
improve the total processing time of the spatial join operations. The performance gain
varied from 14.7% to 23.6% if compared to the baseline proposed by CoS-HDFS and
varied from 8.3% to 65% if compared to the native support of SpatialHadoop. / A explosão no volume de dados espaciais gerados e disponibilizados nos últimos anos,
provenientes de diferentes fontes, por exemplo, sensoriamento remoto, telefones
inteligentes, telescópios espaciais e satélites, motivaram pesquisadores e profissionais
em todo o mundo a encontrar uma forma de processar de forma eficiente esse grande
volume de dados espaciais. Sistemas baseados no paradigma de programação
MapReduce, como exemplo Hadoop, provaram ser durante anos um framework eficiente
para o processamento de enormes volumes de dados em muitas aplicações. No entanto,
o Hadoop demonstrou não ser adequado no suporte nativo a dados espaciais devido a
sua estrutura central não ter conhecimento das características espaciais desses dados.
A solução para este problema deu origem ao SpatialHadoop, uma extensão do Hadoop,
com suporte nativo para dados espaciais. Entretanto o SpatialHadoop não é capaz de
alocar conjuntamente dados espaciais relacionados e também não leva em consideração
qualquer característica dos dados no processo de escalonamento das tarefas para
processamento nos nós de um cluster de computadores. Diante deste cenário, esta tese
tem por objetivo propor novas estratégias para melhorar o desempenho do
processamento das operações de junção espacial para grandes volumes de dados
usando o SpatialHadoop. Para tanto, as soluções propostas exploram a alocação
conjunta dos dados espaciais relacionados e a estratégia de escalonamento de tarefas
MapReduce para dados espaciais relacionados também alocados de forma conjunta.
Acredita-se que o acesso eficiente aos dados é um passo essencial para alcançar um
melhor desempenho durante o processamento de consultas. Desta forma, as soluções
propostas permitem a redução do tráfego de rede e operações de Entrada/Saída para o
disco e consequentemente melhoram o desempenho no processamento de junção
espacial usando SpatialHadoop. Por meio de testes de desempenho experimentais foi
possível comprovar que as novas políticas de alocação de dados e escalonamento de
tarefas de fato melhoram o tempo total de processamento das operações de junção
espacial. O ganho de desempenho variou de 14,7% a 23,6% com relação ao baseline
proposto por CoS-HDFS e variou de 8,3% a 65% com relação ao suporte nativo do
SpatialHadoop.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/9168
Date17 February 2017
CreatorsMendes, Eduardo Fernando
ContributorsCiferri, Ricardo Rodrigues
PublisherUniversidade Federal de São Carlos, Câmpus São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.003 seconds