Spelling suggestions: "subject:"apatial john"" "subject:"cpatial john""
1 |
Processamento distribuído da junção espacial de múltiplas bases de dados: multi-way spatial joinCunha, Anderson Rogério 19 February 2014 (has links)
Submitted by Erika Demachki (erikademachki@gmail.com) on 2014-12-29T15:33:04Z
No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Dissertação - Anderson Rogério Cunha - 2014.pdf: 4853685 bytes, checksum: d50cf557f1a067a91c2034443ee62df2 (MD5) / Approved for entry into archive by Erika Demachki (erikademachki@gmail.com) on 2014-12-29T15:39:23Z (GMT) No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Dissertação - Anderson Rogério Cunha - 2014.pdf: 4853685 bytes, checksum: d50cf557f1a067a91c2034443ee62df2 (MD5) / Made available in DSpace on 2014-12-29T15:39:23Z (GMT). No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Dissertação - Anderson Rogério Cunha - 2014.pdf: 4853685 bytes, checksum: d50cf557f1a067a91c2034443ee62df2 (MD5)
Previous issue date: 2014-02-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Spatial join is one of the spatial operations of higher computational cost. Its complexity
increases significantly when it involves multiple databases (multi-way spatial join). Traditional
processing strategies of multi-way spatial join apply combinations of binary join
algorithms on centralized computing environments. For complex queries, this approach
requires much computational power, making it often unfeasible in centralized environments.
This work proposes the Distributed Synchronous Traversal algorithm (DST), whose goal
is to enable the distributed processing of multi-way spatial joins on a cluster of computers.
The DST algorithm is based on Synchronous Traversal algorithm and processes the multiway
spatial join in a single synchronous descent upon R-Trees levels of the database
entries (the final outcome is built incrementally, without creating temporary databases).
To the best of our knowledge, there are no other proposals in the literature that deal with
this problem in a distributed fashion and on a peer-to-peer architecture.
Many challenges had to be overcome, such as the definition of data structures that enabled
the mapping of the semantics of queries of multi-way spatial join and coordination of
the required distributed processing. DST proved to be satisfactorily parallelizable and
scalable process real datasets in experiments performed in clusters of 1, 2, 4 and 8 servers. / A junção espacial (Spatial Join) é uma das operações espaciais de maior custo computacional.
Sua complexidade aumenta significativamente quando envolve múltiplas bases de
dados (multi-way spatial join). Estratégias tradicionais de processamento do multi-way
spatial join aplicam combinações de algoritmos de junção binária sobre ambientes computacionais
centralizados. Em consultas complexas, esse tipo de abordagem exige grande
capacidade computacional muitas vezes inviável em ambientes centralizados.
Neste trabalho é proposto o algoritmo Distributed Synchronous Traversal (DST), cujo
objetivo é tornar viável a execução distribuída do multi-way spatial join em um cluster de
computadores. O DST se baseia no algoritmo Synchronous Traversal e processa o multiway
spatial join em uma única descida síncrona sobre os níveis das R-Trees das bases de
dados de entrada. O resultado final é construído incrementalmente, sem a consolidação
de dados intermediários. Até onde conhecemos, não há outras propostas na literatura para
multi-way spatial join distribuído sobre uma arquitetura peer-to-peer.
Muitos desafios tiveram que ser superados, como a definição de estruturas de dados
que possibilitassem o mapeamento da semântica das consultas de multi-way spatial
join e a coordenação do processamento distribuído das mesmas. O DST se mostrou
satisfatoriamente paralelizável e escalável ao processar bases de dados reais em clusters
de até 8 servidores.
|
2 |
Processamento de consultas SOLAP drill-across e com junção espacial em data warehouses geográficos / Processing of drill-across and spatial join SOLAP queries over geographic data warehousesBrito, Jaqueline Joice 28 November 2012 (has links)
Um data warehouse geográco (DWG) é um banco de dados multidimensional, orientado a assunto, integrado, histórico, não-volátil e geralmente organizado em níveis de agregação. Além disso, também armazena dados espaciais em uma ou mais dimensões ou em pelo menos uma medida numérica. Visando oferecer suporte à tomada de decisão, é possível realizar em DWGs consultas SOLAP (spatial online analytical processing ), isto é, consultas analíticas multidimensionais (e.g., drill-down, roll-up, drill-across ) com predicados espaciais (e.g., intersecta, contém, está contido) denidos para range queries e junções espaciais. Um desafio no processamento dessas consultas é recuperar, de forma eficiente, dados espaciais e convencionais em DWGs muito volumosos. Na literatura, existem poucos índices voltados à indexação de DWGs, e ainda assim nenhum desses índices dedica-se a indexar consultas SOLAP drill-across e com junção espacial. Esta dissertação visa suprir essa limitação, por meio da proposta de estratégias para o processamento dessas consultas complexas. Para o processamento de consultas SOLAP drill-across foram propostas duas estratégias, Divide e Única, além da especicação de um conjunto de diretrizes que deve ser seguido para o projeto de um esquema de DWG que possibilite a execução dessas consultas e da especicação de classes de consultas. Para o processamento de consultas SOLAP com junção espacial foi proposta a estratégia SJB, além da identicação de quais características o esquema de DWG deve possuir para possibilitar a execução dessas consultas e da especicação do formato dessas consultas. A validação das estratégias propostas foi realizada por meio de testes de desempenho considerando diferentes congurações, sendo que os resultados obtidos foram contrastados com a execução de consultas do tipo junção estrela e o uso de visões materializadas. Os resultados mostraram que as estratégias propostas são muito eficientes. No processamento de consultas SOLAP drill-across, as estratégias Divide e Única mostraram uma redução no tempo de 82,7% a 98,6% com relação à junção estrela e ao uso de visões materializadas. No processamento de consultas SOLAP com junção espacial, a estratégia SJB garantiu uma melhora de desempenho na grande maioria das consultas executadas. Para essas consultas, o ganho de desempenho variou de 0,3% até 99,2% / A geographic data warehouse (GDW) is a special kind of multidimensional database. It is subject-oriented, integrated, historical, non-volatile and usually organized in levels of aggregation. Furthermore, a GDW also stores spatial data in one or more dimensions or at least in one numerical measure. Aiming at decision support, GDWs allow SOLAP (spatial online analytical processing) queries, i.e., multidimensional analytical queries (e.g., drill-down, roll-up, drill-across) extended with spatial predicates (e.g., intersects, contains, is contained) dened for range and spatial join queries. A challenging issue related to the processing of these complex queries is how to recover spatial and conventional data stored in huge GDWs eciently. In the literature, there are few access methods dedicated to index GDWs, and none of these methods focus on drill-across and spatial join SOLAP queries. In this master\'s thesis, we propose novel strategies for processing these complex queries. We introduce two strategies for processing SOLAP drill-across queries (namely, Divide and Unique), dene a set of guidelines for the design of a GDW schema that enables the execution of these queries, and determine a set of classes of these queries to be issued over a GDW schema that follows the proposed guidelines. As for the processing of spatial join SOLAP queries, we propose the SJB strategy, and also identify the characteristics of a DWG schema that enables the execution of these queries as well as dene the format of these queries. We validated the proposed strategies through performance tests that compared them with the star join computation and the use of materialized views. The obtained results showed that our strategies are very ecient. Regarding the SOLAP drill-across queries, the Divide and Unique strategies showed a time reduction that ranged from 82,7% to 98,6% with respect to star join computation and the use of materialized views. Regarding the SOLAP spatial join queries, the SJB strategy guaranteed best results for most of the analyzed queries. For these queries, the performance gain of the SJB strategy ranged from 0,3% to 99,2% over the star join computation and the use of materialized view
|
3 |
DistJoin: plataforma de processamento distribuído de operações de junção espacial com bases de dados dinâmicas / DistJoin: platform for distributed processing of spatial join operations with dynamic datasetsOliveira, Sávio Salvarino Teles de 28 June 2013 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2014-10-09T12:30:33Z
No. of bitstreams: 2
Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-10-09T14:44:35Z (GMT) No. of bitstreams: 2
Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-10-09T14:44:35Z (GMT). No. of bitstreams: 2
Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Previous issue date: 2013-06-28 / Fundação de Apoio à Pesquisa - FUNAPE / Geographic Information Systems (GIS) have received increasing attention in research institutes
and industry in recent years. A Spatial Database Managament System (SDBMS)
is one of the main components of a GIS and spatial join is one of the most important
operations in SDBMS. Spatial join involves the relationship between two datasets, combining
the geometries according some spatial predicate, such as intersection. Due to the
increasing availability of spatial data, the growing number of GIS users, and the high
cost of the processing of spatial operations, distributed SGBDEs (SGBDED) have been
proposed as a good option to efficiently process spatial join on a cluster. This distributed
processing brings some challenges, such as the data distribution and parallel and distributed
processing of spatial join. This paper presents a platform for parallel and distributed
processing of spatial joins in a cluster using data distribution techniques for dynamic
datasets. Studies in the literature have explored data distribution techniques for
static datasets, where any update requires data redistribution. This becomes unfeasible
when using large datasets with frequent updates. Therefore, this paper proposes two new
data distribution techniques for dynamic datasets: Proximity Area and Grid Proximity
Area. These techniques have been evaluated to determine which scenarios each technique
is more appropriate for. For this purpose, these techniques are evaluated in a real environment
using datasets with different characteristics. Therefore, it is possible to evaluate the
spatial join operation in real scenarios with each technique. / Os Sistemas de Informação Geográfica (SIG) têm recebido cada vez mais destaque nos
institutos de pesquisa e na indústria nos últimos anos. Um Sistema de Gerência de Bancos
de Dados Espaciais (SGBDE) é um dos principais componentes de um SIG e a junção
espacial uma das operações mais importantes nos SGBDEs. Ela envolve o relacionamento
entre duas bases de dados, combinando as geometrias de acordo com algum predicado
espacial, como intersecção. Devido à crescente disponibilidade de dados espaciais, ao
aumento no número de usuários dos SIGS e ao alto custo de processamento das operações
espaciais, os SGBDE distribuídos (SGBDED) surgem com uma boa opção para processar
a junção espacial de forma eficiente em um cluster de computadores. Esse processamento
distribuído traz consigo alguns desafios, tais como a distribuição dos dados pelo cluster
e o processamento paralelo e distribuído da junção espacial. O objetivo deste trabalho é
apresentar uma plataforma de geoprocessamento paralelo e distribuído da junção espacial
em um cluster de computadores, utilizando técnicas de distribuição de dados para bases
de dados dinâmicas. Os trabalhos encontrados na literatura têm explorado técnicas de
distribuição de dados indicadas para bases de dados estáticas, onde qualquer atualização
da base de dados requer que todos os dados sejam novamente distribuídos pelo cluster.
Isto se torna inviável com grandes bases de dados e que sofrem constantes atualizações.
Por isso, este trabalho propõe duas novas técnicas de distribuição de dados com bases de
dados dinâmicas: Proximity Area e Grid Proximity Area. Estas técnicas foram avaliadas
para definir em quais cenários cada uma delas é mais apropriada. Para tal, estas técnicas
foram avaliadas em um ambiente real com bases de dados com características diferentes,
para que fosse possível experimentar a junção espacial distribuída em cenários diversos
com cada técnica de distribuição de dados.
|
4 |
Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMSFornari, Miguel Rodrigues January 2006 (has links)
Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small.
|
5 |
Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMSFornari, Miguel Rodrigues January 2006 (has links)
Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small.
|
6 |
Processamento de consultas SOLAP drill-across e com junção espacial em data warehouses geográficos / Processing of drill-across and spatial join SOLAP queries over geographic data warehousesJaqueline Joice Brito 28 November 2012 (has links)
Um data warehouse geográco (DWG) é um banco de dados multidimensional, orientado a assunto, integrado, histórico, não-volátil e geralmente organizado em níveis de agregação. Além disso, também armazena dados espaciais em uma ou mais dimensões ou em pelo menos uma medida numérica. Visando oferecer suporte à tomada de decisão, é possível realizar em DWGs consultas SOLAP (spatial online analytical processing ), isto é, consultas analíticas multidimensionais (e.g., drill-down, roll-up, drill-across ) com predicados espaciais (e.g., intersecta, contém, está contido) denidos para range queries e junções espaciais. Um desafio no processamento dessas consultas é recuperar, de forma eficiente, dados espaciais e convencionais em DWGs muito volumosos. Na literatura, existem poucos índices voltados à indexação de DWGs, e ainda assim nenhum desses índices dedica-se a indexar consultas SOLAP drill-across e com junção espacial. Esta dissertação visa suprir essa limitação, por meio da proposta de estratégias para o processamento dessas consultas complexas. Para o processamento de consultas SOLAP drill-across foram propostas duas estratégias, Divide e Única, além da especicação de um conjunto de diretrizes que deve ser seguido para o projeto de um esquema de DWG que possibilite a execução dessas consultas e da especicação de classes de consultas. Para o processamento de consultas SOLAP com junção espacial foi proposta a estratégia SJB, além da identicação de quais características o esquema de DWG deve possuir para possibilitar a execução dessas consultas e da especicação do formato dessas consultas. A validação das estratégias propostas foi realizada por meio de testes de desempenho considerando diferentes congurações, sendo que os resultados obtidos foram contrastados com a execução de consultas do tipo junção estrela e o uso de visões materializadas. Os resultados mostraram que as estratégias propostas são muito eficientes. No processamento de consultas SOLAP drill-across, as estratégias Divide e Única mostraram uma redução no tempo de 82,7% a 98,6% com relação à junção estrela e ao uso de visões materializadas. No processamento de consultas SOLAP com junção espacial, a estratégia SJB garantiu uma melhora de desempenho na grande maioria das consultas executadas. Para essas consultas, o ganho de desempenho variou de 0,3% até 99,2% / A geographic data warehouse (GDW) is a special kind of multidimensional database. It is subject-oriented, integrated, historical, non-volatile and usually organized in levels of aggregation. Furthermore, a GDW also stores spatial data in one or more dimensions or at least in one numerical measure. Aiming at decision support, GDWs allow SOLAP (spatial online analytical processing) queries, i.e., multidimensional analytical queries (e.g., drill-down, roll-up, drill-across) extended with spatial predicates (e.g., intersects, contains, is contained) dened for range and spatial join queries. A challenging issue related to the processing of these complex queries is how to recover spatial and conventional data stored in huge GDWs eciently. In the literature, there are few access methods dedicated to index GDWs, and none of these methods focus on drill-across and spatial join SOLAP queries. In this master\'s thesis, we propose novel strategies for processing these complex queries. We introduce two strategies for processing SOLAP drill-across queries (namely, Divide and Unique), dene a set of guidelines for the design of a GDW schema that enables the execution of these queries, and determine a set of classes of these queries to be issued over a GDW schema that follows the proposed guidelines. As for the processing of spatial join SOLAP queries, we propose the SJB strategy, and also identify the characteristics of a DWG schema that enables the execution of these queries as well as dene the format of these queries. We validated the proposed strategies through performance tests that compared them with the star join computation and the use of materialized views. The obtained results showed that our strategies are very ecient. Regarding the SOLAP drill-across queries, the Divide and Unique strategies showed a time reduction that ranged from 82,7% to 98,6% with respect to star join computation and the use of materialized views. Regarding the SOLAP spatial join queries, the SJB strategy guaranteed best results for most of the analyzed queries. For these queries, the performance gain of the SJB strategy ranged from 0,3% to 99,2% over the star join computation and the use of materialized view
|
7 |
Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMSFornari, Miguel Rodrigues January 2006 (has links)
Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small.
|
8 |
Processamento eficiente de junção espacial em ambiente paralelo e distribuído baseado em SpatialhadoopMendes, Eduardo Fernando 17 February 2017 (has links)
Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-08-17T12:19:08Z
No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Approved for entry into archive by Ronildo Prado (producaointelectual.bco@ufscar.br) on 2017-10-25T17:55:23Z (GMT) No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Approved for entry into archive by Ronildo Prado (producaointelectual.bco@ufscar.br) on 2017-10-25T17:55:35Z (GMT) No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Made available in DSpace on 2017-10-25T18:01:51Z (GMT). No. of bitstreams: 1
TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5)
Previous issue date: 2017-02-17 / Não recebi financiamento / The huge volume of spatial data generated and made available in recent years from
different sources, such as remote sensing, smart phones, space telescopes, and
satellites, has motivated researchers and practitioners around the world to find out a way
to process efficiently this huge volume of spatial data. Systems based on the MapReduce
programming paradigm, such as Hadoop, have proven to be an efficient framework for
processing huge volumes of data in many applications. However, Hadoop has showed
not to be adequate in native support for spatial data due to its central structure is not
aware of the spatial characteristics of such data. The solution to this problem gave rise to
SpatialHadoop, which is a Hadoop extension with native support for spatial data.
However, SpatialHadoop does not enable to jointly allocate related spatial data and also
does not take into account any characteristics of the data in the process of task scheduler
for processing on the nodes of a cluster of computers. Given this scenario, this PhD
dissertation aims to propose new strategies to improve the performance of the processing
of the spatial join operations for huge volumes of data using SpatialHadoop. For this
purpose, the proposed solutions explore the joint allocation of related spatial data and the
scheduling strategy of MapReduce for related spatial data also allocated in a jointly form.
The efficient data access is an essential step in achieving better performance during
query processing. Therefore, the proposed solutions allow the reduction of network traffic
and I/O operations to the disk and consequently improve the performance of spatial join
processing by using SpatialHadoop. By means of experimental evaluations, it was
possible to show that the novel data allocation policies and scheduling tasks actually
improve the total processing time of the spatial join operations. The performance gain
varied from 14.7% to 23.6% if compared to the baseline proposed by CoS-HDFS and
varied from 8.3% to 65% if compared to the native support of SpatialHadoop. / A explosão no volume de dados espaciais gerados e disponibilizados nos últimos anos,
provenientes de diferentes fontes, por exemplo, sensoriamento remoto, telefones
inteligentes, telescópios espaciais e satélites, motivaram pesquisadores e profissionais
em todo o mundo a encontrar uma forma de processar de forma eficiente esse grande
volume de dados espaciais. Sistemas baseados no paradigma de programação
MapReduce, como exemplo Hadoop, provaram ser durante anos um framework eficiente
para o processamento de enormes volumes de dados em muitas aplicações. No entanto,
o Hadoop demonstrou não ser adequado no suporte nativo a dados espaciais devido a
sua estrutura central não ter conhecimento das características espaciais desses dados.
A solução para este problema deu origem ao SpatialHadoop, uma extensão do Hadoop,
com suporte nativo para dados espaciais. Entretanto o SpatialHadoop não é capaz de
alocar conjuntamente dados espaciais relacionados e também não leva em consideração
qualquer característica dos dados no processo de escalonamento das tarefas para
processamento nos nós de um cluster de computadores. Diante deste cenário, esta tese
tem por objetivo propor novas estratégias para melhorar o desempenho do
processamento das operações de junção espacial para grandes volumes de dados
usando o SpatialHadoop. Para tanto, as soluções propostas exploram a alocação
conjunta dos dados espaciais relacionados e a estratégia de escalonamento de tarefas
MapReduce para dados espaciais relacionados também alocados de forma conjunta.
Acredita-se que o acesso eficiente aos dados é um passo essencial para alcançar um
melhor desempenho durante o processamento de consultas. Desta forma, as soluções
propostas permitem a redução do tráfego de rede e operações de Entrada/Saída para o
disco e consequentemente melhoram o desempenho no processamento de junção
espacial usando SpatialHadoop. Por meio de testes de desempenho experimentais foi
possível comprovar que as novas políticas de alocação de dados e escalonamento de
tarefas de fato melhoram o tempo total de processamento das operações de junção
espacial. O ganho de desempenho variou de 14,7% a 23,6% com relação ao baseline
proposto por CoS-HDFS e variou de 8,3% a 65% com relação ao suporte nativo do
SpatialHadoop.
|
9 |
Operações espaciais robustas à imprecisão nas coordenadas geográficas / Spatial operations robusts to geographic coordinate imprecisionOliveira, Welder Batista de 21 August 2017 (has links)
Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2017-10-05T20:06:57Z
No. of bitstreams: 2
Dissertacao- Welder Batista de Oliveira - 2017.pdf: 2420889 bytes, checksum: c26aee2605e42f2a9aecb9ec2523464f (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-10-06T11:09:11Z (GMT) No. of bitstreams: 2
Dissertacao- Welder Batista de Oliveira - 2017.pdf: 2420889 bytes, checksum: c26aee2605e42f2a9aecb9ec2523464f (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-10-06T11:09:11Z (GMT). No. of bitstreams: 2
Dissertacao- Welder Batista de Oliveira - 2017.pdf: 2420889 bytes, checksum: c26aee2605e42f2a9aecb9ec2523464f (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-08-21 / Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG / Geographic Information Systems have revolutionized geographic research over the past three decades.
These systems commonly provide a number of features for processing andanalyzing spatial data, such as
spatial join and skyline. Although relevant, the effectiveness of such functionalities is affected by the
imprecision of the geographic coordinates obtained by the georeferencing method employed. Moreover, the
error contained in the coordinates may present several distributional patterns, which demands the
development of solutions that are generalist concerning the error pattern that they can handle properly.
Finally, spatial operations are already computationally expensive in their deterministic version, which is
aggravated by the introduction of the stochastic component. The pre-sent work presents a general structure
of spatial operations solutions robust to imprecise coordinates based on the use of simulations and
probabilistic adaptations of heuristics in the literature. In addition, to deal with the problems mentioned, the
proposed structure is designed to contemplate the requirements of generality, accuracy and efficiency at levels
that enable its practical application. The overall solution structure is composed of the combination of
probabilistic versions of heuristics of the deterministic versions of the spatial operations and by Monte
Carlo simulations. From that structure, specific solutions - as case studies - are developed for the spatial join
and skyline. Theoretical and experimental results demonstrated the potential of the developed solutions to
meet the threerequirements established in this work. / Os Sistemas de Informação Geográfica revolucionaram a pesquisa geográfica nas últimas três
décadas. Esses sistemas comumente disponibilizam uma série de funcionalidades para
processar e analisar dados espaciais, como, por exemplo, a junção espacial e a consulta
skyline. Embora relevantes, a eficácia dessas funcionalidades é impactada pela imprecisão das
coordenadas geográficas obtidas pelo método de georreferenciamento empregado. Além
disso, o erro contido nas coordenadas pode apresentar diversos padrões distribucionais, o que
demanda o desenvolvimento de soluções que sejam generalistas quanto ao padrão de erro
que conseguem tratar adequadamente. Por fim, operações espaciais já são
computacionalmente caras em sua versão determinística, o que se agrava com a introdução
do componente estocástico. O presente trabalho apresenta uma estrutura geral para o
desenvolvimento de soluções para operações espaciais robustas a coordenadas imprecisas.
Além disso, para lidar com os problemas mencionados, a estrutura proposta é projetada para
contemplar os requisitos de generalidade, eficácia e eficiência em patamares que viabilizem sua aplicação prática. A estrutura geral de solução é composta pela combinação de versões
probabilísticas de heurísticas das versões determinísticas das operações espaciais e por
simulações de Monte Carlo. A partir dela, são desenvolvidas as soluções específicas – como
estudo de caso - para a skyline espacial e da junção espacial. Resultados teóricos e
experimentais demonstraram o potencial das soluções desenvolvidas em atender aos três
requisitos estabelecidos nesse trabalho.
|
10 |
Efficient processing of multiway spatial join queries in distributed systems / Processamento eficiente de consultas de multi-junção espacial em sistemas distribuídosOliveira, Thiago Borges de 29 November 2017 (has links)
Submitted by Franciele Moreira (francielemoreyra@gmail.com) on 2017-12-12T16:13:05Z
No. of bitstreams: 2
Tese - Thiago Borges de Oliveira - 2017.pdf: 1684209 bytes, checksum: f64b32084ca6b13a58109e4d2cffe541 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-12-13T09:33:57Z (GMT) No. of bitstreams: 2
Tese - Thiago Borges de Oliveira - 2017.pdf: 1684209 bytes, checksum: f64b32084ca6b13a58109e4d2cffe541 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-12-13T09:33:57Z (GMT). No. of bitstreams: 2
Tese - Thiago Borges de Oliveira - 2017.pdf: 1684209 bytes, checksum: f64b32084ca6b13a58109e4d2cffe541 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-11-29 / Multiway spatial join is an important type of query in spatial data processing, and its
efficient execution is a requirement to move spatial data analysis to scalable platforms
as has already happened with relational and unstructured data. In this thesis, we provide
a set of comprehensive models and methods to efficiently execute multiway spatial join
queries in distributed systems. We introduce a cost-based optimizer that is able to select a
good execution plan for processing such queries in distributed systems taking into account:
the partitioning of data based on the spatial attributes of datasets; the intra-operator level
of parallelism, which enables high scalability; and the economy of cluster resources by
appropriately scheduling the queries before execution. We propose a cost model based on
relevant metadata about the spatial datasets and the data distribution, which identifies the
pattern of costs incurred when processing a query in this environment. We formalized the
distributed multiway spatial join plan scheduling problem as a bi-objective linear integer
model, considering the minimization of both the makespan and the communication cost
as objectives. Three methods are proposed to compute schedules based on this model
that significantly reduce the resource consumption required to process a query. Although
targeting multiway spatial join query scheduling, these methods can be applied to other
kinds of problems in distributed systems, notably problems that require both the alignment
of data partitions and the assignment of jobs to machines. Additionally, we propose a
method to control the usage of resources and increase system throughput in the presence
of constraints on the network or processing capacity. The proposed cost-based optimizer
was able to select good execution plans for all queries in our experiments, using public
datasets with a significant range of sizes and complex spatial objects. We also present an
execution engine that is capable of performing the queries with near-linear scalability with
respect to execution time. / A multi-junção espacial é um tipo importante de consulta usada no processamento de
dados espaciais e sua execução eficiente é um requisito para mover a análise de dados
espaciais para plataformas escaláveis, assim como aconteceu com dados relacionais e não
estruturados. Nesta tese, propomos um conjunto de modelos e métodos para executar eficientemente
consultas de multi-junção espacial em sistemas distribuídos. Apresentamos um
otimizador baseado em custos que seleciona um bom plano de execução levando em consideração:
o particionamento de dados com base nos atributos espaciais dos datasets; o nível
de paralelismo intra-operador que proporciona alta escalabilidade; e o escalonamento das
consultas antes da execução que resulta em economia de recursos computacionais. Propomos
um modelo de custo baseado em metadados dos datasets e da distribuição de dados,
que identifica o padrão de custos incorridos no processamento de uma consulta neste ambiente.
Formalizamos o problema de escalonamento de planos de execução da multi-junção
espacial distribuída como um modelo linear inteiro bi-objetivo, que minimiza tanto o custo
de processamento quanto o custo de comunicação. Propomos três métodos para gerar escalonamentos
a partir deste modelo, os quais reduzem significativamente o consumo de
recursos no processamento das consultas. Embora projetados para o escalonamento da
multi-junção espacial, esses métodos podem também ser aplicados a outros tipos de problemas
em sistemas distribuídos, que necessitam do alinhamento de partições de dados
e da distribuição de tarefas a máquinas de forma balanceada. Além disso, propomos um
método para controlar o uso de recursos e aumentar a vazão do sistema na presença de
restrições nas capacidades da rede ou de processamento. O otimizador proposto foi capaz
de selecionar bons planos de execução para todas as consultas em nossos experimentos, as
quais usaram datasets públicos com uma variedade significativa de tamanhos e de objetos
espaciais complexos. Apresentamos também uma máquina de execução, capaz de executar
as consultas com escalabilidade próxima de linear em relação ao tempo de execução.
|
Page generated in 0.0464 seconds