Global ETD Search

1	Processamento distribuído da junção espacial de múltiplas bases de dados: multi-way spatial join Cunha, Anderson Rogério 19 February 2014 (has links) Submitted by Erika Demachki (erikademachki@gmail.com) on 2014-12-29T15:33:04Z No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Dissertação - Anderson Rogério Cunha - 2014.pdf: 4853685 bytes, checksum: d50cf557f1a067a91c2034443ee62df2 (MD5) / Approved for entry into archive by Erika Demachki (erikademachki@gmail.com) on 2014-12-29T15:39:23Z (GMT) No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Dissertação - Anderson Rogério Cunha - 2014.pdf: 4853685 bytes, checksum: d50cf557f1a067a91c2034443ee62df2 (MD5) / Made available in DSpace on 2014-12-29T15:39:23Z (GMT). No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Dissertação - Anderson Rogério Cunha - 2014.pdf: 4853685 bytes, checksum: d50cf557f1a067a91c2034443ee62df2 (MD5) Previous issue date: 2014-02-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Spatial join is one of the spatial operations of higher computational cost. Its complexity increases significantly when it involves multiple databases (multi-way spatial join). Traditional processing strategies of multi-way spatial join apply combinations of binary join algorithms on centralized computing environments. For complex queries, this approach requires much computational power, making it often unfeasible in centralized environments. This work proposes the Distributed Synchronous Traversal algorithm (DST), whose goal is to enable the distributed processing of multi-way spatial joins on a cluster of computers. The DST algorithm is based on Synchronous Traversal algorithm and processes the multiway spatial join in a single synchronous descent upon R-Trees levels of the database entries (the final outcome is built incrementally, without creating temporary databases). To the best of our knowledge, there are no other proposals in the literature that deal with this problem in a distributed fashion and on a peer-to-peer architecture. Many challenges had to be overcome, such as the definition of data structures that enabled the mapping of the semantics of queries of multi-way spatial join and coordination of the required distributed processing. DST proved to be satisfactorily parallelizable and scalable process real datasets in experiments performed in clusters of 1, 2, 4 and 8 servers. / A junção espacial (Spatial Join) é uma das operações espaciais de maior custo computacional. Sua complexidade aumenta significativamente quando envolve múltiplas bases de dados (multi-way spatial join). Estratégias tradicionais de processamento do multi-way spatial join aplicam combinações de algoritmos de junção binária sobre ambientes computacionais centralizados. Em consultas complexas, esse tipo de abordagem exige grande capacidade computacional muitas vezes inviável em ambientes centralizados. Neste trabalho é proposto o algoritmo Distributed Synchronous Traversal (DST), cujo objetivo é tornar viável a execução distribuída do multi-way spatial join em um cluster de computadores. O DST se baseia no algoritmo Synchronous Traversal e processa o multiway spatial join em uma única descida síncrona sobre os níveis das R-Trees das bases de dados de entrada. O resultado final é construído incrementalmente, sem a consolidação de dados intermediários. Até onde conhecemos, não há outras propostas na literatura para multi-way spatial join distribuído sobre uma arquitetura peer-to-peer. Muitos desafios tiveram que ser superados, como a definição de estruturas de dados que possibilitassem o mapeamento da semântica das consultas de multi-way spatial join e a coordenação do processamento distribuído das mesmas. O DST se mostrou satisfatoriamente paralelizável e escalável ao processar bases de dados reais em clusters de até 8 servidores. Processamento distribuído Junção espacial Multi-way spatial join R-Tree Distributed processing Spatial join
2	Processamento de consultas SOLAP drill-across e com junção espacial em data warehouses geográficos / Processing of drill-across and spatial join SOLAP queries over geographic data warehouses Brito, Jaqueline Joice 28 November 2012 (has links) Um data warehouse geográco (DWG) é um banco de dados multidimensional, orientado a assunto, integrado, histórico, não-volátil e geralmente organizado em níveis de agregação. Além disso, também armazena dados espaciais em uma ou mais dimensões ou em pelo menos uma medida numérica. Visando oferecer suporte à tomada de decisão, é possível realizar em DWGs consultas SOLAP (spatial online analytical processing ), isto é, consultas analíticas multidimensionais (e.g., drill-down, roll-up, drill-across ) com predicados espaciais (e.g., intersecta, contém, está contido) denidos para range queries e junções espaciais. Um desafio no processamento dessas consultas é recuperar, de forma eficiente, dados espaciais e convencionais em DWGs muito volumosos. Na literatura, existem poucos índices voltados à indexação de DWGs, e ainda assim nenhum desses índices dedica-se a indexar consultas SOLAP drill-across e com junção espacial. Esta dissertação visa suprir essa limitação, por meio da proposta de estratégias para o processamento dessas consultas complexas. Para o processamento de consultas SOLAP drill-across foram propostas duas estratégias, Divide e Única, além da especicação de um conjunto de diretrizes que deve ser seguido para o projeto de um esquema de DWG que possibilite a execução dessas consultas e da especicação de classes de consultas. Para o processamento de consultas SOLAP com junção espacial foi proposta a estratégia SJB, além da identicação de quais características o esquema de DWG deve possuir para possibilitar a execução dessas consultas e da especicação do formato dessas consultas. A validação das estratégias propostas foi realizada por meio de testes de desempenho considerando diferentes congurações, sendo que os resultados obtidos foram contrastados com a execução de consultas do tipo junção estrela e o uso de visões materializadas. Os resultados mostraram que as estratégias propostas são muito eficientes. No processamento de consultas SOLAP drill-across, as estratégias Divide e Única mostraram uma redução no tempo de 82,7% a 98,6% com relação à junção estrela e ao uso de visões materializadas. No processamento de consultas SOLAP com junção espacial, a estratégia SJB garantiu uma melhora de desempenho na grande maioria das consultas executadas. Para essas consultas, o ganho de desempenho variou de 0,3% até 99,2% / A geographic data warehouse (GDW) is a special kind of multidimensional database. It is subject-oriented, integrated, historical, non-volatile and usually organized in levels of aggregation. Furthermore, a GDW also stores spatial data in one or more dimensions or at least in one numerical measure. Aiming at decision support, GDWs allow SOLAP (spatial online analytical processing) queries, i.e., multidimensional analytical queries (e.g., drill-down, roll-up, drill-across) extended with spatial predicates (e.g., intersects, contains, is contained) dened for range and spatial join queries. A challenging issue related to the processing of these complex queries is how to recover spatial and conventional data stored in huge GDWs eciently. In the literature, there are few access methods dedicated to index GDWs, and none of these methods focus on drill-across and spatial join SOLAP queries. In this master\'s thesis, we propose novel strategies for processing these complex queries. We introduce two strategies for processing SOLAP drill-across queries (namely, Divide and Unique), dene a set of guidelines for the design of a GDW schema that enables the execution of these queries, and determine a set of classes of these queries to be issued over a GDW schema that follows the proposed guidelines. As for the processing of spatial join SOLAP queries, we propose the SJB strategy, and also identify the characteristics of a DWG schema that enables the execution of these queries as well as dene the format of these queries. We validated the proposed strategies through performance tests that compared them with the star join computation and the use of materialized views. The obtained results showed that our strategies are very ecient. Regarding the SOLAP drill-across queries, the Divide and Unique strategies showed a time reduction that ranged from 82,7% to 98,6% with respect to star join computation and the use of materialized views. Regarding the SOLAP spatial join queries, the SJB strategy guaranteed best results for most of the analyzed queries. For these queries, the performance gain of the SJB strategy ranged from 0,3% to 99,2% over the star join computation and the use of materialized view Data warehouses geográficos Drill-across Drill-across Geographic data warehouses Junção espacial Processamento de consultas SOLAP Processing of SOLAP queries Spatial join
3	DistJoin: plataforma de processamento distribuído de operações de junção espacial com bases de dados dinâmicas / DistJoin: platform for distributed processing of spatial join operations with dynamic datasets Oliveira, Sávio Salvarino Teles de 28 June 2013 (has links) Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2014-10-09T12:30:33Z No. of bitstreams: 2 Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-10-09T14:44:35Z (GMT) No. of bitstreams: 2 Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-10-09T14:44:35Z (GMT). No. of bitstreams: 2 Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2013-06-28 / Fundação de Apoio à Pesquisa - FUNAPE / Geographic Information Systems (GIS) have received increasing attention in research institutes and industry in recent years. A Spatial Database Managament System (SDBMS) is one of the main components of a GIS and spatial join is one of the most important operations in SDBMS. Spatial join involves the relationship between two datasets, combining the geometries according some spatial predicate, such as intersection. Due to the increasing availability of spatial data, the growing number of GIS users, and the high cost of the processing of spatial operations, distributed SGBDEs (SGBDED) have been proposed as a good option to efficiently process spatial join on a cluster. This distributed processing brings some challenges, such as the data distribution and parallel and distributed processing of spatial join. This paper presents a platform for parallel and distributed processing of spatial joins in a cluster using data distribution techniques for dynamic datasets. Studies in the literature have explored data distribution techniques for static datasets, where any update requires data redistribution. This becomes unfeasible when using large datasets with frequent updates. Therefore, this paper proposes two new data distribution techniques for dynamic datasets: Proximity Area and Grid Proximity Area. These techniques have been evaluated to determine which scenarios each technique is more appropriate for. For this purpose, these techniques are evaluated in a real environment using datasets with different characteristics. Therefore, it is possible to evaluate the spatial join operation in real scenarios with each technique. / Os Sistemas de Informação Geográfica (SIG) têm recebido cada vez mais destaque nos institutos de pesquisa e na indústria nos últimos anos. Um Sistema de Gerência de Bancos de Dados Espaciais (SGBDE) é um dos principais componentes de um SIG e a junção espacial uma das operações mais importantes nos SGBDEs. Ela envolve o relacionamento entre duas bases de dados, combinando as geometrias de acordo com algum predicado espacial, como intersecção. Devido à crescente disponibilidade de dados espaciais, ao aumento no número de usuários dos SIGS e ao alto custo de processamento das operações espaciais, os SGBDE distribuídos (SGBDED) surgem com uma boa opção para processar a junção espacial de forma eficiente em um cluster de computadores. Esse processamento distribuído traz consigo alguns desafios, tais como a distribuição dos dados pelo cluster e o processamento paralelo e distribuído da junção espacial. O objetivo deste trabalho é apresentar uma plataforma de geoprocessamento paralelo e distribuído da junção espacial em um cluster de computadores, utilizando técnicas de distribuição de dados para bases de dados dinâmicas. Os trabalhos encontrados na literatura têm explorado técnicas de distribuição de dados indicadas para bases de dados estáticas, onde qualquer atualização da base de dados requer que todos os dados sejam novamente distribuídos pelo cluster. Isto se torna inviável com grandes bases de dados e que sofrem constantes atualizações. Por isso, este trabalho propõe duas novas técnicas de distribuição de dados com bases de dados dinâmicas: Proximity Area e Grid Proximity Area. Estas técnicas foram avaliadas para definir em quais cenários cada uma delas é mais apropriada. Para tal, estas técnicas foram avaliadas em um ambiente real com bases de dados com características diferentes, para que fosse possível experimentar a junção espacial distribuída em cenários diversos com cada técnica de distribuição de dados. Junção espacial distribuída Bases de dados dinâmicas R-Tree Distributed spatial join Dynamic dataset R-Tree
4	Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMS Fornari, Miguel Rodrigues January 2006 (has links) Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small. Geoinformática Sistemas : Informacao geografica Banco : Dados geograficos Otimizacao : Consultas Geographic Database Management Systems Query processing Spatial join
5	Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMS Fornari, Miguel Rodrigues January 2006 (has links) Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small. Geoinformática Sistemas : Informacao geografica Banco : Dados geograficos Otimizacao : Consultas Geographic Database Management Systems Query processing Spatial join
6	Processamento de consultas SOLAP drill-across e com junção espacial em data warehouses geográficos / Processing of drill-across and spatial join SOLAP queries over geographic data warehouses Jaqueline Joice Brito 28 November 2012 (has links) Um data warehouse geográco (DWG) é um banco de dados multidimensional, orientado a assunto, integrado, histórico, não-volátil e geralmente organizado em níveis de agregação. Além disso, também armazena dados espaciais em uma ou mais dimensões ou em pelo menos uma medida numérica. Visando oferecer suporte à tomada de decisão, é possível realizar em DWGs consultas SOLAP (spatial online analytical processing ), isto é, consultas analíticas multidimensionais (e.g., drill-down, roll-up, drill-across ) com predicados espaciais (e.g., intersecta, contém, está contido) denidos para range queries e junções espaciais. Um desafio no processamento dessas consultas é recuperar, de forma eficiente, dados espaciais e convencionais em DWGs muito volumosos. Na literatura, existem poucos índices voltados à indexação de DWGs, e ainda assim nenhum desses índices dedica-se a indexar consultas SOLAP drill-across e com junção espacial. Esta dissertação visa suprir essa limitação, por meio da proposta de estratégias para o processamento dessas consultas complexas. Para o processamento de consultas SOLAP drill-across foram propostas duas estratégias, Divide e Única, além da especicação de um conjunto de diretrizes que deve ser seguido para o projeto de um esquema de DWG que possibilite a execução dessas consultas e da especicação de classes de consultas. Para o processamento de consultas SOLAP com junção espacial foi proposta a estratégia SJB, além da identicação de quais características o esquema de DWG deve possuir para possibilitar a execução dessas consultas e da especicação do formato dessas consultas. A validação das estratégias propostas foi realizada por meio de testes de desempenho considerando diferentes congurações, sendo que os resultados obtidos foram contrastados com a execução de consultas do tipo junção estrela e o uso de visões materializadas. Os resultados mostraram que as estratégias propostas são muito eficientes. No processamento de consultas SOLAP drill-across, as estratégias Divide e Única mostraram uma redução no tempo de 82,7% a 98,6% com relação à junção estrela e ao uso de visões materializadas. No processamento de consultas SOLAP com junção espacial, a estratégia SJB garantiu uma melhora de desempenho na grande maioria das consultas executadas. Para essas consultas, o ganho de desempenho variou de 0,3% até 99,2% / A geographic data warehouse (GDW) is a special kind of multidimensional database. It is subject-oriented, integrated, historical, non-volatile and usually organized in levels of aggregation. Furthermore, a GDW also stores spatial data in one or more dimensions or at least in one numerical measure. Aiming at decision support, GDWs allow SOLAP (spatial online analytical processing) queries, i.e., multidimensional analytical queries (e.g., drill-down, roll-up, drill-across) extended with spatial predicates (e.g., intersects, contains, is contained) dened for range and spatial join queries. A challenging issue related to the processing of these complex queries is how to recover spatial and conventional data stored in huge GDWs eciently. In the literature, there are few access methods dedicated to index GDWs, and none of these methods focus on drill-across and spatial join SOLAP queries. In this master\'s thesis, we propose novel strategies for processing these complex queries. We introduce two strategies for processing SOLAP drill-across queries (namely, Divide and Unique), dene a set of guidelines for the design of a GDW schema that enables the execution of these queries, and determine a set of classes of these queries to be issued over a GDW schema that follows the proposed guidelines. As for the processing of spatial join SOLAP queries, we propose the SJB strategy, and also identify the characteristics of a DWG schema that enables the execution of these queries as well as dene the format of these queries. We validated the proposed strategies through performance tests that compared them with the star join computation and the use of materialized views. The obtained results showed that our strategies are very ecient. Regarding the SOLAP drill-across queries, the Divide and Unique strategies showed a time reduction that ranged from 82,7% to 98,6% with respect to star join computation and the use of materialized views. Regarding the SOLAP spatial join queries, the SJB strategy guaranteed best results for most of the analyzed queries. For these queries, the performance gain of the SJB strategy ranged from 0,3% to 99,2% over the star join computation and the use of materialized view Data warehouses geográficos Drill-across Junção espacial Processamento de consultas SOLAP Drill-across Geographic data warehouses Processing of SOLAP queries Spatial join
7	Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMS Fornari, Miguel Rodrigues January 2006 (has links) Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small. Geoinformática Sistemas : Informacao geografica Banco : Dados geograficos Otimizacao : Consultas Geographic Database Management Systems Query processing Spatial join
8	Processamento eficiente de junção espacial em ambiente paralelo e distribuído baseado em Spatialhadoop Mendes, Eduardo Fernando 17 February 2017 (has links) Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-08-17T12:19:08Z No. of bitstreams: 1 TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Approved for entry into archive by Ronildo Prado (producaointelectual.bco@ufscar.br) on 2017-10-25T17:55:23Z (GMT) No. of bitstreams: 1 TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Approved for entry into archive by Ronildo Prado (producaointelectual.bco@ufscar.br) on 2017-10-25T17:55:35Z (GMT) No. of bitstreams: 1 TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) / Made available in DSpace on 2017-10-25T18:01:51Z (GMT). No. of bitstreams: 1 TeseEFM.pdf: 31334481 bytes, checksum: 966afb8a981794db0aee3bc97ee11d5b (MD5) Previous issue date: 2017-02-17 / Não recebi financiamento / The huge volume of spatial data generated and made available in recent years from different sources, such as remote sensing, smart phones, space telescopes, and satellites, has motivated researchers and practitioners around the world to find out a way to process efficiently this huge volume of spatial data. Systems based on the MapReduce programming paradigm, such as Hadoop, have proven to be an efficient framework for processing huge volumes of data in many applications. However, Hadoop has showed not to be adequate in native support for spatial data due to its central structure is not aware of the spatial characteristics of such data. The solution to this problem gave rise to SpatialHadoop, which is a Hadoop extension with native support for spatial data. However, SpatialHadoop does not enable to jointly allocate related spatial data and also does not take into account any characteristics of the data in the process of task scheduler for processing on the nodes of a cluster of computers. Given this scenario, this PhD dissertation aims to propose new strategies to improve the performance of the processing of the spatial join operations for huge volumes of data using SpatialHadoop. For this purpose, the proposed solutions explore the joint allocation of related spatial data and the scheduling strategy of MapReduce for related spatial data also allocated in a jointly form. The efficient data access is an essential step in achieving better performance during query processing. Therefore, the proposed solutions allow the reduction of network traffic and I/O operations to the disk and consequently improve the performance of spatial join processing by using SpatialHadoop. By means of experimental evaluations, it was possible to show that the novel data allocation policies and scheduling tasks actually improve the total processing time of the spatial join operations. The performance gain varied from 14.7% to 23.6% if compared to the baseline proposed by CoS-HDFS and varied from 8.3% to 65% if compared to the native support of SpatialHadoop. / A explosão no volume de dados espaciais gerados e disponibilizados nos últimos anos, provenientes de diferentes fontes, por exemplo, sensoriamento remoto, telefones inteligentes, telescópios espaciais e satélites, motivaram pesquisadores e profissionais em todo o mundo a encontrar uma forma de processar de forma eficiente esse grande volume de dados espaciais. Sistemas baseados no paradigma de programação MapReduce, como exemplo Hadoop, provaram ser durante anos um framework eficiente para o processamento de enormes volumes de dados em muitas aplicações. No entanto, o Hadoop demonstrou não ser adequado no suporte nativo a dados espaciais devido a sua estrutura central não ter conhecimento das características espaciais desses dados. A solução para este problema deu origem ao SpatialHadoop, uma extensão do Hadoop, com suporte nativo para dados espaciais. Entretanto o SpatialHadoop não é capaz de alocar conjuntamente dados espaciais relacionados e também não leva em consideração qualquer característica dos dados no processo de escalonamento das tarefas para processamento nos nós de um cluster de computadores. Diante deste cenário, esta tese tem por objetivo propor novas estratégias para melhorar o desempenho do processamento das operações de junção espacial para grandes volumes de dados usando o SpatialHadoop. Para tanto, as soluções propostas exploram a alocação conjunta dos dados espaciais relacionados e a estratégia de escalonamento de tarefas MapReduce para dados espaciais relacionados também alocados de forma conjunta. Acredita-se que o acesso eficiente aos dados é um passo essencial para alcançar um melhor desempenho durante o processamento de consultas. Desta forma, as soluções propostas permitem a redução do tráfego de rede e operações de Entrada/Saída para o disco e consequentemente melhoram o desempenho no processamento de junção espacial usando SpatialHadoop. Por meio de testes de desempenho experimentais foi possível comprovar que as novas políticas de alocação de dados e escalonamento de tarefas de fato melhoram o tempo total de processamento das operações de junção espacial. O ganho de desempenho variou de 14,7% a 23,6% com relação ao baseline proposto por CoS-HDFS e variou de 8,3% a 65% com relação ao suporte nativo do SpatialHadoop. Banco de dados espaciais Processamento de consulta Junção espacial Processamento paralelo e distribuído Clusters de computadores Spatial databases Query processing Spatial join Parallel and distributed processing Cluster computing
9	Operações espaciais robustas à imprecisão nas coordenadas geográficas / Spatial operations robusts to geographic coordinate imprecision Oliveira, Welder Batista de 21 August 2017 (has links) Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2017-10-05T20:06:57Z No. of bitstreams: 2 Dissertacao- Welder Batista de Oliveira - 2017.pdf: 2420889 bytes, checksum: c26aee2605e42f2a9aecb9ec2523464f (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-10-06T11:09:11Z (GMT) No. of bitstreams: 2 Dissertacao- Welder Batista de Oliveira - 2017.pdf: 2420889 bytes, checksum: c26aee2605e42f2a9aecb9ec2523464f (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-10-06T11:09:11Z (GMT). No. of bitstreams: 2 Dissertacao- Welder Batista de Oliveira - 2017.pdf: 2420889 bytes, checksum: c26aee2605e42f2a9aecb9ec2523464f (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-08-21 / Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG / Geographic Information Systems have revolutionized geographic research over the past three decades. These systems commonly provide a number of features for processing andanalyzing spatial data, such as spatial join and skyline. Although relevant, the effectiveness of such functionalities is affected by the imprecision of the geographic coordinates obtained by the georeferencing method employed. Moreover, the error contained in the coordinates may present several distributional patterns, which demands the development of solutions that are generalist concerning the error pattern that they can handle properly. Finally, spatial operations are already computationally expensive in their deterministic version, which is aggravated by the introduction of the stochastic component. The pre-sent work presents a general structure of spatial operations solutions robust to imprecise coordinates based on the use of simulations and probabilistic adaptations of heuristics in the literature. In addition, to deal with the problems mentioned, the proposed structure is designed to contemplate the requirements of generality, accuracy and efficiency at levels that enable its practical application. The overall solution structure is composed of the combination of probabilistic versions of heuristics of the deterministic versions of the spatial operations and by Monte Carlo simulations. From that structure, specific solutions - as case studies - are developed for the spatial join and skyline. Theoretical and experimental results demonstrated the potential of the developed solutions to meet the threerequirements established in this work. / Os Sistemas de Informação Geográfica revolucionaram a pesquisa geográfica nas últimas três décadas. Esses sistemas comumente disponibilizam uma série de funcionalidades para processar e analisar dados espaciais, como, por exemplo, a junção espacial e a consulta skyline. Embora relevantes, a eficácia dessas funcionalidades é impactada pela imprecisão das coordenadas geográficas obtidas pelo método de georreferenciamento empregado. Além disso, o erro contido nas coordenadas pode apresentar diversos padrões distribucionais, o que demanda o desenvolvimento de soluções que sejam generalistas quanto ao padrão de erro que conseguem tratar adequadamente. Por fim, operações espaciais já são computacionalmente caras em sua versão determinística, o que se agrava com a introdução do componente estocástico. O presente trabalho apresenta uma estrutura geral para o desenvolvimento de soluções para operações espaciais robustas a coordenadas imprecisas. Além disso, para lidar com os problemas mencionados, a estrutura proposta é projetada para contemplar os requisitos de generalidade, eficácia e eficiência em patamares que viabilizem sua aplicação prática. A estrutura geral de solução é composta pela combinação de versões probabilísticas de heurísticas das versões determinísticas das operações espaciais e por simulações de Monte Carlo. A partir dela, são desenvolvidas as soluções específicas – como estudo de caso - para a skyline espacial e da junção espacial. Resultados teóricos e experimentais demonstraram o potencial das soluções desenvolvidas em atender aos três requisitos estabelecidos nesse trabalho. Sistemas de Informação Geográfica Incerteza Junção espacial Consulta skyline Coordenadas imprecisas Geographic information system Uncertainty Spatial join Skyline query Imprecise coordinates
10	Efficient processing of multiway spatial join queries in distributed systems / Processamento eficiente de consultas de multi-junção espacial em sistemas distribuídos Oliveira, Thiago Borges de 29 November 2017 (has links) Submitted by Franciele Moreira (francielemoreyra@gmail.com) on 2017-12-12T16:13:05Z No. of bitstreams: 2 Tese - Thiago Borges de Oliveira - 2017.pdf: 1684209 bytes, checksum: f64b32084ca6b13a58109e4d2cffe541 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-12-13T09:33:57Z (GMT) No. of bitstreams: 2 Tese - Thiago Borges de Oliveira - 2017.pdf: 1684209 bytes, checksum: f64b32084ca6b13a58109e4d2cffe541 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-12-13T09:33:57Z (GMT). No. of bitstreams: 2 Tese - Thiago Borges de Oliveira - 2017.pdf: 1684209 bytes, checksum: f64b32084ca6b13a58109e4d2cffe541 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-11-29 / Multiway spatial join is an important type of query in spatial data processing, and its efficient execution is a requirement to move spatial data analysis to scalable platforms as has already happened with relational and unstructured data. In this thesis, we provide a set of comprehensive models and methods to efficiently execute multiway spatial join queries in distributed systems. We introduce a cost-based optimizer that is able to select a good execution plan for processing such queries in distributed systems taking into account: the partitioning of data based on the spatial attributes of datasets; the intra-operator level of parallelism, which enables high scalability; and the economy of cluster resources by appropriately scheduling the queries before execution. We propose a cost model based on relevant metadata about the spatial datasets and the data distribution, which identifies the pattern of costs incurred when processing a query in this environment. We formalized the distributed multiway spatial join plan scheduling problem as a bi-objective linear integer model, considering the minimization of both the makespan and the communication cost as objectives. Three methods are proposed to compute schedules based on this model that significantly reduce the resource consumption required to process a query. Although targeting multiway spatial join query scheduling, these methods can be applied to other kinds of problems in distributed systems, notably problems that require both the alignment of data partitions and the assignment of jobs to machines. Additionally, we propose a method to control the usage of resources and increase system throughput in the presence of constraints on the network or processing capacity. The proposed cost-based optimizer was able to select good execution plans for all queries in our experiments, using public datasets with a significant range of sizes and complex spatial objects. We also present an execution engine that is capable of performing the queries with near-linear scalability with respect to execution time. / A multi-junção espacial é um tipo importante de consulta usada no processamento de dados espaciais e sua execução eficiente é um requisito para mover a análise de dados espaciais para plataformas escaláveis, assim como aconteceu com dados relacionais e não estruturados. Nesta tese, propomos um conjunto de modelos e métodos para executar eficientemente consultas de multi-junção espacial em sistemas distribuídos. Apresentamos um otimizador baseado em custos que seleciona um bom plano de execução levando em consideração: o particionamento de dados com base nos atributos espaciais dos datasets; o nível de paralelismo intra-operador que proporciona alta escalabilidade; e o escalonamento das consultas antes da execução que resulta em economia de recursos computacionais. Propomos um modelo de custo baseado em metadados dos datasets e da distribuição de dados, que identifica o padrão de custos incorridos no processamento de uma consulta neste ambiente. Formalizamos o problema de escalonamento de planos de execução da multi-junção espacial distribuída como um modelo linear inteiro bi-objetivo, que minimiza tanto o custo de processamento quanto o custo de comunicação. Propomos três métodos para gerar escalonamentos a partir deste modelo, os quais reduzem significativamente o consumo de recursos no processamento das consultas. Embora projetados para o escalonamento da multi-junção espacial, esses métodos podem também ser aplicados a outros tipos de problemas em sistemas distribuídos, que necessitam do alinhamento de partições de dados e da distribuição de tarefas a máquinas de forma balanceada. Além disso, propomos um método para controlar o uso de recursos e aumentar a vazão do sistema na presença de restrições nas capacidades da rede ou de processamento. O otimizador proposto foi capaz de selecionar bons planos de execução para todas as consultas em nossos experimentos, as quais usaram datasets públicos com uma variedade significativa de tamanhos e de objetos espaciais complexos. Apresentamos também uma máquina de execução, capaz de executar as consultas com escalabilidade próxima de linear em relação ao tempo de execução. Distributed multiway spatial join Cost-based optimizer Job scheduling Histograms Multi-junção espacial distribuída Otimizador baseado em custos Escalonamento de tarefas Histogramas

Search results