Return to search

Managing numerical simulation data using a multidimensional array representation

Submitted by Maria Cristina (library@lncc.br) on 2017-04-18T17:56:33Z
No. of bitstreams: 1
Dissertação (Hermano Lustosa).pdf: 11841214 bytes, checksum: c30da4b19ca9fd69bf262318a593729b (MD5) / Approved for entry into archive by Maria Cristina (library@lncc.br) on 2017-04-18T17:56:51Z (GMT) No. of bitstreams: 1
Dissertação (Hermano Lustosa).pdf: 11841214 bytes, checksum: c30da4b19ca9fd69bf262318a593729b (MD5) / Made available in DSpace on 2017-04-18T17:57:04Z (GMT). No. of bitstreams: 1
Dissertação (Hermano Lustosa).pdf: 11841214 bytes, checksum: c30da4b19ca9fd69bf262318a593729b (MD5)
Previous issue date: 2015-12-09 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / Scientific applications, such as numerical simulations, generate an ever increasing amount of data that needs to be eficiently managed. As most traditional row-store Database Management Systems are not tailored for the analytical workload usually required by such applications, alternative approaches, e. g., columnstore and multidimensional arrays, can offer better querying processing time. In this work, we propose new techniques for managing the data produced by numerical simulations, such as those coming from HeMoLab, by using multidimensional array technologies.
We take advantage of multidimensional array that nicely models the dimensions
and variables used in numerical simulations. The eficient mapping of the
simulation output file onto a multi-dimensional array is not simple. A naive solution may lead to sparse arrays, impacting query response time, specially when the simulation uses irregular meshes to model its physical domain. We propose novel strategies to solve these problems by defining an eficient mapping of coordinate values in numerical simulations to evenly distribute cells in array chunks with the use of equi-depth histograms and space-filling curves.
We evaluated our techniques through experiments over real-world data, comparing them with a columnar and a row-store relational systems. The results indicate that multidimensional arrays and column-stores are much faster than a tradivitional row-store system for queries issued over a larger amount of simulation data.
Also, the results help to identify the scenarios in which using multidimensional
arrays is the most eficient approach, and the ones in which they are outperformed by the relational column-store approach. / Aplicações científicas geram uma crescente massa de dados que precisam ser analisados e gerenciados eficientemente. Uma vez que os tradicionais bancos de dados relacionais não são projetados para a carga de trabalho predominantemente analítica exigida por essas aplicações, abordagens alternativas, tais como, matrizes multidimensionais e bancos de dados colunares, podem oferecer melhores tempos de execução de consultas. Neste trabalho, propomos o uso de novas tecnologias para a gerência de dados produzidos por simulações numéricas, similares às desenvolvidas pelo HeMoLab.
O modelo de matrizes multidimensionais permite a modelagem elegante de dimensões e variáveis usadas em simulações numéricas. Entretanto, o mapeamento dos dados de saída de uma simulação em uma matriz multidimensional não é simples. Uma solução ingênua pode levar a criação de matrizes excessivamente esparsas, impactando o tempo de resposta do sistema, especialmente quando a simulação utiliza uma malha irregular para modelar o seu domínio físico. Nós propomos novas estratégias para resolver esses problemas através da definição de um mapeamento eficiente de valores de coordenadas com o uso de histogramas e curvas de preenchimento espacial.
Nós avaliamos nossas técnicas através de experimentos feitos com dados reais, comparando-as com bancos de dados relacionais. Os resultados indicam que tanto iv matrizes multidimensionais quanto bancos de dados colunares são muitas vezes mais rápidos que bancos de dados relacionais tradicionais para consultas avaliando uma grande quantidade de dados. Além disso, os resultados auxiliam na identificação de cenários nos quais matrizes multidimensionais são mais eficientes, e nos quais elas são superadas por uma abordagem envolvendo o uso de um banco de dados colunar.

Identiferoai:union.ndltd.org:IBICT/oai:tede-server.lncc.br:tede/250
Date09 December 2015
CreatorsLustosa, Hermano Lourenço Souza
ContributorsPorto, Fábio André Machado, Porto, Fábio André Machado, Javier Blanco, Pablo, Gomes, Antônio Tadeu Azevedo, Mattoso, Marta Lima de Queiroz
PublisherLaboratório Nacional de Computação Científica, Programa de Pós-Graduação em Modelagem Computacional, LNCC, Brasil, Coordenação de Pós-Graduação e Aperfeiçoamento
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do LNCC, instname:Laboratório Nacional de Computação Científica, instacron:LNCC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds