Return to search

Adaptação de algoritmos de processamento de dados ambientais para o contexto de Big Data

Submitted by Jordan (jordanbiblio@gmail.com) on 2017-05-04T14:04:39Z
No. of bitstreams: 1
DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) / Approved for entry into archive by Jordan (jordanbiblio@gmail.com) on 2017-05-04T15:41:39Z (GMT) No. of bitstreams: 1
DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) / Made available in DSpace on 2017-05-04T15:41:39Z (GMT). No. of bitstreams: 1
DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5)
Previous issue date: 2015-11-23 / Pesquisas ambientais dependem de dados de sensores para a criação das séries
temporais referentes às variáveis analisadas. A quantidade de dados tende a aumentar,
cada vez mais, à medida que novos sensores são criados e instalados.
Com o passar do tempo os conjuntos de dados se tornam massivos, requerendo
novas formas de armazenamento e processamento. Este trabalho busca meios de
se contornar esses problemas utilizando uma solução tecnológica capaz de armazenar
e processar grandes quantidades de dados. A solução tecnológica utilizada
é o Apache Hadoop, uma ferramenta voltada a problemas de Big Data. Com a
finalidade de avaliar a ferramenta foram utilizados diferentes conjuntos de dados
e adaptados diferentes algoritmos usados na análise de séries temporais. Foram
implementados analises de séries caóticas e não caóticas. As implementações foram
a transformada de wavelet, uma busca por similaridade usando a função de
distância Euclidiana, cálculo da dimensão box-counting e o cálculo da dimensão
de correlação. Essas implementações foram adaptadas para utilizar o paradigma
de processamento distribuído MapReduce. / Environmental research depend on sensor generated data to create time series
regarding the variables that are being analyzed. The amount of data tends to
increase as more and more sensors are created and installed. After some time the
datasets become huge and requires new ways to process and store the data. This
work seeks to find ways to avoid these issues using a technological solution able
to store and process large amounts of data. The solution used is Apache Hadoop,
a tool which purpose is to solve Big Data problems. In order to evaluate the tool
were used different datasets and time series analysis algorithms. The analysis of
chaotic and non-chaotic time series were implemented. These implementations
were: the wavelet transform, similarity search using Euclidean distance function,
the calculus of the box-counting dimension and the calculus of the correlation
dimension. Those implementations were adapted for the MapReduce parallel
processing paradigm.

Identiferoai:union.ndltd.org:IBICT/oai:localhost:1/275
Date23 November 2015
CreatorsCampos, Guilherme Falcão da Silva
ContributorsFigueiredo, Josiel Maimone de, Figueiredo, Josiel Maimone de, Gomes, Raphael de Souza Rosa, Vieira, Marcos Rodrigues
PublisherUniversidade Federal de Mato Grosso, Programa de Pós-Graduação em Física Ambiental, UFMT CUC - Cuiabá, Brasil, Instituto de Física (IF)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFMT, instname:Universidade Federal de Mato Grosso, instacron:UFMT
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds