Global ETD Search

1	An event-based approach to process environmental data = Um enfoque baseado em eventos para processar dados ambientais / Um enfoque baseado em eventos para processar dados ambientais Koga, Ivo Kenji, 1981- 23 August 2018 (has links) Orientador: Claudia Maria Bauzer Medeiros / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-23T23:06:49Z (GMT). No. of bitstreams: 1 Koga_IvoKenji_D.pdf: 2109870 bytes, checksum: 7ac5400b2e71be3e15b3bdf5504e3adf (MD5) Previous issue date: 2013 / Resumo: O resumo poderá ser visualizado no texto completo da tese digital / Abstract: The complete abstract is available with the full electronic document. / Doutorado / Ciência da Computação / Doutor em Ciência da Computação Processamento de eventos (Computação) Event processing (Computer science)
2	Adaptação de algoritmos de processamento de dados ambientais para o contexto de Big Data Campos, Guilherme Falcão da Silva 23 November 2015 (has links) Submitted by Jordan (jordanbiblio@gmail.com) on 2017-05-04T14:04:39Z No. of bitstreams: 1 DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) / Approved for entry into archive by Jordan (jordanbiblio@gmail.com) on 2017-05-04T15:41:39Z (GMT) No. of bitstreams: 1 DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) / Made available in DSpace on 2017-05-04T15:41:39Z (GMT). No. of bitstreams: 1 DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) Previous issue date: 2015-11-23 / Pesquisas ambientais dependem de dados de sensores para a criação das séries temporais referentes às variáveis analisadas. A quantidade de dados tende a aumentar, cada vez mais, à medida que novos sensores são criados e instalados. Com o passar do tempo os conjuntos de dados se tornam massivos, requerendo novas formas de armazenamento e processamento. Este trabalho busca meios de se contornar esses problemas utilizando uma solução tecnológica capaz de armazenar e processar grandes quantidades de dados. A solução tecnológica utilizada é o Apache Hadoop, uma ferramenta voltada a problemas de Big Data. Com a finalidade de avaliar a ferramenta foram utilizados diferentes conjuntos de dados e adaptados diferentes algoritmos usados na análise de séries temporais. Foram implementados analises de séries caóticas e não caóticas. As implementações foram a transformada de wavelet, uma busca por similaridade usando a função de distância Euclidiana, cálculo da dimensão box-counting e o cálculo da dimensão de correlação. Essas implementações foram adaptadas para utilizar o paradigma de processamento distribuído MapReduce. / Environmental research depend on sensor generated data to create time series regarding the variables that are being analyzed. The amount of data tends to increase as more and more sensors are created and installed. After some time the datasets become huge and requires new ways to process and store the data. This work seeks to find ways to avoid these issues using a technological solution able to store and process large amounts of data. The solution used is Apache Hadoop, a tool which purpose is to solve Big Data problems. In order to evaluate the tool were used different datasets and time series analysis algorithms. The analysis of chaotic and non-chaotic time series were implemented. These implementations were: the wavelet transform, similarity search using Euclidean distance function, the calculus of the box-counting dimension and the calculus of the correlation dimension. Those implementations were adapted for the MapReduce parallel processing paradigm. CNPQ::CIENCIAS EXATAS E DA TERRA::FISICA MapReduce Hadoop Wavelets Dimensão fractal Dados ambientais MapReduce Hadoop Wavelets Fractal dimension Environmental data
3	Algoritmo kNN para previsão de dados temporais: funções de previsão e critérios de seleção de vizinhos próximos aplicados a variáveis ambientais em limnologia / Time series prediction using a KNN-based algorithm prediction functions and nearest neighbor selection criteria applied to limnological data Ferrero, Carlos Andres 04 March 2009 (has links) A análise de dados contendo informações sequenciais é um problema de crescente interesse devido à grande quantidade de informação que é gerada, entre outros, em processos de monitoramento. As séries temporais são um dos tipos mais comuns de dados sequenciais e consistem em observações ao longo do tempo. O algoritmo k-Nearest Neighbor - Time Series Prediction kNN-TSP é um método de previsão de dados temporais. A principal vantagem do algoritmo é a sua simplicidade, e a sua aplicabilidade na análise de séries temporais não-lineares e na previsão de comportamentos sazonais. Entretanto, ainda que ele frequentemente encontre as melhores previsões para séries temporais parcialmente periódicas, várias questões relacionadas com a determinação de seus parâmetros continuam em aberto. Este trabalho, foca-se em dois desses parâmetros, relacionados com a seleção de vizinhos mais próximos e a função de previsão. Para isso, é proposta uma abordagem simples para selecionar vizinhos mais próximos que considera a similaridade e a distância temporal de modo a selecionar os padrões mais similares e mais recentes. Também é proposta uma função de previsão que tem a propriedade de manter bom desempenho na presença de padrões em níveis diferentes da série temporal. Esses parâmetros foram avaliados empiricamente utilizando várias séries temporais, inclusive caóticas, bem como séries temporais reais referentes a variáveis ambientais do reservatório de Itaipu, disponibilizadas pela Itaipu Binacional. Três variáveis limnológicas fortemente correlacionadas são consideradas nos experimentos de previsão: temperatura da água, temperatura do ar e oxigênio dissolvido. Uma análise de correlação é realizada para verificar se os dados previstos mantem a correlação das variáveis. Os resultados mostram que, o critério de seleção de vizinhos próximos e a função de previsão, propostos neste trabalho, são promissores / Treating data that contains sequential information is an important problem that arises during the data mining process. Time series constitute a popular class of sequential data, where records are indexed by time. The k-Nearest Neighbor - Time Series Prediction kNN-TSP method is an approximator for time series prediction problems. The main advantage of this approximator is its simplicity, and is often used in nonlinear time series analysis for prediction of seasonal time series. Although kNN-TSP often finds the best fit for nearly periodic time series forecasting, some problems related to how to determine its parameters still remain. In this work, we focus in two of these parameters: the determination of the nearest neighbours and the prediction function. To this end, we propose a simple approach to select the nearest neighbours, where time is indirectly taken into account by the similarity measure, and a prediction function which is not disturbed in the presence of patterns at different levels of the time series. Both parameters were empirically evaluated on several artificial time series, including chaotic time series, as well as on a real time series related to several environmental variables from the Itaipu reservoir, made available by Itaipu Binacional. Three of the most correlated limnological variables were considered in the experiments carried out on the real time series: water temperature, air temperature and dissolved oxygen. Analyses of correlation were also accomplished to verify if the predicted variables values maintain similar correlation as the original ones. Results show that both proposals, the one related to the determination of the nearest neighbours as well as the one related to the prediction function, are promising Aprendizado de máquina Dados ambientais Environmental data Funções de previsão Limnologia Limnology Machine learning Nearest neighbor selection Prediction functions Previsão de dados temporais Seleção de vizinhos próximos Time series prediction
4	Modelos de distribuição potencial em escala fina: metodologia de validação em campo e aplicação para espécies arbóreas / Potential distribution models in fine scale: validation methodology in the field and application to tree species Ferreira, Larissa Campos 11 November 2015 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-02-15T14:11:09Z No. of bitstreams: 1 FERREIRA_Larissa_2015.pdf: 46221411 bytes, checksum: ae8a0358ebf5e33024f58e5c75dae037 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-02-15T14:11:21Z (GMT) No. of bitstreams: 1 FERREIRA_Larissa_2015.pdf: 46221411 bytes, checksum: ae8a0358ebf5e33024f58e5c75dae037 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-02-15T14:11:31Z (GMT) No. of bitstreams: 1 FERREIRA_Larissa_2015.pdf: 46221411 bytes, checksum: ae8a0358ebf5e33024f58e5c75dae037 (MD5) / Made available in DSpace on 2017-02-15T14:11:38Z (GMT). No. of bitstreams: 1 FERREIRA_Larissa_2015.pdf: 46221411 bytes, checksum: ae8a0358ebf5e33024f58e5c75dae037 (MD5) Previous issue date: 2015-11-11 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Some conservation actions require the knowledge of the geographical distribution of species, however, this knowledge is far from being achieved for most species. The species distribution models (SDMs) have proved a useful tool to predict the distribution of species and guide field research to find new records. The SDMs using field data occurrence and environmental variables to indicate potential sites for the occurrence of a species. The quality and quantity of the data used are important to a successful result prediction models and application to conservation. The choice of environmental data and the algorithm and their settings are important for the development of models, the choice of these variables have directly influences to the quality of the models. Another very important step in modeling is the quality assessment and validation of the model, is that it may decrease the risk of accepting as true models with gross errors. The objective of this study is to evaluate the applicability of models generated by MaxEnt to find new populations of plants considering different data configurations used. For this, considering that the field validation is the most appropriate in the literature, but the most costly, the first chapter proposes a validation methodology of the models as easy application field. The methodology was able to find new records in the field, therefore, indicated for the validation of models. In the second chapter, knowing of the existence of a wide variety of variables that influence the performance of the models, the aim was to test the influence of the sample size, the spatial bias, the set of climate data and settings available for the MaxEnt algorithm in the areas of prediction potential distribution. The results demonstrated that the use of sampling and climate data restricted to the limit of the study area and also the use of soil data generate more accurate models. / Algumas ações conservacionistas necessitam do conhecimento da distribuição geográfica das espécies, porém, esse conhecimento está longe de ser alcançado para a maioria das espécies. Os modelos de distribuição de espécies (MDEs) têm se mostrado uma ferramenta útil para prever a distribuição das espécies e guiar pesquisas de campo para encontrar novos registros. Os MDEs utilizam dados de ocorrência e variáveis ambientais para indicar locais potenciais para a ocorrência de uma espécie. A precisão e quantidade dos dados utilizados são importantes para um bom resultado de predição dos modelos e aplicação à conservação. A escolha dos dados ambientais e do algoritmo e suas configurações são essenciais para o desenvolvimento dos modelos, pois influenciam diretamente na qualidade dos mesmos. Outra etapa bastante importante na modelagem é a validação do modelo, pois é ela que diminui o risco de aceitar como verdadeiros modelos que possuem erros grosseiros. O objetivo principal deste estudo é avaliar a aplicabilidade de modelos gerados pelo MaxEnt para encontrar populações de plantas, considerando diferentes configurações dos dados utilizados. Para isso o primeiro capítulo propõe uma metodologia de validação dos modelos em campo de fácil aplicação, uma vez que a validação em campo é a mais indicada pela literatura. A metodologia proposta no capítulo um é uma adaptação ao método de “caminhamento” ou método expedito de levantamento e caracterização da vegetação. A metodologia proposta foi eficaz para a localização das espécies em campo e mostrou que a caracterização da vegetação é uma etapa importante para a interpretação dos resultados, uma vez que explicou a ausência de duas espécies em áreas onde o modelo havia previsto presença. Apresenta como principal desvantagem a necessidade de pessoas experientes para o reconhecimento das espécies de plantas para a sua aplicação de forma agilizada. No segundo capítulo, foi testada a influência da área de amostragem, do conjunto de dados climáticos e das configurações do algoritmo Maxent na predição de áreas potenciais de distribuição. Os resultados obtidos demonstraram que o uso de dados amostrais e climáticos restritos aos limites da área de interesse para a busca das espécies e a inclusão de dados de solo geram modelos mais acurados. Mostrou também que as diferentes configurações do Maxent geraram modelos muito similares. Fitogeografia Maxent Conjuntos de dados ambientais Matriz de confusão Método de caminhamento Phytogeography Field validation Environmental data sets Confusion matrix
5	Algoritmo kNN para previsão de dados temporais: funções de previsão e critérios de seleção de vizinhos próximos aplicados a variáveis ambientais em limnologia / Time series prediction using a KNN-based algorithm prediction functions and nearest neighbor selection criteria applied to limnological data Carlos Andres Ferrero 04 March 2009 (has links) A análise de dados contendo informações sequenciais é um problema de crescente interesse devido à grande quantidade de informação que é gerada, entre outros, em processos de monitoramento. As séries temporais são um dos tipos mais comuns de dados sequenciais e consistem em observações ao longo do tempo. O algoritmo k-Nearest Neighbor - Time Series Prediction kNN-TSP é um método de previsão de dados temporais. A principal vantagem do algoritmo é a sua simplicidade, e a sua aplicabilidade na análise de séries temporais não-lineares e na previsão de comportamentos sazonais. Entretanto, ainda que ele frequentemente encontre as melhores previsões para séries temporais parcialmente periódicas, várias questões relacionadas com a determinação de seus parâmetros continuam em aberto. Este trabalho, foca-se em dois desses parâmetros, relacionados com a seleção de vizinhos mais próximos e a função de previsão. Para isso, é proposta uma abordagem simples para selecionar vizinhos mais próximos que considera a similaridade e a distância temporal de modo a selecionar os padrões mais similares e mais recentes. Também é proposta uma função de previsão que tem a propriedade de manter bom desempenho na presença de padrões em níveis diferentes da série temporal. Esses parâmetros foram avaliados empiricamente utilizando várias séries temporais, inclusive caóticas, bem como séries temporais reais referentes a variáveis ambientais do reservatório de Itaipu, disponibilizadas pela Itaipu Binacional. Três variáveis limnológicas fortemente correlacionadas são consideradas nos experimentos de previsão: temperatura da água, temperatura do ar e oxigênio dissolvido. Uma análise de correlação é realizada para verificar se os dados previstos mantem a correlação das variáveis. Os resultados mostram que, o critério de seleção de vizinhos próximos e a função de previsão, propostos neste trabalho, são promissores / Treating data that contains sequential information is an important problem that arises during the data mining process. Time series constitute a popular class of sequential data, where records are indexed by time. The k-Nearest Neighbor - Time Series Prediction kNN-TSP method is an approximator for time series prediction problems. The main advantage of this approximator is its simplicity, and is often used in nonlinear time series analysis for prediction of seasonal time series. Although kNN-TSP often finds the best fit for nearly periodic time series forecasting, some problems related to how to determine its parameters still remain. In this work, we focus in two of these parameters: the determination of the nearest neighbours and the prediction function. To this end, we propose a simple approach to select the nearest neighbours, where time is indirectly taken into account by the similarity measure, and a prediction function which is not disturbed in the presence of patterns at different levels of the time series. Both parameters were empirically evaluated on several artificial time series, including chaotic time series, as well as on a real time series related to several environmental variables from the Itaipu reservoir, made available by Itaipu Binacional. Three of the most correlated limnological variables were considered in the experiments carried out on the real time series: water temperature, air temperature and dissolved oxygen. Analyses of correlation were also accomplished to verify if the predicted variables values maintain similar correlation as the original ones. Results show that both proposals, the one related to the determination of the nearest neighbours as well as the one related to the prediction function, are promising Aprendizado de máquina Dados ambientais Funções de previsão Limnologia Previsão de dados temporais Seleção de vizinhos próximos Environmental data Limnology Machine learning Nearest neighbor selection Prediction functions Time series prediction

1

Page generated in 0.0716 seconds