Global ETD Search

231	Predição de séries temporais por similaridade / Similarity-based time series prediction Antonio Rafael Sabino Parmezan 07 April 2016 (has links) Um dos maiores desafios em Mineração de Dados é a integração da informação temporal ao seu processo. Esse fato tem desafiado profissionais de diferentes domínios de aplicação e recebido investimentos consideráveis da comunidade científica e empresarial. No contexto de predição de Séries Temporais, os investimentos se concentram no subsídio de pesquisas destinadas à adaptação dos métodos convencionais de Aprendizado de Máquina para a análise de dados na qual o tempo constitui um fator importante. À vista disso, neste trabalho é proposta uma nova extensão do algoritmo de Aprendizado de Máquina k-Nearest Neighbors (kNN) para predição de Séries Temporais, intitulado de kNN - Time Series Prediction with Invariances (kNN-TSPI ). O algoritmo concebido difere da versão convencional pela incorporação de três técnicas para obtenção de invariância à amplitude e deslocamento, invariância à complexidade e tratamento de casamentos triviais. Como demonstrado ao longo desta dissertação de mestrado, o uso simultâneo dessas técnicas proporciona ao kNN-TSPI uma melhor correspondência entre as subsequências de dados e a consulta de referência. Os resultados de uma das avaliações empíricas mais extensas, imparciais e compreensíveis já conduzidas no tema de predição de Séries Temporais evidenciaram, a partir do confronto de dez métodos de projeção, que o algoritmo kNN-TSPI, além de ser conveniente para a predição automática de dados a curto prazo, é competitivo com os métodos estatísticos estado-da-arte ARIMA e SARIMA. Por mais que o modelo SARIMA tenha atingido uma precisão relativamente superior a do método baseado em similaridade, o kNN-TSPI é consideravelmente mais simples de ajustar. A comparação objetiva e subjetiva entre algoritmos estatísticos e de Aprendizado de Máquina para a projeção de dados temporais vem a suprir uma importante lacuna na literatura, a qual foi identificada por meio de uma revisão sistemática seguida de uma meta-análise das publicações selecionadas. Os 95 conjuntos de dados empregados nos experimentos computacionais juntamente com todas as projeções analisadas em termos de Erro Quadrático Médio, coeficiente U de Theil e taxa de acerto Prediction Of Change In Direction encontram-se disponíveis no portal Web ICMC-USP Time Series Prediction Repository. A presente pesquisa abrange também contribuições e resultados significativos em relação às propriedades inerentes à predição baseada em similaridade, sobretudo do ponto de vista prático. Os protocolos experimentais delineados e as diversas conclusões obtidas poderão ser usados como referência para guiar o processo de escolha de modelos, configuração de parâmetros e aplicação dos algoritmos de Inteligência Artificial para predição de Séries Temporais. / One of the major challenges in Data Mining is integrating temporal information into process. This difficulty has challenged professionals several application fields and has been object of considerable investment from scientific and business communities. In the context of Time Series prediction, these investments consist majority of grants for designed research aimed at adapting conventional Machine Learning methods for data analysis problems in which time is an important factor. We propose a novel modification of the k-Nearest Neighbors (kNN) learning algorithm for Time Series prediction, namely the kNN - Time Series Prediction with Invariances (kNN-TSPI). Our proposal differs from the literature by incorporating techniques for amplitude and offset invariance, complexity invariance, and treatment of trivial matches. These three modifications allow more meaningful matching between the reference queries and Time Series subsequences, as we discuss with more details throughout this masters thesis. We have performed one of the most comprehensible empirical evaluations of Time Series prediction, in which we faced the proposed algorithm with ten methods commonly found in literature. The results show that the kNN-TSPI is appropriate for automated short-term projection and is competitive with the state-of-the-art statistical methods ARIMA and SARIMA. Although in our experiments the SARIMA model has reached a slightly higher precision than the similarity based method, the kNN-TSPI is considerably simpler to adjust. The objective and subjective comparisons of statistical and Machine Learning algorithms for temporal data projection fills a major gap in the literature, which was identified through a systematic review followed by a meta-analysis of selected publications. The 95 data sets used in our computational experiments, as well all the projections with respect to Mean Squared Error, Theils U coefficient and hit rate Prediction Of Change In Direction are available online at the ICMC-USP Time Series Prediction Repository. This work also includes contributions and significant results with respect to the properties inherent to similarity-based prediction, especially from the practical point of view. The outlined experimental protocols and our discussion on the usage of them, can be used as a guideline for models selection, parameters setting, and employment of Artificial Intelligence algorithms for Time Series prediction. Aprendizado de máquina Métodos baseados em similaridade Mineração de dados Predição de séries temporais Data mining Machine learning Similarity-based methods Time series prediction
232	Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgms Flávia Cristina Bernardini 29 August 2006 (has links) A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results. Algoritmos genéticos Aprendizado de máquina Combinação de classificadores Computação evolutiva Essembles de classificadores Combining classifiers Essembles of classifiers Evolutionary computtion Genetic algorithms Knowledge rule evaluation measures Machine learning
233	DETERMINAÇÃO DE MODELO DE ESTIMATIVA DE TEORES DE CARBONO EM SOLOS UTILIZANDO MÁQUINA DE VETOR DE SUPORTE E REFLECTÂNCIA ESPECTRAL Teixeira, Sandro 31 July 2014 (has links) Made available in DSpace on 2017-07-21T14:19:22Z (GMT). No. of bitstreams: 1 Sandro Teixeira.pdf: 611887 bytes, checksum: da75c60dae366a84db89509883f57db4 (MD5) Previous issue date: 2014-07-31 / Considered a quality indicator, carbon constitutes an important attribute in the productive capacity of the soil. However the traditional methodologies used for determining carbon cause environmental problems due to the use of chemical reagents. The replacement of this procedure by others that generate little or no amount of toxic waste has been considered important. Spectroscopy is one of the promising techniques in Precision Agriculture for soil analysis and can be used to estimate carbon content. Among its benefits, highlights the sample preservation, no consumption of reagents, and their efficiency acquiring data from a large number of samples. The aim of this work was to contribute to determine a regression model able to predict the carbon content in soil samples using spectroscopy in the visible and near infrared region. The Machine Learning SVM technique available in the WEKA software was used to create the model. Because of their generalization ability SVM has been considered a better alternative than the other methods of multivariate regression. Two sets of soil samples collected in the Campos Gerais region were used to the experiments. The results evaluation was based on the forecast errors and the correlation coefficients between the values carbon content predicted by the model. Correlation coefficients ranging from 0.84 to 0.90 were found. It was concluded that the NIRS-vis spectroscopy combined with SVM technique can be recommended as an alternative to conventional methods for carbon analysis in the soil. / Considerado um indicador de qualidade, o carbono constitui-se em um importante atributo na capacidade produtiva do solo. Porém, as tradicionais metodologias empregadas para sua determinação geram problemas ambientais devido ao uso de reagentes químicos. Diante disso, a substituição desse procedimento por outros que gerem menor ou nenhuma quantidade de resíduos tóxicos tem sido considerada relevante. A espectroscopia é uma das técnicas promissora na Agricultura de Precisão para análises de solos e que pode trazer uma solução viável para análise de teor de carbono. Dentre suas vantagens, destaca-se a preservação da amostra, o não consumo de reagentes, além de sua eficiência na aquisição de dados provenientes de um grande número de amostras. O objetivo deste trabalho foi contribuir com um modelo de regressão capaz de predizer a quantidade de carbono em amostras de solo utilizando a espectroscopia na região do visível e no infravermelho próximo. Para tanto, foi utilizada a técnica de Aprendizagem de Máquina SVM incorporada ao software WEKA como auxílio na criação do modelo. A SVM tem representado uma alternativa melhor aos já consagrados métodos de regressão multivariada por apresentar capacidade de generalização. Nos experimentos realizados foram utilizados dois conjuntos de amostras de solo coletadas na região dos Campos Gerais. A avaliação dos resultados teve como base os erros de previsão e os coeficientes de correlação entre os valores dos teores de carbono preditos pelo modelo. Foram encontrados coeficientes de correlação que variaram entre 0,84 a 0,90. Concluiu-se que a espectroscopia no vis-NIRS aliada à técnica SVM é recomendada como uma alternativa aos métodos convencionais de análise de carbono em solos. carbono agricultura de precisão espectroscopia aprendizado de máquina, SVM carbon precision agriculture spectroscopy machine learning support vector machine
234	Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification. Mauá, Denis Deratani 14 August 2009 (has links) Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model. Aprendizado computacional Aprendizado de máquina Artificial intelligence Categorização de texto Classificação de sentimento Computational learning Inteligência artificial Machine learning Processamento de texto Sentiment classification Text categorization Text processing
235	Uma abordagem tolerante a falhas para a previsão de desastres naturais baseada em IoT e aprendizado de máquina / A fault-tolerant approach to natural disaster forecast based on IoT and machine learning Furquim, Gustavo Antonio 11 August 2017 (has links) O aumento na quantidade e na intensidade de desastres naturais é um problema que está se agravando em todo o mundo. As consequências desses desastres são significantemente ampliadas quando ocorrem em regiões urbanas ou com atuação humana devido à perda de vidas e à quantidade de bens materiais afetados. O uso de redes de sensores sem fio para a coleta de dados e o uso de técnicas de aprendizado de máquina para a previsão de desastres naturais são opções viáveis, porém novas tendências tecnológicas têm se mostrado promissoras e podem agregar na tarefa de monitoramento de ambientes e na previsão de desastres naturais. Uma dessas tendências é adotar redes de sensores baseadas em IP e utilizar padrões emergentes para IoT. Nesse contexto, esta Tese propõe e analisa uma abordagem chamada SENDI (System for dEtecting and forecasting Natural Disasters based on IoT), um sistema tolerante a falhas baseado em IoT, WSN e AM para a detecção e a previsão de desastres naturais. O SENDI foi modelado empregando o ns-3 e validado utilizando dados coletados por uma WSN real instalada na cidade de São Carlos - Brasil, a qual realiza a coleta de dados de rios da região. Esse sistema também prevê a possibilidade de falhas na comunicação e a perda de nós durante a ocorrência de desastres, além de agregar inteligência aos nós para realizar a distribuição de dados e de previsões, mesmo nesses casos. Esta Tese também apresenta um estudo de caso sobre previsão de enchentes que utiliza a modelagem do sistema e os dados colhidos pela WSN. Os resultados dos experimentos mostram que o SENDI permite gerar alertas para a tomada de decisões em tempo hábil, realizando as previsões mesmo com falhas parciais no sistema, porém com acurácia variável dependendo do nível de degradação do mesmo. / Natural disasters have been increasing intensely all around the globe. The consequences of these disasters are significantly amplified when they occur in urban areas or places where there are human activities due to loss of lives and assets. The usage of Wireless Sensor Networks (WSN) for data collection and Machine Learning (ML) to create natural disasters forecast models are viable options. However, new technology trends have been showing promising results, which can aggregate to the tasks of environmental monitoring and natural disasters forecast. One of these new trends is to adopt IP based sensor networks and to use emergent Internet of Things (IoT) standards. In this context, this Thesis presents and analyzes an approach called SENDI (System for dEtecting and forecasting Natural Disasters based on IoT), a fault-tolerant system based on IoT, ML and WSN to detect and forecast natural disasters. SENDI was modelled using ns-3 and validated by means of real data collected by a WSN installed in São Carlos - Brazil, which collects the data of rivers around the region. This system also foresees the possibility of communication failures and loss of nodes during disasters, also adding intelligence to the nodes in order to perform the distribution of data and forecasts, even in such cases. This Thesis presents a case study about flash flooding forecast as well, which uses the system model and the data collected by the WSN. The results of the experiments show that SENDI allows to generate warnings in time to make decisions as such predictions can be foreseen even if partial failure of the system occurs. However, there is a variable accuracy, which depends on the system degradation. Aprendizado de Máquina Fault-tolerance Internet das Coisas Internet of Things Machine Learning Natural Disaster Forecast Previsão de Desastres Naturais Redes de Sensores sem Fio Tolerância a Falhas Wireless Sensor Network
236	Extração de conhecimento simbólico em técnicas de aprendizado de máquina caixa-preta por similaridade de rankings / Symbolic knowledge extraction from black-box machine learning techniques with ranking similarities Bianchi, Rodrigo Elias 26 September 2008 (has links) Técnicas de Aprendizado de Máquina não-simbólicas, como Redes Neurais Artificiais, Máquinas de Vetores de Suporte e combinação de classificadores têm mostrado um bom desempenho quando utilizadas para análise de dados. A grande limitação dessas técnicas é a falta de compreensibilidade do conhecimento armazenado em suas estruturas internas. Esta Tese apresenta uma pesquisa realizada sobre métodos de extração de representações compreensíveis do conhecimento armazenado nas estruturas internas dessas técnicas não-simbólicas, aqui chamadas de caixa preta, durante seu processo de aprendizado. A principal contribuição desse trabalho é a proposta de um novo método pedagógico para extração de regras que expliquem o processo de classificação seguido por técnicas não-simbólicas. Esse novo método é baseado na otimização (maximização) da similaridade entre rankings de classificação produzidos por técnicas de Aprendizado de Máquina simbólicas e não simbólicas (de onde o conhecimento interno esta sendo extraído). Experimentos foram realizados com vários conjuntos de dados e os resultados obtidos sugerem um bom potencial para o método proposto / Non-symbolic Machine Learning techniques, like Artificial Neural Networks, Support Vector Machines and Ensembles of classifiers have shown a good performance when they are used in data analysis. The strong limitation regarding the use of these techniques is the lack of comprehensibility of the knowledge stored in their internal structure. This Thesis presents an investigation of methods capable of extracting comprehensible representations of the knowledge acquired by these non-symbolic techniques, here named black box, during their learning process. The main contribution of this work is the proposal of a new pedagogical method for rule extraction that explains the classification process followed by non-symbolic techniques. This new method is based on the optimization (maximization) of the similarity between classification rankings produced by symbolic and non-symbolic (from where the internal knowledge is being extracted) Machine Learning techniques. Experiments were performed for several datasets and the results obtained suggest a good potential of the proposed method Aprendizado de máquina Extração de conhecimento Extração de regras Knowledge extraction Machine learning Máquinas de vetores suporte Neural networks Redes neurais Rule extraction Support vector machines
237	Classificação e previsão de séries temporais através de redes complexas / Time series trend classification and forecasting using complex network analysis Anghinoni, Leandro 06 November 2018 (has links) O estudo de séries temporais para a geração de conhecimento é uma área que vem crescendo em importância e complexidade ao longo da última década, à medida que a quantidade de dados armazenados cresce exponencialmente. Considerando este cenário, novas técnicas de mineração de dados têm sido constantemente desenvolvidas para lidar com esta situação. Neste trabalho é proposto o estudo de séries temporais baseado em suas características topológicas, observadas em uma rede complexa gerada com os dados da série temporal. Especificamente, o objetivo do modelo proposto é criar um algoritmo de detecção de tendências para séries temporais estocásticas baseado em detecção de comunidades e caminhadas nesta mesma rede. O modelo proposto apresenta algumas vantagens em relação à métodos tradicionais, como o número adaptativo de classes, com força mensurável, e uma melhor absorção de ruídos. Resultados experimentais em bases artificiais e reais mostram que o método proposto é capaz de classificar as séries temporais em padrões locais e globais, melhorando a previsibilidade das séries ao se utilizar métodos de aprendizado de máquina para a previsão das classes / Extracting knowledge from time series analysis has been growing in importance and complexity over the last decade as the amount of stored data has increased exponentially. Considering this scenario, new data mining techniques have continuously developed to deal with such a situation. In this work, we propose to study time series based on its topological characteristics, observed on a complex network generated from the time series data. Specifically, the aim of the proposed model is to create a trend detection algorithm for stochastic time series based on community detection and network metrics. The proposed model presents some advantages over traditional time series analysis, such as adaptive number of classes with measurable strength and better noise absorption. Experimental results on artificial and real datasets shows that the proposed method is able to classify the time series into local and global patterns, improving the predictability of the series when using machine-learning methods Aprendizado de máquina Classificação de tendência Community detection Complex networks Detecção de comunidades Machine learning Previsão de tendência Redes complexas Séries temporais Time series Trend classification Trend forecasting
238	Classificação e previsão de séries temporais através de redes complexas / Time series trend classification and forecasting using complex network analysis Leandro Anghinoni 06 November 2018 (has links) O estudo de séries temporais para a geração de conhecimento é uma área que vem crescendo em importância e complexidade ao longo da última década, à medida que a quantidade de dados armazenados cresce exponencialmente. Considerando este cenário, novas técnicas de mineração de dados têm sido constantemente desenvolvidas para lidar com esta situação. Neste trabalho é proposto o estudo de séries temporais baseado em suas características topológicas, observadas em uma rede complexa gerada com os dados da série temporal. Especificamente, o objetivo do modelo proposto é criar um algoritmo de detecção de tendências para séries temporais estocásticas baseado em detecção de comunidades e caminhadas nesta mesma rede. O modelo proposto apresenta algumas vantagens em relação à métodos tradicionais, como o número adaptativo de classes, com força mensurável, e uma melhor absorção de ruídos. Resultados experimentais em bases artificiais e reais mostram que o método proposto é capaz de classificar as séries temporais em padrões locais e globais, melhorando a previsibilidade das séries ao se utilizar métodos de aprendizado de máquina para a previsão das classes / Extracting knowledge from time series analysis has been growing in importance and complexity over the last decade as the amount of stored data has increased exponentially. Considering this scenario, new data mining techniques have continuously developed to deal with such a situation. In this work, we propose to study time series based on its topological characteristics, observed on a complex network generated from the time series data. Specifically, the aim of the proposed model is to create a trend detection algorithm for stochastic time series based on community detection and network metrics. The proposed model presents some advantages over traditional time series analysis, such as adaptive number of classes with measurable strength and better noise absorption. Experimental results on artificial and real datasets shows that the proposed method is able to classify the time series into local and global patterns, improving the predictability of the series when using machine-learning methods Aprendizado de máquina Classificação de tendência Detecção de comunidades Previsão de tendência Redes complexas Séries temporais Community detection Complex networks Machine learning Time series Trend classification Trend forecasting
239	Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais Tomachewski, Douglas 04 September 2017 (has links) Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) / Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Previous issue date: 2017-09-04 / A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero. / Identification of microorganisms in health and agriculture areas is essential to understand the composition and development of the environment. New techniques are seeking to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a technique that is increasingly studied and used is the identification of microorganisms through mass spectra, generated by mass spectrometry. The mass spectra are able to generate a recognition profile from a microorganism, using the referring peaks to the most abundant molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks that are expected to appear in the spectrum, which model this work used. To predict the expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were calculated. These proteins are responsible for the cellular functioning itself, so-called housekeeping. Besides they being abundant in the prokaryotic content, they are highly conserved, not altering their physiology to different environments or cell stage. The estimated weights formed a presumed database, containing all the information obtained from the NCBI’s repository. This presumed database was generalized at the specie level and later submitted to a machine learning algorithm. With this, it was possible to obtain a microorganism’s classificatory model based on ribosomal proteins values. Using the generated model by the machine learning, a software called Ribopeaks was developed to classify the microorganisms at the specie level with an accuracy of 94.83%, considering the related species. It was also observed the results at genus level, which obtained 98.69% of assertiveness. Values of biological ribosomal molecular masses from the literature were also tested in the acquihired model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus level. Espectrometria de massa Proteínas ribossomais Pesos moleculares estimados Aprendizado de máquina Mass spectrometry Ribosomal proteins Estimated molecular weights Machine learning
240	Avaliação da eficiência do uso da mineração de dados clássica e espacial na estimativa de produtividade de grãos em imagens obtidas por meio de aeronave remotamente pilotada Viniski, Antônio David 16 March 2018 (has links) Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-05-08T17:08:26Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Antonio David Viniski.pdf: 3962317 bytes, checksum: f5afcd11e4083b0ae065ae21490ac77f (MD5) / Made available in DSpace on 2018-05-08T17:08:26Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Antonio David Viniski.pdf: 3962317 bytes, checksum: f5afcd11e4083b0ae065ae21490ac77f (MD5) Previous issue date: 2018-03-16 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O sensoriamento remoto agrícola tem fornecido um volumoso conjunto de dados espaciais, os quais podem ser utilizados em diferentes segmentos, como na estimativa de produtividade de grãos. Dentre as tecnologias empregadas no SR, a utilização de aeronaves remotamente pilotadas (RPA) na agricultura vêm crescendo, sendo uma alternativa na obtenção de dados para a estimativa de produtividade. Porém, esses conjuntos de dados gerados demandam métodos e técnicas capazes de extrair informações úteis e relevantes dos mesmos. Algumas técnicas de geoestatística, como a krigagem, têm sido empregadas, mas a utilização da mineração de dados (MD), assim como da mineração de dados espaciais (MDE), podem ser alternativas viáveis para suprir essa demanda. Este trabalho teve como objetivo avaliar o uso de técnicas de MD e MDE na estimativa da produtividade de grãos de soja e trigo, utilizando dados de imagens obtidas por meio de RPA. A área de estudo localiza-se no município de Piraí do Sul, Paraná. Foi utilizada uma RPA de asa fixa para o acompanhamento das culturas de soja e trigo. No imageamento do trigo foram utilizadas duas câmeras, uma com a captura de imagens no espectro visível (RGB), e outra no infravermelho próximo (NIR), tendo sendo analisadas também as resoluções espaciais de 10 e 20 cm/pixel para cada câmera. Para a soja apenas a câmera RGB foi utilizada e as resoluções espaciais sobrevoadas foram 10, 20 e 26 cm/pixel. Os dados do atributo meta, a produtividade das culturas, foram obtidos por meio de colhedoras de precisão. Os atributos de predição, correspondendo aos valores das bandas espectrais e altitude do terreno, foram submetidos aos algoritmos de MD empregando as técnicas de regressão linear múltipla (RLM), redes neurais artificiais (RNA) e máquina de vetores de suporte para regressão (SVR). Para a MDE, foi utilizado o modelo aditivo generalizado (GAM). Para fins de comparação, os dados foram também analisados pelo método tradicional de krigagem. As técnicas foram testadas considerando duas abordagens principais: (i) utilizando apenas as bandas espectrais para estimativa e, (ii) utilizando as bandas espectrais e os valores de altitude do terreno. Para a MD clássica, os melhores resultados foram obtidos com a técnica SVR, utilizando o kernel Laplacian. Na MDE, o método GAM com a função de ajuste gaussiana apresentou os melhores resultados. Tanto para as técnicas clássicas de MD como para a MDE, a incorporação da altitude nos modelos de regressão possibilitou aumento considerável nos coeficientes de correlação e determinação, com consequente diminuição no erro (RMSE). Os valores de correlação obtidos com a MDE foram semelhantes aos obtidos com o método de krigagem, porém a MDE foi mais eficiente em avaliar o impacto dos atributos de predição (valores das bandas espectrais e altitude) na estimativa do atributo meta. Com isso, conclui-se que a MDE mostra-se viável de ser utilizada como ferramenta na geração de modelos para estimativa de produtividade de grãos com base em dados de imagens de RPA. / Agricultural remote sensing (RS) has provided a massive set of spatial data which can be used in different segments, such as in grain yield estimation. Among the technologies applied in RS, the use of remotely piloted aircraft (RPA) in agriculture is growing as an alternative to obtain data for estimating productivity. However, these generated data sets require methods and techniques capable of extracting useful and relevant information from them. Some geostatistics techniques have been applied, such as kriging, but the use of data mining (DM) as well as spatial data mining (SDM) can be viable alternatives to meet that demand. The goal of this work was to evaluate the use of DM and SDM techniques for estimating soybean and wheat grain yield using image data obtained by RPA. The study area is located in Piraí do Sul, Paraná State. A fixed wing RPA was used to monitor soybean and wheat crops. In wheat crop imaging two cameras were used, one to capture images in the visible spectrum (RGB), and the other one using the near infrared (NIR) spectrum. Also, it was analyzed the spatial resolutions of 10 and 20 cm / pixel for each camera. For soybean only the RGB camera was used and the overhead spatial resolutions were 10, 20 and 26 cm / pixel. The goal attribute data (crop yield), was obtained by precision harvester. The prediction attributes, corresponding to the values of spectral bands and terrain altitude, were submitted to DM algorithms using the multiple linear regression (MLR), artificial neural networks (ANN) and support vector regression (SVR) techniques. For SDM, the generalized additive model (GAM) was used. For comparison purposes, data were also analyzed by the traditional kriging method. The techniques were tested using two main approaches: (i) using only spectral bands for estimation and, (ii) using spectral bands and terrain altitude values. For classical DM, the best results were obtained with SVR technique, using the Laplacian kernel. The GAM method with the Gaussian fit function presented the best results for SDM. For both classical DM and SDM techniques, adding altitude in the regression models allowed a considerable increase in correlation and determination coefficients, with consequent decrease in error (RMSE). The correlation values obtained with SDM were similar to those obtained with kriging method, but SDM was more efficient in evaluating the impact of the prediction attributes (spectral bands and altitude) in the estimation of the goal attribute. Thus, it is concluded that SDM can be useful as a tool for estimating grain yield based on RPA image data. Mineração de dados espaciais sensoriamento remoto aprendizado de máquina resolução espacial drone krigagem. spatial data mining remote sensing machine learning spatial resolution drone kriging

Search results