Global ETD Search

41	Modelagem da produtividade da cultura da cana de açúcar por meio do uso de técnicas de mineração de dados / Modeling sugarcane yield through Data Mining techniques Hammer, Ralph Guenther 27 July 2016 (has links) O entendimento da hierarquia de importância dos fatores que influenciam a produtividade da cana de açúcar pode auxiliar na sua modelagem, contribuindo assim para a otimização do planejamento agrícola das unidades produtoras do setor, bem como no aprimoramento das estimativas de safra. Os objetivos do presente estudo foram a ordenação das variáveis que condicionam a produtividade da cana de açúcar, de acordo com a sua importância, bem como o desenvolvimento de modelos matemáticos de produtividade da cana de açúcar. Para tanto, foram utilizadas três técnicas de mineração de dados nas análises de bancos de dados de usinas de cana de açúcar no estado de São Paulo. Variáveis meteorológicas e de manejo agrícola foram submetidas às análises por meio das técnicas Random Forest, Boosting e Support Vector Machines, e os modelos resultantes foram testados por meio da comparação com dados independentes, utilizando-se o coeficiente de correlação (r), índice de Willmott (d), índice de confiança de Camargo (C), erro absoluto médio (EAM) e raíz quadrada do erro médio (RMSE). Por fim, comparou-se o desempenho dos modelos gerados com as técnicas de mineração de dados com um modelo agrometeorológico, aplicado para os mesmos bancos de dados. Constatou-se que, das variáveis analisadas, o número de cortes foi o fator mais importante em todas as técnicas de mineração de dados. A comparação entre as produtividades estimadas pelos modelos de mineração de dados e as produtividades observadas resultaram em RMSE variando de 19,70 a 20,03 t ha-1 na abordagem mais geral, que engloba todas as regiões do banco de dados. Com isso, o desempenho preditivo foi superior ao modelo agrometeorológico, aplicado no mesmo banco de dados, que obteve RMSE ≈ 70% maior (≈ 34 t ha-1). / The understanding of the hierarchy of the importance of the factors which influence sugarcane yield can subsidize its modeling, thus contributing to the optimization of agricultural planning and crop yield estimates. The objectives of this study were to ordinate the variables which condition the sugarcane yield, according to their relative importance, as well as the development of mathematical models for predicting sugarcane yield. For this, three Data Mining techniques were applied in the analyses of data bases of several sugar mills in the State of São Paulo, Brazil. Meteorological and crop management variables were analyzed through the Data Mining techniques Random Forest, Boosting and Support Vector Machines, and the resulting models were tested through the comparison with an independent data set, using the coefficient of correlation (r), Willmott index (d), confidence index of Camargo (c), mean absolute error (MAE), and root mean square error (RMSE). Finally, the predictive performances of these models were compared with the performance of an agrometeorological model, applied in the same data set. The results allowed to conclude that, within all the variables, the number of cuts was the most important factor considered by all Data Mining models. The comparison between the observed yields and those estimated by the Data Mining techniques resulted in a RMSE ranging between 19,70 to 20,03 t ha-1, in the general method, which considered all regions of the data base. Thus, the predictive performances of the Data Mining algorithms were superior to that of the agrometeorological model, which presented RMSE ≈ 70% higher (≈ 34 t ha-1). Agricultural planning Boosting Boosting Planejamento agrícola Predição Prediction Random forest Random forest Support vector machines Support vector machines
42	Ensembles na classificação relacional / Ensembles in relational classification Llerena, Nils Ever Murrugarra 08 September 2011 (has links) Em diversos domínios, além das informações sobre os objetos ou entidades que os compõem, existem, também, informaçõoes a respeito das relações entre esses objetos. Alguns desses domínios são, por exemplo, as redes de co-autoria, e as páginas Web. Nesse sentido, é natural procurar por técnicas de classificação que levem em conta estas informações. Dentre essas técnicas estão as denominadas classificação baseada em grafos, que visam classificar os exemplos levando em conta as relações existentes entre eles. Este trabalho aborda o desenvolvimento de métodos para melhorar o desempenho de classificadores baseados em grafos utilizando estratégias de ensembles. Um classificador ensemble considera um conjunto de classificadores cujas predições individuais são combinadas de alguma forma. Este classificador normalmente apresenta um melhor desempenho do que seus classificadores individualmente. Assim, foram desenvolvidas três técnicas: a primeira para dados originalmente no formato proposicional e transformados para formato relacional baseado em grafo e a segunda e terceira para dados originalmente já no formato de grafo. A primeira técnica, inspirada no algoritmo de boosting, originou o algoritmo KNN Adaptativo Baseado em Grafos (A-KNN). A segunda ténica, inspirada no algoritmo de Bagging originou trê abordagens de Bagging Baseado em Grafos (BG). Finalmente, a terceira técnica, inspirada no algoritmo de Cross-Validated Committees, originou o Cross-Validated Committees Baseado em Grafos (CVCG). Os experimentos foram realizados em 38 conjuntos de dados, sendo 22 conjuntos proposicionais e 16 conjuntos no formato relacional. Na avaliação foi utilizado o esquema de 10-fold stratified cross-validation e para determinar diferenças estatísticas entre classificadores foi utilizado o método proposto por Demsar (2006). Em relação aos resultados, as três técnicas melhoraram ou mantiveram o desempenho dos classificadores bases. Concluindo, ensembles aplicados em classificadores baseados em grafos apresentam bons resultados no desempenho destes / In many fields, besides information about the objects or entities that compose them, there is also information about the relationships between objects. Some of these fields are, for example, co-authorship networks and Web pages. Therefore, it is natural to search for classification techniques that take into account this information. Among these techniques are the so-called graphbased classification, which seek to classify examples taking into account the relationships between them. This paper presents the development of methods to improve the performance of graph-based classifiers by using strategies of ensembles. An ensemble classifier considers a set of classifiers whose individual predictions are combined in some way. This combined classifier usually performs better than its individual classifiers. Three techniques have been developed: the first applied for originally propositional data transformed to relational format based on graphs and the second and the third applied for data originally in graph format. The first technique, inspired by the boosting algorithm originated the Adaptive Graph-Based K-Nearest Neighbor (A-KNN). The second technique, inspired by the bagging algorithm led to three approaches of Graph-Based Bagging (BG). Finally the third technique, inspired by the Cross- Validated Committees algorithm led to the Graph-Based Cross-Validated Committees (CVCG). The experiments were performed on 38 data sets, 22 datasets in propositional format and 16 in relational format. Evaluation was performed using the scheme of 10-fold stratified cross-validation and to determine statistical differences between the classifiers it was used the method proposed by Demsar (2006). Regarding the results, these three techniques improved or at least maintain the performance of the base classifiers. In conclusion, ensembles applied to graph-based classifiers have good results in the performance of them Aprendizado de máquina Bagging Bagging Boosting Boosting Classificadores baseados em grafos Ensembles Ensembles Graph-based classifiers Machine learning
43	Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicado a sensores e sistemas embarcados. / Study of AdaBoost algorithm applied to sensors and embedded systems. Chaves, Bruno Butilhão 05 December 2011 (has links) O estudo da Inteligência Artificial e de suas técnicas tem trazido grandes resultados para a evolução da tecnologia em diversas áreas. Técnicas já conhecidas como as Redes Neurais e Árvores de Decisão vêm sendo aprimoradas por técnicas de Boosting como o Adaptive Boosting. Esta técnica é uma das que apresenta maior perspectiva de crescimento devido a seu potencial, flexibilidade e simplicidade para ser implementada em diferentes cenários, como por exemplo, no tratamento de imagens para reconhecimento de padrões. Um mercado com grande potencial para se beneficiar da técnica de Boosting, e em especial do AdaBoost, é o mercado de sensores. É cada vez mais comum a utilização de sensores isolados ou sistemas de múltiplos sensores trabalhando concomitantemente para se atingir um objetivo comum. Na utilização de sistemas embarcados compostos por sensores para realização de análises e tomadas de decisão são cada vez mais requisitados, principalmente onde se requer algum tipo de reconhecimento de padrão. O objetivo desta dissertação é estudar e desenvolver o conhecimento do algoritmo AdaBoost para aplicação em sensores, de forma a aprimorar a sensibilidade e precisão das medições, tanto de sensores isolados como de sistemas complexos com vários sensores, sem que seja necessário realizar modificações no próprio sensor. O estudo estende-se também em como implementar o algoritmo inteligente a um dispositivo autônomo composto por sensores e um microprocessador que contenha um classificador embarcado de reconhecimento de padrões. Para demonstrar a utilidade da técnica, foi realizado um estudo de caso utilizando um sistema composto de sensores capacitivos interdigitalizados e microfabricados, sensores de temperatura e sensor a fibra óptica, para verificar adulterações em combustíveis automotivos, em especial, do etanol combustível. Sete experimentos são apresentados no trabalho. Índices acima de 90% de classificações corretas foram obtidos, indicando a viabilidade da utilização do algoritmo para calibração de sensores ou rede de sensores. Por fim, foi desenvolvida com sucesso uma forma de embarcar o classificador treinado em um microprocessador, confirmando assim ser possível desenvolver dispositivos embarcados contendo essa tecnologia. / Studies on Artificial Intelligence and its techniques have provided great results for the whole technology evolution in several areas. Techniques known as Neural Networks and Decision Trees have been improved by Boosting techniques such as Adaptive Boosting. This particular technique presents great growth prospects due to its potential, flexibility and simplicity to be implemented in different scenarios, such as image analysis for pattern recognition. A specific market that can greatly benefit from the technique of Boosting and particularly AdaBoost is the sensor market. The use of isolated sensors or multiple sensor systems working together in order to reach a common goal is increasingly common. Embedded systems consisting of sensors for analysis and decision-making are also increasingly common especially in cases in which some sort of pattern recognition is necessary. Therefore, the purpose of this thesis is to study and to develop some knowledge about the AdaBoost algorithm applied to sensors in order to improve the sensitivity and accuracy of its measurements, both in isolated sensors and in complex systems with multiple sensors, without requiring any change in the sensor itself. The study also approaches how to implement the intelligent algorithm in an autonomous device composed by sensors and a microprocessor that contains an embedded classifier for pattern recognition. Accordingly, a case study was conducted using a system composed of microfabricated capacitive sensors, temperature sensors and fiber optical sensor with the purpose of analyzing the amount of automobile fuels, especially ethanol fuel. Seven experiments were performed in order to demonstrate the usefulness of this technique and they are presented in the study. Rates above 90% of correct classifications were obtained, which indicates the feasibility of using the algorithm for sensor calibration or sensor network calibration. Finally, a way to embed a trained classifier into a microprocessor was successfully developed, confirming that it is possible to develop embedded devices containing this technology. AdaBoost AdaBoost Adulteração de combustível Aprendizagem de máquina Boosting Boosting Dispositivos embarcados Embedded Machine learning Pattern recognition Reconhecimento de padrão Sensores
44	Modelagem da produtividade da cultura da cana de açúcar por meio do uso de técnicas de mineração de dados / Modeling sugarcane yield through Data Mining techniques Ralph Guenther Hammer 27 July 2016 (has links) O entendimento da hierarquia de importância dos fatores que influenciam a produtividade da cana de açúcar pode auxiliar na sua modelagem, contribuindo assim para a otimização do planejamento agrícola das unidades produtoras do setor, bem como no aprimoramento das estimativas de safra. Os objetivos do presente estudo foram a ordenação das variáveis que condicionam a produtividade da cana de açúcar, de acordo com a sua importância, bem como o desenvolvimento de modelos matemáticos de produtividade da cana de açúcar. Para tanto, foram utilizadas três técnicas de mineração de dados nas análises de bancos de dados de usinas de cana de açúcar no estado de São Paulo. Variáveis meteorológicas e de manejo agrícola foram submetidas às análises por meio das técnicas Random Forest, Boosting e Support Vector Machines, e os modelos resultantes foram testados por meio da comparação com dados independentes, utilizando-se o coeficiente de correlação (r), índice de Willmott (d), índice de confiança de Camargo (C), erro absoluto médio (EAM) e raíz quadrada do erro médio (RMSE). Por fim, comparou-se o desempenho dos modelos gerados com as técnicas de mineração de dados com um modelo agrometeorológico, aplicado para os mesmos bancos de dados. Constatou-se que, das variáveis analisadas, o número de cortes foi o fator mais importante em todas as técnicas de mineração de dados. A comparação entre as produtividades estimadas pelos modelos de mineração de dados e as produtividades observadas resultaram em RMSE variando de 19,70 a 20,03 t ha-1 na abordagem mais geral, que engloba todas as regiões do banco de dados. Com isso, o desempenho preditivo foi superior ao modelo agrometeorológico, aplicado no mesmo banco de dados, que obteve RMSE ≈ 70% maior (≈ 34 t ha-1). / The understanding of the hierarchy of the importance of the factors which influence sugarcane yield can subsidize its modeling, thus contributing to the optimization of agricultural planning and crop yield estimates. The objectives of this study were to ordinate the variables which condition the sugarcane yield, according to their relative importance, as well as the development of mathematical models for predicting sugarcane yield. For this, three Data Mining techniques were applied in the analyses of data bases of several sugar mills in the State of São Paulo, Brazil. Meteorological and crop management variables were analyzed through the Data Mining techniques Random Forest, Boosting and Support Vector Machines, and the resulting models were tested through the comparison with an independent data set, using the coefficient of correlation (r), Willmott index (d), confidence index of Camargo (c), mean absolute error (MAE), and root mean square error (RMSE). Finally, the predictive performances of these models were compared with the performance of an agrometeorological model, applied in the same data set. The results allowed to conclude that, within all the variables, the number of cuts was the most important factor considered by all Data Mining models. The comparison between the observed yields and those estimated by the Data Mining techniques resulted in a RMSE ranging between 19,70 to 20,03 t ha-1, in the general method, which considered all regions of the data base. Thus, the predictive performances of the Data Mining algorithms were superior to that of the agrometeorological model, which presented RMSE ≈ 70% higher (≈ 34 t ha-1). Boosting Planejamento agrícola Predição Random forest Support vector machines Agricultural planning Boosting Prediction Random forest Support vector machines
45	Um modelo de credit scoring para microcrédito: uma inovação no mercado brasileiro Siqueira, Vânia Rosatti de 10 February 2011 (has links) Made available in DSpace on 2016-03-15T19:25:42Z (GMT). No. of bitstreams: 1 Vania Rosatti de Siqueira.pdf: 636275 bytes, checksum: a16be8a6db840089b4bb3645148a7376 (MD5) Previous issue date: 2011-02-10 / The Grameen Bank experiences with microcredit operations have been imitated in various countries, mainly the ones related to the two great innovations in this market: the credit agent s role and the solidary group mechanism. The massification of the operations and the reduction in their costs become vital for economies of scale to be achieved, as well as a greater appetite for the MFIs to expand their activity in the microcredit market. In this context, the next great innovation in the microcredit market will be the introduction of credit scoring models in such operations. This will speed up the process, reduce the risks and consequently the costs. Historical information about microcredit operations was taken into account for the creation of a credit model. It was then possible to identify key variables that help to distinguish between the good and the bad borrowers. The results show that as machine learning techniques bagging and boosting are added to the traditional methods of credit analysis discriminant analysis and logistic regression , an improvement in the performance of the credit scoring models for microcredit can be achieved. / As experiências do Grameen Bank com operações de microcrédito têm sido reproduzidas em vários países, principalmente as relacionadas com as duas grandes inovações neste mercado: o papel do agente de crédito e o mecanismo de grupo solidário. A massificação das operações e a redução de custos tornam-se imprescindíveis para que haja economia de escala e maior apetite para as IMFs ampliarem sua atuação neste mercado. Neste cenário, a implantação de modelos de credit scoring será a próxima inovação do microcrédito e proporcionará agilidade, redução de riscos e, conseqüentemente, redução dos custos. Com base em informações históricas de operações de microcrédito foi elaborado um modelo de crédito. Foram identificadas variáveis chave que permitem distinguir os bons e maus pagadores. Os resultados mostram que, acoplando-se técnicas de linguagem de máquina bagging e boosting aos métodos tradicionais de análise de crédito análise discriminante e regressão logística , obtém-se melhora na performance dos modelos de credit scoring para microcrédito. microcrédito credit scoring inovação bagging boosting microcredit credit scoring innovation bagging boosting
46	[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOS SILVANO NOGUEIRA BUBACK 05 March 2012 (has links) [pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos usuários na produção do conteúdo, através de opiniões em redes sociais ou comentários nos próprios sites de produtos e serviços. Estes comentários são muito valiosos para seus sites pois fornecem feedback e incentivam a participação e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários com palavrões indesejados ou spam. Enquanto para alguns sites a própria moderação da comunidade é suficiente, para outros as mensagens indesejadas podem comprometer o serviço. Para auxiliar na moderação dos comentários foi construída uma ferramenta que utiliza técnicas de aprendizado de máquina para auxiliar o moderador. Para testar os resultados, dois corpora de comentários produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários postados diretamente no site, e outro com 451.209 mensagens capturadas do Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando se separa o aprendizado dos comentários de acordo com o tema sobre o qual está sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user participation in content generation mainly in social networks and comments in news and service sites. These comments are valuable to the sites because they bring feedback and motivate other people to participate and to spread the content. On the other hand these comments also bring some kind of abuse as bad words and spam. While for some sites their own community moderation is enough, for others this impropriate content may compromise its content. In order to help theses sites, a tool that uses machine learning techniques was built to mediate comments. As a test to compare results, two datasets captured from Globo.com were used: the first one with 657.405 comments posted through its site and the second with 451.209 messages captured from Twitter. Our experiments show that best result is achieved when comment learning is done according to the subject that is being commented. [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] SVM [en] SVM [pt] BOOSTING [en] BOOSTING
47	Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles / Improving adaptive methods of supervised learning for real data Bahri, Emna 08 December 2010 (has links) L'apprentissage automatique doit faire face à différentes difficultés lorsqu'il est confronté aux particularités des données réelles. En effet, ces données sont généralement complexes, volumineuses, de nature hétérogène, de sources variées, souvent acquises automatiquement. Parmi les difficultés les plus connues, on citera les problèmes liés à la sensibilité des algorithmes aux données bruitées et le traitement des données lorsque la variable de classe est déséquilibrée. Le dépassement de ces problèmes constitue un véritable enjeu pour améliorer l'efficacité du processus d'apprentissage face à des données réelles. Nous avons choisi dans cette thèse de réfléchir à des procédures adaptatives du type boosting qui soient efficaces en présence de bruit ou en présence de données déséquilibrées.Nous nous sommes intéressés, d’abord, au contrôle du bruit lorsque l'on utilise le boosting. En effet, les procédures de boosting ont beaucoup contribué à améliorer l'efficacité des procédures de prédiction en data mining, sauf en présence de données bruitées. Dans ce cas, un double problème se pose : le sur-apprentissage des exemples bruités et la détérioration de la vitesse de convergence du boosting. Face à ce double problème, nous proposons AdaBoost-Hybride, une adaptation de l’algorithme Adaboost fondée sur le lissage des résultats des hypothèses antérieures du boosting, qui a donné des résultats expérimentaux très satisfaisants.Ensuite, nous nous sommes intéressés à un autre problème ardu, celui de la prédiction lorsque la distribution de la classe est déséquilibrée. C'est ainsi que nous proposons une méthode adaptative du type boosting fondée sur la classification associative qui a l’intérêt de permettre la focalisation sur des petits groupes de cas, ce qui est bien adapté aux données déséquilibrées. Cette méthode repose sur 3 contributions : FCP-Growth-P, un algorithme supervisé de génération des itemsets de classe fréquents dérivé de FP-Growth dans lequel est introduit une condition d'élagage fondée sur les contre-exemples pour la spécification des règles, W-CARP une méthode de classification associative qui a pour but de donner des résultats au moins équivalents à ceux des approches existantes pour un temps d'exécution beaucoup plus réduit, enfin CARBoost, une méthode de classification associative adaptative qui utilise W-CARP comme classifieur faible. Dans un chapitre applicatif spécifique consacré à la détection d’intrusion, nous avons confronté les résultats de AdaBoost-Hybride et de CARBoost à ceux des méthodes de référence (données KDD Cup 99). / Machine learning often overlooks various difficulties when confronted real data. Indeed, these data are generally complex, voluminous, and heterogeneous, due to the variety of sources. Among these problems, the most well known concern the sensitivity of the algorithms to noise and unbalanced data. Overcoming these problems is a real challenge to improve the effectiveness of the learning process against real data. In this thesis, we have chosen to improve adaptive procedures (boosting) that are less effective in the presence of noise or with unbalanced data.First, we are interested in robustifying Boosting against noise. Most boosting procedures have contributed greatly to improve the predictive power of classifiers in data mining, but they are prone to noisy data. In this case, two problems arise, (1) the over-fitting due to the noisy examples and (2) the decrease of convergence rate of boosting. Against these two problems, we propose AdaBoost-Hybrid, an adaptation of the Adaboost algorithm that takes into account mistakes made in all the previous iteration. Experimental results are very promising.Then, we are interested in another difficult problem, the prediction when the class is unbalanced. Thus, we propose an adaptive method based on boosted associative classification. The interest of using associations rules is allowing the focus on small groups of cases, which is well suited for unbalanced data. This method relies on 3 contributions: (1) FCP-Growth-P, a supervised algorithm for extracting class frequent itemsets, derived from FP-Growth by introducing the condition of pruning based on counter-examples to specify rules, (2) W-CARP associative classification method which aims to give results at least equivalent to those of existing approaches but in a faster manner, (3) CARBoost, a classification method that uses adaptive associative W-CARP as weak classifier. Finally, in a chapter devoted to the specific application of intrusion’s detection, we compared the results of AdaBoost-Hybrid and CARBoost to those of reference methods (data KDD Cup 99). Apprentissage supervisé Données réelles Boosting Bruit Données déséquilibrées Classification associative Supervised Learning Real data Boosting Noise Imbalanced data Associative classification
48	Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicado a sensores e sistemas embarcados. / Study of AdaBoost algorithm applied to sensors and embedded systems. Bruno Butilhão Chaves 05 December 2011 (has links) O estudo da Inteligência Artificial e de suas técnicas tem trazido grandes resultados para a evolução da tecnologia em diversas áreas. Técnicas já conhecidas como as Redes Neurais e Árvores de Decisão vêm sendo aprimoradas por técnicas de Boosting como o Adaptive Boosting. Esta técnica é uma das que apresenta maior perspectiva de crescimento devido a seu potencial, flexibilidade e simplicidade para ser implementada em diferentes cenários, como por exemplo, no tratamento de imagens para reconhecimento de padrões. Um mercado com grande potencial para se beneficiar da técnica de Boosting, e em especial do AdaBoost, é o mercado de sensores. É cada vez mais comum a utilização de sensores isolados ou sistemas de múltiplos sensores trabalhando concomitantemente para se atingir um objetivo comum. Na utilização de sistemas embarcados compostos por sensores para realização de análises e tomadas de decisão são cada vez mais requisitados, principalmente onde se requer algum tipo de reconhecimento de padrão. O objetivo desta dissertação é estudar e desenvolver o conhecimento do algoritmo AdaBoost para aplicação em sensores, de forma a aprimorar a sensibilidade e precisão das medições, tanto de sensores isolados como de sistemas complexos com vários sensores, sem que seja necessário realizar modificações no próprio sensor. O estudo estende-se também em como implementar o algoritmo inteligente a um dispositivo autônomo composto por sensores e um microprocessador que contenha um classificador embarcado de reconhecimento de padrões. Para demonstrar a utilidade da técnica, foi realizado um estudo de caso utilizando um sistema composto de sensores capacitivos interdigitalizados e microfabricados, sensores de temperatura e sensor a fibra óptica, para verificar adulterações em combustíveis automotivos, em especial, do etanol combustível. Sete experimentos são apresentados no trabalho. Índices acima de 90% de classificações corretas foram obtidos, indicando a viabilidade da utilização do algoritmo para calibração de sensores ou rede de sensores. Por fim, foi desenvolvida com sucesso uma forma de embarcar o classificador treinado em um microprocessador, confirmando assim ser possível desenvolver dispositivos embarcados contendo essa tecnologia. / Studies on Artificial Intelligence and its techniques have provided great results for the whole technology evolution in several areas. Techniques known as Neural Networks and Decision Trees have been improved by Boosting techniques such as Adaptive Boosting. This particular technique presents great growth prospects due to its potential, flexibility and simplicity to be implemented in different scenarios, such as image analysis for pattern recognition. A specific market that can greatly benefit from the technique of Boosting and particularly AdaBoost is the sensor market. The use of isolated sensors or multiple sensor systems working together in order to reach a common goal is increasingly common. Embedded systems consisting of sensors for analysis and decision-making are also increasingly common especially in cases in which some sort of pattern recognition is necessary. Therefore, the purpose of this thesis is to study and to develop some knowledge about the AdaBoost algorithm applied to sensors in order to improve the sensitivity and accuracy of its measurements, both in isolated sensors and in complex systems with multiple sensors, without requiring any change in the sensor itself. The study also approaches how to implement the intelligent algorithm in an autonomous device composed by sensors and a microprocessor that contains an embedded classifier for pattern recognition. Accordingly, a case study was conducted using a system composed of microfabricated capacitive sensors, temperature sensors and fiber optical sensor with the purpose of analyzing the amount of automobile fuels, especially ethanol fuel. Seven experiments were performed in order to demonstrate the usefulness of this technique and they are presented in the study. Rates above 90% of correct classifications were obtained, which indicates the feasibility of using the algorithm for sensor calibration or sensor network calibration. Finally, a way to embed a trained classifier into a microprocessor was successfully developed, confirming that it is possible to develop embedded devices containing this technology. AdaBoost Adulteração de combustível Aprendizagem de máquina Boosting Dispositivos embarcados Reconhecimento de padrão Sensores AdaBoost Boosting Embedded Machine learning Pattern recognition
49	[en] BOOSTING FOR RECOMMENDATION SYSTEMS / [pt] BOOSTING PARA SISTEMAS DE RECOMENDAÇÃO TULIO JORGE DE A N DE S ANIBOLETE 02 April 2009 (has links) [pt] Com a quantidade de informação e sua disponibilidade facilitada pelo uso da Internet, diversas opções são oferecidas às pessoas e estas, normalmente, possuem pouca ou quase nenhuma experiência para decidir dentre as alternativas existentes. Neste âmbito, os Sistemas de Recomendação surgem para organizar e recomendar automaticamente, através de Aprendizado de Máquina, itens interessantes aos usuários. Um dos grandes desafios deste tipo de sistema é realizar o casamento correto entre o que está sendo recomendado e aqueles que estão recebendo a recomendação. Este trabalho aborda um Sistema de Recomendação baseado em Filtragem Colaborativa, técnica cuja essência está na troca de experiências entre usuários com interesses comuns. Na Filtragem Colaborativa, os usuários pontuam cada item experimentado de forma a indicar sua relevância, permitindo que outros do mesmo grupo se beneficiem destas pontuações. Nosso objetivo é utilizar um algoritmo de Boosting para otimizar a performance dos Sistemas de Recomendação. Para isto, utilizamos uma base de dados de anúncios com fins de validação e uma base de dados de filmes com fins de teste. Após adaptações nas estratégias convencionais de Boosting, alcançamos melhorias de até 3% sobre a performance do algoritmo original. / [en] With the amount of information and its easy availability on the Internet, many options are offered to the people and they, normally, have little or almost no experience to decide between the existing alternatives. In this scene, the Recommendation Systems appear to organize and recommend automatically, through Machine Learning, the interesting items. One of the great recommendation challenges is to match correctly what is being recommended and who are receiving the recommendation. This work presents a Recommendation System based on Collaborative Filtering, technique whose essence is the exchange of experiences between users with common interests. In Collaborative Filtering, users rate each experimented item indicating its relevance allowing the use of ratings by other users of the same group. Our objective is to implement a Boosting algorithm in order to optimize a Recommendation System performance. For this, we use a database of advertisements with validation purposes and a database of movies with testing purposes. After adaptations in the conventional Boosting strategies, improvements of 3% were reached over the original algorithm. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] FILTRAGEM COLABORATIVA [en] COLLABORATIVE FILTERING [pt] SISTEMAS DE RECOMENDACAO [en] RECOMMENDER SYSTEMS [pt] BOOSTING [en] BOOSTING
50	Ensembles na classificação relacional / Ensembles in relational classification Nils Ever Murrugarra Llerena 08 September 2011 (has links) Em diversos domínios, além das informações sobre os objetos ou entidades que os compõem, existem, também, informaçõoes a respeito das relações entre esses objetos. Alguns desses domínios são, por exemplo, as redes de co-autoria, e as páginas Web. Nesse sentido, é natural procurar por técnicas de classificação que levem em conta estas informações. Dentre essas técnicas estão as denominadas classificação baseada em grafos, que visam classificar os exemplos levando em conta as relações existentes entre eles. Este trabalho aborda o desenvolvimento de métodos para melhorar o desempenho de classificadores baseados em grafos utilizando estratégias de ensembles. Um classificador ensemble considera um conjunto de classificadores cujas predições individuais são combinadas de alguma forma. Este classificador normalmente apresenta um melhor desempenho do que seus classificadores individualmente. Assim, foram desenvolvidas três técnicas: a primeira para dados originalmente no formato proposicional e transformados para formato relacional baseado em grafo e a segunda e terceira para dados originalmente já no formato de grafo. A primeira técnica, inspirada no algoritmo de boosting, originou o algoritmo KNN Adaptativo Baseado em Grafos (A-KNN). A segunda ténica, inspirada no algoritmo de Bagging originou trê abordagens de Bagging Baseado em Grafos (BG). Finalmente, a terceira técnica, inspirada no algoritmo de Cross-Validated Committees, originou o Cross-Validated Committees Baseado em Grafos (CVCG). Os experimentos foram realizados em 38 conjuntos de dados, sendo 22 conjuntos proposicionais e 16 conjuntos no formato relacional. Na avaliação foi utilizado o esquema de 10-fold stratified cross-validation e para determinar diferenças estatísticas entre classificadores foi utilizado o método proposto por Demsar (2006). Em relação aos resultados, as três técnicas melhoraram ou mantiveram o desempenho dos classificadores bases. Concluindo, ensembles aplicados em classificadores baseados em grafos apresentam bons resultados no desempenho destes / In many fields, besides information about the objects or entities that compose them, there is also information about the relationships between objects. Some of these fields are, for example, co-authorship networks and Web pages. Therefore, it is natural to search for classification techniques that take into account this information. Among these techniques are the so-called graphbased classification, which seek to classify examples taking into account the relationships between them. This paper presents the development of methods to improve the performance of graph-based classifiers by using strategies of ensembles. An ensemble classifier considers a set of classifiers whose individual predictions are combined in some way. This combined classifier usually performs better than its individual classifiers. Three techniques have been developed: the first applied for originally propositional data transformed to relational format based on graphs and the second and the third applied for data originally in graph format. The first technique, inspired by the boosting algorithm originated the Adaptive Graph-Based K-Nearest Neighbor (A-KNN). The second technique, inspired by the bagging algorithm led to three approaches of Graph-Based Bagging (BG). Finally the third technique, inspired by the Cross- Validated Committees algorithm led to the Graph-Based Cross-Validated Committees (CVCG). The experiments were performed on 38 data sets, 22 datasets in propositional format and 16 in relational format. Evaluation was performed using the scheme of 10-fold stratified cross-validation and to determine statistical differences between the classifiers it was used the method proposed by Demsar (2006). Regarding the results, these three techniques improved or at least maintain the performance of the base classifiers. In conclusion, ensembles applied to graph-based classifiers have good results in the performance of them Aprendizado de máquina Bagging Boosting Classificadores baseados em grafos Ensembles Bagging Boosting Ensembles Graph-based classifiers Machine learning

Search results