Global ETD Search

61	Meta-aprendizagem aplicada à classificação de dados de expressão gênica / Meta-learning applied to gene expression data classification Bruno Feres de Souza 26 October 2010 (has links) Dentre as aplicações mais comuns envolvendo microarrays, pode-se destacar a classificação de amostras de tecido, essencial para a identificação correta da ocorrência de câncer. Essa classificação é realizada com a ajuda de algoritmos de Aprendizagem de Máquina. A escolha do algoritmo mais adequado para um dado problema não é trivial. Nesta tese de doutorado, estudou-se a utilização de meta-aprendizagem como uma solução viável. Os resultados experimentais atestaram o sucesso da aplicação utilizando um arcabouço padrão para caracterização dos dados e para a construção da recomendação. A partir de então, buscou-se realizar melhorias nesses dois aspectos. Inicialmente, foi proposto um novo conjunto de meta-atributos baseado em índices de validação de agrupamentos. Em seguida, estendeu-se o método de construção de rankings kNN para ponderar a influência dos vizinhos mais próximos. No contexto de meta-regressão, introduziu-se o uso de SVMs para estimar o desempenho de algoritmos de classificação. Árvores de decisão também foram empregadas para a construção da recomendação de algoritmos. Ante seu desempenho inferior, empregou-se um esquema de comitês de árvores, que melhorou sobremaneira a qualidade dos resultados / Among the most common applications involving microarray, one can highlight the classification of tissue samples, which is essential for the correct identification of the occurrence of cancer and its type. This classification takes place with the aid of machine learning algorithms. Choosing the best algorithm for a given problem is not trivial. In this thesis, we studied the use of meta-learning as a viable solution. The experimental results confirmed the success of the application using a standard framework for characterizing data and constructing the recommendation. Thereafter, some improvements were made in these two aspects. Initially, a new set of meta-attributes was proposed, which are based on cluster validation indices. Then the kNN method for ranking construction was extended to weight the influence of nearest neighbors. In the context of meta-regression, the use of SVMs was introduced to estimate the performance of ranking algorithms. Decision trees were also employed for recommending algorithms. Due to their low performance, a ensemble of trees was employed, which greatly improved the quality of results Aprendizagem de máquina Meta-aprendizagem Gene expression data classification Machine learning Metalearning
62	Eletrocomunicação em Gymnotus carapo: definição de unidades linguísticas e sua relação com o papel de dominância / Electrocommunication in Gymnotus carapo: definition of linguistic units and its relationship with the dominance role Guariento, Rafael Tuma 01 February 2019 (has links) A habilidade que peixes elétricos possuem de se comunicar por meio de um campo elétrico auto-gerado tem atraído a atenção de diversas áreas do conhecimento por mais de 50 anos. Em particular, peixes elétricos pulsadores emitem um sinal que apresenta diversas similaridades com trens de pulsos de neurônios, tornando-se um modelo animal em neurociência. Com o aumento do poder computacional e com o desenvolvimento de novas ferramentas de aprendizagem de máquina, tornou-se possível investigar interações de dominância entre um par de peixes a nível de cada pulso emitido. Até onde se sabe, a codificação e transmissão de informação se dá por modulações nos intervalos entre pulsos. Assim, a comunicação entre peixes é um problema similar à comunicação entre um par de neurônios em áreas relacionadas do sistema nervoso central: a modulação da taxa de disparo de um neurônio é codificada a partir dos pulsos do outro. Neste trabalho investigamos interações sociais entre pares de Gymnotus carapo, uma espécie altamente territorial. Utilizando análise de séries temporais, técnicas de aprendizagem de máquina e teoria da informação, desenvolvemos uma metodologia para detectar padrões comunicativos nos pulsos emitidos pelos peixes. Além disso, observamos uma relação de causalidade na emissão de padrões: apenas um dos peixes modifica o comportamento futuro de seu coespecífico. A direção desse fluxo de informação parece ligada ao papel de dominância/submissão assumido pelo indivíduo. A partir da literatura sobre fisiologia de emissão de novos pulsos, levantamos novas hipóteses sobre o funcionamento dos sistemas neurais responsáveis pela modulação dos intervalos entre pulsos e sobre como estes sistemas podem ter sua sensibilidade modificada por hormônios secretados durante a disputa por dominância. / Weakly electric fishs ability to communicate through a self-generated electric field has attracted attention from several areas of knowledge for more than 50 years. Particularly, pulse-type electric fish emit signals that exhibits several similarities with neuronal spike trains, becoming a popular animal model in neuroscience. Due to the increase of computational power and the development of new machine learning tools, it is now possible to investigate dominance interactions between a pair of fish at the level of every single pulse. As far as we know, information is coded and transmitted by modulation of interval between pulses. Thus, communication between electric fishes presents several similarities with the communication between neurons from different regions on the central nervous system: the spike rate of one neuron is modulated by the pulses emitted by the other. Here we investigated the social interactions between pairs of Gymnotus carapo, a highly territorial species. Using time series analysis, machine learning techniques, and information theory, we developed a methodology to identify communicative patterns in the pulses emitted by the fish. In addition, we observed a causal relation on the pattern emission: only one of the fish modifies the future behavior of its conspecific. This flow of information seems to be related to the dominance/submission role assumed by each individual. From the literature on the physiology of the emission of new pulses, we developed new hypotheses about the functioning of the neural systems responsible for modulating the intervals between pulses and on how these systems can be modified by hormones secreted during a dominance contest. Gymnotus carapo Gymnotus carapo Agrupamento Animal communication Aprendizagem de máquina Clustering Comunicação animal Electric fish Machine learning Peixes elétricos
63	Um método de referência para análise de desempenho preditivo de algoritmos de modelagem de distribuição de espécies. / A reference method for predictive performance analysis of species distribution modeling algorithms. Rodrigues, Fabrício Augusto 10 February 2012 (has links) A modelagem de distribuição de espécies tem como objetivo induzir um modelo para predizer a distribuição potencial de uma dada espécie. O modelo é projetado em um mapa de distribuição potencial que representa a probabilidade da presença da espécie em cada ponto. Esse processo de indução está relacionado com a estimativa do nicho fundamental da espécie, através da busca por relações entre dados georreferenciados de ocorrência da espécie e variáveis ambientais. Vários algoritmos de modelagem podem ser utilizados nessa tarefa. Oferecer diversos algoritmos pode tornar as ferramentas de modelagem mais completas. Porém, surge uma questão importante: qual algoritmo de modelagem escolher? Essa questão está relacionada com o desempenho preditivo das técnicas implementadas pelos algoritmos. Nesse contexto, o objetivo principal do trabalho foi organizar e especificar um método de análise de desempenho preditivo dos algoritmos de modelagem de distribuição de espécies. Através do método proposto é possível ter uma visão completa, estruturada e sistemática das etapas previstas em projetos de análise de desempenho preditivo dos algoritmos. O método pode ser utilizado como referência em estudos de validação de novos algoritmos, de comparação entre técnicas e na seleção de um ou mais algoritmos de modelagem. Como estudo de caso, o método proposto foi adotado nos testes de validação de um algoritmo baseado em Redes Neurais, desenvolvido e integrado ao framework openModeller, através da comparação com outros algoritmos já utilizados na modelagem. Além da própria validação, os testes tiveram como objetivo demonstrar a aplicabilidade do método. Os resultados mostraram que o algoritmo de Redes Neurais apresentou desempenho semelhante ao desempenho dos demais algoritmos, tendo sido, portanto, validado como adequado à tarefa de modelagem. Ainda no contexto da pesquisa, um algoritmo baseado na técnica de amostragem denominada Jackknife foi integrado ao openModeller, para aplicação na etapa de pré-análise. Testes relacionados com o tempo de execução foram realizados e uma versão paralela desse algoritmo foi desenvolvida. / The species distribution modeling aim is to induce a model to predict the potential distribution of a given species. The model is projected onto a potential distribution map that represents the presence probability of the species at each point. This induction process is related to the fundamental niche estimation of the species, through the search for relationships between georeferenced data of species occurrence and environmental variables. Several modeling algorithms can be used for this task. Providing different algorithms can make the modeling tools more complete. However, an important question arises: what modeling algorithm to choose? This issue is related to the predictive performance of the techniques implemented by the algorithms. In this context, the aim of this research was to organize and to specify a predictive performance analysis method of the species distribution modeling algorithms. Through the proposed method, it is possible to have a complete and structured vision of the steps in the planning of predictive performance analysis of the algorithms. The method may be used as a reference in validation studies of new algorithms, in comparison among techniques and in choosing one or more modeling algorithms. As a case study, the proposed method was adopted in the validation tests of an algorithm based on Neural Networks, developed and integrated into the openModeller framework, which was compared with other algorithms already used in modeling. Besides the validation itself, the tests intended to demonstrate the applicability of the method. The results showed that the Neural Networks algorithm presented similar performance to those of other algorithms and was validated as adequate to the modeling task. Still in the research context, an algorithm based on a sampling technique called the Jackknife was integrated to the openModeller, to be applied in the pre-analysis step. Tests related to the running time were carried out and a parallel version of this algorithm was developed. Análise de desempenho Aprendizagem de máquina Machine learning Modelagem de distribuição de espécies Neural networks Performance analysis Redes neurais Species distribution modeling
64	Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicado a sensores e sistemas embarcados. / Study of AdaBoost algorithm applied to sensors and embedded systems. Chaves, Bruno Butilhão 05 December 2011 (has links) O estudo da Inteligência Artificial e de suas técnicas tem trazido grandes resultados para a evolução da tecnologia em diversas áreas. Técnicas já conhecidas como as Redes Neurais e Árvores de Decisão vêm sendo aprimoradas por técnicas de Boosting como o Adaptive Boosting. Esta técnica é uma das que apresenta maior perspectiva de crescimento devido a seu potencial, flexibilidade e simplicidade para ser implementada em diferentes cenários, como por exemplo, no tratamento de imagens para reconhecimento de padrões. Um mercado com grande potencial para se beneficiar da técnica de Boosting, e em especial do AdaBoost, é o mercado de sensores. É cada vez mais comum a utilização de sensores isolados ou sistemas de múltiplos sensores trabalhando concomitantemente para se atingir um objetivo comum. Na utilização de sistemas embarcados compostos por sensores para realização de análises e tomadas de decisão são cada vez mais requisitados, principalmente onde se requer algum tipo de reconhecimento de padrão. O objetivo desta dissertação é estudar e desenvolver o conhecimento do algoritmo AdaBoost para aplicação em sensores, de forma a aprimorar a sensibilidade e precisão das medições, tanto de sensores isolados como de sistemas complexos com vários sensores, sem que seja necessário realizar modificações no próprio sensor. O estudo estende-se também em como implementar o algoritmo inteligente a um dispositivo autônomo composto por sensores e um microprocessador que contenha um classificador embarcado de reconhecimento de padrões. Para demonstrar a utilidade da técnica, foi realizado um estudo de caso utilizando um sistema composto de sensores capacitivos interdigitalizados e microfabricados, sensores de temperatura e sensor a fibra óptica, para verificar adulterações em combustíveis automotivos, em especial, do etanol combustível. Sete experimentos são apresentados no trabalho. Índices acima de 90% de classificações corretas foram obtidos, indicando a viabilidade da utilização do algoritmo para calibração de sensores ou rede de sensores. Por fim, foi desenvolvida com sucesso uma forma de embarcar o classificador treinado em um microprocessador, confirmando assim ser possível desenvolver dispositivos embarcados contendo essa tecnologia. / Studies on Artificial Intelligence and its techniques have provided great results for the whole technology evolution in several areas. Techniques known as Neural Networks and Decision Trees have been improved by Boosting techniques such as Adaptive Boosting. This particular technique presents great growth prospects due to its potential, flexibility and simplicity to be implemented in different scenarios, such as image analysis for pattern recognition. A specific market that can greatly benefit from the technique of Boosting and particularly AdaBoost is the sensor market. The use of isolated sensors or multiple sensor systems working together in order to reach a common goal is increasingly common. Embedded systems consisting of sensors for analysis and decision-making are also increasingly common especially in cases in which some sort of pattern recognition is necessary. Therefore, the purpose of this thesis is to study and to develop some knowledge about the AdaBoost algorithm applied to sensors in order to improve the sensitivity and accuracy of its measurements, both in isolated sensors and in complex systems with multiple sensors, without requiring any change in the sensor itself. The study also approaches how to implement the intelligent algorithm in an autonomous device composed by sensors and a microprocessor that contains an embedded classifier for pattern recognition. Accordingly, a case study was conducted using a system composed of microfabricated capacitive sensors, temperature sensors and fiber optical sensor with the purpose of analyzing the amount of automobile fuels, especially ethanol fuel. Seven experiments were performed in order to demonstrate the usefulness of this technique and they are presented in the study. Rates above 90% of correct classifications were obtained, which indicates the feasibility of using the algorithm for sensor calibration or sensor network calibration. Finally, a way to embed a trained classifier into a microprocessor was successfully developed, confirming that it is possible to develop embedded devices containing this technology. AdaBoost AdaBoost Adulteração de combustível Aprendizagem de máquina Boosting Boosting Dispositivos embarcados Embedded Machine learning Pattern recognition Reconhecimento de padrão Sensores
65	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online Barbosa, Haline Pereira de Oliveira, 5592991791259 03 April 2018 (has links) Submitted by Haline Barbosa (halinebarbosa@icomp.ufam.edu.br) on 2018-11-23T12:40:23Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) HalinePereiradeOliveiraBarbosa.pdf: 2143170 bytes, checksum: ff7bf1fb1f0781cd5558c12bc7cba05a (MD5) / Approved for entry into archive by Secretaria PPGI (secretariappgi@icomp.ufam.edu.br) on 2018-11-23T14:34:32Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) HalinePereiradeOliveiraBarbosa.pdf: 2143170 bytes, checksum: ff7bf1fb1f0781cd5558c12bc7cba05a (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-11-23T18:24:02Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) HalinePereiradeOliveiraBarbosa.pdf: 2143170 bytes, checksum: ff7bf1fb1f0781cd5558c12bc7cba05a (MD5) / Made available in DSpace on 2018-11-23T18:24:02Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) HalinePereiradeOliveiraBarbosa.pdf: 2143170 bytes, checksum: ff7bf1fb1f0781cd5558c12bc7cba05a (MD5) Previous issue date: 2018-04-03 / Twitter is one of the most used social networks in the world with about 328 million users sharing images, videos, texts and links. Due to the restrictions on message size it is common for tweets to share shortened links to websites, making it impossible to visually identify the URL before knowing what will be displayed. Faced with this scenario, Twitter becomes a means of spreading phishing attacks through malicious links. Phishing is an attack that seeks to obtain personal information like name, CPF, passwords, number of bank accounts and numbers of credit cards. Twitter phishing attack detection systems are usually built using off-line supervised machine learning, where a large amount of data is examined once to induce a single static prediction model. In these systems, the incorporation of new data requires the reconstruction of the prediction model from the processing of the entire database, making this process slow and inefficient. In this work we propose a framework to detect phishing in Twitter. The framework uses supervised online learning, that is, the classifier is updated with each processed tweet and, if it makes a wrong prediction, the model is updated by adapting quickly to the changes with low computational cost, time and maintaining its efficiency in the task of ranking. For this study we evaluated the performance of the online learning algorithms Adaptive Random Forest, Hoeffding Tree, Naive Bayes, Perceptron and Stochastic Gradient Descent. The online Adaptive Random Forest classifier presented 99.8% prequential accuracy in the classification of phishing tweets. / O Twitter é uma das redes sociais mais utilizadas no mundo com cerca de centenas de milhões de usuários compartilhando imagens, vídeos, textos e links. Devido às restrições impostas no tamanho das mensagens é comum que os tweets compartilhem links encurtados para websites impossibilitando a identificação visual prévia da URL antes de saber o que será exibido. Tal problema tornou o Twitter um dos principais meios de disseminação de ataques de phishing através de links maliciosos. Phishing é um ataque que visa obter informações pessoais como nomes, senhas, números de contas bancárias e de cartões de crédito. Em geral, os sistemas de detecção de ataques de phishing projetados para o Twitter são construídos com base em modelos de classificação off-line. Em tais sistemas, um grande volume de dados é examinado uma única vez para induzir em um único modelo de predição estático. Nesses sistemas, a incorporação de novos dados requer a reconstrução do modelo de previsão a partir do processamento de toda a base de dados, tornando esse processo lento e ineficiente. Para solucionar este problema, este trabalho propõe um framework de detecção de phishing no Twitter. O framework utiliza aprendizagem online supervisionada, ou seja, o classificador é atualizado a cada tweet processado e, caso este realize uma predição errada, o modelo é atualizado se adaptando rapidamente às mudanças com baixo custo computacional, tempo e mantendo a sua eficiência na tarefa de classificação. Para este estudo avaliamos o desempenho dos algoritmos de aprendizagem online Adaptive Random Forest, Hoeffding Tree, Naive Bayes, Perceptron e Stochastic Gradient Descent. O classificador online Adaptive Random Forest apresentou acurácia prequential 99,8%, na classificação de tweets de phishing. Detecção de phishing Twitter Aprendizagem de máquina Classificador online Phishing detection machine learning online learning
66	Avaliação de classificadores na classificação de radiografias de tórax para o diagnóstico de pneumonia infantil / Classifiers evaluation in chest radiograph classification to childhood pneumonia diagnosis Sousa, Rafael Teixeira 20 September 2013 (has links) Submitted by Erika Demachki (erikademachki@gmail.com) on 2014-10-14T21:24:19Z No. of bitstreams: 2 Dissertação - Rafael Teixeira Sousa - 2013.pdf: 2536972 bytes, checksum: 5a0aa0899207e8f66f11c5b819fcc211 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Jaqueline Silva (jtas29@gmail.com) on 2014-10-16T18:20:52Z (GMT) No. of bitstreams: 2 Dissertação - Rafael Teixeira Sousa - 2013.pdf: 2536972 bytes, checksum: 5a0aa0899207e8f66f11c5b819fcc211 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-10-16T18:20:52Z (GMT). No. of bitstreams: 2 Dissertação - Rafael Teixeira Sousa - 2013.pdf: 2536972 bytes, checksum: 5a0aa0899207e8f66f11c5b819fcc211 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2013-09-20 / This work extends a Computer-Aided Diagnosis system called PneumoCAD for detecting pneumonia in infants using radiographic images, with the aim of improving the system’s accuracy, robustness and test the features previously extracted. We implement and compare five contemporary machine learning classifiers, namely: Naïve Bayes, K-Nearest Neighbor (KNN), Support Vector Machines (SVM), Multi-Layer Perceptron (MLP) and Decision Tree, combined with three dimensionality reduction algorithms: the feature selection wrapper Sequential Forward Elimination (SFE), and two feature filter algotithms: Principal Component Analysis (PCA) and Kernel Principal Component Analysis (KPCA). Current Results of demonstrate that the Naïve Bayes classifier combined with KPCA produces the best overall results. Also confirming the efficiency os features. / Avaliação de classificadores na classificação de radiografias de tórax para o diagnóstico de pneumonia infantil Este trabalho dá continuidade ao Sistema de Auxílio a Diagnóstico chamado de PneumoCAD para a detecção de pneumonia infantil por meio de imagens radiográficas, com o objetivo de aprimorar a acurácia, robustez e testar as características extraídas anteriormente. Nós implementamos cinco classificadores contemporâneos, sendo estes: Naïve Bayes, K-Nearest Neighbor (KNN), Support Vector Machines (SVM), Multi-Layer Perceptron (MLP) e Árvore de decisão. Combinamos os classificadores com três algoritmos de redução de dimensionalidade: o wrapper Sequential Forward Elimination (SFE) e dois filtros: Principal Component Analysis (PCA) e Kernel Principal Component Analysis (KPCA). Os resultados atuais mostram que o Naïve Bayes combinado com o KPCA produzem o melhor resultado (96% de acurácia). Também confirmando a eficiência das características. Sistemas de auxílio a diagnóstico Classificadores Aprendizagem de máquina Computer-aided diagnosis Classifiers Machine learning
67	Um método de referência para análise de desempenho preditivo de algoritmos de modelagem de distribuição de espécies. / A reference method for predictive performance analysis of species distribution modeling algorithms. Fabrício Augusto Rodrigues 10 February 2012 (has links) A modelagem de distribuição de espécies tem como objetivo induzir um modelo para predizer a distribuição potencial de uma dada espécie. O modelo é projetado em um mapa de distribuição potencial que representa a probabilidade da presença da espécie em cada ponto. Esse processo de indução está relacionado com a estimativa do nicho fundamental da espécie, através da busca por relações entre dados georreferenciados de ocorrência da espécie e variáveis ambientais. Vários algoritmos de modelagem podem ser utilizados nessa tarefa. Oferecer diversos algoritmos pode tornar as ferramentas de modelagem mais completas. Porém, surge uma questão importante: qual algoritmo de modelagem escolher? Essa questão está relacionada com o desempenho preditivo das técnicas implementadas pelos algoritmos. Nesse contexto, o objetivo principal do trabalho foi organizar e especificar um método de análise de desempenho preditivo dos algoritmos de modelagem de distribuição de espécies. Através do método proposto é possível ter uma visão completa, estruturada e sistemática das etapas previstas em projetos de análise de desempenho preditivo dos algoritmos. O método pode ser utilizado como referência em estudos de validação de novos algoritmos, de comparação entre técnicas e na seleção de um ou mais algoritmos de modelagem. Como estudo de caso, o método proposto foi adotado nos testes de validação de um algoritmo baseado em Redes Neurais, desenvolvido e integrado ao framework openModeller, através da comparação com outros algoritmos já utilizados na modelagem. Além da própria validação, os testes tiveram como objetivo demonstrar a aplicabilidade do método. Os resultados mostraram que o algoritmo de Redes Neurais apresentou desempenho semelhante ao desempenho dos demais algoritmos, tendo sido, portanto, validado como adequado à tarefa de modelagem. Ainda no contexto da pesquisa, um algoritmo baseado na técnica de amostragem denominada Jackknife foi integrado ao openModeller, para aplicação na etapa de pré-análise. Testes relacionados com o tempo de execução foram realizados e uma versão paralela desse algoritmo foi desenvolvida. / The species distribution modeling aim is to induce a model to predict the potential distribution of a given species. The model is projected onto a potential distribution map that represents the presence probability of the species at each point. This induction process is related to the fundamental niche estimation of the species, through the search for relationships between georeferenced data of species occurrence and environmental variables. Several modeling algorithms can be used for this task. Providing different algorithms can make the modeling tools more complete. However, an important question arises: what modeling algorithm to choose? This issue is related to the predictive performance of the techniques implemented by the algorithms. In this context, the aim of this research was to organize and to specify a predictive performance analysis method of the species distribution modeling algorithms. Through the proposed method, it is possible to have a complete and structured vision of the steps in the planning of predictive performance analysis of the algorithms. The method may be used as a reference in validation studies of new algorithms, in comparison among techniques and in choosing one or more modeling algorithms. As a case study, the proposed method was adopted in the validation tests of an algorithm based on Neural Networks, developed and integrated into the openModeller framework, which was compared with other algorithms already used in modeling. Besides the validation itself, the tests intended to demonstrate the applicability of the method. The results showed that the Neural Networks algorithm presented similar performance to those of other algorithms and was validated as adequate to the modeling task. Still in the research context, an algorithm based on a sampling technique called the Jackknife was integrated to the openModeller, to be applied in the pre-analysis step. Tests related to the running time were carried out and a parallel version of this algorithm was developed. Análise de desempenho Aprendizagem de máquina Modelagem de distribuição de espécies Redes neurais Machine learning Neural networks Performance analysis Species distribution modeling
68	Uma investigação de aspectos da classificação de tópicos para textos curtos Oliveira, Ewerton Lopes Silva de 23 February 2015 (has links) Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) / Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Previous issue date: 2015-02-23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages. / Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas. Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning
69	Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicado a sensores e sistemas embarcados. / Study of AdaBoost algorithm applied to sensors and embedded systems. Bruno Butilhão Chaves 05 December 2011 (has links) O estudo da Inteligência Artificial e de suas técnicas tem trazido grandes resultados para a evolução da tecnologia em diversas áreas. Técnicas já conhecidas como as Redes Neurais e Árvores de Decisão vêm sendo aprimoradas por técnicas de Boosting como o Adaptive Boosting. Esta técnica é uma das que apresenta maior perspectiva de crescimento devido a seu potencial, flexibilidade e simplicidade para ser implementada em diferentes cenários, como por exemplo, no tratamento de imagens para reconhecimento de padrões. Um mercado com grande potencial para se beneficiar da técnica de Boosting, e em especial do AdaBoost, é o mercado de sensores. É cada vez mais comum a utilização de sensores isolados ou sistemas de múltiplos sensores trabalhando concomitantemente para se atingir um objetivo comum. Na utilização de sistemas embarcados compostos por sensores para realização de análises e tomadas de decisão são cada vez mais requisitados, principalmente onde se requer algum tipo de reconhecimento de padrão. O objetivo desta dissertação é estudar e desenvolver o conhecimento do algoritmo AdaBoost para aplicação em sensores, de forma a aprimorar a sensibilidade e precisão das medições, tanto de sensores isolados como de sistemas complexos com vários sensores, sem que seja necessário realizar modificações no próprio sensor. O estudo estende-se também em como implementar o algoritmo inteligente a um dispositivo autônomo composto por sensores e um microprocessador que contenha um classificador embarcado de reconhecimento de padrões. Para demonstrar a utilidade da técnica, foi realizado um estudo de caso utilizando um sistema composto de sensores capacitivos interdigitalizados e microfabricados, sensores de temperatura e sensor a fibra óptica, para verificar adulterações em combustíveis automotivos, em especial, do etanol combustível. Sete experimentos são apresentados no trabalho. Índices acima de 90% de classificações corretas foram obtidos, indicando a viabilidade da utilização do algoritmo para calibração de sensores ou rede de sensores. Por fim, foi desenvolvida com sucesso uma forma de embarcar o classificador treinado em um microprocessador, confirmando assim ser possível desenvolver dispositivos embarcados contendo essa tecnologia. / Studies on Artificial Intelligence and its techniques have provided great results for the whole technology evolution in several areas. Techniques known as Neural Networks and Decision Trees have been improved by Boosting techniques such as Adaptive Boosting. This particular technique presents great growth prospects due to its potential, flexibility and simplicity to be implemented in different scenarios, such as image analysis for pattern recognition. A specific market that can greatly benefit from the technique of Boosting and particularly AdaBoost is the sensor market. The use of isolated sensors or multiple sensor systems working together in order to reach a common goal is increasingly common. Embedded systems consisting of sensors for analysis and decision-making are also increasingly common especially in cases in which some sort of pattern recognition is necessary. Therefore, the purpose of this thesis is to study and to develop some knowledge about the AdaBoost algorithm applied to sensors in order to improve the sensitivity and accuracy of its measurements, both in isolated sensors and in complex systems with multiple sensors, without requiring any change in the sensor itself. The study also approaches how to implement the intelligent algorithm in an autonomous device composed by sensors and a microprocessor that contains an embedded classifier for pattern recognition. Accordingly, a case study was conducted using a system composed of microfabricated capacitive sensors, temperature sensors and fiber optical sensor with the purpose of analyzing the amount of automobile fuels, especially ethanol fuel. Seven experiments were performed in order to demonstrate the usefulness of this technique and they are presented in the study. Rates above 90% of correct classifications were obtained, which indicates the feasibility of using the algorithm for sensor calibration or sensor network calibration. Finally, a way to embed a trained classifier into a microprocessor was successfully developed, confirming that it is possible to develop embedded devices containing this technology. AdaBoost Adulteração de combustível Aprendizagem de máquina Boosting Dispositivos embarcados Reconhecimento de padrão Sensores AdaBoost Boosting Embedded Machine learning Pattern recognition
70	Otimização de algoritmo de agrupamento de dados para a classificação supervisionada de padrões SILVA, Evandro José da Rocha e 25 February 2014 (has links) Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-09T12:49:55Z No. of bitstreams: 2 DISSERTAÇÃO Evandro José da Rocha e Silva.pdf: 1864754 bytes, checksum: 7f438607b1d1280050c14f8d4b2df203 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T12:49:55Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Evandro José da Rocha e Silva.pdf: 1864754 bytes, checksum: 7f438607b1d1280050c14f8d4b2df203 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-02-25 / O reconhecimento de padrões é uma atividade frequente do ser humano. Entretanto muitas vezes não somos capazes de lidar com o volume de informações disponíveis. Para isso podemos recorrer às técnicas de Aprendizagem de Máquina, cujos algoritmos permitem a um computador aprender e classificar padrões de forma segura e veloz. Dentre os algoritmos que podem ser utilizados, existem aqueles que fazem parte dos sistemas de múltiplos classificadores. Nesses sistemas, vários classificadores trabalham em conjunto para a classificação dos padrões. O trabalho em conjunto pode ser realizado através da abordagem de seleção de classificadores. Neste trabalho foi desenvolvida uma metodologia para a construção de sistemas de múltiplos classificadores. Inicialmente o método usa os dados de treinamento para encontrar um mapa do agrupamento dos dados. Com isso, os dados de validação e teste pertencentes a cada grupo são encontrados. Então os classificadores são criados e treinados para cada grupo de dados. Através da abordagem de seleção de classificadores, o melhor classificador para cada agrupamento é encontrado. Os classificadores selecionados são usados para classificar os padrões não vistos que pertencem aos seus respectivos grupos. Foram implementadas duas versões do método proposto. A primeira, chamada BMGGAVS, conseguiu um bom desempenho, superando, na maioria das vezes, todos os outros métodos utilizados na comparação. A segunda versão do método, chamada BMG2GA, possui uma maior automatização. O BMG2GA não conseguiu resultados tão bons quanto os do BMGGAVS. Entretanto, em algumas situações, o BMG2GA conseguiu resultados próximos ou até melhores que os resultados de alguns dos métodos usados para comparação. Por causa desses últimos resultados, uma série de diretrizes são apresentadas para trabalhos futuros. Reconhecimento de Padrões Aprendizagem de Máquina Comitês de Classificadores (CC) Seleção de Classificadores (SC) Blockmodeling BM-GGA

Search results