Global ETD Search

51	Técnicas de classificação hierárquica multirrótulo / Hierarchical multilabel classification techniques Cerri, Ricardo 23 February 2010 (has links) Muitos dos problemas de classificação descritos na literatura de Aprendizado de Máquina e Mineração de Dados dizem respeito à classificação de dados em que cada exemplo a ser classificado pertence a um conjunto finito, e geralmente pequeno, de classes que estão em um mesmo nível. Vários problemas de classificação, entretanto, são de natureza hierárquica, em que classes podem ser subclasses ou superclasses de outras classes. Em muitos problemas hierárquicos, principalmente no campo da Bioinformática, um ou mais exemplos podem ser associados a mais de uma classe simultaneamente. Esses problemas são conhecidos como problemas de classificação hierárquica tirrótulo. Nesta pesquisa, foram investigadas diferentes técnicas para lidar com esses tipos de problemas. Essas técnicas são baseadas em duas abordagens: local ou Top-Down e global ou One-Shot. Três técnicas descritas na literatura foram utilizadas. A primeira delas, chamada HMC-BR, é baseada na abordagem Top-Down, e utiliza uma estratégia de classificação binária chamada Um-Contra-Todos. As outras duas técnicas, baseadas na abordagem One-Shot, são chamadas C4.5H (uma extensão do algoritmo de indução de àrvores de decis~ao C4.5), e de Clus-HMC (baseada na noção de Predictive Clustering Trees, em que àrvores de decisão são estruturadas como uma hierarquia de grupos (clusters)). Além das técnicas descritas na literatura, duas novas técnicas foram propostas e implementadas nesta pesquisa, chamadas de HMC-LP e HMC-CT. Essas técnicas são variações hierárquicas de técnicas de classificação multirrótulo não hierárquicas. A técnica HMC-LP utiliza uma estratégia de combinação de classes e a técnica HMC-CT utiliza uma estratégia de decomposição de classes. Para a avaliação das técnicas, foram utilizadas medidas específicas para esse tipo de classificação. Os resultados experimentais mostraram que as técnicas propostas obtiveram desempenhos superiores ou semelhantes aos das técnicas descritas na literatura, dependendo da medida de avaliação utilizada e das características dos conjuntos de dados / Many of the classification problems described in the literature of Machine Learning and Data Mining are related to data classification where each example to be classified belongs to a finite, and usually small, set of classes located at the same level. There are many classification problems, however, that are of hierarchical nature, where classes can be subclasses or superclasses of other classes. In many hierarchical problems, mainly in the Bioinformatics field, one or more examples can be associated to more than one class simultaneously. These problems are known as hierarchical multilabel classification problems. In this research, different techniques to deal with these kinds of problems were investigated, based on two approaches, named local or Top-Down and global or One-Shot. Three techniques described in the literature were used. The first one, named HMC-BR, is based on the Top-Down approach, and uses a binary classification strategy named One-Against-All. The other two techniques, based on the One-Shot approach, are named C4.5H (an extension of the decision tree induction algorithm C4.5), and Clus-HMC (based on the notion of Predictive Clustering Trees, where decision trees are structured as a hierarchy of clusters). In addition to the techniques described in the literature, two new techniques were proposed, named HMC-LP and HMC-CT. These techniques are hierarchical variations of non-hierarchical multilabel classification techniques. The HMCLP technique uses a label combination strategy and the HMC-CT technique uses a label decomposition strategy. The evaluation of the techniques was performed using specific metrics for this kind of classification. The experimental results showed that the proposed techniques achieved better or similar performances than the techniques described in the literature, depending on the evaluation metric used and on the characteristics of the datasets Aprendizado de máquina Bioinformática Bioinformatics Classificação Classification Hierarchical Hierárquia Machine learning Multilabel Multirrótulo
52	Ajuste de parâmetros de técnicas de classificação por algoritmos bioinspirados / Bioinspired parameter tuning of classifiers Rossi, André Luis Debiaso 01 April 2009 (has links) Aprendizado de máquina é uma área de pesquisa na qual se investiga como desenvolver sistemas capazes de aprender com a experiência. Muitos algoritmos de aprendizado possuem parâmetros cujos valores devem ser especificados pelo usuário. Em geral, esses valores influenciam diretamente no processo de aquisição do conhecimento, podendo gerar diferentes modelos. Recentemente, algoritmos de otimização bioinspirados têm sido aplicados com sucesso no ajuste de parâmetros de técnicas de aprendizado de máquina. Essas técnicas podem apresentar diferentes sensibilidades em relação aos valores escolhidos para seus parâmetros e diferentes algoritmos de ajuste de parâmetros podem apresentar desempenhos singulares. Esta dissertação investiga a utilização de algoritmos bioinspirados para o ajuste de parâmetros de redes neurais artificiais e máquinas de vetores de suporte em problemas de classificação. O objetivo dessa investigação é verificar quais são as técnicas que mais se beneficiam do ajuste de parâmetros e quais são os algoritmos mais eficientes para essas técnicas. Os resultados experimentais mostram que os algoritmos bioinspirados conseguem encontrar melhores clasificadores que outras abordagens. Porém, essa melhoria é estatisticamente significativa para alguns conjuntos de dados. Foi possível verificar que o uso dos valores padrão para os parâmetros das técnicas de classificação leva a desempenhos similares aos obtidos com os algoritmos bioinspirados. Entretanto, para alguns conjuntos de dados, o ajuste de parâmetros pode melhorar significativamente o desempenho dos classificadores / Machine learning is a research area whose main goal is to design computational systems capable of learning through experience. Many machine learning techniques have free parameters whose values are generally defined by the user. Usually, these values affect the knowledge acquisition process directly, resulting in different models. Recently, bioinspired optimization algorithms have been successfully applied to the parameter tuning of machine learning techniques. These techniques may present variable sensitivity to the selection of the values of its parameters and different parameter tuning algorithms may present different behaviors. This thesis investigates the use of bioinspired algorithms for the parameter tuning of artificial neural networks and support vector machines in classification problems. The goal of this thesis is to investigate which techniques benefits most from parameter tuning and which are the most efficient algorithms to use with these techniques. Experimental results show that these bioinspired algorithms can find better classifiers when compared to other approaches. However, this improvement is statistically significant only to some datasets. It was possible to verify that the use of standard parameter values for the classification techniques leads to similar performances to those obtained with the bioinspired algorithms. However, for some datasets, the parameter tuning may significantly improve a classifier performance Ajuste de parâmetros Algoritmos bioinspirados Aprendizado de máquina Bioinspired algorithms Classificação Classification Machine learning Parameter tuning
53	"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning" Batista, Gustavo Enrique de Almeida Prado Alves 16 May 2003 (has links) A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process. aprendizado de máquina data mining data pre-processing machine learning mineração de dados pré-processamento de dados
54	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasks Andrade Filho, José Augusto 17 September 2013 (has links) Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition Agrupamento de dados Aprendizado de máquina Chaos theory Clustering Feature selection Machine learning Seleção de atributos Teoria do caos
55	Empregando técnicas de visualização de informação para transformação interativa de dados multidimensionais / Transforming muldimensional data using information visualization techniques Fatore, Francisco Morgani 27 July 2015 (has links) A exploração de conjuntos de dados é um problema abordado com frequência em diversos domínios e tem como objetivo uma melhor compreensão de fenômenos simulados ou medidos. Tal atividade é precedida pelas etapas de coleta e armazenamento de dados que buscam registrar o máximo de detalhes sobre algum fenômeno observado. Porém, a exploração efetiva dos dados envolve uma série de desafios. Um deles é a dificuldade em identificar quais dados são realmente relevantes para as análises. Outro problema está relacionado com a falta de garantias de que os fatores fundamentais para a compreensão do problema tenham sido coletados. A transformação interativa de dados é uma abordagem que utiliza técnicas de visualização computacional para resolver ou minimizar esses problemas. No entanto, os trabalhos disponíveis na literatura possuem limitações, como interfaces demasiadamente complexas e mecanismos de interação pouco flexíveis. Assim, este projeto de mestrado teve como objetivo desenvolver novas técnicas visuais interativas para a transformação de dados multidimensionais. A metodologia desenvolvida se baseou no uso de biplots e na ação conjunta dos mecanismos de interação para superar as limitações das técnicas do estado da arte. Os resultados dos experimentos realizados sobre diversos conjuntos de dados dão indícios de que os métodos desenvolvidos possibilitam a obtenção de conjuntos de dados mais representativos. Mais especificamente, foram obtidos melhores resultados em tarefas de classificação de dados ao utilizar os métodos desenvolvidos. / The exploration of datasets is a frequently task in several fields and aims at a better understanding of simulated or measured phenomena. Such activity is preceded by the steps of collecting and storing data, which seek to record as much detail possible about an observed phenomenon. The exploration task is challenging due to many aspects. One of them is the difficulty in identifying which collected data are actually relevant to the analysis. Another one is related to the lack of guarantees that the key factors for understanding the problem have been collected. The interactive transformation of data is a visual based approach that seeks to solve or mitigate these problems. However, the available methods in the literature have limitations in several aspects, such as complex user interfaces and inflexible interactive mechanisms. So, this master project had the goal to develop novel visual techniques for the transformation of datasets. The proposed methodology was based on the use of biplots and interaction mechanisms to overcome the limitations of the state of the art techniques. Empirical results show that by using the proposed approach, it is possible to make the data more representative. Therefore, exploratory activities, classifications, were performed more efficiently and thus provided better results. Aprendizado de máquina Biplot Biplot Computer visualization Machine learning Muldimensional projections Projeção multidimensional Visualização computacional
56	Ampliando os limites do aprendizado indutivo de máquina através das abordagens construtiva e relacional. / Extending the limits of inductive machine learning through constructive and relational approaches. Nicoletti, Maria do Carmo 24 June 1994 (has links) Este trabalho investiga Aprendizado Indutivo de Máquina como função das linguagens de descrição, utilizadas para expressar instancias, conceitos e teoria do domínio. A ampliação do poder de representação do aprendizado proporcional e abordada no contexto de indução construtiva, no domínio de funções booleanas, com a proposta de uma estratégia de composição de atributos denominada root-fringe. Avaliações experimentais dessa e de outras estratégias de construção de novos atributos foram conduzidas e os resultados analisados. Dois métodos de poda, para tratamento de ruídos, em aprendizado de arvores de decisão, foram avaliados num ambiente de indução construtiva e os resultados discutidos. Devido a limitação do aprendizado proposicional, foram investigadas formas de ampliação dos limites do aprendizado, através da ampliação do poder representacional das linguagens de descrição. Foi escolhida Programação Lógica Indutiva - PLI - que e um paradigma de aprendizado indutivo que usa restrições de Lógica de Primeira Ordem como linguagens de descrição. O aprendizado em PLI só é factível quando as linguagens utilizadas estão restritas e é fortemente controlado, caso contrário, o aprendizado em PLI se torna indecidível. A pesquisa em PLI se direcionou a formas de restrição das linguagens de descrição da teoria do domínio e de hipóteses. Três algoritmos que \"traduzem\" a teoria do domínio de sua forma intencional, para extensional, são apresentados. As implementações de dois deles são discutidas. As implementações realizadas deram origem a dois ambientes experimentais de aprendizado: o ambiente proposicional experimental, do qual fazem parte o ambiente experimental construtivo, e o ambiente experimental relacional. / This work investigates Inductive Machine Learning as a function of the description languages employed to express instances, concepts and domain theory. The enlargement of the representational power of propositional learning methods is approached via constructive induction, in the domain of boolean functions, through the proposal of a bias for composing attributes, namely, the bias root-fringe. Experimental evaluation of root-fringe, as well as other biases for constructing new attributes was conducted and the results analyzed. Two pruning methods for decision trees were evaluated in an environment of constructive induction and the results discussed. Due to the limitations of propositional learning, ways of enlarging the limits of the learning process were investigated through enlarging the representational power of the description languages. It was chosen Inductive Logic Programming - ILP - that is an inductive learning paradigm that uses restrictions of First Order Logic as description languages. Learning using ILP is only feasible when the languages are restricted and are strongly controlled; otherwise, learning in ILP becomes undecidible. Research work in ILP was directed towards restricting domain theory and hypotheses description languages. Three algorithms that \"translate\" the intentional expression of a domain theory into its extensional expression are presented. The implementations of two of them are discussed. The implementations gave rise to two experimental learning environments: the propositional environment, which includes the constructive environment, and the relational environment. Aprendizado construtivo Aprendizado de máquina Constructive learning Inductive logic programming Machine learning Programação lógica indutiva
57	Investigação de técnicas de classificação hierárquica para problemas de bioinformática / Investigation of hierarchial classification techniques for bioinformatics problems Costa, Eduardo de Paula 25 March 2008 (has links) Em Aprendizado de Máquina e Mineração de Dados, muitos dos trabalhos de classificação reportados na literatura envolvem classificação plana (flat classification), em que cada exemplo é associado a uma dentre um conjunto finito (e normalmente pequeno) de classes, todas em um mesmo nível. Entretanto, existem problemas de classificação mais complexos em que as classes a serem preditas podem ser dispostas em uma estrutura hierárquica. Para esses problemas, a utilização de técnicas e conceitos de classificação hierárquica tem se mostrado útil. Uma das linhas de pesquisa com grande potencial para a utilização de tais técnicas é a Bioinformática. Dessa forma, esta dissertação apresenta um estudo envolvendo técnicas de classificação hierárquica aplicadas à predição de classes funcionais de proteínas. No total foram investigados doze algoritmos hierárquicos diferentes, sendo onze deles representantes da abordagem Top-Down, que foi o enfoque da investigação realizada. O outro algoritmo investigado foi o HC4.5, um algoritmo baseado na abordagem Big- Bang. Parte dos algoritmos estudados foram desenvolvidos com base em uma variação da abordagem Top-Down, denominada de Top-Down Ensemble, que foi proposta neste estudo. Alguns do algoritmos baseados nessa nova abordagem apresentaram resultados promissores, superando os resultados dos demais algoritmos. Para avaliação dos resultados, foi utilizada uma medida específica para problemas hierárquicos, denominada taxa de acerto dependente da profundidade. Além dessa, outras três medidas de avaliação foram utilizadas, de modo a comparar os resultados reportados por diferentes medidas / In Machine Learning and Data Mining, most of the research in classification reported in the literature involve flat classification, where each example is assigned to one class out of a finite (and usually small) set of flat classes. Nevertheless, there are more complex classification problems in which the classes to be predicted can be disposed in a hierarchy. In this context, the use of hierarchical classification techniques and concepts have been shown to be useful. One research with great potential is the application of hierarchical classification techniques to Bioinformatics problems. Therefore, this MSc thesis presents a study involving hierarchical classification techniques applied to the prediction of functional classes of proteins. Twelve different algorithms were investigated - eleven of them based on the Top-Down approach, which was the focus of this study. The other investigated algorithm was HC4.5, an algorithm based on the Big-Bang approach. Part of these algorithms are based on a variation of the Top-Down approach, named Top-Down Ensembles, proposed in this study. Some of the algorithms based on this new approach presented promising results, which were better than the results presented by other algorithms. A specific evaluation measure for hierarchical classification, named depth-dependent accuracy, was used to evaluate the classification models. Besides, other three evaluation measures were used in order to compare the results reported by them Aprendizado de máquina Bioinformática Bioinformatics Classificação hierárquica Data mining Hierarchical classification Machine learning Mineração de dados
58	Adaptação de viés indutivo de algoritmos de agrupamento de fluxos de dados / Adapting the inductive bias of data-stream clustering algorithms Albertini, Marcelo Keese 11 April 2012 (has links) Diversas áreas de pesquisa são dedicadas à compreensão de fenômenos que exigem a coleta ininterrupta de sequências de amostras, denominadas fluxos de dados. Esses fenômenos frequentemente apresentam comportamento variável e são estudados por meio de indução não supervisionada baseada em agrupamento de dados. Atualmente, o processo de agrupamento tem exibido sérias limitações em sua aplicação a fluxos de dados, devido às exigências impostas pelas variações comportamentais e pelo modo de coleta de dados. Embora tem-se desenvolvido algoritmos eficientes para agrupar fluxos de dados, há a necessidade de estudos sobre a influência de variações comportamentais nos parâmetros de algoritmos (e.g., taxas de aprendizado e limiares de proximidade), as quais interferem diretamente na compreensão de fenômenos. Essa lacuna motivou esta tese, cujo objetivo foi a proposta de uma abordagem para a adaptação do viés indutivo de algoritmos de agrupamento de fluxos de dados de acordo com variações comportamentais dos fenômenos em estudo. Para cumprir esse objetivo projetou-se: i) uma abordagem baseada em uma nova arquitetura de rede neural artificial que permite avaliação de comportamento de fenômenos por meio da estimação de cadeias de Markov e entropia de Shannon; ii) uma abordagem para adaptar parâmetros de algoritmos de agrupamento tradicional de acordo com variações comportamentais em blocos sequenciais de dados; e iii) uma abordagem para adaptar parâmetros de agrupamento de acordo com a contínua avaliação da estabilidade de dados. Adicionalmente, apresenta-se nesta tese uma taxonomia de técnicas de detecção de variação comportamental de fenômenos e uma formalização para o problema de agrupamento de fluxos de dados / Several research fields have described phenomena that produce endless sequences of samples, referred to as data streams. These phenomena usually present behavior variation and are studied by means of unsupervised induction based on data clustering. In order to cope with the characteristics of data streams, researchers have designed clustering algorithms with low time and space complexity requirements. However, predefined and static parameters (thresholds, number of clusters and learning rates) found in current algorithms still limit the application of clustering to data streams. This limitation motivated this thesis, which proposes a continuous approach to evaluate behavior variations and adapt algorithm inductive bias by changing its parameters. The main contribution of this thesis is the proposal of three approaches to adapt induction bias: i) an approach based on the design of an adaptive artificial self-organizing neural network architecture that enables behavior evaluation by means of Markov chain and Shannon entropy estimations; ii) an approach to adapt traditional data clustering algorithms according to behavior variations in sequences of data chunks; and iii) an approach based on the proposed neural network architecture to continuously adapt parameters by means of the evaluation of data stability. Additionally, in order to analyze the essential characteristics of data streams, this thesis presents a formalization for the problem of data stream clustering and a taxonomy on approaches to detect behavior variations Agrupamento de dados Aprendizado de máquina Data clustering Data streams Fluxosa de dados Machine learning
59	A utilização de algoritmos de aprendizado de máquina em problemas de classificação / The use of machine learning algorithms in classification problems Maria Rita Sifuentes Batista 26 October 2018 (has links) Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados. / The last few years were remarkable by relevant advances in technology, mainly related to computers. These advances, when added to the diversity of products offered by companies from different segments and their efforts in capturing and storing data from their customers and operations, helps to explain the amount of information that is currently being produced. Overall, the organizations have been efficient in capturing, organizing, and storing large amounts of data, but not all of them uses it adequately to make them useful knowledge for their activities. Learning algorithms are a powerful machine toll to acquire knowledge based on experience. The use of these algorithms allows advances and discoveries that brings a competitive advantage to the companies. The most common machine learning task is supervised learning, whose objective is to learn a predictive model from a set of data. This model should be able to generalize the acquired knowledge to a set of unknown data. This allows the model to have a good predictive capability. An important and widely used application of supervised learning are the classification problems, commonly seen in the financial industry. One of the challenges of this industry is to predict the payment capacity of its customers, rating them as good or bad payers. In this study, five supervised machine learning algorithms, logistic regression, Bayesian classifiers, k-neighbors, random forests and neural networks were investigated and applied to a real classification problem. Since the performance of these algorithms are affected by the variables used, variable selection techniques were applied to the original data set. The use of these techniques allows a computational reduction time by removing redundant and irrelevant information. Performance measures for binary classification were used to evaluate the predictive performance of the models generated by the five algorithms and to compare them. Since it is increasing the importance to have easily interpretable models, the interpretability and complexity of the models generated were also evaluated. Algoritmo Aprendizado de máquina Classificação Previsão Variáveis Algorithm Classification Machine learning Prediction Variables
60	Aprendizado de máquina com informação privilegiada: abordagens para agrupamento hierárquico de textos / Machine learning with privileged information: approaches for hierarchical text clustering Marcacini, Ricardo Marcondes 14 October 2014 (has links) Métodos de agrupamento hierárquico de textos são muito úteis para analisar o conhecimento embutido em coleções textuais, organizando os documentos textuais em grupos e subgrupos para facilitar a exploração do conhecimento em diversos níveis de granularidade. Tais métodos pertencem à área de aprendizado não supervisionado de máquina, uma que vez obtêm modelos de agrupamento apenas pela observação de regularidades existentes na coleção textual, sem supervisão humana. Os métodos tradicionais de agrupamento assumem que a coleção textual é representada apenas pela informação técnica, ou seja, palavras e frases extraídas diretamente dos textos. Por outro lado, em muitas tarefas de agrupamento existe conhecimento adicional e valioso a respeito dos dados, geralmente extraído por um processo avançado com apoio de usuários especialistas do domínio do problema. Devido ao alto custo para obtenção desses dados, esta informação adicional é definida como privilegiada e usualmente está disponível para representar apenas um subconjunto dos documentos textuais. Recentemente, um novo paradigma de aprendizado de máquina denominado LUPI (Learning Using Privileged Information) foi proposto por Vapnik para incorporar informação privilegiada em métodos aprendizado supervisionado. Neste trabalho de doutorado, o paradigma LUPI foi estendido para aprendizado não supervisionado, em especial, para agrupamento hierárquico de textos. Foram propostas e avaliadas abordagens para lidar com diferentes desafios existentes em tarefas de agrupamento, envolvendo a extração e estruturação da informação privilegiada e seu uso para refinar ou corrigir modelos de agrupamento. As abordagens propostas se mostraram eficazes em (i) consenso de agrupamentos, permitindo combinar diferentes representações e soluções de agrupamento; (ii) aprendizado de métricas, em que medidas de proximidades mais robustas foram obtidas com base na informação privilegiada; e (iii) seleção de modelos, em que a informação privilegiada é explorada para identificar relevantes estruturas de agrupamento hierárquico. Todas as abordagens apresentadas foram investigadas em um cenário de agrupamento incremental, permitindo seu uso em aplicações práticas caracterizadas pela necessidade de eficiência computacional e alta frequência de publicação de novo conhecimento textual. / Hierarchical text clustering methods are very useful to analyze the implicit knowledge in textual collections, enabling the organization of textual documents into clusters and subclusters to facilitate the knowledge browsing at various levels of granularity. Such methods are classified as unsupervised machine learning, since the clustering models are obtained only by observing regularities of textual data without human supervision. Traditional clustering methods assume that the text collection is represented only by the technical information, i.e., words and phrases extracted directly from the texts. On the other hand, in many text clustering tasks there is an additional and valuable knowledge about the problem domain, usually extracted by an advanced process with support of the domain experts. Due to the high cost of obtaining such expert knowledge, this additional information is defined as privileged and is usually available to represent only a subset of the textual documents. Recently, a new machine learning paradigm called LUPI (Learning Using Privileged Information) was proposed by Vapnik to incorporate privileged information into supervised learning methods. In this thesis, the LUPI paradigm was extended to unsupervised learning setting, in particular for hierarchical text clustering. We propose and evaluate approaches to deal with different challenges for clustering tasks, involving the extraction and structuring of privileged information and using this additional information to refine or correct clustering models. The proposed approaches were effective in (i) consensus clustering, allowing to combine different clustering solutions and textual representations; (ii) metric learning, in which more robust proximity measures are obtained from privileged information; and (iii) model selection, in which the privileged information is exploited to identify the relevant structures of hierarchical clustering. All the approaches presented in this thesis were investigated in an incremental clustering scenario, allowing its use in practical applications that require computational efficiency as well as deal with high frequency of publication of new textual knowledge. Agrupamento hierárquico de textos Aprendizado de máquina Hierarchical text clustering Informação privilegiada Machine learning Privileged information

Search results