Global ETD Search

1	Uma abordagem preditiva da evasão na educação a distância a partir dos construtos da distância transacional RAMOS, Jorge Luis Cavalcanti 22 December 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:35:50Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Tese_Jorge_Luis_Cavalcanti_Ramos_Final.pdf: 7170280 bytes, checksum: 89435ef87395ca1ce9cdec68c87e843d (MD5) / Made available in DSpace on 2017-08-31T12:35:50Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Tese_Jorge_Luis_Cavalcanti_Ramos_Final.pdf: 7170280 bytes, checksum: 89435ef87395ca1ce9cdec68c87e843d (MD5) Previous issue date: 2016-12-22 / O crescimento da Educação a Distância (EAD) tem sido apoiado por teorias para auxiliar o planejamento e a execução de cursos de maneira eficaz e eficiente. As pesquisas na área também refletem esse crescimento, à medida que buscam atenuar ou resolver problemas que surgem decorrentes dessa expansão, como por exemplo os altos índices de evasão ainda verificados na modalidade. Para a maioria das instituições que participaram do Censo Anual da EAD no Brasil em 2015, o grande obstáculo enfrentado tem sido a evasão nos cursos, quando para 40% das instituições pesquisadas, a taxa média de evasão foi entre 26% e 50% nos cursos totalmente ofertados a distância por essas instituições. Partindo de uma necessidade de renovação de teorias da EAD, bem como aplicá-las no sentido de auxiliar no enfrentamento nos desafios da modalidade, esta pesquisa enfocou a Teoria da Distância Transacional, proposta por Moore (1972, 1973, 1993, 2013). Foi sugerida uma nova abordagem para determinação dos seus construtos, com o propósito de aplicá-los em um processo de detecção precoce de alunos com tendências a evasão, em cursos superiores ofertados a distância. A utilização de técnicas de análise multivariada para a obtenção dos construtos da distância transacional teve a intenção de buscar uma abordagem distinta das atualmente verificadas na literatura. Essa determinação é feita, na maioria dos casos, utilizando questionários aplicados a alunos e professores. Também, as evidências na literatura apontam o uso de diversas técnicas de mineração de dados e aprendizagem de máquina na definição de modelos preditivos em contextos educacionais, com índices satisfatórios de acertos. A partir da obtenção dos componentes (variáveis) dos construtos da distância transacional, foi também definido e validado um modelo de previsão da evasão de alunos em cursos a distância, a partir desses componentes. Foram usados diversos algoritmos classificadores, sendo o classificador por regressão logística apresentado resultados mais relevantes quando comparados aos registrados pela literatura na área. Foi então desenvolvida uma aplicação com o modelo preditivo implementado, para testes com professores e tutores que atuam na EAD, sendo a mesma bem avaliada por esses usuários. / The growth of Distance Education (DE) has been supported by theories to aid in the planning and execution of courses in an effective and efficient way. Research in this area also reflects this growth, as they seek to mitigate or solve problems arising from this expansion, such as the high rates of dropouts still observed in the modality. For most of the institutions that participated in the DE Annual Census in Brazil in 2015, the greatest obstacle has been the avoidance of courses, when for 40% of the institutions surveyed, the average rate of dropout was between 26% and 50% in courses offered at a distance by these institutions. Based on a need to renew DE theories, as well as applying them to help addressing the challenges of the modality, this research focused on the Transactional Distance Theory proposed by Moore (1972, 1973, 1993, 2013). It was suggested a new approach to determine their constructs, with the purpose of applying them in a process of early detection of students with tendencies to dropout, in higher distance courses. The use of multivariate analysis techniques to obtain the transactional distance constructs, had the intention of looking for a different approach than those currently found in the literature. This determination is made, in most cases, using questionnaires applied to students and teachers. In addition, the literature evidences the use of several techniques of data mining and machine learning in the definition of predictive models in educational contexts, with satisfactory indexes of precision. After obtaining the components (variables) of the constructs, it was also defined and validated a model of prediction of the dropout students in distance courses, from these components. Several classifiers algorithms were used, and the logistic regression classifier presented more relevant results when compared to those recorded in the literature. Since then, an application with the predictive model was implemented for test with users and was been well accepted by teachers and tutors who work with DE. Mineração de Dados Educacionais EAD Predição Aprendizado supervisionado
2	[pt] MONITORAMENTO DE VIBRAÇÃO EM SISTEMAS MECÂNICOS USANDO APRENDIZADO PROFUNDO E RASO EM COMPUTADORES NA PONTA / [en] VIBRATION MONITORING OF MECHANICAL SYSTEMS USING DEEP AND SHALLOW LEARNING ON EDGE-COMPUTERS CAROLINA DE OLIVEIRA CONTENTE 30 June 2022 (has links) [pt] O monitoramento de integridade estrutural tem sido o foco de desenvolvimentos recentes no campo da avaliação baseada em vibração e, mais recentemente, no escopo da internet das coisas à medida que medição e computação se tornam distribuídas. Os dados se tornaram abundantes, embora a transmissão nem sempre seja viável em frequências mais altas especialmente em aplicações remotas. Portanto, é importante conceber fluxos de trabalho de modelo orientados por dados que garantam a melhor relação entre a precisão do modelo para avaliação de condição e os recursos computacionais necessários para soluções incorporadas, tópico que não tem sido amplamente utilizado no contexto de medições baseadas em vibração. Neste contexto, a presente pesquisa propõe abordagens para duas aplicações: na primeira foi proposto um fluxo de trabalho de modelagem capaz de reduzir a dimensão dos parâmetros de modelos autorregressivos usando análise de componentes principais e classificar esses dados usando algumas técnicas de aprendizado de máquina como regressão logística, máquina de vetor de suporte, árvores de decisão, k-vizinhos próximos e floresta aleatória. O exemplo do prédio de três andares foi usado para demonstrar a eficácia do método. No segundo caso, é utilizado um equipamento de teste composto por inércias rotativas onde a solução de monitoramento foi testada em uma plataforma baseada em GPU embarcada. Os modelos implementados para distinguir eficazmente os diferentes estados de atrito foram análise de componentes principais, deep autoencoders e redes neurais artificiais. Modelos rasos têm melhor desempenho em tempo de execução e precisão na detecção de condições de falha. / [en] Structural health monitoring has been the focus of recent developments in vibration-based assessment and, more recently, in the scope of the internet of things as measurement and computation become distributed. Data has become abundant even though the transmission is not always feasible, especially in remote applications. It is thus essential to devise data-driven model workflows that ensure the best compromise between model accuracy for condition assessment and the computational resources needed for embedded solutions. This topic has not been widely used in the context of vibration-based measurements. In this context, the present research proposes two approaches for two applications, a static and a rotating one. In case one, a modeling workflow capable of reducing the dimension of autoregressive model features using principal component analysis and classifying this data using some of the main machine learning techniques such as logistic regression, support vector machines, decision tree classifier, k-nearest neighborhood and random forest classifier was proposed. The three-story building example was used to demonstrate the method s effectiveness, together with ways to assess the best compromise between accuracy and model size. In case two, a test rig composed of rotating inertias and slender connecting rods is used, and the monitoring solution was tested in an embedded GPU-based platform. The models implemented to effectively distinguish between different friction states were principal component analysis, deep autoencoder and artificial neural networks. Shallow models perform better concerning running time and accuracy in detecting faulty conditions. [pt] APRENDIZADO SUPERVISIONADO [pt] APRENDIZADO SUPERVISIONADO [pt] APRENDIZADO NAO SUPERVISIONADO [pt] IDENTIFICACAO DE SISTEMAS [en] SUPERVISED LEARNING [en] SUPERVISED LEARNING [en] UNSUPERVISED LEARNING [en] SYSTEM IDENTIFICATION [en] STRUCTURAL HEALTH MONITORING
3	Técnicas para o problema de dados desbalanceados em classificação hierárquica / Techniques for the problem of imbalanced data in hierarchical classification Barella, Victor Hugo 24 July 2015 (has links) Os recentes avanços da ciência e tecnologia viabilizaram o crescimento de dados em quantidade e disponibilidade. Junto com essa explosão de informações geradas, surge a necessidade de analisar dados para descobrir conhecimento novo e útil. Desse modo, áreas que visam extrair conhecimento e informações úteis de grandes conjuntos de dados se tornaram grandes oportunidades para o avanço de pesquisas, tal como o Aprendizado de Máquina (AM) e a Mineração de Dados (MD). Porém, existem algumas limitações que podem prejudicar a acurácia de alguns algoritmos tradicionais dessas áreas, por exemplo o desbalanceamento das amostras das classes de um conjunto de dados. Para mitigar tal problema, algumas alternativas têm sido alvos de pesquisas nos últimos anos, tal como o desenvolvimento de técnicas para o balanceamento artificial de dados, a modificação dos algoritmos e propostas de abordagens para dados desbalanceados. Uma área pouco explorada sob a visão do desbalanceamento de dados são os problemas de classificação hierárquica, em que as classes são organizadas em hierarquias, normalmente na forma de árvore ou DAG (Direct Acyclic Graph). O objetivo deste trabalho foi investigar as limitações e maneiras de minimizar os efeitos de dados desbalanceados em problemas de classificação hierárquica. Os experimentos realizados mostram que é necessário levar em consideração as características das classes hierárquicas para a aplicação (ou não) de técnicas para tratar problemas dados desbalanceados em classificação hierárquica. / Recent advances in science and technology have made possible the data growth in quantity and availability. Along with this explosion of generated information, there is a need to analyze data to discover new and useful knowledge. Thus, areas for extracting knowledge and useful information in large datasets have become great opportunities for the advancement of research, such as Machine Learning (ML) and Data Mining (DM). However, there are some limitations that may reduce the accuracy of some traditional algorithms of these areas, for example the imbalance of classes samples in a dataset. To mitigate this drawback, some solutions have been the target of research in recent years, such as the development of techniques for artificial balancing data, algorithm modification and new approaches for imbalanced data. An area little explored in the data imbalance vision are the problems of hierarchical classification, in which the classes are organized into hierarchies, commonly in the form of tree or DAG (Direct Acyclic Graph). The goal of this work aims at investigating the limitations and approaches to minimize the effects of imbalanced data with hierarchical classification problems. The experimental results show the need to take into account the features of hierarchical classes when deciding the application of techniques for imbalanced data in hierarchical classification. Aprendizado supervisionado Classificação hierárquica Dados desbalanceados Data imbalance Desbalanceamento de dados Hierarchical classification Imbalanced data Supervised learning
4	Metodologia para avaliar técnicas de redução de protótipos: protótipos gerados versus protótipos selecionados Pereira, Luciano de Santana 17 July 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-11T18:44:57Z No. of bitstreams: 2 Dissertaçao Luciano Pereira.pdf: 1413296 bytes, checksum: 608b11e654f960ce7a6787138b9b1bd0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:10:24Z (GMT) No. of bitstreams: 2 Dissertaçao Luciano Pereira.pdf: 1413296 bytes, checksum: 608b11e654f960ce7a6787138b9b1bd0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:10:24Z (GMT). No. of bitstreams: 2 Dissertaçao Luciano Pereira.pdf: 1413296 bytes, checksum: 608b11e654f960ce7a6787138b9b1bd0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-07-17 / T´ecnicas de aprendizagem de m´aquina baseadas em instˆancias s˜ao utilizadas em v´arias aplicac¸ ˜oes, como, por exemplo, reconhecimento de faces, voz e digitais, na medicina para auxiliar m´edicos na detecc¸ ˜ao de neoplasias, entre outras. Geralmente, essas t´ecnicas s˜ao submetidas a grandes conjuntos de dados, fazendo com que haja necessidade de grande espac¸o em mem´oria para processamento e armazenamento, al´em do elevado custo computacional para a classificac¸ ˜ao. Com o objetivo de minimizar esses problemas, as t´ecnicas de reduc¸ ˜ao de instˆancias buscam reduzir o tamanho do conjunto de dados, escolhendo ou produzindo elementos que consigam represent´a-lo, reduzindo a necessidade de mem´oria para o armazenamento do conjunto de dados, o custo computacional e minimizando a taxa de erro. Existem, atualmente, dois ramos da pesquisa que buscam a reduc¸ ˜ao de instˆancias: a selec¸ ˜ao de instˆancias, que faz a reduc¸ ˜ao escolhendo algumas instˆancias representantes de todo o conjunto de treinamento e as t´ecnicas de gerac¸ ˜ao de prot´otipos que buscam a reduc¸ ˜ao de instˆancias, produzindo novos prot´otipos, a partir de v´arias heur´ısticas, que ir˜ao representar todo o conjunto de treinamento. Esse processo de gerac¸ ˜ao ´e mais demorado que o processo de selec¸ ˜ao. Por´em, observa-se na literatura que as t´ecnicas de gerac¸ ˜ao apresentam melhores resultados que as t´ecnicas de selec¸ ˜ao. A proposta deste trabalho ´e investigar se as t´ecnicas de selec¸ ˜ao podem obter resultados semelhantes `as t´ecnicas de gerac¸ ˜ao. O resultado obtido neste estudo mostra que as t´ecnicas de selec¸ ˜ao existentes podem obter taxas equivalentes `as t´ecnicas de gerac¸ ˜ao na maioria das bases utilizadas nos experimentos, existindo algumas excec¸ ˜oes em que as t´ecnicas de gerac¸ ˜ao obtiveram melhores resultados. Podemos verificar que, na maioria dos casos (83,3%) das bases testadas, os prot´otipos gerados tinham instˆancias muito pr´oximas, no conjunto de treinamento, que poderiam substitu´ı-los, sem a necessidade de gerac¸ ˜ao de prot´otipos, que ´e um processo mais custoso que a selec¸ ˜ao de prot´otipos. Podemos concluir que ´e poss´ıvel desenvolver t´ecnicas de selec¸ ˜ao, que apresentem taxas de erro estatisticamente iguais `as t´ecnicas de gerac¸ ˜ao. Aprendizagem de maquina Aprendizado supervisionado Seleção de protótipos, Geração de protótipos Redução de instâncias vizinho mais próximo
5	Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data Alves, Melina Brilhadori January 2017 (has links) Orientadora: Profa. Dra. Patrícia Belfiore Fávero / Coorientador: Prof. Dr. Marcelo de Souza Lauretto / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2017. / Big data trouxe vários desafios para os conceitos dos algoritmos de mineração de dados, a iniciar pelas limitações de memória e tempo, bem como dados de natureza e distribuição com variação constante. Essa massa de dados interessa públicos diversos pelas informações intrínsecas em seu interior e a análise de dados é uma importante fonte estratégica aplicada com objetivos de conhecimento, desenvolvimento e planejamento. Nos últimos anos, diversos métodos baseados em ensembles de classificadores têm sido propostos. Nesses métodos, a idéia central é construir vários classificadores "fracos" para formar um classificador "robusto", que utiliza como convergência a soma (ponderada) dos votos dos subclassificadores nas possíveis classes. Os objetivos deste trabalho foram realizar análises comparativas de desempenho de classificadores de Big Data das famílias de árvores de classificação quando combinados na forma de ensembles (ou metaclassificadores) bagging e boosting. Foi implementado um ambiente de testes, utilizando algoritmos de árvores de classificação sobre datasets públicos a fim de verificar três itens fundamentais: a . Para um certo algoritmo de classificação, a configuração de ensemble (entre Bagging e Boosting) que resulta em maior acurácia. b . Para um certo tipo de ensemble, o melhor algoritmo de classificação. c . A possibilidade de identificar as famílias de Big Data (agrupado segundo um conjunto de características) em que cada tipo de classificador possui melhor desempenho. Os resultados indicaram que o ensemble Boosting apresenta acurácia superior para um número maior das amostras testadas em comparação com os demais algoritmos abordados. Entre os classificadores, sugere-se que representantes de árvores de decisão são suscetíveis à escolha do método de ensemble e, principalmente, da amostra. A análise da aplicação dos ensembles sobre as amostras e as características dos conjuntos exibiu resultados muito variáveis, entretanto notou-se uma melhoria de desempenho quando a classificação é binária. / Big data has brought several challenges to the concepts of data mining algorithms, starting with the limitations of memory and time, as well as data of nature and distribution with constant variation. This mass of data interests diverse publics by the intrinsic information inside and the data analysis is an important strategic source applied with objectives of knowledge, development and planning. In recent years, several methods based on ensembles of classifiers have been proposed. In those methods, the central idea is to construct several "weak" classifiers to form a "robust" classifier, which uses as a convergence the (weighted) sum of the subclassifier¿s votes in the possible classes. The objectives of this work were to perform comparative performance analysis of Big Data classifiers of the classification tree families when combined in the form of bagging and boosting ensembles (or metaclassifiers). A test environment was implemented using classification tree algorithms on public datasets in order to verify three fundamental items: a . For a certain classification algorithm, the ensemble configuration (between Bagging and Boosting) results in greater accuracy. b . For a certain type of ensemble, the best classification algorithm. c . The possibility of identifying Big Data families (grouped according to a set of characteristics) in which each type of classifier performs better. The results indicated that the Boosting ensemble presents superior accuracy for a larger number of samples tested in comparison to the other algorithms. Among the classifiers, it is suggested that representatives of decisions trees are susceptible to the choice of the ensemble method and, mainly, of the sample. The ensembles application analysis on the samples and the characteristics of the sets showed very variable results, however a performance improvement was noticed when the classification was binary. BIG DATA ENSEMBLES ALGORITMOS DE CLASSIFICAÇÃO APRENDIZADO SUPERVISIONADO ÁRVORES DE DECISÃO
6	Técnicas para o problema de dados desbalanceados em classificação hierárquica / Techniques for the problem of imbalanced data in hierarchical classification Victor Hugo Barella 24 July 2015 (has links) Os recentes avanços da ciência e tecnologia viabilizaram o crescimento de dados em quantidade e disponibilidade. Junto com essa explosão de informações geradas, surge a necessidade de analisar dados para descobrir conhecimento novo e útil. Desse modo, áreas que visam extrair conhecimento e informações úteis de grandes conjuntos de dados se tornaram grandes oportunidades para o avanço de pesquisas, tal como o Aprendizado de Máquina (AM) e a Mineração de Dados (MD). Porém, existem algumas limitações que podem prejudicar a acurácia de alguns algoritmos tradicionais dessas áreas, por exemplo o desbalanceamento das amostras das classes de um conjunto de dados. Para mitigar tal problema, algumas alternativas têm sido alvos de pesquisas nos últimos anos, tal como o desenvolvimento de técnicas para o balanceamento artificial de dados, a modificação dos algoritmos e propostas de abordagens para dados desbalanceados. Uma área pouco explorada sob a visão do desbalanceamento de dados são os problemas de classificação hierárquica, em que as classes são organizadas em hierarquias, normalmente na forma de árvore ou DAG (Direct Acyclic Graph). O objetivo deste trabalho foi investigar as limitações e maneiras de minimizar os efeitos de dados desbalanceados em problemas de classificação hierárquica. Os experimentos realizados mostram que é necessário levar em consideração as características das classes hierárquicas para a aplicação (ou não) de técnicas para tratar problemas dados desbalanceados em classificação hierárquica. / Recent advances in science and technology have made possible the data growth in quantity and availability. Along with this explosion of generated information, there is a need to analyze data to discover new and useful knowledge. Thus, areas for extracting knowledge and useful information in large datasets have become great opportunities for the advancement of research, such as Machine Learning (ML) and Data Mining (DM). However, there are some limitations that may reduce the accuracy of some traditional algorithms of these areas, for example the imbalance of classes samples in a dataset. To mitigate this drawback, some solutions have been the target of research in recent years, such as the development of techniques for artificial balancing data, algorithm modification and new approaches for imbalanced data. An area little explored in the data imbalance vision are the problems of hierarchical classification, in which the classes are organized into hierarchies, commonly in the form of tree or DAG (Direct Acyclic Graph). The goal of this work aims at investigating the limitations and approaches to minimize the effects of imbalanced data with hierarchical classification problems. The experimental results show the need to take into account the features of hierarchical classes when deciding the application of techniques for imbalanced data in hierarchical classification. Aprendizado supervisionado Classificação hierárquica Dados desbalanceados Desbalanceamento de dados Data imbalance Hierarchical classification Imbalanced data Supervised learning
7	Redes lógicas de Markov aplicadas ao aprendizado de classificadores automáticos de dados. / Markov logic networks applied to learning of automatic data classifiers. Silva, Victor Anselmo 15 June 2010 (has links) Sistemas de computação têm se tornado maiores e mais complexos com o objetivo de lidar com a vasta quantidade de dados disponíveis. Uma tarefa decisiva em tais sistemas é classificar estes dados, bem como extrair informação útil destes. Nesta dissertação, testam-se as redes lógicas de Markov como linguagem para especificação e aprendizado de classificadores automáticos de dados. Esta linguagem combina fragmentos da lógica de primeira ordem e modelos probabilísticos gráficos (redes de Markov) em uma única representação. A junção destas duas técnicas permite a modelagem de conhecimento relacional através da lógica, e também de incertezas por meio de probabilidades e grafos não-direcionados. Neste trabalho, classificadores são aprendidos segundo dois paradigmas de aprendizado de máquina: o supervisionado, foco desta dissertação, e também o aprendizado semi-supervisionado com restrições determinísticas. Para investigar a utilidade das redes lógicas de Markov no treinamento de classificadores, uma série de experimentos de aprendizado é desenvolvida a partir de bases de dados de treino reais disponíveis em repositórios na internet. Como ferramenta auxiliar nos experimentos, esta dissertação testa também o pacote Alchemy, que provê um conjunto de algoritmos para tarefas gerais de aprendizado de máquina e inferência probabilística em redes lógicas de Markov. Para mensurar o desempenho dos classificadores aprendidos, três métricas tradicionais são empregadas: acurácia, precisão e revocação. Os resultados alcançados com classificadores semi-supervisionados com restrições indicam que a linguagem ainda não é própria para este paradigma de aprendizado. Por outro lado, o êxito obtido no desempenho dos classificadores treinados de forma supervisionada sugere que as redes lógicas de Markov são um formalismo lógico-probabilístico promissor para aplicações de classificação, e devem ser objeto de pesquisas futuras. / Computing systems have become larger and more complex in order to deal with the vast amount of available data. An important task in such systems is to classify these data, so as to extract useful information from them. In this dissertation, Markov logic networks are tested as a language to specify and learn automatic data classifiers. This language combines fragments of first-order logic and probabilistic graphical models (Markov networks), in a single representation. Together, both techniques allow one to model relational knowledge through a logic formalism, and uncertainty through probabilities and undirected graphs. In this work, data classifiers are learned by two machine learning paradigms: the supervised, the main focus of this dissertation, and also the semisupervised learning under deterministic constraints. To investigate the usefulness of Markov logic networks in training data classifiers, a set of experiments is developed from real databases available in repositories at the internet. As a support tool for experiments, this dissertation tests also the Alchemy package, which provides a set of algorithms for general machine learning tasks and probabilistic inference in Markov logic networks. To measure the performance of data classifiers, three traditional metrics are employed: accuracy, precision and recall. The results reached with semisupervised data classifiers indicate that the language is not yet suitable for learning based on this paradigm. On the other hand, the success achieved with classifiers trained in a supervised context suggests that Markov logic networks are a promising logical-probabilistic formalism to approach classification applications, and should be considered in future research. Aprendizado supervisionado Classificadores Classifiers Learning Markov logic networks Redes lógicas de Markov Semi-supervisionado com restrições Semisupervised under constraints Supervised
8	Redes lógicas de Markov aplicadas ao aprendizado de classificadores automáticos de dados. / Markov logic networks applied to learning of automatic data classifiers. Victor Anselmo Silva 15 June 2010 (has links) Sistemas de computação têm se tornado maiores e mais complexos com o objetivo de lidar com a vasta quantidade de dados disponíveis. Uma tarefa decisiva em tais sistemas é classificar estes dados, bem como extrair informação útil destes. Nesta dissertação, testam-se as redes lógicas de Markov como linguagem para especificação e aprendizado de classificadores automáticos de dados. Esta linguagem combina fragmentos da lógica de primeira ordem e modelos probabilísticos gráficos (redes de Markov) em uma única representação. A junção destas duas técnicas permite a modelagem de conhecimento relacional através da lógica, e também de incertezas por meio de probabilidades e grafos não-direcionados. Neste trabalho, classificadores são aprendidos segundo dois paradigmas de aprendizado de máquina: o supervisionado, foco desta dissertação, e também o aprendizado semi-supervisionado com restrições determinísticas. Para investigar a utilidade das redes lógicas de Markov no treinamento de classificadores, uma série de experimentos de aprendizado é desenvolvida a partir de bases de dados de treino reais disponíveis em repositórios na internet. Como ferramenta auxiliar nos experimentos, esta dissertação testa também o pacote Alchemy, que provê um conjunto de algoritmos para tarefas gerais de aprendizado de máquina e inferência probabilística em redes lógicas de Markov. Para mensurar o desempenho dos classificadores aprendidos, três métricas tradicionais são empregadas: acurácia, precisão e revocação. Os resultados alcançados com classificadores semi-supervisionados com restrições indicam que a linguagem ainda não é própria para este paradigma de aprendizado. Por outro lado, o êxito obtido no desempenho dos classificadores treinados de forma supervisionada sugere que as redes lógicas de Markov são um formalismo lógico-probabilístico promissor para aplicações de classificação, e devem ser objeto de pesquisas futuras. / Computing systems have become larger and more complex in order to deal with the vast amount of available data. An important task in such systems is to classify these data, so as to extract useful information from them. In this dissertation, Markov logic networks are tested as a language to specify and learn automatic data classifiers. This language combines fragments of first-order logic and probabilistic graphical models (Markov networks), in a single representation. Together, both techniques allow one to model relational knowledge through a logic formalism, and uncertainty through probabilities and undirected graphs. In this work, data classifiers are learned by two machine learning paradigms: the supervised, the main focus of this dissertation, and also the semisupervised learning under deterministic constraints. To investigate the usefulness of Markov logic networks in training data classifiers, a set of experiments is developed from real databases available in repositories at the internet. As a support tool for experiments, this dissertation tests also the Alchemy package, which provides a set of algorithms for general machine learning tasks and probabilistic inference in Markov logic networks. To measure the performance of data classifiers, three traditional metrics are employed: accuracy, precision and recall. The results reached with semisupervised data classifiers indicate that the language is not yet suitable for learning based on this paradigm. On the other hand, the success achieved with classifiers trained in a supervised context suggests that Markov logic networks are a promising logical-probabilistic formalism to approach classification applications, and should be considered in future research. Aprendizado supervisionado Classificadores Redes lógicas de Markov Semi-supervisionado com restrições Classifiers Learning Markov logic networks Semisupervised under constraints Supervised
9	Algoritmo para indução de árvores de classificação para dados desbalanceados / Algorithm for induction of classification trees for unbalanced data Cláudio Frizzarini 21 November 2013 (has links) As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de \\textit{Business Intelligence} fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros {\\em ad-hoc} ou, na ausência de tais parâmetros, a adoção de métodos de balanceamento dos dados. As duas abordagens não apenas introduzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes. / Data mining techniques and, particularly, machine learning methods, have become very popular in recent years. Many decision support information systems and business intelligence tools have incorporated and made intensive use of such techniques. Top-Down Induction of Decision Trees Algorithms (TDIDT) appear among the most popular tools for supervised learning. One of their advantages with respect to other methods is that a decision tree is frequently easy to be interpreted by the domain specialist, precluding the necessity of previous knowledge about the induction algorithms. On the other hand, several typical classification problems involve unbalanced data (heterogeneous class prevalence). In such cases, algorithms based on global error minimization tend to induce classifiers with low error rates over the high prevalence classes, but with high error rates on the low prevalence classes. This phenomenon may be critical when low prevalence classes represent rare or important events, like the presence of a severe disease or the default in a loan. In order to address this problem, several TDIDT algorithms require the calibration of {\\em ad-hoc} parameters, or even data balancing techniques. These approaches usually make data mining tools more complex for less expert users, if they are ever available. In this work, we propose a new TDIDT algorithm for problems involving unbalanced data. This algorithm, currently named DDBT (Dynamic Discriminant Bounds Tree), uses a node partition criterion which is not based on absolute class frequencies, but compares the prevalence of each class in the current node with those in the original training sample. For terminal nodes labeling, the algorithm assigns the class with maximum ration between the relative prevalence in the node and the original prevalence in the training sample. Such characteristics provide more flexibility for the treatment of unbalanced data-sets, yielding a higher equilibrium among the error rates in the classes. Aprendizado supervisionado Árvore de classificação Árvore de decisão Dados desbalanceados Mineração de dados Classification tree Data mining Decision Tree Supervised learning Unbalanced data
10	Algoritmo para indução de árvores de classificação para dados desbalanceados / Algorithm for induction of classification trees for unbalanced data Frizzarini, Cláudio 21 November 2013 (has links) As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de \\textit{Business Intelligence} fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros {\\em ad-hoc} ou, na ausência de tais parâmetros, a adoção de métodos de balanceamento dos dados. As duas abordagens não apenas introduzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes. / Data mining techniques and, particularly, machine learning methods, have become very popular in recent years. Many decision support information systems and business intelligence tools have incorporated and made intensive use of such techniques. Top-Down Induction of Decision Trees Algorithms (TDIDT) appear among the most popular tools for supervised learning. One of their advantages with respect to other methods is that a decision tree is frequently easy to be interpreted by the domain specialist, precluding the necessity of previous knowledge about the induction algorithms. On the other hand, several typical classification problems involve unbalanced data (heterogeneous class prevalence). In such cases, algorithms based on global error minimization tend to induce classifiers with low error rates over the high prevalence classes, but with high error rates on the low prevalence classes. This phenomenon may be critical when low prevalence classes represent rare or important events, like the presence of a severe disease or the default in a loan. In order to address this problem, several TDIDT algorithms require the calibration of {\\em ad-hoc} parameters, or even data balancing techniques. These approaches usually make data mining tools more complex for less expert users, if they are ever available. In this work, we propose a new TDIDT algorithm for problems involving unbalanced data. This algorithm, currently named DDBT (Dynamic Discriminant Bounds Tree), uses a node partition criterion which is not based on absolute class frequencies, but compares the prevalence of each class in the current node with those in the original training sample. For terminal nodes labeling, the algorithm assigns the class with maximum ration between the relative prevalence in the node and the original prevalence in the training sample. Such characteristics provide more flexibility for the treatment of unbalanced data-sets, yielding a higher equilibrium among the error rates in the classes. Aprendizado supervisionado Árvore de classificação Árvore de decisão Classification tree Dados desbalanceados Data mining Decision Tree Mineração de dados Supervised learning Unbalanced data

Search results