• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 332
  • 27
  • 9
  • 2
  • Tagged with
  • 381
  • 381
  • 348
  • 342
  • 69
  • 57
  • 55
  • 53
  • 52
  • 46
  • 46
  • 45
  • 44
  • 42
  • 42
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Uso de aprendizado de maquina para estimar esforço de execução de testes funcionais / Using machine learning to estimate execution effort of functional tests

Silva, Daniel Guerreiro e, 1983- 15 August 2018 (has links)
Orientador: Mario Jino / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-15T04:58:41Z (GMT). No. of bitstreams: 1 Silva_DanielGuerreiroe_M.pdf: 2351174 bytes, checksum: 7f8ba90b6462fe7be00711143e365482 (MD5) Previous issue date: 2009 / Resumo: O planejamento das atividades de teste tem papel essencial para qualquer equipe independente de testes que realize testes de diferentes sistemas de software, desenvolvidos por diferentes equipes de desenvolvimento. Dado que o esforço empreendido no processo de testes pode chegar até a metade do esforço total de desenvolvimento de um sistema, estimar adequadamente o esforço de testes pode evitar custos desnecessários e contribuir para a boa qualidade dos produtos. Para superar este desafio, ferramentas de aprendizado de máquina têm sido usadas em pesquisa para estimar esforço e para solucionar outros problemas de engenharia de software, principalmente porque eles constituem uma classe de problemas complexos com muitas limitações à sua solução por abordagens matemáticas clássicas. Este trabalho estuda a aplicação das ferramentas de aprendizado de máquina - redes neurais artificiais e máquinas de vetor de suporte - e de ferramentas de seleção de variáveis na solução do problema de estimar esforço de execução de testes funcionais. Um estudo do processo de execução de testes é desenvolvido e são conduzidos experimentos em duas bases de dados reais com o objetivo de propor uma metodologia adequada para abordar sistematicamente o problema, tanto em termos de qualidade de resultados como em praticidade de uso. As principais contribuições deste trabalho são: a proposta de realizar a seleção de variáveis para a síntese da base de dados; a adoção de um modelo de rede neural treinada por uma função custo assimétrica; e um estudo comparativo de desempenho dos modelos preditores / Abstract: Planning and scheduling of testing activities play a key role for any independent test team that performs tests for different software systems, produced by different development teams. Since the effort that is applied in the test process can amount to up to half of the total effort of software development, adequate estimation of test effort can prevent unnecessary costs and improve the quality of delivered products. To overcome this challenge, machine learning tools have been used in research to estimate effort and to solve other software engineering problems, mainly because they constitute a class of complex problems with many limitations to their solution by classical mathematical approaches. This work studies the application of machine learning tools - artificial neural networks and support vector machines - and variable selection tools to solve the problem of estimating the execution effort of functional tests. An analysis of the test execution process is done and experiments are performed with two real databases aimed at proposing a suitable methodology to systematically tackle this problem, considering both the quality of results and ease of application. The main contributions of this work are: the proposal of applying variable selection for database synthesis; the adoption of an artificial neural network trained with an asymmetric cost function; and a comparative study of performance with the predictive models / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
102

Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasks

José Augusto Andrade Filho 17 September 2013 (has links)
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
103

"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning"

Gustavo Enrique de Almeida Prado Alves Batista 16 May 2003 (has links)
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process.
104

Detecção e diagnóstico remoto de falhas baseado em aprendizado de máquina para equipamentos de uso doméstico

Seabra, Jorge da Costa, 92-99216-0120 28 April 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-12-04T14:26:20Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Jorge C. Seabra.pdf: 2679171 bytes, checksum: a3f32ee0ecd6132b922b8c292c8c6ffc (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-12-04T14:26:31Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Jorge C. Seabra.pdf: 2679171 bytes, checksum: a3f32ee0ecd6132b922b8c292c8c6ffc (MD5) / Made available in DSpace on 2017-12-04T14:26:31Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Jorge C. Seabra.pdf: 2679171 bytes, checksum: a3f32ee0ecd6132b922b8c292c8c6ffc (MD5) Previous issue date: 2017-04-28 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The conventional household equipment we use on a day-to-day basis is practically not monitored for real-time faults and defects. In this work, an approach will be presented to the application of machine learning with the use of selected data of the equipment when in operation, and of data references extracted from the datasheets. In order to analyze, compare and evaluate differences in data sets, the fault detection and diagnosis device was developed to classify the symptoms that may represent defects in the equipment in real time. The occurrences of these equipment failures are traditionally identified by the users themselves when the expected performance does not occur. With the use of a microprocessed board connected to the electronic sensors installed at strategic points in the equipment, the data comparison step is started, the data collected are transmitted to the server, which through the Machine Learning algorithm performs the tasks for identification of the Detected failures. Real-time monitoring of the behavior of electrical and physical magnitudes of conventional household equipment is aimed at monitoring functional behavior and informing the user of any faults using local or Internet resources. / Os equipamentos domésticos convencionais que utilizamos no dia a dia, praticamente, não são monitorados para verificação de falhas e defeitos em tempo real. Neste trabalho, será apresentada uma abordagem da aplicação do aprendizado de máquina com a utilização de dados selecionados dos equipamentos quando em funcionamento, e de dados referências extraídos das fichas técnicas. Para analisar, comparar e avaliar as diferenças nos conjuntos de dados, foi desenvolvido o dispositivo de detecção e diagnóstico de falha para classificar os sintomas que podem representar defeitos nos equipamentos em tempo real. As ocorrências das falhas destes equipamentos, tradicionalmente são identificadas pelos próprios usuários quando o desempenho esperado não acontece. Com a utilização de uma placa micro processada conectada aos sensores eletrônicos instalados em pontos estratégicos no equipamento, iniciase a etapa da comparação de dados, os dados coletados são transmitidos ao servidor que através do algoritmo de Aprendizado de Máquina executa as tarefas para identificação das falhas detectadas. O monitoramento em tempo real do comportamento das grandezas elétricas e físicas dos equipamentos de usos domésticos convencionais tem como objetivo, monitorar o comportamento funcional e informar ao usuário, eventuais falhas, utilizando os recursos da rede local ou da internet.
105

Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos

Souza, Adriano Honorato de, 92-99124-3842 29 September 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:06Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:27Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Made available in DSpace on 2018-03-07T18:10:27Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) Previous issue date: 2017-09-29 / Virtual herbariums aim to disseminate scientific information and contribute to the conservation and sustainable use of Brazilian biological resources. It currently includes 120 national herbaria and 25 herbariums from abroad, together provide more than 5,4 million records and more than one million images, in addition to several free access tools, opening space for the application of Machine Learning techniques, among them classifiers. In the Machine Learning process, Attribute Selection is part of the pre-processing of data and can correspond to 80% of the data mining phase, for this it is necessary to study the approaches used to make the selection of a subset of attributes that better generalize the basis to be induced to the model of machine learning. The objective of this work is to apply the attributes selection processes with the following filter, wrapper and embedded approaches in the National Institute of Science and Technology (NIST) - Virtual Herbarium of Flora and Fungi, this base contains 87,732 records and 51 features, with 119 collections and sub-collections, 86,967 online records, 80,513 georeferenced records, 12,073 different accepted species. The first phase of machine learning processes is the pre-processing, which will analyze the database and will result in a more general and ready basis for the application of the predictive models of classification, after the filter of the most relevant subset of attributes, the Machine Learning algorithms are applied, which in this research was: Decision Tree, Network Neural Artificial and Logistic Regression. The evaluation of the models will be through the confusion matrix using the accuracy and the analysis of the area on the ROC curve. Among the models studied, the Logistic Regression was the one that obtained the performance with a total accuracy of 77.25%, with the filter approach and 76.25% with the wrapper. / Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina, entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções, 86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas. A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os modelos estudados o de Regressão Logística obteve o desempenho de classificação de acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper.
106

Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data.

Giampaolo Luiz Libralon 09 November 2007 (has links)
Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais. Ruídos em conjuntos de dados podem reduzir o desempenho das técnicas de Aprendizado de Máquina (AM) empregadas e aumentar o tempo de construção da hipótese induzida, assim como sua complexidade. Dados são geralmente coletados por meio de medições realizadas em um domínio de interesse. Nesse sentido, nenhum conjunto de dados é perfeito. Erros de medições, dados incompletos, errados, corrompidos ou distorcidos, falhas humanas ou dos equipamentos utilizados, dentre muitos outros fatores, contribuem para a contaminação dos dados, e isso é particularmente verdadeiro para dados com elevada dimensionalidade. Sendo assim, a detecção de ruídos é uma tarefa crítica, principalmente em ambientes que exigem segurança e confiabilidade, uma vez que a presença desses pode indicar situações que degradam o desempenho do sistema ou a segurança e confiabilidade das informações. Algoritmos para a detecção e remoção de ruídos podem aumentar a confiabilidade de conjuntos de dados ruidosos. Nesse âmbito, esse trabalho investiga técnicas de detecção de ruído baseadas em distância, em que a remoção de ruídos é feita em uma etapa de pré-processamento, aplicadas a problemas de classificação de dados de Expressão Gênica, caracterizados pela presença de ruídos, elevada dimensionalidade e complexidade. O objetivo é melhorar o desempenho das técnicas de AM empregadas para solucioná-los. Por fim, combinações de técnicas de detecção de ruído são implementadas de modo a analisar a possibilidade de melhorar, ainda mais, o desempenho obtido. / Noise can be defined as an example which seems to be inconsistent with the remaining ones in a data set. The presence of noise in data sets can decrease the performance of Machine Learning (ML) techniques in the problem analysis and also increase the time taken to build the induced hypothesis and its complexity. Data are collected from measurements made which represent a given domain of interest. In this sense, no data set is perfect. Measurement errors, incomplete, corrupted, wrong or distorted examples, equipment problems or human fails, besides many other related factors, help contaminating the data, and this is particularly true for data sets with high dimensionality. For this reason, noise detection is a critical task, specially in domains which demand security and trustworthiness, since the presence of noise can lead to situations which degrade the system performance or the security and trustworthiness of the involved information. Algorithms to detect and remove noise may increase trustworthiness of noisy data sets. Based on that, this work evaluates distance-based noise detection techniques, in which noise removal is done by a pre-processing phase, in gene expression classification problems, characterized by the presence of noise, high dimensionality and complexity. The objective is to improve the performance of ML techniques used to solve these problems. Next, ensembles of noise detection techniques are developed in order to analyze the possibility to further improve the performance obtained.
107

Extração de regras operacionais ótimas de sistemas de distrubuição de água através de algoritmos genéticos multiobjetivo e aprendizado de máquina / Extraction of optimal operation rules of the water distribution systems using multiobjective genetic algorithms and machine learning

Ivaltemir Barros Carrijo 10 December 2004 (has links)
A operação eficiente do sistema é uma ferramenta fundamental para que sua vida útil se prolongue o máximo possível, garantindo o perfeito atendimento aos consumidores, além de manter os custos com energia elétrica e manutenção dentro de padrões aceitáveis. Para uma eficiente operação, é fundamental o conhecimento do sistema, pois, através deste, com ferramentas como modelos de simulação hidráulica, otimização e definição de regras, é possível fornecer ao operador condições de operacionalidade das unidades do sistema de forma racional, não dependendo exclusivamente de sua experiência pessoal, mantendo a confiabilidade do mesmo. Neste trabalho é desenvolvido um modelo computacional direcionado ao controle operacional ótimo de sistemas de macro distribuição de água potável, utilizando um simulador hidráulico, um algoritmo de otimização, considerando dois objetivos (custos de energia elétrica e benefícios hidráulicos) e um algoritmo de aprendizado para extração de regras operacionais para o sistema. Os estudos foram aplicados no sistema de macro distribuição da cidade de Goiânia. Os resultados demonstraram que podem ser produzidas estratégias operacionais satisfatórias para o sistema em substituição ao julgamento pessoal do operador. / The efficient operation of a system is a fundamental tool to postpone the system’s service life as much as possible, thus ensuring a good service to the consumer while keeping electrical energy and maintenance costs at acceptable levels. Efficient operation requires knowledge of the system, for this knowledge, supported by tools such as models for hydraulic simulation, optimization, and definition of rules, provides the operator with proper conditions for the rational operating of the system’s units without depending exclusively on personal experience while maintaining the system’s reliability. In this work is developed a computational model for the optimal operation control of macro water distribution systems using a hydraulic simulator, an optimization algorithm, and a learn algorithm to extract operational rules (strategies) for the system. These studies are to be based on the macro system of the city of Goiânia, in Brazil. The results show that solutions for satisfactory operation can be quickly produced as a substitute to the personal judgment of the operator.
108

Técnicas de classificação hierárquica multirrótulo / Hierarchical multilabel classification techniques

Ricardo Cerri 23 February 2010 (has links)
Muitos dos problemas de classificação descritos na literatura de Aprendizado de Máquina e Mineração de Dados dizem respeito à classificação de dados em que cada exemplo a ser classificado pertence a um conjunto finito, e geralmente pequeno, de classes que estão em um mesmo nível. Vários problemas de classificação, entretanto, são de natureza hierárquica, em que classes podem ser subclasses ou superclasses de outras classes. Em muitos problemas hierárquicos, principalmente no campo da Bioinformática, um ou mais exemplos podem ser associados a mais de uma classe simultaneamente. Esses problemas são conhecidos como problemas de classificação hierárquica tirrótulo. Nesta pesquisa, foram investigadas diferentes técnicas para lidar com esses tipos de problemas. Essas técnicas são baseadas em duas abordagens: local ou Top-Down e global ou One-Shot. Três técnicas descritas na literatura foram utilizadas. A primeira delas, chamada HMC-BR, é baseada na abordagem Top-Down, e utiliza uma estratégia de classificação binária chamada Um-Contra-Todos. As outras duas técnicas, baseadas na abordagem One-Shot, são chamadas C4.5H (uma extensão do algoritmo de indução de àrvores de decis~ao C4.5), e de Clus-HMC (baseada na noção de Predictive Clustering Trees, em que àrvores de decisão são estruturadas como uma hierarquia de grupos (clusters)). Além das técnicas descritas na literatura, duas novas técnicas foram propostas e implementadas nesta pesquisa, chamadas de HMC-LP e HMC-CT. Essas técnicas são variações hierárquicas de técnicas de classificação multirrótulo não hierárquicas. A técnica HMC-LP utiliza uma estratégia de combinação de classes e a técnica HMC-CT utiliza uma estratégia de decomposição de classes. Para a avaliação das técnicas, foram utilizadas medidas específicas para esse tipo de classificação. Os resultados experimentais mostraram que as técnicas propostas obtiveram desempenhos superiores ou semelhantes aos das técnicas descritas na literatura, dependendo da medida de avaliação utilizada e das características dos conjuntos de dados / Many of the classification problems described in the literature of Machine Learning and Data Mining are related to data classification where each example to be classified belongs to a finite, and usually small, set of classes located at the same level. There are many classification problems, however, that are of hierarchical nature, where classes can be subclasses or superclasses of other classes. In many hierarchical problems, mainly in the Bioinformatics field, one or more examples can be associated to more than one class simultaneously. These problems are known as hierarchical multilabel classification problems. In this research, different techniques to deal with these kinds of problems were investigated, based on two approaches, named local or Top-Down and global or One-Shot. Three techniques described in the literature were used. The first one, named HMC-BR, is based on the Top-Down approach, and uses a binary classification strategy named One-Against-All. The other two techniques, based on the One-Shot approach, are named C4.5H (an extension of the decision tree induction algorithm C4.5), and Clus-HMC (based on the notion of Predictive Clustering Trees, where decision trees are structured as a hierarchy of clusters). In addition to the techniques described in the literature, two new techniques were proposed, named HMC-LP and HMC-CT. These techniques are hierarchical variations of non-hierarchical multilabel classification techniques. The HMCLP technique uses a label combination strategy and the HMC-CT technique uses a label decomposition strategy. The evaluation of the techniques was performed using specific metrics for this kind of classification. The experimental results showed that the proposed techniques achieved better or similar performances than the techniques described in the literature, depending on the evaluation metric used and on the characteristics of the datasets
109

Algoritmos computacionais para detecção eficiente de odontocetos em dispositivos fixos autônomos

Novais, Edson Bruno 09 March 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-09-23T11:26:29Z No. of bitstreams: 1 edsonbrunonovais.pdf: 2920892 bytes, checksum: 3d1fd266b827947d2a99d52954ff89cb (MD5) / Approved for entry into archive by Diamantino Mayra (mayra.diamantino@ufjf.edu.br) on 2016-09-26T20:30:23Z (GMT) No. of bitstreams: 1 edsonbrunonovais.pdf: 2920892 bytes, checksum: 3d1fd266b827947d2a99d52954ff89cb (MD5) / Made available in DSpace on 2016-09-26T20:30:23Z (GMT). No. of bitstreams: 1 edsonbrunonovais.pdf: 2920892 bytes, checksum: 3d1fd266b827947d2a99d52954ff89cb (MD5) Previous issue date: 2016-03-09 / FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais / Considerando o sucesso dos dispositivos móveis e a evolução de suas tecnologias, o estudo de Odontocetos em tempo real é uma possibilidade emergente. Apesar desta evolução, a análise de grandes volumes de dados por algoritmos complexos requer considerável esforço computacional. A coleta de dados de Odontocetos é executada em ambiente marinho com recursos limitados, o que reduz o potencial de pesquisa. Sendo assim, a escolha dos algoritmos para a criação de um Fluxo de Trabalho deve manter um balanço entre a eficiência computacional e a eficácia de detecção. Esta tese tem como objetivo propor um modelo de Fluxo de Trabalho eficiente para o Monitoramento Acústico Passivo. Para tal, um Fluxo de Trabalho de referência comumente utilizado em campo por pesquisadores foi utilizado como base, sendo inserido uma nova etapa de pré-processamento das informações capturadas. A etapa de detecção, foco deste trabalho devido sua aplicabilidade e notável impacto nas próximas etapas, é responsável por analisar os sinais acústicos recebidos, filtrando boa parte dos dados. A próxima etapa trata da condensação dos dados de forma a facilitar a transferência destes para localidades remotas. Em sequência tem-se a etapa de identificação das informações recebidas a partir da etapa anterior. Por fim, a última etapa baseia-se em componentes de software para o estudo das informações relevantes adquiridas. A aplicação da etapa de detecção no Fluxo de Trabalho de referência apresentou um desempenho satisfatório acarretando em uma redução de 96,52% do volume total de dados a serem armazenados e processados, facilitando que informações relevantes da captura sejam identificadas e distribuídas online para estações de pesquisa remotas. / Considering the success of mobile devices and the evolution of its technologies, the study of Odontoceti in real time is an emerging possibility. Despite the evolution, analysis of big data chunks by complex algorithms requires considerable computing effort. Data collection of Odontoceti is execute in marine environment with limited resources, thus reducing research potential. Therefore, choosing the right algorithm to create the Workflow should maintaining a balance between computational efficiency and detection accuracy. The goal of this thesis is to propose an efficient Workflow for Passive Acoustic Monitoring. For such, a common Workflow used in the field by researchers was used as base, adding a new step for preprocessing of captured data. The detection step, focus of this thesis due to its applicability and notable impact on the next steps, is responsible to analyse received acoustic signals, filtering a good amount of data. The next step condensates data in a way that facilitates transfer of captured information to remote locations. In sequence there is the step responsible for the identification of received information from the previous step. The last step is based on software components to study relevant information. The appplication of the detection step have shown a satisfactory performance providing a reduction of 96.52 of total data to be processed, making it easy for relevant information to be identified and distributed online to remote research stations.
110

Seleção e avaliação de marcadores moleculares com grande informatividade para a predição do valor genômico

Silva, Bruno Zonovelli da 07 March 2018 (has links)
Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2018-06-27T13:01:17Z No. of bitstreams: 1 Brunozonovellidasilva.pdf: 25114600 bytes, checksum: 87ca3e31048c3dd0c1068b3c39f6f7a8 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2018-06-27T13:50:08Z (GMT) No. of bitstreams: 1 Brunozonovellidasilva.pdf: 25114600 bytes, checksum: 87ca3e31048c3dd0c1068b3c39f6f7a8 (MD5) / Made available in DSpace on 2018-06-27T13:50:09Z (GMT). No. of bitstreams: 1 Brunozonovellidasilva.pdf: 25114600 bytes, checksum: 87ca3e31048c3dd0c1068b3c39f6f7a8 (MD5) Previous issue date: 2018-03-07 / A seleção dos melhores indivíduos busca aprimorar uma característica ao longo do tempo. O uso de dados genômicos deram origem ao que é conhecido como seleção genômica. A construção de modelos genéticos eficientes para a avaliação do mérito de um indivíduo é complexa e no geral se baseia no pressuposto da herança aditiva. Entretanto, na presença de variabilidade genética não-aditiva os modelos podem não comportar toda a complexidade de possíveis interações entre os genes, a epistasia. O S4GS é um simulador de dados genômicos que busca mimetizar características importantes para o estudo em seleção genômica como, desequilíbrio de ligação, inseminação artificial e cruzamento geracional. Outro fator relevante é a capacidade de simular diferentes ações gênicas e interações em múltiplos níveis. Sendo utilizado na simulação de 8 cenários de estudo, com destaque para o cenário 8 que procurou simular o cruzamento do Girolando opção B. O método proposto consiste em duas etapas: seleção e a avaliação, gerando uma combinação ótima para o aumento de acurácia. Os algoritmos escolhidos para a etapa de seleção de atributos foram: o FFS; O SMS; e a CART como uma alternativa rápida. A etapa de avaliação utilizou duas técnicas clássicas o RR-BLUP e o BLASSO como referência, e o SVR. A associação das técnicas utilizadas na etapa de seleção e avaliação levam a três modelos: SVR + FFS; SVR + SMS; e SVR + CART. Nos resultados obtidos a seleção de atributos se mostrou um importante recurso no aumento da acurácia, em todos os 8 cenários. O processo de simulação possibilitou a obtenção de dados até a 15a geração permitindo treinar os modelos na 1a ou 4a e aplicá-los nas subsequentes. A seleção de atributos aumentou de forma significativa a acurácia dos modelos utilizando dados genômicos, com exceção para o conjunto com amostra pequena e em dados totalmente lineares. O método proposto conseguiu para as bases com as características descristas serem eficientes, gerando um aumento significativo na correlação final. / The animal breeding seeks to maximize of a characteristic over time. The use of genomic data gave rise that we know as genomic selection. The made of efficient models for evaluate the merit of an animal is complex and generally is based on the assumption of additive genetic effects. However, in the presence of non-additive genetic variability, the models may not contain all the complexity of possible interactions between the genes, the epistasis. The S4GS is a genomic data simulator developed in this thesis, which seeks to mimic important features for the study in genomic selection such as linkage disequilibrium, artificial insemination and crossing over. Another relevant factor is the ability to simulate different gene actions and interactions at multiple levels. It was used in the creation of 8 study scenarios, highlighting the scenario 8 that sought to simulate the Girolando option B. The proposed method consists of a two-step selection and evaluation, generating an optimal combination for the increase of accuracy. The algorithms chosen for the feature selection step were: the FFS that was developed in this thesis; The SMS; and CART as a quick alternative. The evaluation stage used two classical techniques, the RR-BLUP and the BLASSO as a reference, and the SVR. The association of the techniques used in the selection and evaluation stage leads us to three models: SVR + FFS; SVR + SMS; and SVR + CART. In the results obtained, the selection of attributes proved to be an important resource in increasing accuracy in all 8 scenarios. The simulation process allowed data to be obtained up to 15th generation allowing the models generated in 1th or 4th to in subsequent ones to be applied. The application of feature selection significantly increased accuracy in genomic data, except for the small sample set and in completely linear data. The proposed method was able to the bases with the descriptive characteristics to be efficient, generating a significant increase in the final correlation.

Page generated in 0.0647 seconds