• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1024
  • 180
  • 34
  • 24
  • 24
  • 24
  • 19
  • 14
  • 5
  • 4
  • 4
  • 4
  • 1
  • Tagged with
  • 1250
  • 1011
  • 588
  • 413
  • 209
  • 178
  • 174
  • 151
  • 145
  • 135
  • 129
  • 123
  • 122
  • 118
  • 116
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
471

Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação

Fagundes, Felipe Leite 31 August 2017 (has links)
Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2017-12-20T16:43:33Z No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: Favor corrigir Métricas e Função no título para minúsculas on 2017-12-21T11:00:24Z (GMT) / Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2017-12-21T11:56:28Z No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-12-22T12:00:32Z (GMT) No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) / Made available in DSpace on 2017-12-22T12:00:32Z (GMT). No. of bitstreams: 1 felipeleitefagundes.pdf: 505347 bytes, checksum: 828890d64eac8d09b9c56eb30e6505df (MD5) Previous issue date: 2017-08-31 / A utilização de diferentes métricas em algoritmos de aprendizado de máquinas pode mudar completamente os resultados de análises realizadas em bases de dados. Variar as maneiras de medir distâncias ou similaridades dos dados pode gerar reflexos para a captura de informações dessas bases e, com isso, influenciar diretamente a tomada de decisões. Neste sentido, métodos de aprendizagem de métricas têm sido abordados e aplicados em diversos ramos das pesquisas que manipulam bases de dados, com a finalidade de encontrar métricas mais adequadas para soluções de problemas de análise de cluster, classificação, mineração de dados, dentre outros relacionados ao reconhecimento de padrões de dados. O método de aprendizado de métricas utilizado como base deste trabalho foi originalmente formulado como um problema de otimização, com o objetivo de minimizar um conjunto parametrizado de distâncias de Mahalanobis. No método original é necessário estabelecer uma lista com pares de vetores similares ou dissimilares, que possibilitam a correção dos parâmetros para medição das distâncias. Já neste trabalho é proposto um novo método, que não necessita da comparação par a par entre vetores, mas apenas da comparação de distâncias de cada vetor do conjunto de treinamento com dois centroides: o definido pelo algoritmo Seeded k-means e o definido por um especialista como sendo um centroide esperado. A distância entre o vetor e os dois centroides é usada como fator global de correção dos parâmetros para medição das distâncias. Os novos parâmetros para medição de distâncias alteram a forma como os vetores são agrupados, melhorando sensivelmente os resultados em relação à métrica Euclideana. A maior contribuição deste estudo foi a formulação de um método para aprendizado desses parâmetros que reduzisse a complexidade em tempo em relação a outros métodos de aprendizado propostos na literatura, denominado MAP – Método de Aprendizado de Parâmetros. O MAP demonstrou melhoras significativas para problemas de classificação em diversas bases de dados do UCI Machine Learning Repository com métricas aprendidas em conjuntos de treinamento. / The use of different metrics in machine learning algorithms is able to change the results of analyzes carried out in databases. By varying how to measure distances or data similarities we can generate reflexes for information capture, which can influence the decision-making. In this sense, metric learning methods have been approached and applied in several branches of the research in the world, in order to find better metrics for problems of cluster analysis, classification, data mining, among others related data pattern recognition. The metric learning method used as the basis of this work was ori-ginally formulated as an optimization problem, in order to minimize a parameter set of Mahalanobis distances. In the original method, it is necessary to define a list of similar or dissimilar vectors pairs, which allow the correction of the distance measurement pa-rameters. In this work, a new method is proposed, which does not require the pairwise comparison, but only the distance comparison from each vector of a training set to two points: one defined by the Seeded k-means and other defined by an expert as being an expected centroid. The distance between the vector and the two centroids is used as correction factor of the parameters for measuring distances. The new learned parame-ters for distances measurement can change the clusters improving the results compared to the Euclidean metric. The major contribution of this study was the formulation of a method to learn these parameters that reduces the complexity in time if compared to other methods proposed in the literature. The proposal of PLM – Parameter Learning Method – have been demonstrated significant improvements in classification problems for several UCI Machine Learning Repository databases.
472

Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados / Automatic feature quantification in data clustering tasks

José Augusto Andrade Filho 17 September 2013 (has links)
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida / Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
473

"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning"

Gustavo Enrique de Almeida Prado Alves Batista 16 May 2003 (has links)
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process.
474

A inclusão do robô humanóide NAO como recurso tecnológico no processo do ensino-aprendizado da Língua Portuguesa na Educação Especial

Assante, Lidiane de Souza 22 August 2016 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-01-25T13:11:59Z No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-01-25T13:12:16Z (GMT) No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-01-25T13:12:30Z (GMT) No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) / Made available in DSpace on 2017-01-25T13:12:30Z (GMT). No. of bitstreams: 1 Dissertação Parcial - Lidiane de Souza Assante.pdf: 1502522 bytes, checksum: 539c33aea656af53d0e41242e6feb497 (MD5) Previous issue date: 2016-08-22 / Robotics has emerged as a technology to improve services and increase productivity in large organizations, and today as attractive educational alternative to explore theoretical concepts covered in the classroom facilitating learning and charming student interest. The use of alternative methods for improving school education, it has become necessary. The new generation of learners living in panorama whose technology goes through constant changes inside and outside the academic atmosphere. Assistive technology today has expanded the functional abilities of people with disabilities and consequently promote independent living and social inclusion. Presupposed this research project aimed at analyzing the insertion of Humanoid Robot NAO as a communication tool and integration of the Portuguese language by the method developed ABCNAO with use of the computer system Choregraphe, in which the robot interacts in sequence learning activities. The project in question was justified for engineering production by including new teaching-learning process mediated by assistive technology and Humanoid Robot. As well as having Assistive Technology Center at UEA / AM that has the robot and is developing Educational Service Specialist (ESA). Research has shown scientifically that children with pervasive developmental disorders (PDD) and Disorder ASD (TA) communicate and interact more easily with a robot than with the human being, and it is desirable for language teaching and learning process Portuguese as another teaching / educational support tool for educational / technological purposes and relevant to scientific research in production engineering as a new and innovative process. As tools of analysis and discussion of the results will be given by survey information, tools and strategy for the collection, this research used focus groups, quantitative and qualitative data and application questionnaire on the robot so as to measure data that make relevant research. The result proved the potential of the humanoid robot in accordance with the Portuguese language in the teaching-learning process in special education, using the method developed during the study the ABCNAO as a pilot test, to make them (disabled children) more communicative and , socially interactive and playful learning tool and motivational. So is research is significant as new educational and technological tool in the process of teaching and learning the Portuguese language / A robótica surgiu como tecnologia para melhorar os serviços e aumentar a produtividade nas grandes organizações e, hoje, como alternativa educacional atraente para explorar conceitos teóricos abordados em sala de aula facilitando o aprendizado e encantando o interesse dos alunos. A utilização de métodos alternativos para melhorar o ensino escolar, tornou-se necessário. A nova geração de aprendizes vivem em panorama cuja tecnologia passa por constantes mudanças fora e dentro da atmosfera acadêmica. A tecnologia assistiva, hoje, vem ampliando as habilidades funcionais de pessoas com deficiência e consequentemente promover vida independente e inclusão social. Como pressuposto este projeto de pesquisa buscou analisar a inserção do Robô Humanoide NAO como ferramenta de comunicação e integração da Língua Portuguesa por meio do método desenvolvido ABCNAO com uso do sistema computacional Choregraphe, no qual o Robô interage em sequência de atividades didáticas. O projeto em questão justificou-se para a engenharia da produção pela inclusão de novo processo de ensino-aprendizagem mediados por tecnologia assistiva e Robô Humanoide. Bem como por ter Núcleo de Tecnologia Assistiva na UEA/AM que possui o robô e que vem desenvolvendo Atendimento Educacional Especializado (AEE). Pesquisas comprovaram cientificamente que crianças com transtornos globais do desenvolvimento (TGD) e Transtorno Espectro Autista (TA) se comunicam e interagem mais facilmente com um Robô do que com o próprio ser humano, além de se tornar oportuno para o processo de ensino aprendizagem da língua portuguesa como mais uma ferramenta de apoio didático/pedagógico com fins educacionais/tecnológicos e relevante para a pesquisa científica na engenharia de produção como um processo novo e inovador. Como instrumentos de análise e discussão dos resultados deu-se por levantamento de informações, instrumentos e estratégia para a coleta, nesta pesquisa utilizou-se grupo focal, dados quanti-qualitativo e aplicação de questionário sobre o robô para assim mensurar dados que tornem relevante à pesquisa. O resultado comprovou a potencialidade do robô humanoide em consonância com a língua portuguesa no processo do ensino-aprendizado na educação especial, utilizando o método desenvolvido durante o estudo, o ABCNAO, como teste piloto, para torná-los (as crianças deficientes) mais comunicativos e, interativos socialmente, bem como instrumento lúdico de aprendizagem e motivacional. Portanto esta pesquisa é significativa como nova ferramenta educacional e tecnológica no processo do ensino-aprendizado da língua portuguesa.
475

Detecção e diagnóstico remoto de falhas baseado em aprendizado de máquina para equipamentos de uso doméstico

Seabra, Jorge da Costa, 92-99216-0120 28 April 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-12-04T14:26:20Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Jorge C. Seabra.pdf: 2679171 bytes, checksum: a3f32ee0ecd6132b922b8c292c8c6ffc (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-12-04T14:26:31Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Jorge C. Seabra.pdf: 2679171 bytes, checksum: a3f32ee0ecd6132b922b8c292c8c6ffc (MD5) / Made available in DSpace on 2017-12-04T14:26:31Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação_Jorge C. Seabra.pdf: 2679171 bytes, checksum: a3f32ee0ecd6132b922b8c292c8c6ffc (MD5) Previous issue date: 2017-04-28 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The conventional household equipment we use on a day-to-day basis is practically not monitored for real-time faults and defects. In this work, an approach will be presented to the application of machine learning with the use of selected data of the equipment when in operation, and of data references extracted from the datasheets. In order to analyze, compare and evaluate differences in data sets, the fault detection and diagnosis device was developed to classify the symptoms that may represent defects in the equipment in real time. The occurrences of these equipment failures are traditionally identified by the users themselves when the expected performance does not occur. With the use of a microprocessed board connected to the electronic sensors installed at strategic points in the equipment, the data comparison step is started, the data collected are transmitted to the server, which through the Machine Learning algorithm performs the tasks for identification of the Detected failures. Real-time monitoring of the behavior of electrical and physical magnitudes of conventional household equipment is aimed at monitoring functional behavior and informing the user of any faults using local or Internet resources. / Os equipamentos domésticos convencionais que utilizamos no dia a dia, praticamente, não são monitorados para verificação de falhas e defeitos em tempo real. Neste trabalho, será apresentada uma abordagem da aplicação do aprendizado de máquina com a utilização de dados selecionados dos equipamentos quando em funcionamento, e de dados referências extraídos das fichas técnicas. Para analisar, comparar e avaliar as diferenças nos conjuntos de dados, foi desenvolvido o dispositivo de detecção e diagnóstico de falha para classificar os sintomas que podem representar defeitos nos equipamentos em tempo real. As ocorrências das falhas destes equipamentos, tradicionalmente são identificadas pelos próprios usuários quando o desempenho esperado não acontece. Com a utilização de uma placa micro processada conectada aos sensores eletrônicos instalados em pontos estratégicos no equipamento, iniciase a etapa da comparação de dados, os dados coletados são transmitidos ao servidor que através do algoritmo de Aprendizado de Máquina executa as tarefas para identificação das falhas detectadas. O monitoramento em tempo real do comportamento das grandezas elétricas e físicas dos equipamentos de usos domésticos convencionais tem como objetivo, monitorar o comportamento funcional e informar ao usuário, eventuais falhas, utilizando os recursos da rede local ou da internet.
476

Detecção de mudança de conceito baseada em aprendizado ativo

Costa, Albert França Josuá, 68-99211-7175 11 December 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-02T13:31:20Z No. of bitstreams: 2 Dissertação_Albert F. J. Costa.pdf: 4215192 bytes, checksum: 995a811676e714bffa60b5d73a387cfa (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-02T13:31:36Z (GMT) No. of bitstreams: 2 Dissertação_Albert F. J. Costa.pdf: 4215192 bytes, checksum: 995a811676e714bffa60b5d73a387cfa (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-03-02T13:31:36Z (GMT). No. of bitstreams: 2 Dissertação_Albert F. J. Costa.pdf: 4215192 bytes, checksum: 995a811676e714bffa60b5d73a387cfa (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-12-11 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Current machine learning techniques used for prediction tasks rely on the assumption that the environment where data is generated is static and supervised. However, most of the real-world problems present dynamic and semi-supervised environments, which invalidate this assumed assumption. In these environments, it is possible the occurrence of a phenomenon known in the literature as concept drift. The main characteristic of such a phenomenon is that the relationship between instances’ features and their true classes changes over time. The primary effect of the concept drift occurrence is the decrease on classifier performance, which leads the classifier to be obsolete for the task. There are methods in the literature that deal with concept drift implicitly or explicitly. The main drawback to blind (implicit) methods is the cost on retraining the classifier constantly, even with no concept drift occurrence, while the informed (explicit) methods generally work based on classifier performance decrease, or based on assumptions about the samples distribution. In order to try to overcome these drawbacks, in this work we propose to use density variation of the most significant instances as an explicit trigger for concept drift detection. Density variation measurement is based on Active Learning, and is calculated from virtual margins projected onto the input space according to the classifier confidence. Focusing on demonstrating the validity of the proposed method, called Concept Drift Detection Method Based on Active Learning (DMAA), were have carried out experiments divided into two series. In the first series, DMAA was investigated on six databases, which represent four synthetic and two real problems. The obtained results show that the proposed method achieved 95.45% of drift detection rate on synthetic databases, and 16.5% as mean error rate in both synthetic and real databases. In the second series of experiments, DMAA was compared to three baselines, including two supervised drift detectors and one Active Learning-based method. The obtained results show that DMAA reached statistically significant better recognition rates in the majority of databases. Besides, it reduced the amount of labeled instances needed to keep the system updated. / As atuais técnicas de aprendizado de máquina aplicadas na tarefa de predição são baseadas na premissa de que o ambiente em que os dados são gerados apresenta um comportamento estacionário e supervisionado. Porém, os ambientes, na maioria dos problemas do mundo real, são considerados dinâmicos e semi-supervisionados, fatos que invalidam as premissas normalmente utilizadas. Nesses ambientes há a possibilidade da ocorrência do fenômeno conhecido na literatura por mudança de conceito (do inglês concept drift), que caracteriza-se pela alteração na relação entre as características das instâncias e a sua verdadeira classe com a passagem do tempo. Como efeito primário da ocorrência desse fenômeno tem-se a degradação significativa na taxa de desempenho do classificador, tornando-o obsoleto para a tarefa. Encontram-se na literatura métodos que lidam implicitamente ou explicitamente com a mudança de conceito, sendo que os métodos cegos (implícitos) arcam com os custos de retreinar o classificador de forma constante, enquanto que os métodos informados (explícitos) atuam normalmente baseados no monitoramento da degradação do desempenho do classificador, ou na realização de suposições sobre a distribuição das instâncias. Para contornar essas dificuldades, esta dissertação propõe o uso da variação da densidade das instâncias mais significativas, calculada com base em Aprendizado Ativo, como sinalizador explícito da ocorrência de mudança de conceito. A densidade é mensurada a partir do conceito de margens virtuais projetadas no espaço de entrada, sendo que as margens virtuais são obtidas com base na incerteza do classificador. Objetivando-se demonstrar a validade do método proposto, denominado de Método de Detecção de Mudança de Conceito Baseada em Aprendizado Ativo (DMAA), experimentos foram realizados em duas etapas. A primeira consistiu na aplicação do DMAA em seis bases de dados, sendo quatro sintéticas e duas reais. Os resultados obtidos demonstram que o método proposto identificou em média 95,45% das mudanças existentes nas bases sintéticas, e alcançou uma média geral de erro de 16,5%. Na segunda etapa de experimentos, foi feita uma comparação entre o DMAA e três baselines, incluindo dois métodos supervisionados e um método baseado em aprendizado ativo. Os resultados indicam que o DMAA alcançou resultados estatisticamente superiores em mais da metade das bases de dados investigadas, além de reduzir significativamente a quantidade de instâncias rotuladas necessárias para manter o sistema atualizado.
477

Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos

Souza, Adriano Honorato de, 92-99124-3842 29 September 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:06Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2018-03-07T18:10:27Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) / Made available in DSpace on 2018-03-07T18:10:27Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação _Adriano Honorato.pdf: 2593391 bytes, checksum: 66560b270a251eb8352a53374e86aa02 (MD5) Previous issue date: 2017-09-29 / Virtual herbariums aim to disseminate scientific information and contribute to the conservation and sustainable use of Brazilian biological resources. It currently includes 120 national herbaria and 25 herbariums from abroad, together provide more than 5,4 million records and more than one million images, in addition to several free access tools, opening space for the application of Machine Learning techniques, among them classifiers. In the Machine Learning process, Attribute Selection is part of the pre-processing of data and can correspond to 80% of the data mining phase, for this it is necessary to study the approaches used to make the selection of a subset of attributes that better generalize the basis to be induced to the model of machine learning. The objective of this work is to apply the attributes selection processes with the following filter, wrapper and embedded approaches in the National Institute of Science and Technology (NIST) - Virtual Herbarium of Flora and Fungi, this base contains 87,732 records and 51 features, with 119 collections and sub-collections, 86,967 online records, 80,513 georeferenced records, 12,073 different accepted species. The first phase of machine learning processes is the pre-processing, which will analyze the database and will result in a more general and ready basis for the application of the predictive models of classification, after the filter of the most relevant subset of attributes, the Machine Learning algorithms are applied, which in this research was: Decision Tree, Network Neural Artificial and Logistic Regression. The evaluation of the models will be through the confusion matrix using the accuracy and the analysis of the area on the ROC curve. Among the models studied, the Logistic Regression was the one that obtained the performance with a total accuracy of 77.25%, with the filter approach and 76.25% with the wrapper. / Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina, entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções, 86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas. A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os modelos estudados o de Regressão Logística obteve o desempenho de classificação de acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper.
478

O aprendizado de inglês em contextos de demandas socioculturais dos Karajá de Buridina / The learning of english in contexts of sociocultural demands of the Karajá of Buridina

Silva, Valdilene Elisa da 31 May 2017 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-06-12T11:55:56Z No. of bitstreams: 2 Dissertação - Valdilene Elisa da Silva - 2017.pdf: 1382807 bytes, checksum: 7c39f4504c9080ead560c362c60280d3 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-06-12T11:56:37Z (GMT) No. of bitstreams: 2 Dissertação - Valdilene Elisa da Silva - 2017.pdf: 1382807 bytes, checksum: 7c39f4504c9080ead560c362c60280d3 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-06-12T11:56:37Z (GMT). No. of bitstreams: 2 Dissertação - Valdilene Elisa da Silva - 2017.pdf: 1382807 bytes, checksum: 7c39f4504c9080ead560c362c60280d3 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-05-31 / The aim of this research is to attend the real demand of this indigenous Karajá to communicate with the people to visit the community and talk English, these people want to understand the main that the handcraft has in the indigenous culture. Hence, it’s necessary to ability the indigenous to use the language to tell about your linguistic and cultural reality. Moreover, to promote the documentation of the handcraft made for them, to write small texts about the community and the Aruanã city. Not only in this research but also in the dissertation the theoretical basis are the concepts of Walsh (2001), Pimentel da Silva (1994), (1995), (2001), (2009), (2015) Nunes (2009), Tubino (2005) and others. These authors contribute with the methodologies used in class, using indigenous experience and the conceptions these authors have about minority community in intercultural relation. This way, we develop in the course of English, methodologies of the context, cooperation, learning in communion, and complementarities. The priority is the dialogue between participants an researcher in class, in the community and/or online. It is noticeable with the development of the research, that the knowledge to communicate in English approximated indigenous and tourists in the commercial and cultural relations. Therefore, the indigenous demonstrate satisfaction, gratification when they talk about Karajá culture through their English vocabulary. / Este trabalho teve como objetivo geral atender às demandas dos indígenas Karajá de Buridina em aprender Inglês, a fim de se comunicarem com os turistas que visitam sua aldeia e que buscam compreender o valor cultural de cada peça de artesanato vendida. Para isso, torna-se necessário habilitar essas pessoas a usar o idioma, para poderem falar da sua realidade cultural e linguística, providenciarem a documentação em inglês das peças de artesanato produzidas por eles e ainda conseguir redigir pequenos textos com informações sobre a cultura da comunidade Karajá e da cidade de Aruanã. Tanto no desenvolvimento da pesquisa quanto da dissertação as bases teóricas a que recorremos foram os estudos de Walsh (2001), Pimentel da Silva (1994, 1995, 2001, 2009, 2015), Nunes (2009), Tubino (2005) e outros. Os autores citados contribuíram muito com a criação das metodologias, com princípios de vivência indígena e também com concepções adotadas sobre como trabalhar com comunidades minorizadas em relações de interculturalidade e em como atender algumas demandas. Adotamos para o desenvolvimento do curso uma metodologia da contextualização, da cooperação, da aprendizagem em comunhão e da complementaridade, priorizando o diálogo entre participantes e pesquisadora na sala de aula, tanto na aldeia como no modo online. Com o desenvolvimento do curso, é perceptível que os conhecimentos trabalhados para a comunicação em inglês trouxeram uma aproximação entre os indígenas e os turistas nas relações comerciais e culturais. Os indígenas demonstram contentamento em falar sobre a sua cultura por meio do seu vocabulário em Inglês, pois hoje começam a falar Inglês na comunicação com o turista.
479

Técnica de aprendizado semissupervisionado para detecção de outliers / A semi-supervised technique for outlier detection

Fabio Willian Zamoner 23 January 2014 (has links)
Detecção de outliers desempenha um importante papel para descoberta de conhecimento em grandes bases de dados. O estudo é motivado por inúmeras aplicações reais como fraudes de cartões de crédito, detecção de falhas em componentes industriais, intrusão em redes de computadores, aprovação de empréstimos e monitoramento de condições médicas. Um outlier é definido como uma observação que desvia das outras observações em relação a uma medida e exerce considerável influência na análise de dados. Embora existam inúmeras técnicas de aprendizado de máquina para tratar desse problemas, a maioria delas não faz uso de conhecimento prévio sobre os dados. Técnicas de aprendizado semissupervisionado para detecção de outliers são relativamente novas e incluem apenas um pequeno número de rótulos da classe normal para construir um classificador. Recentemente um modelo semissupervisionado baseado em rede foi proposto para classificação de dados empregando um mecanismo de competição e cooperação de partículas. As partículas são responsáveis pela propagação dos rótulos para toda a rede. Neste trabalho, o modelo foi adaptado a fim de detectar outliers através da definição de um escore de outlier baseado na frequência de visitas. O número de visitas recebido por um outlier é significativamente diferente dos demais objetos de mesma classe. Essa abordagem leva a uma maneira não tradicional de tratar os outliers. Avaliações empíricas sobre bases artificiais e reais demonstram que a técnica proposta funciona bem para bases desbalanceadas e atinge precisão comparável às obtidas pelas técnicas tradicionais de detecção de outliers. Além disso, a técnica pode fornecer novas perspectivas sobre como diferenciar objetos, pois considera não somente a distância física, mas também a formação de padrão dos dados / Outloier detection plays an important role for discovering knowledge in large data sets. The study is motivated by plethora of real applications such as credit card frauds, fault detection in industrial components, network instrusion detection, loan application precoessing and medical condition monitoring. An outlier is defined as an observation that deviates from other observations with respect to a measure and exerts a substantial influence on data analysis. Although numerous machine learning techniques have been developed for attacking this problem, most of them work with no prior knowledge of the data. Semi-supervised outlier detection techniques are reçlatively new and include only a few labels of normal class for building a classifier. Recently, a network-based semi-supervised model was proposed for data clasification by employing a mechanism based on particle competiton and cooperation. Such particle competition and cooperaction. Such particles are responsible for label propagation throughout the network. In this work, we adapt this model by defining a new outlier score based on visit frequency counting. The number of visits received by an outlier is significantly different from the remaining objects. This approach leads to an anorthodox way to deal with outliers. Our empirical ecaluations on both real and simulated data sets demonstrate that proposed technique works well with unbalanced data sets and achieves a precision compared to traditional outlier detection techniques. Moreover, the technique might provide new insights into how to differentiate objects because it considers not only the physical distance but also the pattern formation of the data
480

Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data.

Giampaolo Luiz Libralon 09 November 2007 (has links)
Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais. Ruídos em conjuntos de dados podem reduzir o desempenho das técnicas de Aprendizado de Máquina (AM) empregadas e aumentar o tempo de construção da hipótese induzida, assim como sua complexidade. Dados são geralmente coletados por meio de medições realizadas em um domínio de interesse. Nesse sentido, nenhum conjunto de dados é perfeito. Erros de medições, dados incompletos, errados, corrompidos ou distorcidos, falhas humanas ou dos equipamentos utilizados, dentre muitos outros fatores, contribuem para a contaminação dos dados, e isso é particularmente verdadeiro para dados com elevada dimensionalidade. Sendo assim, a detecção de ruídos é uma tarefa crítica, principalmente em ambientes que exigem segurança e confiabilidade, uma vez que a presença desses pode indicar situações que degradam o desempenho do sistema ou a segurança e confiabilidade das informações. Algoritmos para a detecção e remoção de ruídos podem aumentar a confiabilidade de conjuntos de dados ruidosos. Nesse âmbito, esse trabalho investiga técnicas de detecção de ruído baseadas em distância, em que a remoção de ruídos é feita em uma etapa de pré-processamento, aplicadas a problemas de classificação de dados de Expressão Gênica, caracterizados pela presença de ruídos, elevada dimensionalidade e complexidade. O objetivo é melhorar o desempenho das técnicas de AM empregadas para solucioná-los. Por fim, combinações de técnicas de detecção de ruído são implementadas de modo a analisar a possibilidade de melhorar, ainda mais, o desempenho obtido. / Noise can be defined as an example which seems to be inconsistent with the remaining ones in a data set. The presence of noise in data sets can decrease the performance of Machine Learning (ML) techniques in the problem analysis and also increase the time taken to build the induced hypothesis and its complexity. Data are collected from measurements made which represent a given domain of interest. In this sense, no data set is perfect. Measurement errors, incomplete, corrupted, wrong or distorted examples, equipment problems or human fails, besides many other related factors, help contaminating the data, and this is particularly true for data sets with high dimensionality. For this reason, noise detection is a critical task, specially in domains which demand security and trustworthiness, since the presence of noise can lead to situations which degrade the system performance or the security and trustworthiness of the involved information. Algorithms to detect and remove noise may increase trustworthiness of noisy data sets. Based on that, this work evaluates distance-based noise detection techniques, in which noise removal is done by a pre-processing phase, in gene expression classification problems, characterized by the presence of noise, high dimensionality and complexity. The objective is to improve the performance of ML techniques used to solve these problems. Next, ensembles of noise detection techniques are developed in order to analyze the possibility to further improve the performance obtained.

Page generated in 0.1674 seconds