Spelling suggestions: "subject:"classificados"" "subject:"classificador""
21 |
Verificação de assinaturas off-line: uma abordagem baseada na combinação de distâncias e em classificadores de uma classeRodrigues Pinheiro de Souza, Milena 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:56:31Z (GMT). No. of bitstreams: 2
arquivo2943_1.pdf: 1753239 bytes, checksum: 9bb54530f2681d310412190da2d1397f (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Esta dissertação oferece contribuições para o problema de verificação de assinaturas off-line
através da utilização de diferentes distâncias e classificadores de apenas uma classe. O uso
de classificadores de uma classe viabiliza a utilização de apenas assinaturas verdadeiras durante
a fase de treinamento do sistema. Isso é vantajoso pois em diversas aplicações reais de
verificação de assinaturas existe uma carência de assinaturas falsas em detrimento do número
de assinaturas verdadeiras. Esse trabalho também realiza uma comparação entre os resultados
dos diferentes classificadores de uma classe escolhidos e de três métodos de extração de características
implementados: Shadow Code, Características Periféricas e Diferenciais Periféricas
e Elementos Estruturais. Afora isso, foram calculadas cinco distâncias utilizando as características
extraídas: dmin, dmax, dcentral , dtemplate e dncentral . Essas distâncias foram normalizadas
de forma a tornar o sistema independente de classe. E posteriormente combinadas usando as
seguintes regras: produto, média, máximo, mínimo e soma.
De forma a avaliar a contribuição de cada etapa no desempenho do sistema, este foi subdividido
em quatro arquiteturas. Para isso, partiu-se de uma arquitetura mais simples, e foram
sendo adicionadas novas etapas a ela. Dessa forma, foi possível identificar que, dentre as extrações
utilizadas neste trabalho, o método Shadow Code obteve um grande destaque. O mesmo
pode ser dito para as distâncias dcentral e dncentral , que apresentaram melhores resultados que
as demais: dmin, dmax e dtemplate. As combinações das distâncias apresentaram resultados discrepantes,
algumas combinações pioraram o desempenho do sistema, enquanto outras provocaram
um efeito positivo. Foram utilizadas duas bases de dados: Base de Dados 1 (base de
dados de assinaturas desenvolvida em pesquisa anterior) e Base de Dados 2 (base de dados
de assinaturas disponibilizada em competição para sistemas de verificação de assinaturas). O
melhor resultado geral do sistema, para a Base de Dados 1, e considerando 10% de falsos positivos,
foi de 93,37% de verdadeiros positivos para as assinaturas falsas aleatórias, 59,18% para
as assinaturas falsas habilidosas e 75,85% usando ambas
|
22 |
"Combinação de classificadores simbólicos para melhorar o poder preditivo e descritivo de Ensembles" / Combination of symbolic classifiers to improve predictive and descriptive power of ensemblesFlávia Cristina Bernardini 17 May 2002 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de Aprendizado de Máquina depende principalmente da quantidade e da qualidade dos atributos e exemplos utilizados no treinamento. Freqüentemente, resultados experimentais obtidos sobre grandes bases de dados, que possuem muitos atributos irrelevantes, resultam em hipóteses de baixa precisão. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma quantidade muito grande de exemplos. Assim, uma das áreas de pesquisa mais ativas em aprendizado de máquina tem girado em torno de técnicas que sejam capazes de ampliar a capacidade dos algoritmos de aprendizado para processar muitos exemplos de treinamento, atributos e classes. Para que conceitos sejam aprendidos a partir de grandes bases de dados utilizando Aprendizado de Máquina, pode-se utilizar duas abordagens. A primeira realiza uma seleção de exemplos e atributos mais relevantes, e a segunda ´e a abordagem de ensembles. Um ensemble ´e um conjunto de classificadores cujas decisões individuais são combinadas de alguma forma para classificar um novo caso. Ainda que ensembles classifiquem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de nao oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. O objetivo deste trabalho é propor uma forma de combinação de classificadores simbólicos, ou seja, classificadores induzidos por algoritmos de AM simbólicos, nos quais o conhecimento é descrito na forma de regras if-then ou equivalentes, para se trabalhar com grandes bases de dados. A nossa proposta é a seguinte: dada uma grande base de dados, divide-se esta base aleatoriamente em pequenas bases de tal forma que é viável fornecer essas bases de tamanho menor a um ou vários algoritmos de AM simbólicos. Logo após, as regras que constituem os classificadores induzidos por esses algoritmos são combinadas em um único classificador. Para analisar a viabilidade do objetivo proposto, foi implementado um sistema na linguagem de programação lógica Prolog, com a finalidade de (a) avaliar regras de conhecimento induzidas por algoritmos de Aprendizado de Máquina simbólico e (b) avaliar diversas formas de combinar classificadores simbólicos bem como explicar a classificação de novos exemplos realizada por um ensemble de classificares simbólicos. A finalidade (a) é implementada pelo Módulo de Análise de Regras e a finalidade (b) pelo Módulo de Combinação e Explicação. Esses módulos constituem os módulos principais do RuleSystem. Neste trabalho, são descritos os métodos de construção de ensembles e de combinação de classificadores encontrados na literatura, o projeto e a documentação do RuleSystem, a metodologia desenvolvida para documentar o sistema RuleSystem, a implementação do Módulo de Combinação e Explicação, objeto de estudo deste trabalho, e duas aplicações do Módulo de Combinação e Explicação. A primeira aplicação utilizou uma base de dados artificiais, a qual nos permitiu observar necessidades de modificações no Módulo de Combinação e Explicação. A segunda aplicação utilizou uma base de dados reais. / The hypothesis quality induced by current machine learning algorithms depends mainly on the quantity and quality of features and examples used in the training phase. Frequently, hypothesis with low precision are obtained in experiments using large databases with a large number of irrelevant features. Thus, one active research area in machine learning is to investigate techniques able to extend the capacity of machine learning algorithms to process a large number of examples, features and classes. To learn concepts from large databases using machine learning algorithms, two approaches can be used. The first approach is based on a selection of relevant features and examples, and the second one is the ensemble approach. An ensemble is a set of classifiers whose individual decisions are combined in some way to classify a new case. Although ensembles classify new examples better than each individual classifier, they behave like black-boxes, since they do not offer any explanation to the user about their classification. The purpose of this work is to consider a form of symbolic classifiers combination to work with large databases. Given a large database, it is equally divided randomly in small databases. These small databases are supplied to one or more symbolic machine learning algorithms. After that, the rules from the resulting classifiers are combined into one classifier. To analise the viability of this proposal, was implemented a system in logic programming language Prolog, called RuleSystem. This system has two purposes; the first one, implemented by the Rule Analises Module, is to evaluate rules induced by symbolic machine learning algorithms; the second one, implemented by the Combination and Explanation Module, is to evaluate several forms of combining symbolic classifiers as well as to explain ensembled classification of new examples. Both principal modules constitute the Rule System. This work describes ensemble construction methods and combination of classifiers methods found in the literature; the project and documentation of RuleSystem; the methodology developed to document the RuleSystem; and the implementation of the Combination and Explanation Module. Two different case studies using the Combination and Explanation Module are described. The first case study uses an artificial database. Through the use of this artificial database, it was possible to improve several of the heuristics used by the the Combination and Explanation Module. A real database was used in the second case study.
|
23 |
Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgmsBernardini, Flávia Cristina 29 August 2006 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.
|
24 |
Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgmsFlávia Cristina Bernardini 29 August 2006 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.
|
25 |
Dilema da diversidade-acur?cia: um estudo emp?rico no contexto de multiclassificadoresOliveira, Diogo Fagundes de 01 September 2008 (has links)
Made available in DSpace on 2014-12-17T15:47:49Z (GMT). No. of bitstreams: 1
DiogoFO.pdf: 866073 bytes, checksum: bf59c2597aef9b7382b7e14bd4914265 (MD5)
Previous issue date: 2008-09-01 / Conselho Nacional de Desenvolvimento Cient?fico e Tecnol?gico / Multi-classifier systems, also known as ensembles, have been widely used to solve several problems, because they, often, present better performance than the individual classifiers that form these systems. But, in order to do so, it s necessary that the base classifiers to be as accurate as diverse among themselves this is also known as diversity/accuracy dilemma. Given its importance, some works have investigate the ensembles behavior in
context of this dilemma. However, the majority of them address homogenous ensemble, i.e., ensembles composed only of the same type of classifiers. Thus, motivated by this limitation, this thesis, using genetic algorithms, performs a detailed study on the dilemma diversity/accuracy for heterogeneous ensembles / Sistemas Multiclassificadores, tamb?m conhecidos como comit?s de classificadores, t?m sido amplamente utilizados para resolver os mais variados problemas, pois em geral t?m
melhores desempenhos que os classificadores base que formam esses sistemas. Para que isso ocorra, por?m, ? necess?rio que os classificadores base sejam t?o acurados quanto diversos entre si isso ? conhecido como dilema da diversidade-acur?cia. Dado a sua import?ncia, alguns trabalhos sobre o estudo do omportamento dos comit?s no contexto desse dilema foram propostos. Entretanto, a maioria dos trabalhos estudou tal problema para comit?s homog?neos, ou seja, comit?s formados apenas por classificadores do mesmo tipo. Sendo assim, motivado por esta limita??o, esta disserta??o, usando algoritmos gen?ticos, efetua um estudo mais detalhado sobre o dilema da diversidade-acur?cia em comit?s heterog?neos
|
26 |
Avaliação do uso de classificadores para verificação de atendimento a critérios de seleção em programas sociaisSantos, Cinara de Jesus 07 March 2017 (has links)
Submitted by isabela.moljf@hotmail.com (isabela.moljf@hotmail.com) on 2017-08-15T12:01:50Z
No. of bitstreams: 1
cinaradejesussantos.pdf: 4566569 bytes, checksum: bddc2ea97276541c0a8ad30a371102d1 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-08-15T12:02:54Z (GMT) No. of bitstreams: 1
cinaradejesussantos.pdf: 4566569 bytes, checksum: bddc2ea97276541c0a8ad30a371102d1 (MD5) / Made available in DSpace on 2017-08-15T12:02:54Z (GMT). No. of bitstreams: 1
cinaradejesussantos.pdf: 4566569 bytes, checksum: bddc2ea97276541c0a8ad30a371102d1 (MD5)
Previous issue date: 2017-03-07 / Classificadores são separadores de grupos que mediante determinadas características organiza os dados agrupando elementos que apresentem traços semelhantes, o que permite reconhecimento de padrões e identificação de elementos que não se encaixam. Esse procedimento de classificação e separação pode ser observado em processos do cotidiano como exames (clínicos ou por imagem), separadores automáticos de grãos na agroindústria, identificador de probabilidades, reconhecedores de caracteres, identificação biométrica - digital, íris, face, etc. O estudo aqui proposto utiliza uma base
de dados do Ministério do Desenvolvimento Social e Combate a Fome (MDS), contendo informações sobre beneficiários do Programa Bolsa Família (PBF), onde contamos com registros descritores do ambiente domiciliar, grau de instrução dos moradores do domicílio assim como o uso de serviços de saúde pelos mesmos e informações de cunho financeiro (renda e gastos das famílias). O foco deste estudo não visa avaliar o PBF, mas o comportamento de classificadores aplicados sobre bases de caráter social, pois estas apresentam certas particularidades. Sobre as variáveis que descrevem uma família como beneficiária ou não do PBF, testamos três algoritmos classificadores - regressão
logística, árvore binária de decisão e rede neural artificial em múltiplas camadas. O desempenho destes processos foi medido a partir de métricas decorrentes da chamada matriz de confusão. Como os erros e acertos de uma classe n˜ao s˜ao os complementares da outra classe é de suma importância que ambas sejam corretamente identificadas. Um desempenho satisfatório para ambas as classes em um mesmo cenário não foi alçado - a identificação do grupo minoritário apresentou baixa eficiência mesmo com reamostragem seguida de reaplicação dos três processos classificatórios escolhidos, o
que aponta para a necessidade de novos experimentos. / Classifiers are group separators that, by means of certain characteristics, organize the data by grouping elements that present similar traits, which allows pattern recognition and the identification of elements that do not fit. Classification procedures can be used in everyday processes such as clinical or imaging exams, automatic grain separators in agribusiness, probability identifiers, character recognition, biometric identification by thumbprints, iris, face, etc. This study uses a database of the Ministry of Social Development and Fight against Hunger (MDS), containing information on beneficiaries of the Bolsa Fam´ılia Program (PBF). The data describe the home environment, the level of education of the residents of the household, their use of public health services, and some financial information (income and expenses of families). The focus of this study is not to evaluate the PBF, but to analyze the performance of the classifiers when applied to bases of social character, since these have certain peculiarities. We have tested three classification algorithms - logistic regression, binary decision trees
and artificial neural networks. The performance of these algorithms was measured by metrics computed from the so-called confusion matrix. As the probabilities of right and wrong classifications of a class are not complementary, it is of the utmost importance that both are correctly identified. A good evaluation could not be archive for both classes in a same scenario was not raised - the identification of the minority group showed low efficiency even with resampling followed by reapplication of the three
classificatory processes chosen, which points to the need for new experiments.
|
27 |
Sistemas classificadores evolutivos para problemas multirrótulo / Learning classifier system for multi-label classificationVallim, Rosane Maria Maffei 27 July 2009 (has links)
Classificação é, provavelmente, a tarefa mais estudada na área de Aprendizado de Máquina, possuindo aplicação em uma grande quantidade de problemas reais, como categorização de textos, diagnóstico médico, problemas de bioinformática, além de aplicações comerciais e industriais. De um modo geral, os problemas de classificação podem ser categorizados quanto ao número de rótulos de classe que podem ser associados à cada exemplo de entrada. A abordagem mais investigada pela comunidade de Aprendizado de Máquina é a de classes mutuamente exclusivas. Entretanto, existe uma grande variedade de problemas importantes em que cada exemplo de entrada pode ser associado a mais de um rótulo ou classe. Esses problemas são denominados problemas de classificação multirrótulo. Os Learning Classifier Systems(LCS) constituem uma técnica de Indução de Regras de Classificação que tem como principal mecanismo de busca um Algoritmo Genético. Essa técnica busca encontrar um conjunto de regras que tenha alta precisão de classificação, que seja compreensível e que possua regras consideradas interessantes sob o ponto de vista de classificação. Apesar de existirem na literatura diversos trabalhos sobre os LCS para problemas de classificação com classes mutuamente exclusivas, pouco se tem conhecimento sobre um LCS que seja capaz de lidar com problemas multirrótulo. Dessa maneira, o objetivo desta monografia é apresentar uma proposta de LCS para problemas multirrótulo, que pretende induzir um conjunto de regras de classificação que produza um resultado eficaz e comparável com outras técnicas de classificação. De acordo com esse objetivo, apresenta-se também uma revisão bibliográfica dos temas envolvidos na proposta, que são: Sistemas Classificadores Evolutivos e Classificação Multirrótulo / Classification is probably the most studied task in the Machine Learning area, with applications in a broad number of real problems like text categorization, medical diagnosis, bioinformatics and even comercial and industrial applications. Generally, classification problems can be categorized considering the number of class labels associated to each input instance. The most studied approach by the community of Machine Learning is the one that considers mutually exclusive classes. However, there is a large variety of important problems in which each instance can be associated to more than one class label. This problems are called multi-label classification problems. Learning Classifier Systems (LCS) are a technique for rule induction which uses a Genetic Algorithm as the primary search mechanism. This technique searchs for sets of rules that have high classification accuracy and that are also understandable and interesting on the classification point of view. Although there are several works on LCS for classification problems with mutually exclusive classes, there is no record of an LCS that can deal with the multi-label classification problem. The objective of this work is to propose an LCS for multi-label classification that builds a set of classification rules which achieves results that are efficient and comparable to other multi-label methods. In accordance with this objective this work also presents a review of the themes involved: Learning Classifier Systems and Multi-label Classification
|
28 |
Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data.Libralon, Giampaolo Luiz 09 November 2007 (has links)
Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais. Ruídos em conjuntos de dados podem reduzir o desempenho das técnicas de Aprendizado de Máquina (AM) empregadas e aumentar o tempo de construção da hipótese induzida, assim como sua complexidade. Dados são geralmente coletados por meio de medições realizadas em um domínio de interesse. Nesse sentido, nenhum conjunto de dados é perfeito. Erros de medições, dados incompletos, errados, corrompidos ou distorcidos, falhas humanas ou dos equipamentos utilizados, dentre muitos outros fatores, contribuem para a contaminação dos dados, e isso é particularmente verdadeiro para dados com elevada dimensionalidade. Sendo assim, a detecção de ruídos é uma tarefa crítica, principalmente em ambientes que exigem segurança e confiabilidade, uma vez que a presença desses pode indicar situações que degradam o desempenho do sistema ou a segurança e confiabilidade das informações. Algoritmos para a detecção e remoção de ruídos podem aumentar a confiabilidade de conjuntos de dados ruidosos. Nesse âmbito, esse trabalho investiga técnicas de detecção de ruído baseadas em distância, em que a remoção de ruídos é feita em uma etapa de pré-processamento, aplicadas a problemas de classificação de dados de Expressão Gênica, caracterizados pela presença de ruídos, elevada dimensionalidade e complexidade. O objetivo é melhorar o desempenho das técnicas de AM empregadas para solucioná-los. Por fim, combinações de técnicas de detecção de ruído são implementadas de modo a analisar a possibilidade de melhorar, ainda mais, o desempenho obtido. / Noise can be defined as an example which seems to be inconsistent with the remaining ones in a data set. The presence of noise in data sets can decrease the performance of Machine Learning (ML) techniques in the problem analysis and also increase the time taken to build the induced hypothesis and its complexity. Data are collected from measurements made which represent a given domain of interest. In this sense, no data set is perfect. Measurement errors, incomplete, corrupted, wrong or distorted examples, equipment problems or human fails, besides many other related factors, help contaminating the data, and this is particularly true for data sets with high dimensionality. For this reason, noise detection is a critical task, specially in domains which demand security and trustworthiness, since the presence of noise can lead to situations which degrade the system performance or the security and trustworthiness of the involved information. Algorithms to detect and remove noise may increase trustworthiness of noisy data sets. Based on that, this work evaluates distance-based noise detection techniques, in which noise removal is done by a pre-processing phase, in gene expression classification problems, characterized by the presence of noise, high dimensionality and complexity. The objective is to improve the performance of ML techniques used to solve these problems. Next, ensembles of noise detection techniques are developed in order to analyze the possibility to further improve the performance obtained.
|
29 |
Evolutionary ensembles for imbalanced learning / Comitês evolucionários para aprendizado desbalanceadoFernandes, Everlandio Rebouças Queiroz 13 August 2018 (has links)
In many real classification problems, the data set used for model induction is significantly imbalanced. This occurs when the number of examples of some classes is much lower than the other classes. Imbalanced datasets can compromise the performance of most classical classification algorithms. The classification models induced by such datasets usually present a strong bias towards the majority classes, tending to classify new instances as belonging to these classes. A commonly adopted strategy for dealing with this problem is to train the classifier on a balanced sample from the original dataset. However, this procedure can discard examples that could be important for a better class discrimination, reducing classifier efficiency. On the other hand, in recent years several studies have shown that in different scenarios the strategy of combining several classifiers into structures known as ensembles has proved to be quite effective. This strategy has led to a stable predictive accuracy and, in particular, to a greater generalization ability than the classifiers that make up the ensemble. This generalization power of classifier ensembles has been the focus of research in the imbalanced learning field in order to reduce the bias toward the majority classes, despite the complexity involved in generating efficient ensembles. Optimization meta-heuristics, such as evolutionary algorithms, have many applications for ensemble learning, although they are little used for this purpose. For example, evolutionary algorithms maintain a set of possible solutions and diversify these solutions, which helps to escape out of the local optimal. In this context, this thesis investigates and develops approaches to deal with imbalanced datasets, using ensemble of classifiers induced by samples taken from the original dataset. More specifically, this theses propose three solutions based on evolutionary ensemble learning and a fourth proposal that uses a pruning mechanism based on dominance ranking, a common concept in multiobjective evolutionary algorithms. Experiments showed the potential of the developed solutions. / Em muitos problemas reais de classificação, o conjunto de dados usado para a indução do modelo é significativamente desbalanceado. Isso ocorre quando a quantidade de exemplos de algumas classes é muito inferior às das outras classes. Conjuntos de dados desbalanceados podem comprometer o desempenho da maioria dos algoritmos clássicos de classificação. Os modelos de classificação induzidos por tais conjuntos de dados geralmente apresentam um forte viés para as classes majoritárias, tendendo classificar novas instâncias como pertencentes a essas classes. Uma estratégia comumente adotada para lidar com esse problema, é treinar o classificador sobre uma amostra balanceada do conjunto de dados original. Entretanto, esse procedimento pode descartar exemplos que poderiam ser importantes para uma melhor discriminação das classes, diminuindo a eficiência do classificador. Por outro lado, nos últimos anos, vários estudos têm mostrado que em diferentes cenários a estratégia de combinar vários classificadores em estruturas conhecidas como comitês tem se mostrado bastante eficaz. Tal estratégia tem levado a uma acurácia preditiva estável e principalmente a apresentar maior habilidade de generalização que os classificadores que compõe o comitê. Esse poder de generalização dos comitês de classificadores tem sido foco de pesquisas no campo de aprendizado desbalanceado, com o objetivo de diminuir o viés em direção as classes majoritárias, apesar da complexidade que envolve gerar comitês de classificadores eficientes. Meta-heurísticas de otimização, como os algoritmos evolutivos, têm muitas aplicações para o aprendizado de comitês, apesar de serem pouco usadas para este fim. Por exemplo, algoritmos evolutivos mantêm um conjunto de soluções possíveis e diversificam essas soluções, o que auxilia na fuga dos ótimos locais. Nesse contexto, esta tese investiga e desenvolve abordagens para lidar com conjuntos de dados desbalanceados, utilizando comitês de classificadores induzidos a partir de amostras do conjunto de dados original por meio de metaheurísticas. Mais especificamente, são propostas três soluções baseadas em aprendizado evolucionário de comitês e uma quarta proposta que utiliza um mecanismo de poda baseado em ranking de dominância, conceito comum em algoritmos evolutivos multiobjetivos. Experimentos realizados mostraram o potencial das soluções desenvolvidas.
|
30 |
Compostos na língua de sinais brasileira / Compounds in Brazilian sign languageTakahira, Aline Garcia Rodero 13 August 2015 (has links)
Composição é um fenômeno muito produtivo nas línguas de sinais. Estudos pioneiros na ASL (língua de sinais americana) identificaram compostos formados sequencialmente que se caracterizam por regras de redução fonológica e assimilação nos constituintes dos compostos (KLIMA; BELLUGI, 1979; LIDDELL; JOHNSON, 1986). Um estudo sobre compostos na BSL (língua de sinais britânica) mostra a possibilidade de realização simultânea de dois sinais, que são dois classificadores (CLs), em um composto (BRENNAN, 1990). Na libras (língua brasileira de sinais), há estudos que tratam de compostos realizados sequencialmente com dois ou três sinais (QUADROS; KARNOPP, 2004; FELIPE, 2006; FIGUEIREDO SILVA; SELL, 2009). No entanto, nenhum deles trata da possibilidade da ocorrência de CLs em compostos, tampouco da possibilidade da realização de compostos simultâneos. Se as línguas de sinais apresentam dois articuladores primários, as mãos, é natural pensarmos na possibilidade da ocorrência de sinais simultâneos. Sendo assim, o objetivo deste trabalho é descrever os tipos de compostos que ocorrem na libras e investigar a possibilidade de ocorrência de CLs e marcadores não-manuais em compostos, formando compostos simultâneos. Através do conjunto de dados levantado em dicionários, conversas espontâneas e gravações eliciadas por figuras, classificamos os compostos da libras em três grandes grupos, que são os compostos: i) sequenciais; ii) simultâneos e iii) simultâneo-sequenciais. Observamos que todos os compostos simultâneos apresentam um predicado CL sinalizado simultaneamente com mais um sinal CL, ou apresentam um sinal realizado pela boca, o que possibilita a simultaneidade com um sinal manual. O grupo de compostos simultâneos é o menos investigado nas línguas de sinais e será o objeto principal de nossa pesquisa. A descrição detalhada desses dados, bem como a investigação da natureza dos CLs e dos sinais boca, levarão a um maior conhecimento dos processos morfológicos nas línguas de sinais e viabilizarão a indicação de caminhos para uma proposta de análise formal para a composição na libras. A análise desenvolvida nesta tese segue os pressupostos teóricos da Morfologia Distribuída (HALLE; MARANTZ, 1993). / Compound formation is a very productive phenomenon in sign languages. Pioneering studies of ASL (American Sign Language) identified compounds formed sequentially, which are characterized by rules of phonological reduction and assimilation in the members of the compounds (KLIMA; BELLUGI, 1979; LIDDELL; JOHNSON, 1986). An investigation of compound formation in BSL (British Sign Language) shows the possibility of simultaneous realization of two signs, which are two classifiers (CLs), in a compound (BRENNAN, 1990). In libras (Brazilian Sign Language), there are studies that deal with compounds realized sequentially, with two or three signs (QUADROS; KARNOPP, 2004; FELIPE, 2006; FIGUEIREDO SILVA; SELL, 2009). However, none of them deals with the possibility of occurrence of CLs in compounds, nor with the possibility of signing simultaneous compounds. If sign languages have two primary articulators, that is, the hands, it is natural to think of the possibility of occurrence of simultaneous signs. Thus, the aim of this thesis is to describe the types of compounds that occur in libras, and investigate the possibility of occurrence of CLs and non-manual markers in compounds, forming simultaneous compounds. Drawing on data collected in dictionaries, spontaneous conversations and recordings elicited by figures, we classify the compounds in libras into three major groups, which are: i) sequential compounds; ii) simultaneous compounds and iii) simultaneoussequential compounds. We observed that all the simultaneous compounds exhibit a CL predicate simultaneously realized with another CL sign, or exhibit a sign realized by the mouth, which enables the simultaneity with a manual sign. The group of simultaneous compounds is the least investigated one in sign languages and it will be the main topic of our research. Both the detailed description of these data and the investigation of the nature of CLs and signs realized by the mouth will lead to a better understanding of the morphological processes in sign languages, paving the way for a formal analysis of the compound formation in libras. The analysis developed in this work follows the theoretical assumptions of the Distributed Morphology framework (HALLE; MARANTZ, 1993).
|
Page generated in 0.0575 seconds