• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • 3
  • Tagged with
  • 24
  • 24
  • 11
  • 9
  • 9
  • 8
  • 8
  • 7
  • 7
  • 7
  • 7
  • 6
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Investigação de combinações de técnicas de detecção de ruído para dados de expressão gênica / Investigation of ensembles of noise detection techniques for gene expression data.

Giampaolo Luiz Libralon 09 November 2007 (has links)
Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais. Ruídos em conjuntos de dados podem reduzir o desempenho das técnicas de Aprendizado de Máquina (AM) empregadas e aumentar o tempo de construção da hipótese induzida, assim como sua complexidade. Dados são geralmente coletados por meio de medições realizadas em um domínio de interesse. Nesse sentido, nenhum conjunto de dados é perfeito. Erros de medições, dados incompletos, errados, corrompidos ou distorcidos, falhas humanas ou dos equipamentos utilizados, dentre muitos outros fatores, contribuem para a contaminação dos dados, e isso é particularmente verdadeiro para dados com elevada dimensionalidade. Sendo assim, a detecção de ruídos é uma tarefa crítica, principalmente em ambientes que exigem segurança e confiabilidade, uma vez que a presença desses pode indicar situações que degradam o desempenho do sistema ou a segurança e confiabilidade das informações. Algoritmos para a detecção e remoção de ruídos podem aumentar a confiabilidade de conjuntos de dados ruidosos. Nesse âmbito, esse trabalho investiga técnicas de detecção de ruído baseadas em distância, em que a remoção de ruídos é feita em uma etapa de pré-processamento, aplicadas a problemas de classificação de dados de Expressão Gênica, caracterizados pela presença de ruídos, elevada dimensionalidade e complexidade. O objetivo é melhorar o desempenho das técnicas de AM empregadas para solucioná-los. Por fim, combinações de técnicas de detecção de ruído são implementadas de modo a analisar a possibilidade de melhorar, ainda mais, o desempenho obtido. / Noise can be defined as an example which seems to be inconsistent with the remaining ones in a data set. The presence of noise in data sets can decrease the performance of Machine Learning (ML) techniques in the problem analysis and also increase the time taken to build the induced hypothesis and its complexity. Data are collected from measurements made which represent a given domain of interest. In this sense, no data set is perfect. Measurement errors, incomplete, corrupted, wrong or distorted examples, equipment problems or human fails, besides many other related factors, help contaminating the data, and this is particularly true for data sets with high dimensionality. For this reason, noise detection is a critical task, specially in domains which demand security and trustworthiness, since the presence of noise can lead to situations which degrade the system performance or the security and trustworthiness of the involved information. Algorithms to detect and remove noise may increase trustworthiness of noisy data sets. Based on that, this work evaluates distance-based noise detection techniques, in which noise removal is done by a pre-processing phase, in gene expression classification problems, characterized by the presence of noise, high dimensionality and complexity. The objective is to improve the performance of ML techniques used to solve these problems. Next, ensembles of noise detection techniques are developed in order to analyze the possibility to further improve the performance obtained.
12

Combinação de classificadores para detecção de fraudes em sinistros de automóveis.

Rodrigues, Luis Alexandre 05 August 2014 (has links)
Made available in DSpace on 2016-03-15T19:37:51Z (GMT). No. of bitstreams: 1 Luis Alexandre Rodrigues.pdf: 1364668 bytes, checksum: ac6c4273730fb6f75f7a0ceead7e4c1f (MD5) Previous issue date: 2014-08-05 / Universidade Presbiteriana Mackenzie / This work presents a process to detect suspected cases of fraud at automobile claims dataset, which is evaluated the economic created by it. Because of a detection process presenting misclassific ation, it is necessary to evaluate the financial economy made by the process not only its accuracy in detecting suspected cases of fraud. This process uses a combination of classifiers, with C4.5 Decision Tree, Naive Bayes and Support Vector Machine, const ructed by samples of the data set with automobile claims. This way, the process defined by this work can obtain the balance between the accuracy of classification and the financial economy. / Este trabalho apresenta um processo para detectar casos suspeitos de fraude em conjunto de dados com sinistros de automóvel, em que é avaliada a economia financeira gerada por ele. Devido ao fato de um processo de detecção apresentar erros de classificação, é necessário avaliar a economia financeira apresentada pelo processo e não somente a sua precisão na detecção de casos suspeitos de fraude. Este processo utiliza a combinação de classificadores, sendo Árvore de Decisão C4.5, Naive Bayes e Support Vector Machine, construídos por amostras do conjunto de dados com sinistros de automóvel. Desta forma, o processo definido por este trabalho pode obter o equilíbrio entre a precisão da classificação e a economia financeira.
13

Combinação de Classificadores para Reconhecimento de Padrões / Not available

Paulo Sérgio Prampero 16 March 1998 (has links)
O cérebro humano é formado por um conjunto de neurônios de diferentes tipos, cada um com sua especialidade. A combinação destes diferentes tipos de neurônios é um dos aspectos responsáveis pelo desempenho apresentado pelo cérebro na realização de várias tarefas. Redes Neurais Artificiais são técnicas computacionais que apresentam um modelo matemático inspirado no sistema nervoso e que adquirem conhecimento através da experiência. Uma alternativa para melhorar o desempenho das Redes Neurais Artificiais é a utilização de técnicas de Combinação de Classificadores. Estas técnicas de combinação exploram as diferenças e as semelhanças das redes para a obtenção de resultados melhores. Dentre as principais aplicações de Redes Neurais Artificiais está o Reconhecimento de Padrões. Neste trabalho, foram utilizadas técnicas de Combinação de Classificadores para a combinação de Redes Neurais Artificiais em problemas de Reconhecimento de Padrões. / The human brain is formed by neurons of different types, each one with its own speciality. The combination of theses different types of neurons is one of the main features responsible for the brain performance in severa! tasks. Artificial Neural Networks are computation technics whose mathematical model is based on the nervous system and learns new knowledge by experience. An alternative to improve the performance of Artificial Neural Networks is the employment of Classifiers Combination techniques. These techniques of combination explore the difference and the similarity of the networks to achieve better performance. The main application of Artificial Neural Networks is Pattern Recognition. In this work, Classifiers Combination techniques were utilized to combine Artificial Neural Networks to solve Pattern Recognition problems.
14

Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgms

Bernardini, Flávia Cristina 29 August 2006 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.
15

Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgms

Flávia Cristina Bernardini 29 August 2006 (has links)
A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.
16

IDENTIFICAÇÃO DE ESPÉCIES DE PLANTAS UTILIZANDO COMBINAÇÃO DE CLASSIFICADORES

Araújo, Voncarlos Marcelo de 04 March 2016 (has links)
Made available in DSpace on 2017-07-21T14:19:27Z (GMT). No. of bitstreams: 1 Voncarlos Marcelo Araujo.pdf: 3791024 bytes, checksum: c5d2b6c030643b2e46f5ae7004f73ca8 (MD5) Previous issue date: 2016-03-04 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The biodiversity of plant species plays a key role in the Earth's ecology, providing food, shelter and maintaining a healthy breathable atmosphere for all living beings. The plants also have medicinal properties and are used for alternative energy sources, such as biofuel. However, the number of plants endangered has gradually increased and the difficulties in the plants manual recognition process, does become a complex and slow task. A viable method for the identification of plants, or to provide a categorization of the plant, is the plant image acquisition and use pattern recognition techniques. In this way, the use of computers, despite having little contribution in the area, can provide important information on the taxonomy of plants, and can serve as a basis for systems that perform tasks such as the selection of certain plants or to guide the specialist for possible decision-making. This paper proposes a method for classification of plants based on collaborative images of the world experts. This method is able to deal with some complexities imposed during the capture of images, as the presence of noise (lighting, shadows and undesirable objects) and plants position variations. To accomplish this task are used texture descriptors based on SIFT, SURF and HOG, which have shown excellent results in several works. To enable testing of the proposed method, we used an image provided by the global task basis for recognition of plants in 2011, ImageCLEF, containing about 2,586 plant samples composed by 41 species divided into two distinct categories: the first one with 13 species and images with presence of noise, and with the second species and 28 sheets of images plotted on a white background. The results of the experiments show that the classifiers trained with texture descriptors are able to achieve good hit rates close to 70%, given the complexity of the problem. Classifiers combination methods have also been used and have been shown capable to improve the performance of classifiers, especially in the test with images that has the presence of noises. / A biodiversidade das espécies de plantas desempenha um papel fundamental na ecologia da Terra, fornecendo alimento, abrigo e mantendo uma atmosfera respirável saudável para todos os seres vivos. As plantas também têm propriedades medicinais e são utilizadas para fontes alternativas de energia, como o biocombustível. No entanto, o número de plantas em risco de extinção tem aumentado gradativamente e as dificuldades presentes no processo manual de reconhecimento de plantas, torna esta tarefa muito complexa e morosa. Uma metodologia viável para a identificação das plantas, ou para fornecer uma categorização de plantas, é a aquisição da imagem da planta e o uso técnicas de reconhecimento de padrões. Dessa forma, o uso da computação, apesar de ainda ter pequena contribuição na área, pode prover informações importantes sobre a taxonomia das plantas, além de poder servir como base para sistemas que executem tarefas como a de seleção de determinado tipo de plantas ou que guiem o especialista para possíveis tomadas de decisões. Neste trabalho é proposto um método para classificação de plantas baseado em imagens colaborativas de especialistas do mundo inteiro. Esse método é capaz de lidar com algumas complexidades impostas durante a captura das imagens, como a presença de ruídos (luminosidade, sombras e objetos indesejáveis) e variações de posições das plantas. Para cumprir essa tarefa são utilizados descritores de textura baseados em SIFT, SURF e HOG, que têm mostrado excelentes resultados em diversos trabalhos. Para possibilitar os testes do método proposto, foi empregada uma base de imagens disponibilizada pela tarefa mundial de reconhecimento de plantas em 2011, ImageCLEF, que contém cerca de 2.586 amostras de plantas composta por 41 espécies divididas em duas categorias distintas: a primeira com 13 espécies e imagens com presença de ruídos, e a segunda com 28 espécies e imagens de folhas plotadas em um fundo branco. Os resultados dos experimentos mostram que os classificadores treinados com descritores de textura são capazes de atingir boas taxas de acertos, próximas a 70%, dada a complexidade do problema. Métodos de combinação de classificadores também foram utilizados e se mostraram capazes de melhorar o desempenho dos classificadores, principalmente nos testes com imagens que tem a presença de ruídos.
17

Abordagens para combinar classificadores e agrupadores em problemas de classificação / Approaches for combining classifiers and clusterers in classification problems

Coletta, Luiz Fernando Sommaggio 23 November 2015 (has links)
Modelos para aprendizado não supervisionado podem fornecer restrições complementares úteis para melhorar a capacidade de generalização de classificadores. Baseando-se nessa premissa, um algoritmo existente, denominado de C3E (Consensus between Classification and Clustering Ensembles), recebe como entradas estimativas de distribuições de probabilidades de classes para objetos de um conjunto alvo, bem como uma matriz de similaridades entre esses objetos. Tal matriz é tipicamente construída por agregadores de agrupadores de dados, enquanto que as distribuições de probabilidades de classes são obtidas por um agregador de classificadores induzidos por um conjunto de treinamento. Como resultado, o C3E fornece estimativas refinadas das distribuições de probabilidades de classes como uma forma de consenso entre classificadores e agrupadores. A ideia subjacente é de que objetos similares são mais propensos a compartilharem o mesmo rótulo de classe. Nesta tese, uma versão mais simples do algoritmo C3E, baseada em uma função de perda quadrática (C3E-SL), foi investigada em uma abordagem que permitiu a estimação automática (a partir dos dados) de seus parâmetros críticos. Tal abordagem faz uso de um nova estratégia evolutiva concebida especialmente para tornar o C3E-SL mais prático e flexível, abrindo caminho para que variantes do algoritmo pudessem ser desenvolvidas. Em particular, para lidar com a escassez de dados rotulados, um novo algoritmo que realiza aprendizado semissupervisionado foi proposto. Seu mecanismo explora estruturas intrínsecas dos dados a partir do C3E-SL em um procedimento de autotreinamento (self-training). Esta noção também inspirou a concepção de um outro algoritmo baseado em aprendizado ativo (active learning), o qual é capaz de se autoadaptar para aprender novas classes que possam surgir durante a predição de novos dados. Uma extensa análise experimental, focada em problemas do mundo real, mostrou que os algoritmos propostos são bastante úteis e promissores. A combinação de classificadores e agrupadores resultou em modelos de classificação com grande potencial prático e que são menos dependentes do usuário ou do especialista de domínio. Os resultados alcançados foram tipicamente melhores em comparação com os obtidos por classificadores tradicionalmente usados. / Unsupervised learning models can provide a variety of supplementary constraints to improve the generalization capability of classifiers. Based on this assumption, an existing algorithm, named C3E (from Consensus between Classification and Clustering Ensembles), receives as inputs class probability distribution estimates for objects in a target set as well as a similarity matrix. Such a similarity matrix is typically built from clusterers induced on the target set, whereas the class probability distributions are obtained by an ensemble of classifiers induced from a training set. As a result, C3E provides refined estimates of the class probability distributions, from the consensus between classifiers and clusterers. The underlying idea is that similar new objects in the target set are more likely to share the same class label. In this thesis, a simpler version of the C3E algorithm, based on a Squared Loss function (C3E-SL), was investigated from an approach that enables the automatic estimation (from data) of its critical parameters. This approach uses a new evolutionary strategy designed to make C3E-SL more practical and flexible, making room for the development of variants of the algorithm. To address the scarcity of labeled data, a new algorithm that performs semi-supervised learning was proposed. Its mechanism exploits the intrinsic structure of the data by using the C3E-SL algorithm in a self-training procedure. Such a notion inspired the development of another algorithm based on active learning, which is able to self-adapt to learn new classes that may emerge when classifying new data. An extensive experimental analysis, focused on real-world problems, showed that the proposed algorithms are quite useful and promising. The combination of supervised and unsupervised learning yielded classifiers of great practical value and that are less dependent on user-defined parameters. The achieved results were typically better than those obtained by traditional classifiers.
18

Combinação de múltiplos classificadores para reconhecimento de face humana

Salvadeo, Denis Henrique Pinheiro 24 July 2009 (has links)
Made available in DSpace on 2016-06-02T19:05:35Z (GMT). No. of bitstreams: 1 2559.pdf: 3778790 bytes, checksum: 6c638e612ae760d51fad8def01969ed1 (MD5) Previous issue date: 2009-07-24 / Universidade Federal de Sao Carlos / Lately, the human face object has been exploited by the advent of systems involving biometrics, especially for applications in security. One of the most challenging applications is the problem of human face recognition, which consists of determining the correspondence between an input face and an individual from a database of known persons. The process of face recognition consists of two steps: feature extraction and classification. In the literature of face recognition, different techniques have been used, and they can be divided into holistic techniques (implicit feature extraction), feature-based techniques (explicit feature extraction) and hybrid techniques (involving the two previous). In many articles, holistic techniques have proved to be most efficient and generally they involve methods of statistical pattern recognition as Principal Component Analysis (PCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), Support Vector Machines (SVM), and Neural Networks. For problems such as human face recognition in digital images, a crucial point is the ability to generalize. The solution for this problem is complex due to the high dimensionality of data and the small number of samples per person. Using a single classifier would reduce the ability of recognition, since it is difficult to design a single classifier in these conditions that capture all variability that span the human faces spaces. Thus, this work proposes to investigate the combination of multiple classifiers applied to the problem of face recognition, defining a new scheme to resolve this problem, varying the feature extraction with PCA and some its variants and LDA, K-Nearest Neighbor (K-NN) and Maximum Likelihood (MaxLike) classifiers and several trainable or not trainable methods for combining classifiers. Still, to mitigate the problem of small sample size (SSS), a technique for regularizing the covariance matrix was used. Finally, to assess the classification performance, Holdout and Resubstitution methods were used to partition the data set and the Kappa coefficient and Z and T statistics were used to measure the performance of the proposed scheme. From the experiments it was concluded that the best sub-schemes were the RBPCA/MaxLike-PCA/NN-KL5/NN classifiers combined by the Majorite Vote Rule for the ORL database and the RLDA+RPCA/MaxLike-KL4/NNKL5/ NN classifiers combined by the Sum Rule for the AR database, obtaining Kappa coefficients of 0.956 (mean) and 0.839, respectively. Besides that, it has been determined that these sub-schemes are robust to pose (ORL database), illumination and small change of the facial expression, but they were affected by occlusions (AR database). / Nas últimas décadas, o objeto face humana tem sido muito explorado graças ao advento dos sistemas envolvendo biometria, especialmente para aplicações nas áreas de segurança. Uma das aplicações mais desafiadoras é o problema de reconhecimento de face humana, que consiste em determinar a qual indivíduo em um banco de dados de pessoas conhecidas uma imagem de face corresponde. O processo de reconhecimento de face consiste basicamente em duas etapas: extração de atributos e classificação. Na literatura de reconhecimento de faces, diversas técnicas foram utilizadas, podendo ser divididas em técnicas holísticas (extração de atributos implícita), técnicas baseadas em características (extração de atributos explícita) e técnicas híbridas (envolvem as duas anteriores). Em maior número na literatura, as técnicas holísticas demonstraram ser mais eficientes e envolvem em geral, métodos de reconhecimento de padrões estatísticos como Principal Component Analysis (PCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), Support Vector Machines (SVM), além de Redes Neurais. Para problemas como o reconhecimento de face humana em imagens digitais, um ponto determinante é a capacidade de generalização. Por esse problema ser complexo de ser resolvido, devido à alta dimensionalidade dos dados e ao número pequeno de amostras por pessoa, utilizar um único classificador tornaria reduzida a capacidade de reconhecimento, já que é difícil projetar um único classificador nestas condições que capture todas as variações que formam o espaço de faces humanas. Dessa forma, este trabalho se propôs à investigação de combinação de múltiplos classificadores aplicados ao problema do reconhecimento de face, obtendo um novo esquema para solução do mesmo, variando a extração de atributos com PCA e algumas variantes e LDA, classificadores K Vizinhos Mais Próximos e Máxima Verossimilhança e diversos combinadores treináveis ou não. Ainda, para amenizar o problema de poucas amostras, uma técnica de regularização de matrizes de covariância foi utilizada. Finalmente, para avaliação de desempenho utilizou-se Holdout e Resubstitution para particionar o conjunto de dados, assim como o coeficiente Kappa e testes de significância Z e T foram utilizados para medir o desempenho do esquema proposto. Dos experimentos concluiu-se que os melhores subesquemas foram o RBPCA/MaxVer-PCA/NN-KL5/NN → Votação por Maioria para o banco de dados ORL e o RLDA+RPCA/MaxVer-KL4/NN-KL5/NN → Soma para o banco de dados AR com coeficientes Kappa 0,956 (médio) e 0,839, respectivamente. Além disso, foi determinado que estes subesquemas são robustos à pose (ORL), iluminação e à pequenas variações de expressão facial, mas sofreram influência de oclusões (AR).
19

Uma nova arquitetura para combinação de aglomerados espaciais e aplicação em epidemiologia

Holmes, Danielly Cristina de Souza Costa. 16 December 2015 (has links)
Submitted by Viviane Lima da Cunha (viviane@biblioteca.ufpb.br) on 2017-06-22T17:21:30Z No. of bitstreams: 1 arquivototal.pdf: 2646336 bytes, checksum: 8fa6ece0a05a4f7bffc899ff5ba5e9b7 (MD5) / Made available in DSpace on 2017-06-22T17:21:30Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2646336 bytes, checksum: 8fa6ece0a05a4f7bffc899ff5ba5e9b7 (MD5) Previous issue date: 2015-12-16 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The combination of classifiers aims to produce more accurate results to the decision-making process. Therefore, this study had the objective of proposing a new architecture based on a combination of spatial clustering methods and a more detailed voting map on the amount of votes that each geo-object received, applied to epidemiology. The methods of spatial clustering, in general, aim to identify the significant and not significant spatial clusters according to the study area. They are combined by combination of rules. In this work, the following rules were used: majority voting and neural networks. The new proposed architecture was applied to dengue data in the state of Paraiba, in the period from 2009 to 2011. According to the World Health Organization, dengue is a disease that annually records an average of 50 to 100 million cases worldwide, generating large financial burden on the health sector. A new architecture is proposed for the combination of the methods of spatial clustering. The combination of spatial clustering methods was applied in three case studies. In all three case studies, the new architecture identified more precisely the priority and nonpriority municipalities in Paraiba with regards to the dengue. In the case study 1, the combination rule was majority voting, in case study 2 the combination rule was neural networks and in case study 3 a new detailed voting map was proposed, identifying the amount of votes that each municipality had received. Analyzing the results from a spatial point of view, it was observed that the mesoregion called Sertão in the state of Paraiba had a greater number of priority municipalities; and the mesoregion of the Coast in Paraiba, the lowest number of priority municipalities. Regarding the research from the epidemiological point of view, it was observed that from the results of diagnostic tests (sensitivity, specificity, positive predictive value and negative predictive value) and the Kappa statistic, the combination of models produced satisfactory results. Concluding the analysis from the point of view of the combination of spatial clustering methods, it was observed that the new architecture presented satisfactory results by using the combination of the combination of rules. These results, from the epidemiological point of view, can assist managers in the decision-making process by verifying more precisely the regions that deserve special attention in combating the disease. / A combinação de classificadores tem por objetivo produzir resultados mais precisos para o processo de tomada de decisão. Com isso, este estudo teve por objetivo propor uma nova arquitetura baseada na combinação dos métodos de aglomeração espacial e um mapa de votação mais detalhado sobre a quantidade de votos que cada geo-objeto recebeu, aplicados à epidemiologia. Os métodos de aglomerados espaciais, de forma geral, tem por objetivo a identificação dos conglomerados espaciais significativos e não significativos de acordo com a região de estudo. Eles são combinados por regras de combinação. Neste trabalho foram utilizadas as seguintes regras: votação por maioria e redes neurais. A nova arquitetura proposta foi aplicada a dados do dengue no estado da Paraíba, no período de 2009 a 2011. Segundo a Organização Mundial da Saúde, o dengue é uma doença que registra anualmente uma média de 50 a 100 milhões de casos em todo o mundo, gerando grandes encargos financeiros para o setor da saúde. proposta uma nova arquitetura para a combinação dos métodos de aglomerados espaciais. A combinação dos métodos de aglomeração espacial, foi aplicados em três estudos de casos. Em todos os três estudos de casos a nova arquitetura identificou com maior precisão os municípios prioritários e não prioritários do dengue na Paraíba. No estudo de caso 1 a regra de combinação foi a votação por maioria, no estudo de caso 2 a regra de combinação foi das redes neurais e no estudo de caso 3 foi proposto uma novo mapa de votação detalhado identificando a quantidade de votos que cada município recebeu. Analisando os resultados do ponto de vista espacial, observou-se que a mesorregião do Sertão Paraibano apresentou uma maior quantidade de municípios prioritários; e a mesorregião do Litoral Paraibano, o menor número de municípios prioritários. Em relação, a pesquisa do ponto de vista epidemiológico foi possível verificar que a partir dos resultados dos testes diagnósticos (sensibilidade, especificidade, valores preditivos positivos e valores preditivos negativos) e a estatística Kappa os modelos de combinação produziram resultados satisfatórios. Finalizando a análise do ponto de vista da combinação dos métodos de aglomerados espaciais, foi possível observar que a nova arquitetura, apresentou resultados satisfatórios, a partir da combinação das regras de combinação. Estes resultados do ponto de vista epidemiológico, podem auxiliar os gestores no processo de tomada de decisão verificando com mais precisão as regiões que realmente merecem atenção especial no combate à doença.
20

Abordagens para combinar classificadores e agrupadores em problemas de classificação / Approaches for combining classifiers and clusterers in classification problems

Luiz Fernando Sommaggio Coletta 23 November 2015 (has links)
Modelos para aprendizado não supervisionado podem fornecer restrições complementares úteis para melhorar a capacidade de generalização de classificadores. Baseando-se nessa premissa, um algoritmo existente, denominado de C3E (Consensus between Classification and Clustering Ensembles), recebe como entradas estimativas de distribuições de probabilidades de classes para objetos de um conjunto alvo, bem como uma matriz de similaridades entre esses objetos. Tal matriz é tipicamente construída por agregadores de agrupadores de dados, enquanto que as distribuições de probabilidades de classes são obtidas por um agregador de classificadores induzidos por um conjunto de treinamento. Como resultado, o C3E fornece estimativas refinadas das distribuições de probabilidades de classes como uma forma de consenso entre classificadores e agrupadores. A ideia subjacente é de que objetos similares são mais propensos a compartilharem o mesmo rótulo de classe. Nesta tese, uma versão mais simples do algoritmo C3E, baseada em uma função de perda quadrática (C3E-SL), foi investigada em uma abordagem que permitiu a estimação automática (a partir dos dados) de seus parâmetros críticos. Tal abordagem faz uso de um nova estratégia evolutiva concebida especialmente para tornar o C3E-SL mais prático e flexível, abrindo caminho para que variantes do algoritmo pudessem ser desenvolvidas. Em particular, para lidar com a escassez de dados rotulados, um novo algoritmo que realiza aprendizado semissupervisionado foi proposto. Seu mecanismo explora estruturas intrínsecas dos dados a partir do C3E-SL em um procedimento de autotreinamento (self-training). Esta noção também inspirou a concepção de um outro algoritmo baseado em aprendizado ativo (active learning), o qual é capaz de se autoadaptar para aprender novas classes que possam surgir durante a predição de novos dados. Uma extensa análise experimental, focada em problemas do mundo real, mostrou que os algoritmos propostos são bastante úteis e promissores. A combinação de classificadores e agrupadores resultou em modelos de classificação com grande potencial prático e que são menos dependentes do usuário ou do especialista de domínio. Os resultados alcançados foram tipicamente melhores em comparação com os obtidos por classificadores tradicionalmente usados. / Unsupervised learning models can provide a variety of supplementary constraints to improve the generalization capability of classifiers. Based on this assumption, an existing algorithm, named C3E (from Consensus between Classification and Clustering Ensembles), receives as inputs class probability distribution estimates for objects in a target set as well as a similarity matrix. Such a similarity matrix is typically built from clusterers induced on the target set, whereas the class probability distributions are obtained by an ensemble of classifiers induced from a training set. As a result, C3E provides refined estimates of the class probability distributions, from the consensus between classifiers and clusterers. The underlying idea is that similar new objects in the target set are more likely to share the same class label. In this thesis, a simpler version of the C3E algorithm, based on a Squared Loss function (C3E-SL), was investigated from an approach that enables the automatic estimation (from data) of its critical parameters. This approach uses a new evolutionary strategy designed to make C3E-SL more practical and flexible, making room for the development of variants of the algorithm. To address the scarcity of labeled data, a new algorithm that performs semi-supervised learning was proposed. Its mechanism exploits the intrinsic structure of the data by using the C3E-SL algorithm in a self-training procedure. Such a notion inspired the development of another algorithm based on active learning, which is able to self-adapt to learn new classes that may emerge when classifying new data. An extensive experimental analysis, focused on real-world problems, showed that the proposed algorithms are quite useful and promising. The combination of supervised and unsupervised learning yielded classifiers of great practical value and that are less dependent on user-defined parameters. The achieved results were typically better than those obtained by traditional classifiers.

Page generated in 0.5288 seconds