Spelling suggestions: "subject:"seleção dde características"" "subject:"seleção dee características""
21 |
Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação / Feature selection by genetic algorithms to improve ranking and classification modelsSilva, Sérgio Francisco da 25 April 2011 (has links)
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da \"maldição da dimensionalidade\". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc (\"Fitness coach\") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5), naive bayes, support vector machine, 1-nearest neighbor e mineração de regras de associação. Outras contribuições desta tese são dois métodos de seleção de características baseados em filtragem, com aplicações em classificação de imagens, que utilizam o cálculo supervisionado da estatística de silhueta simplificada como função de avaliação: o silhouette-based greedy search (SiGS) e o silhouette-based genetic algorithm search (SiGAS). Os métodos propostos superaram os métodos concorrentes na literatura (CFS, FCBF, ReliefF, entre outros). É importante também ressaltar que o ganho em acurácia obtido pela família Fc, e pelos métodos SiGS e SiGAS propostos proporcionam também um decréscimo significativo no tamanho do vetor de características, de até 90% / Content-based image retrieval (CBIR) and classification systems rely on feature vectors extracted from images considering specific visual criteria. It is common that the size of a feature vector is of the order of hundreds of elements. When the size (dimensionality) of the feature vector is increased, a higher degree of redundancy and irrelevancy can be observed, leading to the \"curse of dimensionality\" problem. Thus, the selection of relevant features is a key aspect in a CBIR or classification system. This thesis presents new methods based on genetic algorithms (GA) to perform feature selection. The Fc (\"Fitness coach\") family of fitness functions proposed takes advantage of single valued ranking evaluation functions, in order to develop a new method of genetic feature selection tailored to improve the accuracy of CBIR systems. The ability of the genetic algorithms to boost feature selection by employing evaluation criteria (fitness functions) improves up to 22% the precision of the query answers in the analyzed databases when compared to traditional wrapper feature selection methods based on decision-tree (C4.5), naive bayes, support vector machine, 1-nearest neighbor and association rule mining. Other contributions of this thesis are two filter-based feature selection algorithms for classification purposes, which calculate the simplified silhouette statistic as evaluation function: the silhouette-based greedy search (SiGS) and the silhouette-based genetic algorithm search (SiGAS). The proposed algorithms overcome the state-of-the-art ones (CFS, FCBF and ReliefF, among others). It is important to stress that the gain in accuracy of the proposed methods family Fc, SiGS and SIGAS is allied to a significant decrease in the feature vector size, what can reach up to 90%
|
22 |
Técnicas de seleção de características com aplicações em reconhecimento de faces. / Feature selection techniques with applications to face recognition.Campos, Teófilo Emídio de 25 May 2001 (has links)
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais, foram efetuados testes com reconhecimento de pessoas usando imagens da região dos olhos. Nesse caso, em se tratando de um problema com mais de duas classes, nós propusemos uma nova função critério inspirada na distância supracitada. Além disso foi proposto (juntamente com o estudante de mestrado Rogério S. Feris) um esquema de reconhecimento a partir de seqüências de vídeo. Esse esquema inclui a utilização de um método eficiente de rastreamento de características faciais (Gabor Wavelet Networks) e o método proposto anteriormente para seleção de características. Dentro desse contexto, o trabalho desenvolvido nesta dissertação implementa uma parte dos módulos desse esquema. / Face recognition is an instigating research field that may lead to the development of many promising applications. Although many efficient and robust algorithms have been developed in this area, there are still many challenges to be overcome. In particular, a robust and compact face representation is still to be found, which would allow for quick classification of different individuals. In order to address this problem, we first studied pattern recognition techniques, especially regarding dimensionality reduction, followed by the main face recognition methods. We introduced a new feature selection approach in collaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that associates an efficient searching algorithm (sequential floating search methods), with a tolerance-based fuzzy distance. This distance measure presents some nice features for dealing with the tipicalities of each pattern in the sets, so that good results can be attained even when the sets are overlapping. Preliminary results with synthetic data have demonstrated that this method is quite promising. In order to verify the efficiency of this technique with real data, we applied it for improving the performance of a person recognition system based on eye images. Since this problem involves more than two classes, we also developed a new criterion function based on the above-mentioned distance. Moreover, we proposed (together with Rogério S. Feris) a system for person recognition based on video sequences. This mechanism includes the development of an efficient method for facial features tracking, in addition to our method for feature selection. In this context, the work presented here constitutes part of the proposed system.
|
23 |
Avaliação de métodos ótimos e subótimos de seleção de características de texturas em imagens / Evaluation of optimal and suboptimal feature selection methods applied to image texturesMarco Aurelio Roncatti 10 July 2008 (has links)
Características de texturas atuam como bons descritores de imagens e podem ser empregadas em diversos problemas, como classificação e segmentação. Porém, quando o número de características é muito elevado, o reconhecimento de padrões pode ser prejudicado. A seleção de características contribui para a solução desse problema, podendo ser empregada tanto para redução da dimensionalidade como também para descobrir quais as melhores características de texturas para o tipo de imagem analisada. O objetivo deste trabalho é avaliar métodos ótimos e subótimos de seleção de características em problemas que envolvem texturas de imagens. Os algoritmos de seleção avaliados foram o branch and bound, a busca exaustiva e o sequential oating forward selection (SFFS). As funções critério empregadas na seleção foram a distância de Jeffries-Matusita e a taxa de acerto do classificador de distância mínima (CDM). As características de texturas empregadas nos experimentos foram obtidas com estatísticas de primeira ordem, matrizes de co-ocorrência e filtros de Gabor. Os experimentos realizados foram a classificação de regiôes de uma foto aérea de plantação de eucalipto, a segmentação não-supervisionada de mosaicos de texturas de Brodatz e a segmentação supervisionada de imagens médicas (MRI do cérebro). O branch and bound é um algoritmo ótimo e mais efiiente do que a busca exaustiva na maioria dos casos. Porém, continua sendo um algoritmo lento. Este trabalho apresenta uma nova estratégia para o branch and bound, nomeada floresta, que melhorou significativamente a eficiência do algoritmo. A avaliação dos métodos de seleção de características mostrou que os melhores subconjuntos foram aqueles obtidos com o uso da taxa de acerto do CDM. A busca exaustiva e o branch and bound, mesmo com a estratégia floresta, foram considerados inviáveis devido ao alto tempo de processamento nos casos em que o número de característica é muito grande. O SFFS apresentou os melhores resultados, pois, além de mais rápido, encontrou as soluções ótimas ou próximas das ótimas. Pôde-se concluir também que a precisão no reconhecimento de padrões aumenta com a redução do número de características e que os melhores subconjuntos freqüentemente são formados por características de texturas obtidas com técnicas diferentes / Texture features are eficient image descriptors and can be employed in a wide range of applications, such as classification and segmentation. However, when the number of features is considerably high, pattern recognition tasks may be compromised. Feature selection helps prevent this problem, as it can be used to reduce data dimensionality and reveal features which best characterise images under investigation. This work aims to evaluate optimal and suboptimal feature selection algorithms in the context of textural features extracted from images. Branch and bound, exhaustive search and sequential floating forward selection (SFFS) were the algorithms investigated. The criterion functions employed during selection were the Jeffries-Matusita (JM) distance and the minimum distance classifier (MDC) accuracy rate. Texture features were computed from first-order statistics, co-occurrence matrices and Gabor filters. Three different experiments have been conducted: classification of aerial picture of eucalyptus plantations, unsupervised segmentation of mosaics of Brodatz texture samples and supervised segmentation of MRI images of the brain. The branch and bound is an optimal algorithm and many times more eficient than exhaustive search. But is still time consuming. This work proposed a novel strategy for the branch and bound algorithm, named forest, which has considerably improved its performance. The evaluation of the feature selection methods has revealed that the best feature subsets were those computed by the MDC accuracy rate criterion function. Exhaustive search and branch and bound approaches have been considered unfeasible, due to their high processing times, especially for high dimensional data. This statement holds even for the branch and bound with the forest strategy. The SFFS approach yielded the best results. Not only was it faster, as it also was capable of finding the optimal or nearly optimal solutions. Finally, it has been observed that the precision of pattern recognition tasks increases as the number of features decreases and that the best feature subsets are those which possess features computed from distinct texture feature methods
|
24 |
Técnicas de seleção de características com aplicações em reconhecimento de faces. / Feature selection techniques with applications to face recognition.Teófilo Emídio de Campos 25 May 2001 (has links)
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais, foram efetuados testes com reconhecimento de pessoas usando imagens da região dos olhos. Nesse caso, em se tratando de um problema com mais de duas classes, nós propusemos uma nova função critério inspirada na distância supracitada. Além disso foi proposto (juntamente com o estudante de mestrado Rogério S. Feris) um esquema de reconhecimento a partir de seqüências de vídeo. Esse esquema inclui a utilização de um método eficiente de rastreamento de características faciais (Gabor Wavelet Networks) e o método proposto anteriormente para seleção de características. Dentro desse contexto, o trabalho desenvolvido nesta dissertação implementa uma parte dos módulos desse esquema. / Face recognition is an instigating research field that may lead to the development of many promising applications. Although many efficient and robust algorithms have been developed in this area, there are still many challenges to be overcome. In particular, a robust and compact face representation is still to be found, which would allow for quick classification of different individuals. In order to address this problem, we first studied pattern recognition techniques, especially regarding dimensionality reduction, followed by the main face recognition methods. We introduced a new feature selection approach in collaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that associates an efficient searching algorithm (sequential floating search methods), with a tolerance-based fuzzy distance. This distance measure presents some nice features for dealing with the tipicalities of each pattern in the sets, so that good results can be attained even when the sets are overlapping. Preliminary results with synthetic data have demonstrated that this method is quite promising. In order to verify the efficiency of this technique with real data, we applied it for improving the performance of a person recognition system based on eye images. Since this problem involves more than two classes, we also developed a new criterion function based on the above-mentioned distance. Moreover, we proposed (together with Rogério S. Feris) a system for person recognition based on video sequences. This mechanism includes the development of an efficient method for facial features tracking, in addition to our method for feature selection. In this context, the work presented here constitutes part of the proposed system.
|
25 |
Análise de Algoritmos de Agrupamento para Base de Dados Textuais / Analysis of the Clustering Algorithms for the DatabasesLuiz Gonzaga Paula de Almeida 31 August 2008 (has links)
O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível.
A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento.
Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características. / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access.
The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms.
This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning.
|
26 |
Seleção de características apoiada por mineração visual de dados / Feature selection supported by visual data miningGlenda Michele Botelho 17 February 2011 (has links)
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta / Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported
|
27 |
Seleção de características e aprendizado ativo para classificação de imagens de sensoriamento remoto / Feature selection and active learning for remote sensing image classificationFábio Rodrigues Jorge 29 April 2015 (has links)
Em aplicações de sensoriamento remoto, há diversos problemas nos quais há conhecimento predominante sobre uma categoria ou classe alvo, e pouco conhecimento sobre as demais categorias. Nesses casos, o treinamento de um classificador é prejudicado pelo desbalanceamento de classes. Assim, o estudo de características visuais para se definir o melhor subespaço de características pode ser uma alternativa viável para melhorar o desempenho dos classificadores. O uso de abordagens baseadas em detecção de anomalias também pode auxiliar por meio da modelagem da classe normal (comumente majoritária) enquanto todas as outras classes são consideradas como anomalias. Este estudo apresentou uma base de imagens de sensoriamento remoto, cuja aplicação é identificar entre regiões de cobertura vegetal e regiões de não cobertura vegetal. Para solucionar o problema de desbalanceamento entre as classes, foram realizados estudos das características visuais a fim de definir qual o conjunto de atributos que melhor representa os dados. Também foi proposta a criação de um pipeline para se tratar bases desbalanceadas de cobertura vegetal. Este pipeline fez uso de técnicas de seleção de características e aprendizado ativo. A análise de características apresentou que o subespaço usando o extrator BIC com o índice de vegetação ExG foi o que melhor distinguiu os dados. Além disso, a técnica de ordenação proposta mostrou bom desempenho com poucas dimensões. O aprendizado ativo também ajudou na criação de um modelo melhor, com resultados comparáveis com as melhores características visuais. / In remote sensing applications, there are several problems in which there is predominant knowledge about a target category or class, and little knowledge of the other categories. In such cases, the training of a classifier is hampered by the class imbalance. Thus, the study of visual characteristics to determine the best subspace characteristics may be a feasible alternative to improve the performance of classifiers. The use of anomaly detection-based approaches can also help through the normal class modeling (usually the major class) while considering all other classes as anomalies. This study presents a remote sensing image dataset, whose application is to classify regions of the image into vegetation coverage (related to plantation) and non-vegetation coverage. To solve the class imbalance problem, studies were conducted using several visual characteristics in order to define the set of attributes that best represent the data. A pipeline that deals with the vegetation classification problem and its class imbalance issues is also proposed. This pipeline made use of feature selection techniques and active learning. The visual features analysis showed that a subspace using the BIC extractor with EXG vegetation index was the best to distinguished the data. Also, and the proposed sorting-based feature selection achieved good results with a low dimensional subspaces. Furthermore, the active learning helped creating a better model, with results comparable with the best visual features.
|
28 |
Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação / Feature selection by genetic algorithms to improve ranking and classification modelsSérgio Francisco da Silva 25 April 2011 (has links)
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da \"maldição da dimensionalidade\". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc (\"Fitness coach\") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5), naive bayes, support vector machine, 1-nearest neighbor e mineração de regras de associação. Outras contribuições desta tese são dois métodos de seleção de características baseados em filtragem, com aplicações em classificação de imagens, que utilizam o cálculo supervisionado da estatística de silhueta simplificada como função de avaliação: o silhouette-based greedy search (SiGS) e o silhouette-based genetic algorithm search (SiGAS). Os métodos propostos superaram os métodos concorrentes na literatura (CFS, FCBF, ReliefF, entre outros). É importante também ressaltar que o ganho em acurácia obtido pela família Fc, e pelos métodos SiGS e SiGAS propostos proporcionam também um decréscimo significativo no tamanho do vetor de características, de até 90% / Content-based image retrieval (CBIR) and classification systems rely on feature vectors extracted from images considering specific visual criteria. It is common that the size of a feature vector is of the order of hundreds of elements. When the size (dimensionality) of the feature vector is increased, a higher degree of redundancy and irrelevancy can be observed, leading to the \"curse of dimensionality\" problem. Thus, the selection of relevant features is a key aspect in a CBIR or classification system. This thesis presents new methods based on genetic algorithms (GA) to perform feature selection. The Fc (\"Fitness coach\") family of fitness functions proposed takes advantage of single valued ranking evaluation functions, in order to develop a new method of genetic feature selection tailored to improve the accuracy of CBIR systems. The ability of the genetic algorithms to boost feature selection by employing evaluation criteria (fitness functions) improves up to 22% the precision of the query answers in the analyzed databases when compared to traditional wrapper feature selection methods based on decision-tree (C4.5), naive bayes, support vector machine, 1-nearest neighbor and association rule mining. Other contributions of this thesis are two filter-based feature selection algorithms for classification purposes, which calculate the simplified silhouette statistic as evaluation function: the silhouette-based greedy search (SiGS) and the silhouette-based genetic algorithm search (SiGAS). The proposed algorithms overcome the state-of-the-art ones (CFS, FCBF and ReliefF, among others). It is important to stress that the gain in accuracy of the proposed methods family Fc, SiGS and SIGAS is allied to a significant decrease in the feature vector size, what can reach up to 90%
|
29 |
LearnInPlanner: uma abordagem de aprendizado supervisionado com redes neurais para solução de problemas de planejamento clássico / LearnInPlanner : a supervised learning approach with neural networks to solve problems of classical planningSantos, Rosiane Correia 19 November 2013 (has links)
A busca progressiva no espaço de estados é uma das abordagens mais populares de Planejamento Automatizado. O desempenho dos algoritmos de busca progressiva é influenciado pela heurística independente de domínio utilizada para guiá-lo. Nesse contexto, o foco do presente trabalho consiste em investigar técnicas de aprendizado de máquina supervisionadas que possibilitaram agregar à heurística do plano relaxado, comumente utilizada em abordagens atuais de planejamento, informações sobre o domínio em questão que viessem a ser úteis ao algoritmo de busca. Essas informações foram representadas por meio de um espaço de características do problema de planejamento e uma rede neural MLP foi aplicada para estimar uma nova função heurística para guiar a busca por meio de um processo de regressão não linear. Uma vez que o conjunto de características disponíveis para a construção da nova função heurística é grande, foi necessário a definição de um processo de seleção de características capaz de determinar qual conjunto de características de entrada da rede resultaria em melhor desempenho para o modelo de regressão. Portanto, para a seleção de características, aplicou-se uma abordagem de algoritmos genéticos. Como principal resultado, tem-se uma análise comparativa do desempenho entre a utilização da heurística proposta neste trabalho e a utilização da heurística do plano relaxado para guiar o algoritmo de busca na tarefa de planejamento. Para a análise empírica foram utilizados domínios de diferentes complexidades disponibilizados pela Competições Internacionais de Planejamento. Além dos resultados empíricos e análises comparativas, as contribuições deste trabalho envolvem o desenvolvimento de um novo planejador independente de domínio, denominado LearnInPlanner. Esse planejador utiliza a nova função heurística estimada por meio do processo de aprendizado e o algoritmo de Busca Gulosa para solucionar os problemas de planejamento. / The forward state-space search is one of the most popular Automated Planning approaches. The performance of forward search algorithms is affected by the domain-independent heuristic being used. In this context, the focus of this work consisted on investigating techniques of supervised machine learning that make possible to agregate to the relaxed plan heuristic, commonly used in current planning approaches, information about the domain which could be useful to the search algorithm. This information has been represented through a feature space of planning problem and a MLP neural network has been applied to estimate a new heuristic function for guiding the search through a non-linear regression process. Once the set of features available for the construction of the new heuristic function is large, it was necessary to define a feature selection process capable of determining which set of neural network input features would result in the best performance for the regression model. Therefore, for selecting features, an approach of genetic algorithms has been applied. As the main result, one has obtained a comparative performance analysis between the use of heuristic proposed in this work and the use of the relaxed plan heuristic to guide the search algorithm in the planning task. For the empirical analysis were used domains with different complexities provided by the International Planning Competitions. In addition to the empirical results and comparative analysis, the contributions of this work involves the development of a new domain-independent planner, named LearnInPlanner. This planner uses the new heuristic function estimated by the learning process and the Greedy Best-First search algorithm to solve planning problems.
|
30 |
Seleção de características para reconhecimento biométrico baseado em sinais de eletrocardiograma / Feature selection for biometric recognition based on electrocardiogram signalsTeodoro, Felipe Gustavo Silva 22 June 2016 (has links)
O campo da Biometria abarca uma grande variedade de tecnologias usadas para identificar e verificar a identidade de uma pessoa por meio da mensuração e análise de vários aspectos físicos e/ou comportamentais do ser humano. Diversas modalidades biométricas têm sido propostas para reconhecimento de pessoas, como impressões digitais, íris, face e voz. Estas modalidades biométricas possuem características distintas em termos de desempenho, mensurabilidade e aceitabilidade. Uma questão a ser considerada com a aplicação de sistemas biométricos em mundo real é sua robustez a ataques por circunvenção, repetição e ofuscação. Esses ataques estão se tornando cada vez mais frequentes e questionamentos estão sendo levantados a respeito dos níveis de segurança que esta tecnologia pode oferecer. Recentemente, sinais biomédicos, como eletrocardiograma (ECG), eletroencefalograma (EEG) e eletromiograma (EMG) têm sido estudados para uso em problemas envolvendo reconhecimento biométrico. A formação do sinal do ECG é uma função da anatomia estrutural e funcional do coração e dos seus tecidos circundantes. Portanto, o ECG de um indivíduo exibe padrão cardíaco único e não pode ser facilmente forjado ou duplicado, o que tem motivado a sua utilização em sistemas de identificação. Entretanto, a quantidade de características que podem ser extraídas destes sinais é muito grande. A seleção de característica tem se tornado o foco de muitas pesquisas em áreas em que bases de dados formadas por dezenas ou centenas de milhares de características estão disponíveis. Seleção de característica ajuda na compreensão dos dados, reduzindo o custo computacional, reduzindo o efeito da maldição da dimensionalidade e melhorando o desempenho do preditor. O foco da seleção de característica é selecionar um subconjunto de característica a partir dos dados de entrada, que pode descrever de forma eficiente os dados de entrada ao mesmo tempo reduzir os efeitos de ruídos ou características irrelevantes e ainda proporcionar bons resultados de predição. O objetivo desta dissertação é analisar o impacto de algumas técnicas de seleção de característica tais como, Busca Gulosa, Seleção \\textit, Algoritmo Genético, Algoritmo Memético, Otimização por Enxame de Partículas sobre o desempenho alcançado pelos sistemas biométricos baseado em ECG. Os classificadores utilizados foram $k$-Vizinhos mais Próximos, Máquinas de Vetores Suporte, Floresta de Caminhos Ótimos e classificador baseado em distância mínima. Os resultados demonstram que existe um subconjunto de características extraídas do sinal de ECG capaz de fornecer altas taxas de reconhecimento / The field of biometrics includes a variety of technologies used to identify and verify the identity of a person by measuring and analyzing various physical and/or behavioral aspects of the human being. Several biometric modalities have been proposed for recognition of people, such as fingerprints, iris, face and speech. These biometric modalities have distinct characteristics in terms of performance, measurability and acceptability. One issue to be considered with the application of biometric systems in real world is its robustness to attacks by circumvention, spoof and obfuscation. These attacks are becoming more frequent and more questions are being raised about the levels of security that this technology can offer. Recently, biomedical signals, as electrocardiogram (ECG), electroencephalogram (EEG) and electromyogram (EMG) have been studied for use in problems involving biometric recognition. The ECG signal formation is a function of structural and functional anatomy of the heart and its surrounding tissues. Therefore, the ECG of an individual exhibits unique cardiac pattern and cannot be easily forged or duplicated, that have motivated its use in various identification systems. However, the amount of features that can be extracted from this signal is very large. The feature selection has become the focus of much research in areas where databases formed by tens or hundreds of thousands of features are available. Feature Selection helps in understanding data, reducing computation requirement, reducing the effect of curse of dimensionality and improving the predictor performance. The focus of feature selection is to select a subset of features from the input which can efficiently describe the input data while reducing effects from noise or irrelevant features and still provide good prediction results. The aim of this dissertation is to analyze the impact of some feature selection techniques, such as, greedy search, Backward Selection, Genetic Algorithm, Memetic Algorithm, Particle Swarm Optimization on the performance achieved by biometric systems based on ECG. The classifiers used were $k$-Nearest Neighbors, Support Vector Machines, Optimum-Path Forest and minimum distance classifier. The results demonstrate that there is a subset of features extracted from the ECG signal capable of providing high recognition rates
|
Page generated in 0.1107 seconds