121 |
Protein secondary structure prediction using neural networks and support vector machinesTsilo, Lipontseng Cecilia January 2009 (has links)
Predicting the secondary structure of proteins is important in biochemistry because the 3D structure can be determined from the local folds that are found in secondary structures. Moreover, knowing the tertiary structure of proteins can assist in determining their functions. The objective of this thesis is to compare the performance of Neural Networks (NN) and Support Vector Machines (SVM) in predicting the secondary structure of 62 globular proteins from their primary sequence. For each NN and SVM, we created six binary classifiers to distinguish between the classes’ helices (H) strand (E), and coil (C). For NN we use Resilient Backpropagation training with and without early stopping. We use NN with either no hidden layer or with one hidden layer with 1,2,...,40 hidden neurons. For SVM we use a Gaussian kernel with parameter fixed at = 0.1 and varying cost parameters C in the range [0.1,5]. 10- fold cross-validation is used to obtain overall estimates for the probability of making a correct prediction. Our experiments indicate for NN and SVM that the different binary classifiers have varying accuracies: from 69% correct predictions for coils vs. non-coil up to 80% correct predictions for stand vs. non-strand. It is further demonstrated that NN with no hidden layer or not more than 2 hidden neurons in the hidden layer are sufficient for better predictions. For SVM we show that the estimated accuracies do not depend on the value of the cost parameter. As a major result, we will demonstrate that the accuracy estimates of NN and SVM binary classifiers cannot distinguish. This contradicts a modern belief in bioinformatics that SVM outperforms other predictors.
|
122 |
Klassificering av svenska nyhetsartiklar med hjälp av Support Vector MachinesBlomberg, Jossefin, Jansson Martén, Felicia January 2018 (has links)
Uppsatsen syftar till att minska omfattningen av påverkanskampanjer genom maskininlärningsmodellen Support Vector Machine. Arbetet utgår från en litteraturstudie samt två experiment. Litteraturstudien syftar till att ge en referensram till textklassificering med Support Vector Machines. Det första experimentet innebar träning av en Support Vector Machine för att klassificera svenska nyhetsartiklar utefter pålitlighet. Det andra experimentet innefattade en jämförelse av tränad SVM-modell och andra standardmetoder inom textklassificering. Resultaten från experimenten tyder på att SVM är ett effektivt verktyg för klassificering av svenska nyhetsartiklar men även att det finns fler modeller som är lämpliga för samma uppgift. / The aim of this paper is to reduce the extent of impact campaigns through use of the machine learning algorithm Support Vector Machine. The process involved a literature study and two experiments. The aim of the literature study was to give a frame of reference to text classification with Support Vector Machines. The first experiment involved training a SVM to be able to classify news articles written in swedish based on the reliability of the article. The second experiment involved a comparison between the trained SVM-model and other standard methods in the field. The results from the experiment indicates that SVM is a effective tool for classification of news articles written in Swedish, but also that other standard methods are suitable for the same task.
|
123 |
Reconhecimento facial com projeções ortogonais preservadoras de localidade customizadas para maximizar margens suaves / Face recognition using customized orthogonal locality preserving projections with soft margin maximizationSoldera, John January 2015 (has links)
Atualmente, o reconhecimento facial por técnicas automáticas é ainda uma tarefa desafiadora uma vez que as imagens faciais podem ser afetadas por mudanças na cena, tais como na iluminação, na pose da cabeça, ou na expressão facial. Além disso, a representação de faces por feições faciais geralmente requer diversas dimensões, o que impõe desafios adicionais ao reconhecimento facial. Nessa tese, é proposto um novo método de reconhecimento facial com o objetivo de ser robusto a muitos dos fatores que podem afetar as feições faciais na prática e se baseia em determinar transformações do espaço original de feições faciais de alta dimensionalidade para um espaço de baixa dimensionalidade que apresenta maior discriminação das classes de dados faciais (indivíduos). Isso é realizado através da aplicação de um método Projeções Ortogonais Preservadoras de Localidade (Orthogonal Locality Preserving Projections - OLPP) modificado, que usa esquemas de definição de localidade supervisionados que têm o objetivo de preservar a estrutura das classes de dados faciais no espaço resultante de baixa dimensionalidade, diferentemente do método OLPP típico que preserva a estrutura dos dados faciais. Dessa forma, as classes se tornam mais compactas, preservando a métrica de classificação. O método proposto pode trabalhar tanto com representações densas como esparsas de imagens faciais (ou seja, ele pode usar subconjuntos ou todos os pixels das imagens faciais), sendo proposto nessa tese um método de extração de feições faciais esparsas e um método de extração de feições faciais densas que preservam a informação de cor das imagens faciais apresentando melhora em relação ao método OLPP típico que usa imagens em escalas de cinza em baixa resolução. Novas imagens faciais de teste são classificadas no espaço de baixa dimensionalidade obtido usando Máquinas de Vetores de Suporte (Support Vector Machines - SVM) treinadas com margens suaves, apresentando maior eficiência do que a regra do vizinho mais próximo usada no método OLPP típico. Um conjunto de experimentos foi projetado para avaliar o método proposto sob várias condições encontradas na prática (como mudanças na pose, expressão facial, iluminação e a presença de artefatos que causam oclusão facial). Os resultados experimentais foram obtidos usando cinco bases de imagens faciais públicas (a PUT, a FEI, a FERET, a Yale e a ORL). Esses experimentos confirmam que os esquemas propostos de extração de feições faciais integrados à transformação proposta para um espaço discriminativo de baixa dimensionalidade empregando o esquema alternativo de classificação usando SVM com margens suaves obtêm maiores taxas de reconhecimento do que o próprio método OLPP e métodos representativos do estado da arte mesmo quando são usadas imagens coloridas em alta resolução (das bases de imagens faciais PUT, FEI e FERET) como imagens faciais em escalas de cinza em baixa resolução (das bases Yale e ORL). / Nowadays, face recognition by automatic techniques still is a challenging task since face images may be affected by changes in the scene, such as in the illumination, head pose or face expression. Also, face feature representation often requires several dimensions, which poses additional challenges for face recognition. In this thesis is proposed a novel face recognition method with the objective of to be robust to many issues which can affect the face features in practice and it is based on projections of high dimensional face image representations into lower dimensionality and highly discriminative spaces. This is achieved by a modified Orthogonal Locality Preserving Projections (OLPP) method that uses a supervised alternative locality definition scheme designed to preserve the face class (individuals) structure in the obtained lower dimensionality face feature space unlike the typical OLPP method which preserves the face data structure. Besides, a new kernel equation is proposed to calculate affinities among face samples, presenting better class structure preservation when compared to the heat kernel used by the typical OLPP method. The proposed method can work with sparse and dense face image representations (i.e. it can use sub-sets or all face image pixels), and a sparse and a dense feature extraction methods are proposed, which preserve the color information during the feature extraction process from the facial images improving on the typical OLPP method which uses grayscale low-resolution face images. New test face images are classified in the obtained lower dimensionality feature space using a trained soft margins Support Vector Machine (SVM), so it performs better than the nearest neighbor rule used in the typical OLPP method. A set of experiments was designed to evaluate the proposed method under various conditions found in practice (such as changes in head pose, face expression, illumination, and in the presence of occlusion artifacts). The experimental results were obtained using five challenging public face databases (namely, PUT, FEI, FERET, Yale and ORL). These experiments confirm that the proposed feature extraction method integrated to the proposed transformation to a discriminative lower dimensionality space using the alternative classification scheme with SVM and soft margins obtains higher recognition rates than the OLPP method itself and methods representative of the state-ofthe- art even when are used color (RGB) face images in high resolution (PUT, FEI and FERET face databases) as well as grayscale face images in low resolution (Yale and ORL face databases).
|
124 |
Estimação dos parâmetros do kernel em um classificador SVM na classificação de imagens hiperespectrais em uma abordagem multiclasseBonesso, Diego January 2013 (has links)
Nessa dissertação é investigada e testada uma metodologia para otimizar os parâmetros do kernel do classificador Support Vector Machines (SVM). Experimentos são realizados utilizando dados de imagens em alta dimensão. Imagens em alta dimensão abrem novas possibilidades para a classificação de imagens de sensoriamento remoto que capturam cenas naturais. É sabido que classes que são espectralmente muito similares, i.e, classes que possuem vetores de média muito próximos podem não obstante serem separadas com alto grau de acurácia em espaço de alta dimensão, desde que a matriz de covariância apresente diferenças significativas. O uso de dados de imagens em alta dimensão pode apresentar, no entanto, alguns desafios metodológicos quando aplicado um classificador paramétrico como o classificador de Máxima Verossimilhança Gaussiana. Conforme aumenta a dimensionalidade dos dados, o número de parâmetros a serem estimados a partir de um número geralmente limitado de amostras de treinamento também aumenta. Esse fato pode ocasionar estimativas pouco confiáveis, que por sua vez resultam em baixa acurácia na imagem classificada. Existem diversos abordagens propostas na literatura para minimizar esse problema. Os classificadores não paramétricos podem ser uma boa alternativa para mitigar esse problema. O SVM atualmente tem sido investigado na classificação de dados de imagens em alta-dimensão com número limitado de amostras de treinamento. Para que o classificador SVM seja utilizado com sucesso é necessário escolher uma função de kernel adequada, bem como os parâmetros dessa função. O kernel RBF tem sido frequentemente mencionado na literatura por obter bons resultados na classificação de imagens de sensoriamento remoto. Neste caso, dois parâmetro devem ser escolhidos para o classificador SVM: (1) O parâmetro de margem (C) que determina um ponto de equilíbrio razoável entre a maximização da margem e a minimização do erro de classificação, e (2) o parâmetro que controla o raio do kernel RBF. Estes dois parâmetros podem ser vistos como definindo um espaço de busca. O problema nesse caso consiste em procurar o ponto ótimo que maximize a acurácia do classificador SVM. O método de Busca em Grade é baseado na exploração exaustiva deste espaço de busca. Esse método é proibitivo do ponto de vista do tempo de processamento, sendo utilizado apenas com propósitos comparativos. Na prática os métodos heurísticos são a abordagem mais utilizada, proporcionado níveis aceitáveis de acurácia e tempo de processamento. Na literatura diversos métodos heurísticos são aplicados ao problema de classificação de forma global, i.e, os valores selecionados são aplicados durante todo processo de classificação. Esse processo, no entanto, não considera a diversidade das classes presentes nos dados. Nessa dissertação investigamos a aplicação da heurística Simulated Annealing (Recozimento Simulado) para um problema de múltiplas classes usando o classificador SVM estruturado como uma arvore binária. Seguindo essa abordagem, os parâmetros são estimados em cada nó da arvore binária, resultado em uma melhora na acurácia e tempo razoável de processamento. Experimentos são realizados utilizando dados de uma imagem hiperespectral disponível, cobrindo uma área de teste com controle terrestre bastante confiável. / In this dissertation we investigate and test a methodology to optimize the kernel parameters in a Support Vector Machines classifier. Experiments were carried out using remote sensing high-dimensional image data. High dimensional image data opens new possibilities in the classification of remote sensing image data covering natural scenes. It is well known that classes that are spectrally very similar, i.e., classes that show very similar mean vectors can notwithstanding be separated with an high degree of accuracy in high dimensional spaces, provided that their covariance matrices differ significantly. The use of high-dimensional image data may present, however, some drawbacks when applied in parametric classifiers such as the Gaussian Maximum Likelihood classifier. As the data dimensionality increases, so does the number of parameters to be estimated from a generally limited number of training samples. This fact results in unreliable estimates for the parameters, which in turn results in low accuracy in the classified image. There are several approaches proposed in the literature to minimize this problem. Non-parametric classifiers may provide a sensible way to overcome this problem. Support Vector Machines (SVM) have been more recently investigated in the classification of high-dimensional image data with a limited number of training samples. To achieve this end, a proper kernel function has to be implemented in the SVM classifier and the respective parameters selected properly. The RBF kernel has been frequently mentioned in the literature as providing good results in the classification of remotely sensed data. In this case, two parameters must be chosen in the SVM classification: (1) the margin parameter (C) that determines the trade-off between the maximization of the margin in the SVM and minimization of the classification error, and (2) the parameter that controls the radius in the RBF kernel. These two parameters can be seen as defining a search space, The problem here consists in finding an optimal point that maximizes the accuracy in the SVM classifier. The Grid Search approach is based on an exhaustive exploration in the search space. This approach results prohibitively time consuming and is used only for comparative purposes. In practice heuristic methods are the most commonly used approaches, providing acceptable levels of accuracy and computing time. In the literature several heuristic methods are applied to the classification problem in a global fashion, i.e., the selected values are applied to the entire classification process. This procedure, however, does not take into consideration the diversity of the classes present in the data. In this dissertation we investigate the application of Simulated Annealing to a multiclass problem using the SVM classifier structured as a binary tree. Following this proposed approach, the parameters are estimated at every level of the binary tree, resulting in better accuracy and a reasonable computing time. Experiments are done using a set of hyperspectral image data, covering a test area with very reliable ground control available.
|
125 |
Aquisição e processamento de biosinais de eletromiografia de superfície e eletroencelografia para caracterização de comandos verbais ou intenção de fala mediante seu processamento matemático em pacientes com disartriaSánchez Galego, Juliet January 2016 (has links)
Sistemas para assistência de pessoas com sequelas de Acidente Vascular Cerebral (AVC) como, por exemplo, a Disartria apresenta interesse crescente devido ao aumento da parcela da população com esses distúrbios. Este trabalho propõe a aquisição e o processamento dos biosinais de Eletromiografia de Superficie (sEMG) no músculos do rosto ligados ao processo da fala e de Eletroencefalografia (EEG), sincronizados no tempo mediante um arquivo de áudio. Para isso realizaram-se coletas em voluntários saudáveis no Laboratório IEE e com voluntários com Disartria, previamente diagnosticados com AVC, no departamento de Fisioterapia do Hospital de Clínicas de Porto Alegre. O objetivo principal é classificar esses biosinais frente a comandos verbais estabelecidos, mediante o método computacional Support Vector Machine (SVM) para o sinal de sEMG e Naive Bayes (NB) para o sinal de EEG, visando o futuro estudo e classificação do grau de Disartria do paciente. Estes métodos foram comparados com o Linear Discriminant Analysis (LDA), que foi implementado para os sinais de sEMG e EEG. As características extraídas do sinal de sEMG foram: desvio padrão, média aritmética, skewness, kurtosis e RMS; para o sinal de EEG as características extraídas na frequência foram: Mínimo, Máximo, Média e Desvio padrão e Skewness e Kurtosis, no domínio do tempo. Como parte do pré-processamento também foi empregado o filtro espacial Common Spatial Pattern (CSP) de forma a aumentar a atividade discriminativa entre as classes de movimento no sinal de EEG. Foi avaliado através de um Projeto de Experimentos Fatorial, a natureza das coletas, o sujeito, o método computacional, o estado do sujeito e a banda de frequência filtrada para EEG. Os comandos verbais definidos: “Direita”, “Esquerda”, “Para Frente” e “Para Trás”, possibilitaram a identificação de tarefas mentais em sujeitos saudáveis e com Disartria, atingindo-se Accuracy de 77,6% - 80,8%. / Assistive technology for people with Cerebrovascular Accident (CVA) aftereffects, such as Dysarthria, is gaining interest due to the increasing proportion of the population with these disorders. This work proposes the acquisition and processing of Surface Electromyography (sEMG) signal from the speech process face muscles and Electroencephalography (EEG) signal, synchronized in time by an audio file. For that reason assays were carried out with healthy volunteers at IEE Laboratory and with dysarthric volunteers, previously diagnosed with CVA, at the physiotherapy department of the Porto Alegre University Hospital. The main objective is to classify these biosignals in front of verbal commands established, by computational method of Support Vector Machine (SVM) for the sEMG and Naive Bayes (NB) for EEG, regarding the future study and classification of pacient degree of Dysarthria. These methods were compared with Linear Discriminant Analysis (LDA), who was implemented for sEMG and EEG. The extracted features of sEMG signal were: standard deviation, arithmetic mean, skewness, kurtosis and RMS; for EEG signal extracted features in frequency domain were: minimum, maximum, average and standard deviation, skewness and kurtosis, were used for time domain extraction. As part of pre-processing, Common Spatial Pattern (CSP) filter was also employed, in order to increase the discriminating activity between motion classes in the EEG signal. Data were evaluated in a factorial experiment project, with nature of assays, subject, computational method, subject health state and specifically for EEG were evaluated frequency band filtered. Defined verbal commands, "Right", "Left", "Forward" and "Back", allowed the identification of mental tasks in healthy subjects and dysarthric subjects, reaching Accuracy of 77.6% - 80.8%.
|
126 |
Ecological restoration of an oak woodland in Kansas informed with remote sensing of vegetation dynamicsGalgamuwe Arachchige, Pabodha Galgamuwa January 1900 (has links)
Doctor of Philosophy / Department of Horticulture, Forestry, and Recreation Resources / Charles J. Barden / Recurrent, landscape-level fires played an integral part in the development and persistence of eastern oak (Quercus spp.) forests of the United States. These periodic surface fires helped secure a competitive position for oaks in the regeneration pool by maintaining a desirable species composition and forest structure. This historical fire regime was altered with the European settlement of North America, and fire suppression within forestlands became a standard practice since 1930s. With decades of fire suppression, mature oak-dominated woodlands have widely converted to shade-tolerant tree species. Prescribed fire has successfully been used to enhance oak regeneration in eastern forests. However, oak woodland restoration within the forest-prairie ecotone of the Central plains has not been systematically studied. Fuel beds under shade-tolerant species are often less conducive to fire. Therefore, monitoring fuel loading (FL) and its changes are essential to inform management decisions in an oak regeneration project. Rapid expansion of eastern redcedar (Juniperus virginiana/ERC) is another ecological issue faced by land managers throughout North America’s midcontinent forest-prairie ecotone. Hence, it is worthy to monitor ERC expansion and effects on deciduous forests, to inform oak ecosystem restoration interventions within this region. Therefore, the main objectives of this dissertation were three-fold: (1) understand the effects of prescribed burning and mechanical thinning to encourage oak regeneration; (2) investigate the initial effects of an oak regeneration effort with prescribed fire and mechanical thinning on FL; and (3) monitor the spatio-temporal dynamics of ERC expansion in the forest-prairie ecotone of Kansas, and understand its effects on deciduous forests. The first two studies were conducted on a 90-acre oak dominated woodland, north of Manhattan, Kansas. The experimental design was a 2 (burn) x 2 (thin) factorial in a repeated measures design. The design structure allowed four treatment
combinations: burn only (B), thin only (T), burn and thin combined (BT), and a control (C). Burning and thinning treatments were administered in spring 2015. Changes in the FL estimates after the burn treatment revealed that the BT treatment combination consumed more fuel and burned more intensely compared to the B treatment. This observation was reflected in vegetation responses. The thinning reduced the canopy cover significantly, but under enhanced light environments, both oaks and competitive species thrived when no burn was incorporated. In contrast, burn treatments controlled the competitive vegetation. Hence, the most promising results were obtained when both fire and thinning were utilized.
The remote sensing study documented the expansion of ERC in three areas of eastern Kansas over 30 years. The use of multi-seasonal layer-stacks with a Support Vector Machines (SVM) supervised classification was found to be the most effective approach to map ERC distribution. Total ERC cover increased by more than 6000 acres in all three study areas investigated in this study between 1986 and 2017. Much of the ERC expansion was into deciduous woodlands. Therefore, ERC control measures should be incorporated into oak woodland restoration efforts within the forest-prairie ecotone of Kansas.
|
127 |
Analyzing The Effects of Bollinger Bands on the Probability of Stock Options Using Support Vector MachinesJanuary 2015 (has links)
abstract: The purpose of this research is to efficiently analyze certain data provided and to see if a useful trend can be observed as a result. This trend can be used to analyze certain probabilities. There are three main pieces of data which are being analyzed in this research: The value for δ of the call and put option, the %B value of the stock, and the amount of time until expiration of the stock option. The %B value is the most important. The purpose of analyzing the data is to see the relationship between the variables and, given certain values, what is the probability the trade makes money. This result will be used in finding the probability certain trades make money over a period of time.
Since options are so dependent on probability, this research specifically analyzes stock options rather than stocks themselves. Stock options have value like stocks except options are leveraged. The most common model used to calculate the value of an option is the Black-Scholes Model [1]. There are five main variables the Black-Scholes Model uses to calculate the overall value of an option. These variables are θ, δ, γ, v, and ρ. The variable, θ is the rate of change in price of the option due to time decay, δ is the rate of change of the option’s price due to the stock’s changing value, γ is the rate of change of δ, v represents the rate of change of the value of the option in relation to the stock’s volatility, and ρ represents the rate of change in value of the option in relation to the interest rate [2]. In this research, the %B value of the stock is analyzed along with the time until expiration of the option. All options have the same δ. This is due to the fact that all the options analyzed in this experiment are less than two months from expiration and the value of δ reveals how far in or out of the money an option is.
The machine learning technique used to analyze the data and the probability
is support vector machines. Support vector machines analyze data that can be classified in one of two or more groups and attempts to find a pattern in the data to develop a model, which reliably classifies similar, future data into the correct group. This is used to analyze the outcome of stock options. / Dissertation/Thesis / Masters Thesis Computer Science 2015
|
128 |
Aquisição e processamento de biosinais de eletromiografia de superfície e eletroencelografia para caracterização de comandos verbais ou intenção de fala mediante seu processamento matemático em pacientes com disartriaSánchez Galego, Juliet January 2016 (has links)
Sistemas para assistência de pessoas com sequelas de Acidente Vascular Cerebral (AVC) como, por exemplo, a Disartria apresenta interesse crescente devido ao aumento da parcela da população com esses distúrbios. Este trabalho propõe a aquisição e o processamento dos biosinais de Eletromiografia de Superficie (sEMG) no músculos do rosto ligados ao processo da fala e de Eletroencefalografia (EEG), sincronizados no tempo mediante um arquivo de áudio. Para isso realizaram-se coletas em voluntários saudáveis no Laboratório IEE e com voluntários com Disartria, previamente diagnosticados com AVC, no departamento de Fisioterapia do Hospital de Clínicas de Porto Alegre. O objetivo principal é classificar esses biosinais frente a comandos verbais estabelecidos, mediante o método computacional Support Vector Machine (SVM) para o sinal de sEMG e Naive Bayes (NB) para o sinal de EEG, visando o futuro estudo e classificação do grau de Disartria do paciente. Estes métodos foram comparados com o Linear Discriminant Analysis (LDA), que foi implementado para os sinais de sEMG e EEG. As características extraídas do sinal de sEMG foram: desvio padrão, média aritmética, skewness, kurtosis e RMS; para o sinal de EEG as características extraídas na frequência foram: Mínimo, Máximo, Média e Desvio padrão e Skewness e Kurtosis, no domínio do tempo. Como parte do pré-processamento também foi empregado o filtro espacial Common Spatial Pattern (CSP) de forma a aumentar a atividade discriminativa entre as classes de movimento no sinal de EEG. Foi avaliado através de um Projeto de Experimentos Fatorial, a natureza das coletas, o sujeito, o método computacional, o estado do sujeito e a banda de frequência filtrada para EEG. Os comandos verbais definidos: “Direita”, “Esquerda”, “Para Frente” e “Para Trás”, possibilitaram a identificação de tarefas mentais em sujeitos saudáveis e com Disartria, atingindo-se Accuracy de 77,6% - 80,8%. / Assistive technology for people with Cerebrovascular Accident (CVA) aftereffects, such as Dysarthria, is gaining interest due to the increasing proportion of the population with these disorders. This work proposes the acquisition and processing of Surface Electromyography (sEMG) signal from the speech process face muscles and Electroencephalography (EEG) signal, synchronized in time by an audio file. For that reason assays were carried out with healthy volunteers at IEE Laboratory and with dysarthric volunteers, previously diagnosed with CVA, at the physiotherapy department of the Porto Alegre University Hospital. The main objective is to classify these biosignals in front of verbal commands established, by computational method of Support Vector Machine (SVM) for the sEMG and Naive Bayes (NB) for EEG, regarding the future study and classification of pacient degree of Dysarthria. These methods were compared with Linear Discriminant Analysis (LDA), who was implemented for sEMG and EEG. The extracted features of sEMG signal were: standard deviation, arithmetic mean, skewness, kurtosis and RMS; for EEG signal extracted features in frequency domain were: minimum, maximum, average and standard deviation, skewness and kurtosis, were used for time domain extraction. As part of pre-processing, Common Spatial Pattern (CSP) filter was also employed, in order to increase the discriminating activity between motion classes in the EEG signal. Data were evaluated in a factorial experiment project, with nature of assays, subject, computational method, subject health state and specifically for EEG were evaluated frequency band filtered. Defined verbal commands, "Right", "Left", "Forward" and "Back", allowed the identification of mental tasks in healthy subjects and dysarthric subjects, reaching Accuracy of 77.6% - 80.8%.
|
129 |
Estimação dos parâmetros do kernel em um classificador SVM na classificação de imagens hiperespectrais em uma abordagem multiclasseBonesso, Diego January 2013 (has links)
Nessa dissertação é investigada e testada uma metodologia para otimizar os parâmetros do kernel do classificador Support Vector Machines (SVM). Experimentos são realizados utilizando dados de imagens em alta dimensão. Imagens em alta dimensão abrem novas possibilidades para a classificação de imagens de sensoriamento remoto que capturam cenas naturais. É sabido que classes que são espectralmente muito similares, i.e, classes que possuem vetores de média muito próximos podem não obstante serem separadas com alto grau de acurácia em espaço de alta dimensão, desde que a matriz de covariância apresente diferenças significativas. O uso de dados de imagens em alta dimensão pode apresentar, no entanto, alguns desafios metodológicos quando aplicado um classificador paramétrico como o classificador de Máxima Verossimilhança Gaussiana. Conforme aumenta a dimensionalidade dos dados, o número de parâmetros a serem estimados a partir de um número geralmente limitado de amostras de treinamento também aumenta. Esse fato pode ocasionar estimativas pouco confiáveis, que por sua vez resultam em baixa acurácia na imagem classificada. Existem diversos abordagens propostas na literatura para minimizar esse problema. Os classificadores não paramétricos podem ser uma boa alternativa para mitigar esse problema. O SVM atualmente tem sido investigado na classificação de dados de imagens em alta-dimensão com número limitado de amostras de treinamento. Para que o classificador SVM seja utilizado com sucesso é necessário escolher uma função de kernel adequada, bem como os parâmetros dessa função. O kernel RBF tem sido frequentemente mencionado na literatura por obter bons resultados na classificação de imagens de sensoriamento remoto. Neste caso, dois parâmetro devem ser escolhidos para o classificador SVM: (1) O parâmetro de margem (C) que determina um ponto de equilíbrio razoável entre a maximização da margem e a minimização do erro de classificação, e (2) o parâmetro que controla o raio do kernel RBF. Estes dois parâmetros podem ser vistos como definindo um espaço de busca. O problema nesse caso consiste em procurar o ponto ótimo que maximize a acurácia do classificador SVM. O método de Busca em Grade é baseado na exploração exaustiva deste espaço de busca. Esse método é proibitivo do ponto de vista do tempo de processamento, sendo utilizado apenas com propósitos comparativos. Na prática os métodos heurísticos são a abordagem mais utilizada, proporcionado níveis aceitáveis de acurácia e tempo de processamento. Na literatura diversos métodos heurísticos são aplicados ao problema de classificação de forma global, i.e, os valores selecionados são aplicados durante todo processo de classificação. Esse processo, no entanto, não considera a diversidade das classes presentes nos dados. Nessa dissertação investigamos a aplicação da heurística Simulated Annealing (Recozimento Simulado) para um problema de múltiplas classes usando o classificador SVM estruturado como uma arvore binária. Seguindo essa abordagem, os parâmetros são estimados em cada nó da arvore binária, resultado em uma melhora na acurácia e tempo razoável de processamento. Experimentos são realizados utilizando dados de uma imagem hiperespectral disponível, cobrindo uma área de teste com controle terrestre bastante confiável. / In this dissertation we investigate and test a methodology to optimize the kernel parameters in a Support Vector Machines classifier. Experiments were carried out using remote sensing high-dimensional image data. High dimensional image data opens new possibilities in the classification of remote sensing image data covering natural scenes. It is well known that classes that are spectrally very similar, i.e., classes that show very similar mean vectors can notwithstanding be separated with an high degree of accuracy in high dimensional spaces, provided that their covariance matrices differ significantly. The use of high-dimensional image data may present, however, some drawbacks when applied in parametric classifiers such as the Gaussian Maximum Likelihood classifier. As the data dimensionality increases, so does the number of parameters to be estimated from a generally limited number of training samples. This fact results in unreliable estimates for the parameters, which in turn results in low accuracy in the classified image. There are several approaches proposed in the literature to minimize this problem. Non-parametric classifiers may provide a sensible way to overcome this problem. Support Vector Machines (SVM) have been more recently investigated in the classification of high-dimensional image data with a limited number of training samples. To achieve this end, a proper kernel function has to be implemented in the SVM classifier and the respective parameters selected properly. The RBF kernel has been frequently mentioned in the literature as providing good results in the classification of remotely sensed data. In this case, two parameters must be chosen in the SVM classification: (1) the margin parameter (C) that determines the trade-off between the maximization of the margin in the SVM and minimization of the classification error, and (2) the parameter that controls the radius in the RBF kernel. These two parameters can be seen as defining a search space, The problem here consists in finding an optimal point that maximizes the accuracy in the SVM classifier. The Grid Search approach is based on an exhaustive exploration in the search space. This approach results prohibitively time consuming and is used only for comparative purposes. In practice heuristic methods are the most commonly used approaches, providing acceptable levels of accuracy and computing time. In the literature several heuristic methods are applied to the classification problem in a global fashion, i.e., the selected values are applied to the entire classification process. This procedure, however, does not take into consideration the diversity of the classes present in the data. In this dissertation we investigate the application of Simulated Annealing to a multiclass problem using the SVM classifier structured as a binary tree. Following this proposed approach, the parameters are estimated at every level of the binary tree, resulting in better accuracy and a reasonable computing time. Experiments are done using a set of hyperspectral image data, covering a test area with very reliable ground control available.
|
130 |
Reconhecimento facial com projeções ortogonais preservadoras de localidade customizadas para maximizar margens suaves / Face recognition using customized orthogonal locality preserving projections with soft margin maximizationSoldera, John January 2015 (has links)
Atualmente, o reconhecimento facial por técnicas automáticas é ainda uma tarefa desafiadora uma vez que as imagens faciais podem ser afetadas por mudanças na cena, tais como na iluminação, na pose da cabeça, ou na expressão facial. Além disso, a representação de faces por feições faciais geralmente requer diversas dimensões, o que impõe desafios adicionais ao reconhecimento facial. Nessa tese, é proposto um novo método de reconhecimento facial com o objetivo de ser robusto a muitos dos fatores que podem afetar as feições faciais na prática e se baseia em determinar transformações do espaço original de feições faciais de alta dimensionalidade para um espaço de baixa dimensionalidade que apresenta maior discriminação das classes de dados faciais (indivíduos). Isso é realizado através da aplicação de um método Projeções Ortogonais Preservadoras de Localidade (Orthogonal Locality Preserving Projections - OLPP) modificado, que usa esquemas de definição de localidade supervisionados que têm o objetivo de preservar a estrutura das classes de dados faciais no espaço resultante de baixa dimensionalidade, diferentemente do método OLPP típico que preserva a estrutura dos dados faciais. Dessa forma, as classes se tornam mais compactas, preservando a métrica de classificação. O método proposto pode trabalhar tanto com representações densas como esparsas de imagens faciais (ou seja, ele pode usar subconjuntos ou todos os pixels das imagens faciais), sendo proposto nessa tese um método de extração de feições faciais esparsas e um método de extração de feições faciais densas que preservam a informação de cor das imagens faciais apresentando melhora em relação ao método OLPP típico que usa imagens em escalas de cinza em baixa resolução. Novas imagens faciais de teste são classificadas no espaço de baixa dimensionalidade obtido usando Máquinas de Vetores de Suporte (Support Vector Machines - SVM) treinadas com margens suaves, apresentando maior eficiência do que a regra do vizinho mais próximo usada no método OLPP típico. Um conjunto de experimentos foi projetado para avaliar o método proposto sob várias condições encontradas na prática (como mudanças na pose, expressão facial, iluminação e a presença de artefatos que causam oclusão facial). Os resultados experimentais foram obtidos usando cinco bases de imagens faciais públicas (a PUT, a FEI, a FERET, a Yale e a ORL). Esses experimentos confirmam que os esquemas propostos de extração de feições faciais integrados à transformação proposta para um espaço discriminativo de baixa dimensionalidade empregando o esquema alternativo de classificação usando SVM com margens suaves obtêm maiores taxas de reconhecimento do que o próprio método OLPP e métodos representativos do estado da arte mesmo quando são usadas imagens coloridas em alta resolução (das bases de imagens faciais PUT, FEI e FERET) como imagens faciais em escalas de cinza em baixa resolução (das bases Yale e ORL). / Nowadays, face recognition by automatic techniques still is a challenging task since face images may be affected by changes in the scene, such as in the illumination, head pose or face expression. Also, face feature representation often requires several dimensions, which poses additional challenges for face recognition. In this thesis is proposed a novel face recognition method with the objective of to be robust to many issues which can affect the face features in practice and it is based on projections of high dimensional face image representations into lower dimensionality and highly discriminative spaces. This is achieved by a modified Orthogonal Locality Preserving Projections (OLPP) method that uses a supervised alternative locality definition scheme designed to preserve the face class (individuals) structure in the obtained lower dimensionality face feature space unlike the typical OLPP method which preserves the face data structure. Besides, a new kernel equation is proposed to calculate affinities among face samples, presenting better class structure preservation when compared to the heat kernel used by the typical OLPP method. The proposed method can work with sparse and dense face image representations (i.e. it can use sub-sets or all face image pixels), and a sparse and a dense feature extraction methods are proposed, which preserve the color information during the feature extraction process from the facial images improving on the typical OLPP method which uses grayscale low-resolution face images. New test face images are classified in the obtained lower dimensionality feature space using a trained soft margins Support Vector Machine (SVM), so it performs better than the nearest neighbor rule used in the typical OLPP method. A set of experiments was designed to evaluate the proposed method under various conditions found in practice (such as changes in head pose, face expression, illumination, and in the presence of occlusion artifacts). The experimental results were obtained using five challenging public face databases (namely, PUT, FEI, FERET, Yale and ORL). These experiments confirm that the proposed feature extraction method integrated to the proposed transformation to a discriminative lower dimensionality space using the alternative classification scheme with SVM and soft margins obtains higher recognition rates than the OLPP method itself and methods representative of the state-ofthe- art even when are used color (RGB) face images in high resolution (PUT, FEI and FERET face databases) as well as grayscale face images in low resolution (Yale and ORL face databases).
|
Page generated in 0.0299 seconds