Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2016-07-28T18:19:39Z
No. of bitstreams: 1
texto completo.pdf: 698486 bytes, checksum: 6632da2c088b4b1018c260c4cd2827c0 (MD5) / Made available in DSpace on 2016-07-28T18:19:39Z (GMT). No. of bitstreams: 1
texto completo.pdf: 698486 bytes, checksum: 6632da2c088b4b1018c260c4cd2827c0 (MD5)
Previous issue date: 2016-02-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / É importante para a preservação da variabilidade genética e da biodiversidade a correta classificação dos indivíduos. As técnicas de estatística multivariada comumente utilizada nessas situações são as funções discriminantes de Fisher e de Anderson, que permitem alocar um indivíduo inicialmente desconhecido em uma das g populações prováveis ou grupos pré-definidos. Entretanto, para o caso de populações não linearmente separáveis, esses métodos tem se mostrado pouco eficientes devido ao fato de não conseguir detectar a diferença entre as populações. Em alguns casos é preciso captar o máximo de informação possível e para tal outro método é necessário quando não for possível adquirir resultados pelos métodos multivariados. Portanto uma alternativa como possível solução para tal finalidade são as redes neurais artificiais, utilizadas em diversos problemas da Estatística, como agrupamento de indivíduos similares, previsão de séries temporais e em especial, os problemas de classificação. Outra técnica computacional que também vem adquirindo credibilidade e grande atenção nos últimos anos é conhecida como Máquina de Vetor Suporte (Support Vector Machines - SVMs). As SVMs vêm sendo utilizadas em diversas tarefas de reconhecimento de padrões, obtendo resultados superiores ou similares aos alcançados por técnicas similares em várias aplicações como em detecção de faces em imagens e na categorização de textos. Diante do exposto, o objetivo deste trabalho é avaliar a utilização da máquinas de vetores suporte em problemas de discriminação de populações com estruturas genéticas conhecidas. Além disso, os resultados obtidos pela técnica foram comparados com aqueles advindos de análises discriminante de Anderson e redes neurais. Cada população foi caracterizada por um conjunto de elementos mensurados por características de natureza contínua. Foram geradas considerados 50 locos independentes, cada qual com dois alelos. As relações de parentescos e a estruturação hierárquica foram estabelecidas considerando populações genitoras geneticamente divergentes, híbrido F 1 e três gerações de retrocruzamentos em relação a cada um dos genitores, permitindo estabelecer parâmetros de eficácia das metodologias testadas. Os dados fenotípicos das populações foram utilizados para estabelecimento da função discriminante de Anderson e para o cálculo da taxa de erro aparente (TEA), que mede o número de classificações incorretas. As estimativas de TEA foram comparadas com as obtida por meio das Redes Neurais Artificiais e a Máquina de Vetor Suporte para verificação dos problemas de classificações, buscando minimizar o número de classificações incorretas em comparação aos obtidos pela função discriminante. De acordo com os resultados avaliados, a Rede Neural obteve resultados satisfatórios com TEA a 0% enquanto que o método SVM obteve TEA de 14,44% a 67,41% enquanto que a de Anderson manteve TEA entre 18,89% a 74,07%. No entanto são necessários mais estudos quanto a utilização da SVM com base em algoritmos de otimização de busca para o espaço de parâmetros para pôr fim tentar alcançar resultados mais satisfatórios. / It is important for the preservation of genetic variability and biodiversity the correct classification of the individuals. The techniques of multivariate statistics commonly used in these situations are the Fisher and Anderson discriminant functions, which allow you to allocate an individual initially unknown to one of g populations likely or groups pre-defined. However, for the case of populations that are not linearly separable, these methods have been shown little efficient due to the fact it’s not able to detect the difference between the populations. In some cases, it is necessary capturing as much information as possible and for that other method is required when it is not possible to acquire the results frommultivariate methods. Therefore an alternative as a possible solution for this purpose is the artificial neural networks, used in various problems of Statistics, such as grouping of individuals with similar forecasting time series and in particular, the problems of classification. Another computational technique that has been acquiring credibility and great attention in recent years is known as the Support Vector Machines (SVM).The SVMs have been used in various tasks of pattern recognition, achieving higher results or similar to those achieved by similar techniques in various applications, such as detection of faces in images, and in the categorization of texts. The aim of this study is to evaluate the use of Support Vector Machines in problems of population’s discrimination with a known genetic structure. In addition, the results obtained by the technique is compared with those resulting from analysis of Anderson discriminant function and neural networks. Each population was characterized by a set of elements measured by characteristics of continuous nature. Were generated considering 50 locos independent, each with two alleles. The relations of kinship and the hierarchical structuring were established considering populations genetically divergent, F1 hybrid and three generations of backcrossing in relation to each of the parents, allowing to establish parameters of effectiveness of the tested methodologies. The phenotypic data of the populations were used to establish the discriminant function of Anderson and for the calculation of the error rate apparent (TEA), that measures the number of incorrect ratings. Estimates of TEA were compared with those obtained by means of Artificial Neural Networks and Support Vector Machine for verification of classification problems, seeking to minimize the number of incorrect ratings in comparison to discriminant function. According to the results, the neural network obtained satisfactory results with a TEA of 0%, while the SVM method obtained TEA between 14.44% and 67.41%, while the results of Anderson function have TEA between 18.89% and 74.07%. However, it is necessary more studies about the use of the SVM based on the optimization algorithms for the search of the space of parameters in order to try to achieve results that are more satisfactory.
Identifer | oai:union.ndltd.org:IBICT/oai:localhost:123456789/8259 |
Date | 25 February 2016 |
Creators | Carvalho, Vitor Prado de |
Contributors | Nascimento, Ana Carolina Campana, Cruz, Cosme Damião, Silva, Fabyano Fonseca e, Arbex, Wagner Antonio, Nascimento, Moysés |
Publisher | Universidade Federal de Viçosa |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFV, instname:Universidade Federal de Viçosa, instacron:UFV |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0028 seconds