Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization

Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:59:33Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) / Made available in DSpace on 2018-06-25T20:59:33Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5)
Previous issue date: 2017-02-21 / FACEPE / Embora duas pessoas compartilhem mais de 99% do DNA, as variações são extremamente relevantes para determinar as variações fenotípicas. Dentre essas variações, os polimorfismos de nucleotídeo único(SNP) são alterações pontuais mais conhecidas por influenciar no aumento no risco de doenças. Os SNPs podem atuar individualmente ou através de interações com outros SNPs (interaçõe sepistáticas). A inferência das interações epistáticas é um problema que vem sendo amplamente estudado, sendo utilizados dados genômicos de estudos de associação ampla do genoma (GWAS) com pacientes casos e controles. Diversas abordagens computacionais foram propostas, utilizando diferentes estratégias para lidar com os desafios de inferir as interações mais relevantes. O primeiro desafio encontrado neste estudo, esta relacionado à grande quantidade de dados (cerca de 500 a 900 mil SNPs). O segundo desafio esta associado ao número de possíveis interações entre SNPs, o que leva a um problema combinatorial. E o terceiro desafio, relaciona-se com o baixo poder estatístico das interações, sendo mais custoso identificá-las. A combinação desses desafios, tornam este um problema difícil de ser tratado. Nesta tese, são utilizadas diferentes metodologias, selecionadas para verificar suas capacidades em lidar com o problema da inferência da interações epistáticas. Dentre estas, são avaliadas técnicas de seleção de características e abordagens computacionais na detecção das interações entre SNPs, assim como algoritmos de aprendizagem de máquina baseados em Relevance Learning Vector Quantization (RLVQ). Nos experimentos realizados, os algoritmos baseados em RLVQ apresentaram resultados satisfatórios ao identificar as interações relevantes entre SNPs em dados com até 5 interações, utilizando requisitos computacionais relativamente baixos quando comparados a outras abordagens descritas na literatura. Um estudo mais extenso foi realizado, com o objetivo de identificar um ajuste ideal dos parâmetros e verificar as capacidades e limitações de cada algoritmo. Com os resultados obtidos através desse ajuste de parâmetros, foi possível levantar hipóteses referente a influência da quantidade de interações entre SNPs e da dimensionalidade dos dados em função dos parâmetros utilizados nos algoritmos. Considerando essas análises, foi possível propor uma nova metodologia denominada iGRLVQ-SNPi, baseada em algoritmos de RLVQ, para lidar de forma mais eficiente com o problema da inferência das interações entre os SNPs. Como iGRLVQ-SNPi, foi possível avaliar interações de ordem n, sem que para isso, fosse necessário informar o número de interações que se deseja avaliar. Nos experimentos realizados, o iGRLVQ-SNPi obteve uma excelente acurácia nos diferentes conjuntos de dados testados, e sendo comparativamente melhor ou tão eficiente quanto outras abordagens de inferência epistáticas avaliadas, utilizando um menor custo computacional. / Although two people share more than 99% of DNA, variations are extremely relevant for determining phenotypic variations. Among these variations, single nucleotide polymorphisms (SNPs) are punctual changes known to influence the increased risk of disease. SNPs can act individually or through interactions with other SNPs (epistatic interactions). The inference of epistatic interactions is a problem that has been extensively studied, using genomic data from genome wide associationstudies(GWAS) with cases and controls patients. Several computational approaches were proposed, using different strategies to deal with the challenges of inferring the most relevant interactions. The first challenge found in this study is related to the large amount of data (about 500 to 900 thousand SNPs). The second challenge is the number of possible interactions between SNPs, which leads to a combinatorial problem. And the third challenge is related to the low statistical power of the interactions, being more difficult to identify them. The combination of these challenges makes this a hard problem to address. In this thesis, different methodologies were used, they were selected to verify their abilities in dealing with the problem of inference of the epistatic interactions. Among these, we evaluate techniques of feature selection and computational approaches in the detection of interactions between SNPs, as well as machine learning algorithms based on Relevance Learning Vector Quantization(RLVQ). In the experiments performed, the RLVQ-based algorithms presented satisfactory results by identifying the relevant interactions between SNPs in data with up to 5 interactions, using relatively low computational requirements when compared to other approaches described in the literature. Amore extensive study was carried out with the objective of identify in ganoptimal adjustment of the parameters and verifying the capacities and limitationsofeachalgorithm. With the results obtained through this adjustment of parameters, it was possible to raise hypotheses regarding the influence of the amount of interactions between SNPs and the dimensionality of the data as a function of the parameters used in the algorithms. Considering these analyzes, it was possible to propose a new methodology called iGRLVQ-SNPi, based on RLVQ algorithms, to deal more efficiently with the problem of inference of the interactions between the SNPs. With iGRLVQ-SNPi, it was possible to evaluate n-order interactions, without it being necessary to inform the number of interactions to be evaluated. In the experiments performed, iGRLVQ-SNPi obtained an excellent accuracy in the different data sets tested, and was comparatively better or as efficient as other evaluated epistatic inference approaches, using a lower computational cost.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/24890
Date21 February 2017
CreatorsARAÚJO, Flávia Roberta Barbosa de
Contributorshttp://lattes.cnpq.br/8994178236264483, GUIMARÃES, Katia Silva Guimarães
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/embargoedAccess

Page generated in 0.0023 seconds