Global ETD Search

Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization

Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:59:33Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) / Made available in DSpace on 2018-06-25T20:59:33Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5)
Previous issue date: 2017-02-21 / FACEPE / Embora duas pessoas compartilhem mais de 99% do DNA, as variações são extremamente relevantes para determinar as variações fenotípicas. Dentre essas variações, os polimorﬁsmos de nucleotídeo único(SNP) são alterações pontuais mais conhecidas por inﬂuenciar no aumento no risco de doenças. Os SNPs podem atuar individualmente ou através de interações com outros SNPs (interaçõe sepistáticas). A inferência das interações epistáticas é um problema que vem sendo amplamente estudado, sendo utilizados dados genômicos de estudos de associação ampla do genoma (GWAS) com pacientes casos e controles. Diversas abordagens computacionais foram propostas, utilizando diferentes estratégias para lidar com os desaﬁos de inferir as interações mais relevantes. O primeiro desaﬁo encontrado neste estudo, esta relacionado à grande quantidade de dados (cerca de 500 a 900 mil SNPs). O segundo desaﬁo esta associado ao número de possíveis interações entre SNPs, o que leva a um problema combinatorial. E o terceiro desaﬁo, relaciona-se com o baixo poder estatístico das interações, sendo mais custoso identiﬁcá-las. A combinação desses desaﬁos, tornam este um problema difícil de ser tratado. Nesta tese, são utilizadas diferentes metodologias, selecionadas para veriﬁcar suas capacidades em lidar com o problema da inferência da interações epistáticas. Dentre estas, são avaliadas técnicas de seleção de características e abordagens computacionais na detecção das interações entre SNPs, assim como algoritmos de aprendizagem de máquina baseados em Relevance Learning Vector Quantization (RLVQ). Nos experimentos realizados, os algoritmos baseados em RLVQ apresentaram resultados satisfatórios ao identiﬁcar as interações relevantes entre SNPs em dados com até 5 interações, utilizando requisitos computacionais relativamente baixos quando comparados a outras abordagens descritas na literatura. Um estudo mais extenso foi realizado, com o objetivo de identiﬁcar um ajuste ideal dos parâmetros e veriﬁcar as capacidades e limitações de cada algoritmo. Com os resultados obtidos através desse ajuste de parâmetros, foi possível levantar hipóteses referente a inﬂuência da quantidade de interações entre SNPs e da dimensionalidade dos dados em função dos parâmetros utilizados nos algoritmos. Considerando essas análises, foi possível propor uma nova metodologia denominada iGRLVQ-SNPi, baseada em algoritmos de RLVQ, para lidar de forma mais eﬁciente com o problema da inferência das interações entre os SNPs. Como iGRLVQ-SNPi, foi possível avaliar interações de ordem n, sem que para isso, fosse necessário informar o número de interações que se deseja avaliar. Nos experimentos realizados, o iGRLVQ-SNPi obteve uma excelente acurácia nos diferentes conjuntos de dados testados, e sendo comparativamente melhor ou tão eﬁciente quanto outras abordagens de inferência epistáticas avaliadas, utilizando um menor custo computacional. / Although two people share more than 99% of DNA, variations are extremely relevant for determining phenotypic variations. Among these variations, single nucleotide polymorphisms (SNPs) are punctual changes known to inﬂuence the increased risk of disease. SNPs can act individually or through interactions with other SNPs (epistatic interactions). The inference of epistatic interactions is a problem that has been extensively studied, using genomic data from genome wide associationstudies(GWAS) with cases and controls patients. Several computational approaches were proposed, using different strategies to deal with the challenges of inferring the most relevant interactions. The ﬁrst challenge found in this study is related to the large amount of data (about 500 to 900 thousand SNPs). The second challenge is the number of possible interactions between SNPs, which leads to a combinatorial problem. And the third challenge is related to the low statistical power of the interactions, being more difﬁcult to identify them. The combination of these challenges makes this a hard problem to address. In this thesis, different methodologies were used, they were selected to verify their abilities in dealing with the problem of inference of the epistatic interactions. Among these, we evaluate techniques of feature selection and computational approaches in the detection of interactions between SNPs, as well as machine learning algorithms based on Relevance Learning Vector Quantization(RLVQ). In the experiments performed, the RLVQ-based algorithms presented satisfactory results by identifying the relevant interactions between SNPs in data with up to 5 interactions, using relatively low computational requirements when compared to other approaches described in the literature. Amore extensive study was carried out with the objective of identify in ganoptimal adjustment of the parameters and verifying the capacities and limitationsofeachalgorithm. With the results obtained through this adjustment of parameters, it was possible to raise hypotheses regarding the inﬂuence of the amount of interactions between SNPs and the dimensionality of the data as a function of the parameters used in the algorithms. Considering these analyzes, it was possible to propose a new methodology called iGRLVQ-SNPi, based on RLVQ algorithms, to deal more efﬁciently with the problem of inference of the interactions between the SNPs. With iGRLVQ-SNPi, it was possible to evaluate n-order interactions, without it being necessary to inform the number of interactions to be evaluated. In the experiments performed, iGRLVQ-SNPi obtained an excellent accuracy in the different data sets tested, and was comparatively better or as efﬁcient as other evaluated epistatic inference approaches, using a lower computational cost.

https://repositorio.ufpe.br/handle/123456789/24890

Ciência da computação.

Interação epistática

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/24890
Date	21 February 2017
Creators	ARAÚJO, Flávia Roberta Barbosa de
Contributors	http://lattes.cnpq.br/8994178236264483, GUIMARÃES, Katia Silva Guimarães
Publisher	Universidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/embargoedAccess

Page generated in 0.0026 seconds

Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization

Description

Links & Downloads

Tags

Additional Fields