Submitted by Irene Nascimento (irene.kessia@ufpe.br) on 2016-10-18T19:17:10Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertacao -Gilderlanio Santana de Araujo.pdf: 9533988 bytes, checksum: 951b1cf090729a87ebf3a8741ff00ad4 (MD5) / Made available in DSpace on 2016-10-18T19:17:10Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Dissertacao -Gilderlanio Santana de Araujo.pdf: 9533988 bytes, checksum: 951b1cf090729a87ebf3a8741ff00ad4 (MD5)
Previous issue date: 2013-03-07 / FACEPE / O desenvolvimento de técnicas de genotipagem de baixo custo (SNP arrays) e as
anotações de milhares de polimorfismos de nucleotídeo único (SNPs) em bancos de
dados públicos têm originado um crescente número de estudos de associação em
escala genômica (do inglês, Genome-Wide Associations Studies - GWAS). Nesses
estudos, um enorme número de SNPs (centenas de milhares) são avaliados com
métodos estatísticos univariados de forma a encontrar SNPs associados a um
determinado fenótipo. Testes univariados são incapazes de capturar relações de alta
ordem entre os SNPs, algo comum em doenças genéticas complexas e são afetados
pela alta correlação entre SNPs na mesma região genômica. Métodos de aprendizado
de máquina, como o Random Forest (RF), têm sido aplicados em dados de GWAS
para realizar a previsão de riscos de doenças e capturar os SNPs associados às
mesmas. Apesar de RF ser um método com reconhecido desempenho em dados de
alta dimensionalidade e na captura de relações não-lineares, o uso de todos os SNPs
presentes em um estudo GWAS é computacionalmente inviável. Neste estudo
propomos o uso de redes biológicas para a seleção inicial de SNPs candidatos a serem
usados pela RF. A partir de um conjunto inicial de genes já relacionados à doença na
literatura, usamos ferramentas de redes de interação gene-gene, para encontrar novos
genes que possam estar associados a doença. Logo, é possível extrair um número
reduzido de SNPs tornando a aplicação do método RF viável. Os experimentos
realizados nesse estudo concentram-se em investigar quais polimorfismos podem
influenciar na suscetibilidade à doença de Alzheimer (DA) e ao comprometimento
cognitivo leve (MCI). O resultado final das análises é a delineação de uma
metodologia para o uso de RF, para a análise de dados de GWAS, assim como a
caracterização de potenciais fatores de riscos da DA. / The development of low cost genotyping techniques (SNP arrays) and annotations of
thousands of single nucleotide polymorphisms (SNPs) in public databases has led to
an increasing number of Genome-Wide Associations Studies (GWAS). In these
studies, a large number of SNPs (hundreds of thousands) are evaluated with univariate
statistical methods in order to find SNPs associated with a particular phenotype.
Univariate tests are unable to capture high-order relationships among SNPs, which are
common in complex genetic diseases, and are affected by the high correlation
between SNPs at the same genomic region. Machine learning methods, such as the
Random Forest (RF), have been applied to GWAS data to perform the prediction of
the risk of diseases and capture a set of SNPs associated with them. Although, RF is a
method with recognized performance in high dimensional data and capacity to capture
non-linear relationships, the use of all SNPs present in GWAS data is computationally
intractable. In this study we propose the use of biological networks for the initial
selection of candidate SNPs to be used by RF. From an initial set of genes already
related to a disease based on the literature, we use tools for construct gene-gene
interaction networks, to find novel genes that might be associated with disease.
Therefore, it is possible to extract a small number of SNPs making the method RF
feasible. The experiments conducted in this study focus on investigating which
polymorphisms may influence the susceptibility of Alzheimer’s disease (AD) and
mild cognitive impairment (MCI). This work presents a delineation of a methodology
on using RF for analysis of GWAS data, and characterization of potential risk factors
for AD.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/18012 |
Date | 07 March 2013 |
Creators | ARAÚJO, Gilderlanio Santana de |
Contributors | COSTA FILHO, Ivan Gesteira da |
Publisher | Universidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.0079 seconds