Return to search

Associating genotype sequence properties to haplotype inference errors

Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-03-16T15:28:47Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
RogerioSantosRosa_Tese.pdf: 1740026 bytes, checksum: aa346f64c34419c4b83269ccb99ade6a (MD5) / Made available in DSpace on 2016-03-16T15:28:48Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
RogerioSantosRosa_Tese.pdf: 1740026 bytes, checksum: aa346f64c34419c4b83269ccb99ade6a (MD5)
Previous issue date: 2015-03-12 / Haplotype information has a central role in the understanding and diagnosis of certain
illnesses, and also for evolution studies. Since that type of information is hard to obtain directly,
computational methods to infer haplotype from genotype data have received great attention
from the computational biology community. Unfortunately, haplotype inference is a very hard
computational biology problem and the existing methods can only partially identify correct
solutions. I present neural network models that use different properties of the data to predict
when a method is more prone to make errors. I construct models for three different Haplotype
Inference approaches and I show that our models are accurate and statistically relevant. The
results of our experiments offer valuable insights on the performance of those methods, opening
opportunity for a combination of strategies or improvement of individual approaches. I formally
demonstrate that Linkage Disequilibrium (LD) and heterozygosity are very strong indicators
of Switch Error tendency for four methods studied, and I delineate scenarios based on LD
measures, that reveal a higher or smaller propension of the HI methods to present inference
errors, so the correlation between LD and the occurrence of errors varies among regions along
the genotypes. I present evidence that considering windows of length 10, immediately to the
left of a SNP (upstream region), and eliminating the non-informative SNPs through Fisher’s
Test leads to a more suitable correlation between LD and Inference Errors. I apply Multiple
Linear Regression to explore the relevance of several biologically meaningful properties of the
genotype sequences for the accuracy of the haplotype inference results, developing models for
two databases (considering only Humans) and using two error metrics. The accuracy of our
results and the stability of our proposed models are supported by statistical evidence. / Haplótipos têm um papel central na compreensão e diagnóstico de determinadas doenças
e também para estudos de evolução. Este tipo de informação é difícil de obter diretamente,
diante disto, métodos computacionais para inferir haplótipos a partir de dados genotípicos têm
recebido grande atenção da comunidade de biologia computacional. Infelizmente, a Inferência
de Halótipos é um problema difícil e os métodos existentes só podem predizer parcialmente
soluções corretas. Foram desenvolvidos modelos de redes neurais que utilizam diferentes
propriedades dos dados para prever quando um método é mais propenso a cometer erros. Foram
calibrados modelos para três abordagens de Inferência de Haplótipos diferentes e os resultados
validados estatisticamente. Os resultados dos experimentos oferecem informações valiosas sobre
o desempenho e comportamento desses métodos, gerando condições para o desenvolvimento
de estratégias de combinação de diferentes soluções ou melhoria das abordagens individuais.
Foi demonstrado que Desequilíbrio de Ligação (LD) e heterozigosidade são fortes indicadores
de tendência de erro, desta forma foram delineados cenários com base em medidas de LD, que
revelam quando um método tem maior ou menor propensão de cometer erros. Foi identificado
que utilizando janelas de 10 SNPs (polimorfismo de um único nucleotídeo), imediatamente a
montante, e eliminando os SNPs não informativos pelo Teste de Fisher leva-se a uma correlação
mais adequada entre LD e a ocorrência de erros. Por fim, foi aplicada análise de Regressão Linear
para explorar a relevância de várias propriedades biologicamente significativas das sequências de
genótipos para a precisão dos resultados de Inferência de Haplótipos, estimou-se modelos para
duas bases de dados (considerando apenas humanos) utilizando duas métricas de erro. A precisão
dos resultados e a estabilidade dos modelos propostos foram validadas por testes estatísticos.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/16011
Date12 March 2015
CreatorsROSA, Rogério dos Santos
Contributorshttp://lattes.cnpq.br/8994178236264483, GUIMARÃES, Katia Silva
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds