Return to search

Um método para seleção de atributos em dados genômicos

Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-05-05T18:05:07Z
No. of bitstreams: 1
fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-06-07T15:41:26Z (GMT) No. of bitstreams: 1
fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) / Made available in DSpace on 2016-06-07T15:41:26Z (GMT). No. of bitstreams: 1
fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5)
Previous issue date: 2015-11-26 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Estudos de associação em escala genômica buscam encontrar marcadores moleculares
do tipo SNP que estão associados direta ou indiretamente a um fenótipo em questão
tais como, uma ou mais características do indivíduo ou, até mesmo, uma doença. O
SNP pode ser a própria mutação causal ou pode estar correlacionado com a mesma por
serem herdados juntos. Para identi car a região causadora ou promotora do fenótipo,
a qual não é conhecida a priori, milhares ou milhões de SNPs são genotipados em
amostras compostas de centenas ou milhares de indivíduos. Com isso, surge o desa o
de selecionar os SNPs mais informativos no conjunto de dados genotípico, onde o número
de atributos é, geralmente, muito superior ao número de indivíduos, com a possibilidade
de que existam atributos altamente correlacionados e, ainda, podendo haver interações
entre pares, trios ou combinações de SNPs de quaisquer ordens. Os métodos mais usados
em estudos de associação em escala genômica utilizam o valor-p de cada SNP em testes
estatísticos de hipóteses, baseados em regressão para fenótipos contínuos e baseados nos
testes qui-quadrado ou similares em classi cação para fenótipos discretos, como ltro
para selecionar os SNPs mais signi cativos. Entretanto, essa classe de métodos captura
somente SNPs com efeitos aditivos, pois a relação adotada é linear. Na tentativa de
superar as limitações de procedimentos já estabelecidos, este trabalho propõe um novo
método de seleção de SNPs baseado em técnicas de Aprendizado de Máquina e Inteligência
Computacional denominado SNP Markers Selector (SMS). O modelo é construído a partir
de uma abordagem que divide o problema de seleção de SNPs em três fases distintas: a
primeira relacionada à análise de relevância dos marcadores, a segunda responsável pela
de nição do conjunto de marcadores relevantes que serão considerados por meio de uma
estratégia de corte com base em um limite de relevância dos marcadores e, nalmente,
uma fase para o re namento do processo de corte, geralmente para diminuir marcadores
falsos-positivos. No SMS, essas três etapas, foram implementadas utilizando-se Florestas
Aleatórias, Máquina de Vetores Suporte e Algoritmos Genéticos respectivamente. O
SMS objetiva a criação de um uxo de trabalho que maximize o potencial de seleção
do modelo através de etapas complementares. Assim, espera-se aumentar o potencial
do SMS capturar efeitos aditivos e/ou não-aditivos com interação moderada entre pares
e trios de SNPs, ou até mesmo, interações de ordens superiores com efeitos que sejam
minimamente detectáveis. O SMS pode ser aplicado tanto em problemas de regressão
(fenótipo contínuo) quanto de classi cação (fenótipo discreto). Experimentos numéricos
foram realizados para avaliação do potencial da estratégia apresentada, com o método
sendo aplicado em sete conjuntos de dados simulados e em uma base de dados real, onde
a capacidade de produção de leite predita de vacas leiteiras foi medida como fenótipo
contínuo. Além disso, o método proposto foi comparado com os métodos baseados no
valor-p e com o Lasso Bayesiano apresentando, de forma geral, melhores resultados do
ponto de vista de SNPs verdadeiros-positivos nos dados simulados com efeitos aditivos
juntamente com interações entre pares e trios de SNPs. No conjunto de dados reais,
baseado em 56.947 SNPs e um único fenótipo relativo à produção de leite, o método
identi cou 245 QTLs associados à produção e à composição do leite e 90 genes candidatos
associados à mastite, à produção e à composição do leite, sendo esses QTLs e genes
identi cados por estudos anteriores utilizando outros métodos de seleção. Assim, o método
demonstrou ser competitivo frente aos métodos utilizados para comparação em cenários
complexos, com dados simulados ou reais, o que indica seu potencial para estudos de
associação em escala genômica em humanos, animais e vegetais. / Genome-wide association studies have as main objective to discovery SNP type molecular
markers associated directly or indirectly to a speci c phenotype related to one or more
characteristics of an individual or even a disease. The SNP could be the causative
mutation itself or correlated with the causative mutation due to common inheritance.
Aiming to identify the causal or promoter region of the phenotype, which is unknown a
priori, thousands or millions of SNPs are genotyped in samples composed of hundreds
or thousands of individuals. Therefore, emerges the necessity to confront a challenge of
selecting the most informative SNPs in genotype data set where the number of attributes
are, usually, much higher than the number of individuals. Besides, the possibility of
highly correlated attributes should be considered, as well as interactions between pairs,
trios or combinations of high order SNPs. The most usual methods applied on genomewide
association studies adopt the p-value of each SNP as a lter to select the SNPs most
signi cant. For continuous phenotypes the statistical regression-based hypothesis test is
used and the Chi-Square test or similar for classi cation of discrete phenotypes. However,
this class of methods capture only SNPs with additive e ects, due to the linear relationship
considered. In an attempt to overcome the limitations of established procedures, this
work proposes a new SNPs selection method, named SNP Markers Selector (SMS), based
on Machine Learning and Computational Intelligence strategies. The model is built
considering an approach which divides the SNPs selection problem in three distinct phases:
the rst related to the evaluation of the markers relevance, a second responsible for the
de nition of the set of the relevant markers that will be considered by means of a cut
strategy based on a threshold of markers relevance and, nally, a phase for the re nement
of the cut process, usually to diminish false-positive markers. In the SMS, these three
steps were implemented using Random Forests, Support Vector Machine and Genetic
Algorithms, respectively. The SMS intends to create a work ow that maximizes the SNPs
selection potential of the model due to the adoption of steps considered complementary.
In this way, there is an increasing expectation on the performance of the SMS to capture
additive e ects, moderate non-additive interaction between pairs and trios of SNPs,
or even, higher order interactions with minimally detectable e ects. The SMS can be
applied both in regression problems (continuous phenotype) as in classi cation problems
(discrete phenotype). Numerical experiments were performed to evaluate the potential
of the strategy, with the method being applied in seven sets of simulated data and in a
real data set, where milk production capacity predicated of dairy cows was measured as
continuous phenotype. Besides, the comparison of the proposed method with methods
based on p-value and Lasso Bayesian technique indicate, in general, competitive results
from the point of view of true-positive SNPs using simulated data set with additive e ects
in conjunction with interactions of pairs and trios of SNPs. In the real data, based on
56,947 SNPs and a single phenotype of milk production, the method identi ed 245 QTLs
associated with milk production and composition and 90 candidate genes associated with
mastitis, milk production and composition, standing out that these QTLs and genes
were identi ed by previous studies using other selection methods. Thus, the experiments
showed the potential of the method in relation to other strategies when complex scenarios
with simulated or real data are adopted, indicating that the work ow developed to guide
the construction of the method should be considered for genome-wide asociation studies
in humans, animals and plants.

Identiferoai:union.ndltd.org:IBICT/oai:hermes.cpd.ufjf.br:ufjf/1397
Date26 November 2015
CreatorsOliveira, Fabrízzio Condé de
ContributorsBorges, Carlos Cristiano Hasenclever, Arbex, Wagner Antonio, Goliatt, Priscila Vanessa Zabala Capriles, Fonseca Neto, Raul, Silva, Fabyano Fonseca e
PublisherUniversidade Federal de Juiz de Fora, Programa de Pós-graduação em Modelagem Computacional, UFJF, Brasil, ICE – Instituto de Ciências Exatas
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFJF, instname:Universidade Federal de Juiz de Fora, instacron:UFJF
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0033 seconds