O grande desafio da Epidemiologia Genética, atualmente, é identificar, em um espaço de variáveis preditoras de alta dimensão e esparso, fatores de risco genéticos para doenças complexas. Um delineamento amostral útil nestes estudos é coletar dados de trios, que são pequenos núcleos familiares (pai e mãe, livres da doença, e filho afetado) e, em cada indivíduo, obter dados do genótipo de marcadores moleculares, sendo a plataforma de marcadores do tipo SNPs (do inglês, Single Nucleotide Polymorphism), com cerca de 1 milhão de variáveis preditoras genéticas, a mais adotada. Neste trabalho é proposto um procedimento em múltiplos estágios para identificar SNPs associados com a doença em dados de trios. A primeira etapa do procedimento é baseada em uma série de análises unilocos (para cada variável preditora), usando um teste de simetria em tabelas de contingência 2 x 2 (conhecido, em Genética, como teste TDT, do inglês, Transmission Disequilibrium Test). Em um segundo estágio da análise, os resultados destes testes são usados para construir uma estatística de somas acumuladas padronizadas (CUSUM) que permite a seleção de conjuntos de SNPs (isto é, conjuntos de variáveis preditoras), possivelmente associados com a doença. Como um terceiro passo da análise, nas regiões selecionadas no passo dois, são realizadas análises de simetria via testes exatos considerando tabelas 2 x 2 e 4 x 4 (pares de SNPs). A formulação do TDT em termos de testes de simetria é uma inovação na área de Genética e facilita a extensão do caso uniloco para o multilocos. A contribuição deste trabalho reside ainda na formulação exata do teste que é útil em situações de amostras pequenas que ocorrem com frequência em dados de trios. Neste caso inferências parciais foram realizadas a partir de decomposições apropriadas da função de verossimilhança. A modelagem do problema em termos do modelo logístico permitiu concluir que não é necessário corrigir a associação para o efeito de covariáveis avaliadas nos pais. O procedimento é implementado usando recursos dos aplicativos PLINK e R. A aplicação é realizada utilizando dados de 71 trios da população brasileira, em que os indivíduos caso (filhos) foram definidos em termos da ocorrência de uma cardiopatia e, em cada um dos 213 indivíduos, estão disponíveis dados genéticos de uma plataforma de SNPs. / Currently, the great challenge of Genetic Epidemiology is to identify, in a high dimensional and sparse space of predictor variables, genetic risk factors for complex diseases. A useful sampling design in these studies is to collect data from trios, which are small nuclear families (father and mother, free from disease, and affected child), and obtain genotypic information from each individual. The molecular markers platform most commonly used for this purpose is of SNPs (Single Nucleotide Polymorphisms), with about 1 million genetic predictor variables. This work proposes a multi-stage procedure to identify SNPs associated with disease using data from trios. The first step of the procedure is based on a series of single locus analysis (for each predictor variable) using a test for symmetry in 2 x 2 contingency tables (known in genetics as TDT (Transmission Disequilibrium Test). In a second stage of the analysis, the results of these tests are used to construct a standard statistic of the cumulative sums (CUSUM), which allows the selection of sets of adjacent SNPs (ie, sets of predictor variables), possibly associated with the disease. As a third step of the analysis, in the regions selected in step two, are performed an extended analysis of symmetry considering 4 x 4 contingency tables. The TDT formulation in terms of symmetry tests is an innovation in the genetics area and facilitates the extension of the single locus analysis to the multiloci case. The contribution of this work lies in the exact formulation of the symmetry test for square contingency tables that is useful in situations of small sample sizes that often occur in data from trios. In this case, partial inferences were performed from appropriate decompositions of the likelihood function. The structural modeling of the problem in terms of logistic model allowed us to conclude that there is no need to adjust the association for data from parents, but only for the effect of covariates evaluated in each parental haplotype. The procedure is implemented using resources of the R statistical environment and Plink. The application is performed using real data from 71 trios of the Southeast Brazilian population, in which affected child was defined in terms of the occurrence of one congenital heart disease, and in each of the 213 individuals, genomic data were collected using Affymetrix SNP 6.0 platform.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-20082012-101909 |
Date | 02 December 2011 |
Creators | Maria Jacqueline Batista |
Contributors | Julia Maria Pavan Soler, Dalton Francisco de Andrade, Clarice Garcia Borges Demetrio, Suely Ruiz Giolo, Carlos Alberto de Braganca Pereira |
Publisher | Universidade de São Paulo, Estatística, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0024 seconds