Spelling suggestions: "subject:"oon gaussian data"" "subject:"oon maussian data""
1 |
Variable selection for generalized linear mixed models and non-Gaussian Genome-wide associated study dataXu, Shuangshuang 11 June 2024 (has links)
Genome-wide associated study (GWAS) aims to identify associated single nucleotide polymorphisms (SNP) for phenotypes. SNP has the characteristic that the number of SNPs is from hundred of thousands to millions. If p is the number of SNPs and n is the sample size, it is a p>>n variable selection problem. To solve this p>>n problem, the common method for GWAS is single marker analysis (SMA). However, since SNPs are highly correlated, SMA identifies true causal SNPs with high false discovery rate. In addition, SMA does not consider interaction between SNPs. In this dissertation, we propose novel Bayesian variable selection methods BG2 and IBG3 for non-Gaussian GWAS data. To solve ultra-high dimension problem and highly correlated SNPs problem, BG2 and IBG3 have two steps: screening step and fine-mapping step. In the screening step, BG2 and IBG3, like SMA method, only have one SNP in one model and screen to obtain a subset of most associated SNPs. In the fine-mapping step, BG2 and IBG3 consider all possible combinations of screened candidate SNPs to find the best model. Fine-mapping step helps to reduce false positives. In addition, IBG3 iterates these two steps to detect more SNPs with small effect size. In simulation studies, we compare our methods with SMA methods and fine-mapping methods. We also compare our methods with different priors for variables, including nonlocal prior, unit information prior, Zellner-g prior, and Zellner-Siow prior. Our methods are applied to substance use disorder (alcohol comsumption and cocaine dependence), human health (breast cancer), and plant science (the number of root-like structure). / Doctor of Philosophy / Genome-wide associated study (GWAS) aims to identify genomics variants for targeted phenotype, such as disease and trait. The genomics variants which we are interested in are single nucleotide polymorphisms (SNP). SNP is a substitution mutation in the DNA sequence. GWAS solves the problem that which SNP is associated with the phenotype. However, the number of possible SNPs is from hundred of thousands to millions. The common method for GWAS is called single marker analysis (SMA). SMA only considers one SNP's association with the phenotype each time. In this way, SMA does not have the problem which comes from the large number of SNPs and small sample size. However, SMA does not consider the interaction between SNPs. In addition, SNPs that are close to each other in the DNA sequance may highly correlated SNPs causing SMA to have high false discovery rate. To solve these problems, this dissertation proposes two variable selection methods (BG2 and IBG3) for non-Gaussian GWAS data. Compared with SMA methods, BG2 and IBG3 methods detect true causal SNPs with low false discovery rate. In addition, IBG3 can detect SNPs with small effect sizes. Our methods are applied to substance use disorder (alcohol comsumption and cocaine dependence), human health (breast cancer), and plant science (the number of root-like structure).
|
2 |
Méthodes statistiques pour la détection de QTL : nouveaux développements et applications chez le canard mulard / *Kileh Wais, Mohamed 06 September 2012 (has links)
La recherche de QTL par régression des phénotypes sur les probabilités de transmission (modèle Haley-Knott) est une méthode très largement utilisée quand on dispose de grandes familles phénotypées par des caractères gaussiens. L'objectif de cette thèse d'un point de vue méthodologique, est de proposer une méthode de détection de QTL qui prend en compte des effectifs de familles petits d'une part, et l'existence de caractères discrets d'autre part. Ainsi, nous proposons, pour répondre à la première question, une approche de détection de QTL intégrant dans le calcul du mérite génétique des individus marqués, les performances calculées sur n générations de descendants. L'obtention d'un mérite génétique dérégressé comme substitut de phénotypes, proposé notamment par Weller et al (1990) et Tribout et al (2008), est donc généralisée. Ensuite, sont présentés les résultats de comparaisons d'un modèle supposant la normalité des données à un modèle à seuils faisant l'hypothèse d'une distribution continue sous jacente à la distribution observée dans la détection de QTL des caractères discrets. Nous démontrons ici que le modèle discret est plus précis et plus puissant quand le caractère étudié possède trois modalités distribuées de façon déséquilibrée dans la population.Dans la deuxième partie de la thèse, l'analyse des données du protocole GENECAN a été réalisée. Il s'agit d'identifier les régions du génome ou locus à caractère quantitatif (QTL), associées à des caractères d'intérêt mesurés sur des canards mulards gavés. Le canard mulard est un hybride interspécifique obtenu par croisement d'une cane commune (Anas platyrhynchos) et d'un canard de Barbarie (Cairina moschata). Trois cents quarante deux canes communes conçues en back-cross (BC) ont été générées par croisement d'une lignée de canard Kaiya et d'une lignée de canard Pékin lourd. Ces femelles BC ont été accouplées avec des canards de Barbarie pour produire 1600 canards mulards sur lesquels sont effectuées des mesures de croissance, de métabolisme au cours de la période de croissance et du gavage, d'aptitude au gavage et de qualités du magret et du foie gras. La valeur phénotypique des femelles BC marquées a été estimée, pour chaque caractère, comme étant la valeur moyenne des phénotypes de sa progéniture et pondérée par un coefficient de détermination (CD) fonction du nombre de descendants et de l'héritabilité du caractère étudié. Une carte génétique de 91 marqueurs microsatellites réparties sur 16 groupes de liaison (GL) et couvrant un total de 778 cM a été utilisée. Dans le cadre de l'analyse uni-caractère, vingt-deux QTL significatifs à 1% au niveau du chromosome ont été cartographiés. Ces QTLs sont pour la plupart impliqués dans la variabilité de la qualité du magret et du foie gras. Les zones chromosomiques d'intérêt, identifiées dans le cadre de cette étude devront dans le futur, être densifiées en marqueurs pour faire l'objet d'une cartographie fine. / QTL detection using the regression of phenotypes on transmission probability is largely used when large families phenotyped for Gaussian trait are available. The aim of this thesis from a methodological point of view, is to propose a method for detection of QTL that takes into account the small number of families on the one hand, and the existence of discrete traits on the other. Thus, we propose to answer the first question, an QTL detection approach, integrating in the calculation of genetic merit of genotyped individuals, the performances calculated over n generations of descendants. The use of a ‘de-regressed proof' as a phenotype to be analysed, proposed by Weller et al. (1990) and Tribout et al. (2008) is generalized. Next, we present the results of comparisons of a model assuming normality of the data to a thresholds model assuming a continuous distribution underlying the observed distribution in the QTL detection of discrete traits. Here we demonstrate that the discrete model is more accurate and more powerful when the studied trait has three modalities distributed unevenly in the population.In the second part of the thesis, the data analysis of GENECAN protocol was performed. This is to identify genomic regions or quantitative trait locus (QTL) associated with interest traits measured on over-feed mule ducks. The mule duck is an hybrid duck from a female Common duck (Anas Platyrhynchos) and a Muscovy drake (Cairina moschata). Three hundred forty two common ducks designed by back-cross (BC) were generated by crossing a line of Kaiya duck and a heavy line of Pekin duck. These BC females were mated with Muscovy ducks to produce 1600 mules ducks which undergo measures of growth, metabolism during the growth and over-feeding periods, over-feeding, of breast muscle and fatty liver qualities. The phenotypic value of genotyped BC females was estimated for each trait as the average phenotypes of their offspring and weighted by a coefficient of determination (CD) function on the number of offspring and heritability of the studied trait. The genetic map comprised 91 microsatellite markers aggregated into 16 linkage groups (LG) and representing 778 cM. For the uni-trait analysis, twenty-two QTL significant at 1% threshold in chromosome-wide have been mapped. These QTLs are mostly involved in the variability of the breast muscle and fatty liver qualities. Chromosomal regions of interest identified in the framework of this study should be in the future be densified to markers to do the fine mapping.
|
3 |
Integration-based Kalman-filtering for a Dynamic Generalized Linear Trend ModelSchnatter, Sylvia January 1991 (has links) (PDF)
The topic of the paper is filtering for non-Gaussian dynamic (state space) models by approximate computation of posterior moments using numerical integration. A Gauss-Hermite procedure is implemented based on the approximate posterior mode estimator and curvature recently proposed in 121. This integration-based filtering method will be illustrated by a dynamic trend model for non-Gaussian time series. Comparision of the proposed method with other approximations ([15], [2]) is carried out by simulation experiments for time series from Poisson, exponential and Gamma distributions. (author's abstract) / Series: Forschungsberichte / Institut für Statistik
|
4 |
Inférence de réseaux pour modèles inflatés en zéro / Network inference for zero-inflated modelsKarmann, Clémence 25 November 2019 (has links)
L'inférence de réseaux ou inférence de graphes a de plus en plus d'applications notamment en santé humaine et en environnement pour l'étude de données micro-biologiques et génomiques. Les réseaux constituent en effet un outil approprié pour représenter, voire étudier des relations entre des entités. De nombreuses techniques mathématiques d'estimation ont été développées notamment dans le cadre des modèles graphiques gaussiens mais aussi dans le cas de données binaires ou mixtes. Le traitement des données d'abondance (de micro-organismes comme les bactéries par exemple) est particulier pour deux raisons : d'une part elles ne reflètent pas directement la réalité car un processus de séquençage a lieu pour dupliquer les espèces et ce processus apporte de la variabilité, d'autre part une espèce peut être absente dans certains échantillons. On est alors dans le cadre de données inflatées en zéro. Beaucoup de méthodes d'inférence de réseaux existent pour les données gaussiennes, les données binaires et les données mixtes mais les modèles inflatés en zéro sont très peu étudiés alors qu'ils reflètent la structure de nombreux jeux de données de façon pertinente. L'objectif de cette thèse concerne l'inférence de réseaux pour les modèles inflatés en zéro. Dans cette thèse, on se limitera à des réseaux de dépendances conditionnelles. Le travail présenté dans cette thèse se décompose principalement en deux parties. La première concerne des méthodes d'inférence de réseaux basées sur l'estimation de voisinages par une procédure couplant des méthodes de régressions ordinales et de sélection de variables. La seconde se focalise sur l'inférence de réseaux dans un modèle où les variables sont des gaussiennes inflatées en zéro par double troncature (à droite et à gauche). / Network inference has more and more applications, particularly in human health and environment, for the study of micro-biological and genomic data. Networks are indeed an appropriate tool to represent, or even study, relationships between entities. Many mathematical estimation techniques have been developed, particularly in the context of Gaussian graphical models, but also in the case of binary or mixed data. The processing of abundance data (of microorganisms such as bacteria for example) is particular for two reasons: on the one hand they do not directly reflect reality because a sequencing process takes place to duplicate species and this process brings variability, on the other hand a species may be absent in some samples. We are then in the context of zero-inflated data. Many graph inference methods exist for Gaussian, binary and mixed data, but zero-inflated models are rarely studied, although they reflect the structure of many data sets in a relevant way. The objective of this thesis is to infer networks for zero-inflated models. In this thesis, we will restrict to conditional dependency graphs. The work presented in this thesis is divided into two main parts. The first one concerns graph inference methods based on the estimation of neighbourhoods by a procedure combining ordinal regression models and variable selection methods. The second one focuses on graph inference in a model where the variables are Gaussian zero-inflated by double truncation (right and left).
|
Page generated in 0.0564 seconds