• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • 1
  • Tagged with
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Probabilistic Models for Genetic and Genomic Data with Missing Information

Hicks, Stephanie 16 September 2013 (has links)
Genetic and genomic data often contain unobservable or missing information. Applications of probabilistic models such as mixture models and hidden Markov models (HMMs) have been widely used since the 1960s to make inference on unobserved information using some observed information demonstrating the versatility and importance of these models. Biological applications of mixture models include gene expression data, meta-analysis, disease mapping, epidemiology and pharmacology and applications of HMMs include gene finding, linkage analysis, phylogenetic analysis and identifying regions of identity-by-descent. An important statistical and informatics challenge posed by modern genetics is to understand the functional consequences of genetic variation and its relation to phenotypic variation. In the analysis of whole-exome sequencing data, predicting the impact of missense mutations on protein function is an important factor in identifying and determining the clinical importance of disease susceptibility mutations in the absence of independent data determining impact on disease. In addition to the interpretation, identifying co-inherited regions of related individuals with Mendelian disorders can further narrow the search for disease susceptibility mutations. In this thesis, we develop two probabilistic models in application of genetic and genomic data with missing information: 1) a mixture model to estimate a posterior probability of functionality of missense mutations and 2) a HMM to identify co-inherited regions in the exomes of related individuals. The first application combines functional predictions from available computational or {\it in silico} methods which often have a high degree of disagreement leading to conflicting results for the user to assess the pathogenic impact of missense mutations on protein function. The second application considers extensions of a first-order HMM to include conditional emission probabilities varying as a function of minor allele frequency and a second-order dependence structure between observed variant calls. We apply these models to whole-exome sequencing data and show how these models can be used to identify disease susceptibility mutations. As disease-gene identification projects increasingly use next-generation sequencing, the probabilistic models developed in this thesis help identify and associate relevant disease-causing mutations with human disorders. The purpose of this thesis is to demonstrate that probabilistic models can contribute to more accurate and dependable inference based on genetic and genomic data with missing information.
2

Approches bio-informatiques protéome-centrées pour l’étude des phénotypes complexes

Besse, Savandara Ladyson 12 1900 (has links)
Parmi les différents acteurs impliqués dans le dogme de la biologie moléculaire, les protéines sont des unités biologiques fonctionnelles contribuant à de nombreux processus biologiques. Dans la compréhension de la relation génotype-phénotype, il est important d’étudier l'influence de gènes, ou de variants génétiques, sur des mécanismes moléculaires spécifiques, permettant d’expliquer la variance phénotypique de traits dits complexes. Dans cette thèse nous allons démontrer l’intérêt de proposer différentes stratégies bio-informatiques protéome-centrées pour l’étude de phénotypes complexes. Dans une première étude, nous mettons en avant comment l'utilisation de la génomique comparative, couplée à l'analyse de la propension d'agrégation des protéines, permet d'identifier certains groupes de protéines avec des différences significatives entre espèces dans leurs propriétés intrinsèques contribuant à la protéostase cellulaire. Ce mécanisme est proposé dans cette thèse comme hypothèse de travail pour étudier les différences d'espérance de vie chez les rongeurs: ce travail est réalisée sur deux espèces phylogénétiquement proches, le rat taupe-nu et la souris, mais possédant des différences phénotypiques dans le contexte du vieillissement. Dans une seconde étude, nous proposons une nouvelle méthodologie s'appuyant sur l'étude quantitative des réseaux d'interaction protéine-protéine afin d'identifier les déterminants génétiques qui seraient responsables de la variation de ces interactions, suite à une stimulation médicamenteuse dans une population de levures génétiquement diversifiées. Ces travaux de recherche étudient le protéome et ses interactions et permettent de proposer une abstraction originale des phénotypes complexes. / Among the different actors involved in the dogma of molecular biology, proteins are functional biological units contributing to many biological processes. In the understanding of the genotype-phenotype relationship, it is important to study the influence of genes, or genetic variants, on specific molecular mechanisms, allowing to explain the phenotypic variance of so-called complex traits. In this thesis we will demonstrate the interest of proposing different proteome-centric bioinformatics strategies for the study of complex phenotypes. In a first study, we highlight how the use of comparative genomics, coupled with the analysis of the aggregation propensity of proteins, allows to identify some groups of proteins with significant differences between species in their intrinsic properties contributing to cellular proteostasis. This mechanism is proposed in this thesis as a working hypothesis to study differences in life expectancy in rodents: this work is performed on two phylogenetically related species, the mole rat and the mouse, but with phenotypic differences in the context of aging. In a second study, we propose a new methodology based on the quantitative study of protein-protein interaction networks in order to identify the genetic determinants that would be responsible for the variation of these interactions, following a drug stimulation in a genetically diversified yeast population. This research studies the proteome and its interactions and proposes an original abstraction of complex phenotypes.
3

Analyse intégrative de données de grande dimension appliquée à la recherche vaccinale / Integrative analysis of high-dimensional data applied to vaccine research

Hejblum, Boris 06 March 2015 (has links)
Les données d’expression génique sont reconnues comme étant de grande dimension, etnécessitant l’emploi de méthodes statistiques adaptées. Mais dans le contexte des essaisvaccinaux, d’autres mesures, comme par exemple les mesures de cytométrie en flux, sontégalement de grande dimension. De plus, ces données sont souvent mesurées de manièrelongitudinale. Ce travail est bâti sur l’idée que l’utilisation d’un maximum d’informationdisponible, en modélisant les connaissances a priori ainsi qu’en intégrant l’ensembledes différentes données disponibles, améliore l’inférence et l’interprétabilité des résultatsd’analyses statistiques en grande dimension. Tout d’abord, nous présentons une méthoded’analyse par groupe de gènes pour des données d’expression génique longitudinales. Ensuite,nous décrivons deux analyses intégratives dans deux études vaccinales. La premièremet en évidence une sous-expression des voies biologiques d’inflammation chez les patientsayant un rebond viral moins élevé à la suite d’un vaccin thérapeutique contre le VIH. Ladeuxième étude identifie un groupe de gènes lié au métabolisme lipidique dont l’impactsur la réponse à un vaccin contre la grippe semble régulé par la testostérone, et donc liéau sexe. Enfin, nous introduisons un nouveau modèle de mélange de distributions skew t àprocessus de Dirichlet pour l’identification de populations cellulaires à partir de donnéesde cytométrie en flux disponible notamment dans les essais vaccinaux. En outre, nousproposons une stratégie d’approximation séquentielle de la partition a posteriori dans lecas de mesures répétées. Ainsi, la reconnaissance automatique des populations cellulairespourrait permettre à la fois une avancée pratique pour le quotidien des immunologistesainsi qu’une interprétation plus précise des résultats d’expression génique après la priseen compte de l’ensemble des populations cellulaires. / Gene expression data is recognized as high-dimensional data that needs specific statisticaltools for its analysis. But in the context of vaccine trials, other measures, such asflow-cytometry measurements are also high-dimensional. In addition, such measurementsare often repeated over time. This work is built on the idea that using the maximum ofavailable information, by modeling prior knowledge and integrating all data at hand, willimprove the inference and the interpretation of biological results from high-dimensionaldata. First, we present an original methodological development, Time-course Gene SetAnalysis (TcGSA), for the analysis of longitudinal gene expression data, taking into accountprior biological knowledge in the form of predefined gene sets. Second, we describetwo integrative analyses of two different vaccine studies. The first study reveals lowerexpression of inflammatory pathways consistently associated with lower viral rebound followinga HIV therapeutic vaccine. The second study highlights the role of a testosteronemediated group of genes linked to lipid metabolism in sex differences in immunologicalresponse to a flu vaccine. Finally, we introduce a new model-based clustering approach forthe automated treatment of cell populations from flow-cytometry data, namely a Dirichletprocess mixture of skew t-distributions, with a sequential posterior approximation strategyfor dealing with repeated measurements. Hence, the automatic recognition of thecell populations could allow a practical improvement of the daily work of immunologistsas well as a better interpretation of gene expression data after taking into account thefrequency of all cell populations.

Page generated in 0.0932 seconds