1 |
Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques / Learning from genomic data : efficient representations and algorithms.Le Morvan, Marine 03 July 2018 (has links)
Depuis le premier séquençage du génome humain au début des années 2000, de grandes initiatives se sont lancé le défi de construire la carte des variabilités génétiques inter-individuelles, ou bien encore celle des altérations de l'ADN tumoral. Ces projets ont posé les fondations nécessaires à l'émergence de la médecine de précision, dont le but est d'intégrer aux dossiers médicaux conventionnels les spécificités génétiques d'un individu, afin de mieux adapter les traitements et les stratégies de prévention. La traduction des variations et des altérations de l'ADN en prédictions phénotypiques constitue toutefois un problème difficile. Les séquenceurs ou puces à ADN mesurent plus de variables qu'il n'y a d'échantillons, posant ainsi des problèmes statistiques. Les données brutes sont aussi sujettes aux biais techniques et au bruit inhérent à ces technologies. Enfin, les vastes réseaux d'interactions à l'échelle des protéines obscurcissent l'impact des variations génétiques sur le comportement de la cellule, et incitent au développement de modèles prédictifs capables de capturer un certain degré de complexité.Cette thèse présente de nouvelles contributions méthodologiques pour répondre à ces défis.Tout d'abord, nous définissons une nouvelle représentation des profils de mutations tumorales, qui exploite leur position dans les réseaux d'interaction protéine-protéine. Pour certains cancers, cette représentation permet d'améliorer les prédictions de survie à partir des données de mutations, et de stratifier les cohortes de patients en sous-groupes informatifs. Nous présentons ensuite une nouvelle méthode d'apprentissage permettant de gérer conjointement la normalisation des données et l'estimation d'un modèle linéaire. Nos expériences montrent que cette méthode améliore les performances prédictives par rapport à une gestion séquentielle de la normalisation puis de l'estimation. Pour finir, nous accélérons l'estimation de modèles linéaires parcimonieux, prenant en compte des interactions deux à deux, grâce à un nouvel algorithme. L'accélération obtenue rend cette estimation possible et efficace sur des jeux de données comportant plusieurs centaines de milliers de variables originales, permettant ainsi d'étendre la portée de ces modèles aux données des études d'associations pangénomiques. / Since the first sequencing of the human genome in the early 2000s, large endeavours have set out to map the genetic variability among individuals, or DNA alterations in cancer cells. They have laid foundations for the emergence of precision medicine, which aims at integrating the genetic specificities of an individual with its conventional medical record to adapt treatment, or prevention strategies.Translating DNA variations and alterations into phenotypic predictions is however a difficult problem. DNA sequencers and microarrays measure more variables than there are samples, which poses statistical issues. The data is also subject to technical biases and noise inherent in these technologies. Finally, the vast and intricate networks of interactions among proteins obscure the impact of DNA variations on the cell behaviour, prompting the need for predictive models that are able to capture a certain degree of complexity. This thesis presents novel methodological contributions to address these challenges. First, we define a novel representation for tumour mutation profiles that exploits prior knowledge on protein-protein interaction networks. For certain cancers, this representation allows improving survival predictions from mutation data as well as stratifying patients into meaningful subgroups. Second, we present a new learning framework to jointly handle data normalisation with the estimation of a linear model. Our experiments show that it improves prediction performances compared to handling these tasks sequentially. Finally, we propose a new algorithm to scale up sparse linear models estimation with two-way interactions. The obtained speed-up makes this estimation possible and efficient for datasets with hundreds of thousands of main effects, thereby extending the scope of such models to the data from genome-wide association studies.
|
2 |
A modeling perspective on Candida albicans' interactions with its human hostTyc, Katarzyna Marta 25 February 2013 (has links)
Ansätze der mathematischen Modellierung ermöglichen die Analyse der dynamischen Eigenschaften biologischer Systeme und den Einfluß spezifischer Funktionen. Das Ziel dieser Arbeit ist es verschiedene Aspekte der Interaktionen zwischen Wirt und Krankheitserregern zu analysieren. In Kapitel 3 diskutiere ich ein Modell der zellulären Antwort auf Hitzeschockstress im Pilz Candida albicans. Das Modell in Form von gewöhnlichen Differentialgleichungen erörtert mehrere Aspekte des Systems, wie z.B. die erworbene Thermotoleranz und eine perfekte Anpassung an die Beanspruchung durch die Temperaturwechsel. Im Rahmen der Interaktionen zwischen Wirt und Krankheitserreger ist die Studie relevant, da die Entwicklung von Fieber eine primäre Antwort des Organismus auf eine Pilzinvasion ist. Die Dynamik von C. albicans Virulenzfaktoren, wie z.B. der Übergang vom Hefe- zum Hyphenstadium, und die Abwehrmechanismen des Wirts bestimmen den Zustand des Pilzes, d.h. ob er als Kommensale oder Krankheitserreger vorkommt. Mit Hilfe einer agenten-basierten Modellierungstechnik, in Kapitel 4, untersuche ich die Auswirkungen potenzieller medikamentöser Behandlungen von Pilzpopulationen und ihre Effektivität. In Kapitel 5 analysiere ich die Dynamik der C. albicans Hefe- und Hyphenpopulationen unter der Annahme, das zwischen den Individuen beider Populationen paarweise Wechselwirkungen bestehen, die zusätzlich von Fresszellen und Ernährungsbedingungen beeinflusst werden. Das erste Modell basiert auf den Prinzipien der Spieltheorie. Aus dieser Studie lässt sich die Hypothese aufstellen, dass sich im Verlauf der Infektion die evolutionäre Spieldynamik von der Snowdrift Spieldynamik in Richtung Gefangendilemma verschiebt. Im zweiten Modell untersuche ich die Umschaltraten zwischen Hefen und Hyphen. Das Modell zeigt, dass in Pilzpopulationen die Ausprägung verschiedener Phänotypen der Grund für die erhöhte Überlebensfähigkeit der Population sein könnte. / Mathematical modeling approaches facilitate the analysis of dynamic properties of mechanisms triggering specific functions of biological systems. Through this work I aim to shed light on various aspects of host-pathogen interactions. In Chapter 3, I discuss a model of heat shock stress response activated in the fungus Candida albicans. The model in form of ordinary differential equations reveals several features of the system, such as acquired thermotolerance and a perfect molecular adaptation to the thermal insult. The study is relevant in the context of host-pathogen interactions since development of fever is a primary host response to fungal invasion. The dynamics of C. albicans virulence factors, e.g., yeast to hypha transition, and defense mechanisms of the host determine the state of the fungi, i.e. whether to act as a commensal or as a foe. Through application of an agent-based modeling technique, in Chapter 4, I investigate effects of potential drug treatments on fungal populations and their effectivity in the fungal clearance. In Chapter 5, I analyze the dynamics of candida yeast and hyphal populations assuming pairwise interactions influenced by phagocytic cells and nutritional conditions. The first model is based on game theory principles. From the study it can be hypothesized that during the course of infection the evolutionary game dynamics shift from Snowdrift game dynamics toward Prisoners’ dilemma. In the second model, I examine switching rates between yeast and hypha. The model reveals that phenotypic variations may occur in order to increase the fitness of the population.
|
Page generated in 0.1279 seconds