Global ETD Search

1	Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress / Enrichment of transcription profiles by integration of heterogeneous data : functional annotation of Arabidospis thaliana genes involved in stress responses Zaag, Rim 20 June 2016 (has links) À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d’annotation récentes reposent sur l’hypothèse d’association par culpabilité et s’appuient sur l’intégration de données pour la recherche de partenaires fonctionnels. Cependant, la majorité de ces méthodes souffrent de l’hétérogénéité des données et du manque de spécificité du contexte biologique ce qui expliquerait un taux élevé de faux positifs parmi les prédictions. Ce travail de thèse développe une approche intégrative de données moléculaires contrôlant leur hétérogénéité pour annoter des gènes d’Arabidopsis thaliana impliqués dans la réponse aux stress. Les contributions majeures de cette thèse sont: (1) l'annotation fonctionnelle de groupes de gènes coexprimés par l'intégration de données omiques (2) la construction d'un réseau de corégulation par une analyse transversale des groupes coexprimés qui renforce les liens fonctionnels entre les gènes. (3) le développement d’une méthode d’apprentissage supervisé pour l’inférence de fonction centrée sur les termes de la GO Slim en contrôlant le FDR. En identifiant une règle de décision par terme, cette méthode a permis de prédire la fonction de 47 gènes partiellement annotés ou orphelins. / In the era of computational biology, functional annotation remains a major challenge. Recent annotation methods are based on the guilt by association assumption and rely on data integration to identify functional partners. However, most of these methods suffer from data heterogeneity and a lack of biological context specificity which would probably explain the high rate of false positives among predictions. This thesis develops an approach of molecular data integration controlling their heterogeneity in order to annotate Arabidopsis thaliana genes involved in stress response. The major contributions of this thesis are: (1) functional annotation of groups of co-expressed genes by omics data integration (2) the construction of a coregulatory gene network through a cross-analysis of the coexpressed groups strengthening the functional links between genes (3) the development of a supervised learning method for the inference of gene function centered on the GO Slim terms with a control of the FDR. By identifying a decision rule by term, this method was used to predict the function of 47 orphan or partially annotated genes. Annotation fonctionnelle Réseaux de gènes
2	Modélisation multiéchelle de perturbation de la phyllotaxie d'Arabidopsis thaliana Refahi, Yassin 15 November 2011 (has links) (PDF) Dans cette thèse nous nous intéressons à la manière dont la structure des plantes émerge du fonctionnement de leur méristème apical. Pour cela, nous étudions la structure du méristème apical d'Arabidopsis thaliana à différentes échelles. La thèse commence par étudier les plantes à l'échelle macroscopique dont la phyllotaxie a été perturbée et par le développement d'outils mathématiques pour quantifier et analyser ces perturbations. Ensuite, nous étudions à une échelle plus microscopiques quelles peuvent être les raisons de telles perturbations. Pour cela, nous avons testé une version étendue d'un modèle proposé par Douady et Couder (1996) dans lequel plusieurs paramètres clés sont modifiés par différentes sources de bruit. Cette étude de modélisation suggère que la stabilité de la taille de la zone de la zone centrale peut être un facteur clé dans la robustesse phyllotaxie. Alors que des modèles 3D réalistes des champs d'inhibition autour des primordia ont été développés récemment, une telle étude est toujours manquante pour les tissus réalistes en 3D dans le cas de la zone centrale. Cela nous conduit finalement à analyser en profondeur le réseau de régulation génétique qui contrôle la taille de la zone centrale dans le méristème. Nous avons implémenté une version 3D d'un modèle de la littérature de la zone centrale et testé ce modèle sur des méristèmes 3D obtenues à partir des images 3D de la microscopie laser. Arabidopsis thaliana Phyllotaxie Réseaux de gènes
3	Modélisation multiéchelle de perturbation de la phyllotaxie d'Arabidopsis thaliana / Multiscale modelling of Arabidopsis thaliana phyllotaxis perturbation Refahi, Yassin 15 November 2011 (has links) Dans cette thèse nous nous intéressons à la manière dont la structure des plantes émerge du fonctionnement de leur méristème apical. Pour cela, nous étudions la structure du méristème apical d'Arabidopsis thaliana à différentes échelles. La thèse commence par étudier les plantes à l'échelle macroscopique dont la phyllotaxie a été perturbée et par le développement d'outils mathématiques pour quantifier et analyser ces perturbations. Ensuite, nous étudions à une échelle plus microscopiques quelles peuvent être les raisons de telles perturbations. Pour cela, nous avons testé une version étendue d'un modèle proposé par Douady et Couder (1996) dans lequel plusieurs paramètres clés sont modifiés par différentes sources de bruit. Cette étude de modélisation suggère que la stabilité de la taille de la zone de la zone centrale peut être un facteur clé dans la robustesse phyllotaxie. Alors que des modèles 3D réalistes des champs d'inhibition autour des primordia ont été développés récemment, une telle étude est toujours manquante pour les tissus réalistes en 3D dans le cas de la zone centrale. Cela nous conduit finalement à analyser en profondeur le réseau de régulation génétique qui contrôle la taille de la zone centrale dans le méristème. Nous avons implémenté une version 3D d'un modèle de la littérature de la zone centrale et testé ce modèle sur des méristèmes 3D obtenues à partir des images 3D de la microscopie laser. / In this dissertation we are interested in how shoot structure emerges from the functioning of their apical meristem. For this, we investigate the structure of Arabidopsis thaliana shoot apical meristem at different scales. The thesis starts by studying at macroscopic scale plants in which the regularity of phyllotaxis has been perturbed and developing mathematical tools to quantify and analyze such complex patterns. Then we try to investigate at more microscopic scales what can be the reasons for such perturbations. For this we tested an extended version of Douady and Couder's model (1996) in which several key parameters are varied by adding different sources of noise. This modeling study enables us to hypothesize that the stability in size of both the primordia inhibition zone and the central zone may be key factors in phyllotaxis robustness. While realistic 3D models of primordia inhibitory fields have been developed recently, such a study is still missing for realistic 3D tissues in the case of the central zone. This lead us finally to analyze in depth the gene regulatory network that controls the size of the central zone in the meristem. We implemented a 3D version of a model in literature modulating the size of the central zone and tested this model on 3D meristem cellular structures obtained from 3D laser microscope images. Arabidopsis thaliana Phyllotaxie Réseaux de gènes Arabidopsis thaliana Phyllotaxis Gene networks
4	Inférence rétrospective de réseaux de gènes à partir de données génomiques temporelles Rau, Andrea 01 June 2010 (has links) (PDF) Les réseaux de gènes régulateurs représentent un ensemble de gènes qui interagissent, directement ou indirectement, les uns avec les autres ainsi qu'avec d'autres produits cellulaires. Comme ces interactions réglementent le taux de transcription des gènes et la production subséquente de protéines fonctionnelles, l'identification de ces réseaux peut conduire à une meilleure compréhension des systèmes biologiques complexes. Les technologies telles que les puces à ADN (microarrays) et le séquençage à ultra-haut débit (RNA sequencing) permettent une étude simultanée de l'expression des milliers de gènes chez un organisme, soit le transcriptome. En mesurant l'expression des gènes au cours du temps, il est possible d'inférer (soit "reverse-engineer") la structure des réseaux biologiques qui s'impliquent pendant un processus cellulaire particulier. Cependant, ces réseaux sont en général très compliqués et difficilement élucidés, surtout vu le grand nombre de gènes considérés et le peu de répliques biologiques disponibles dans la plupart des données expérimentales.<br /> <br /> Dans ce travail, nous proposons deux méthodes pour l'identification des réseaux de gènes régulateurs qui se servent des réseaux Bayésiens dynamiques et des modèles linéaires. Dans la première méthode, nous développons un algorithme dans un cadre bayésien pour les modèles linéaires espace-état (state-space model). Les hyperparamètres sont estimés avec une procédure bayésienne empirique et une adaptation de l'algorithme espérance-maximisation. Dans la deuxième approche, nous développons une extension d'une méthode de Approximate Bayesian Computation basé sur une procédure de Monte Carlo par chaînes de Markov pour l'inférence des réseaux biologiques. Cette méthode échantillonne des lois approximatives a posteriori des interactions gène-à-gène et fournit des informations sur l'identifiabilité et le robustesse des structures sous-réseaux. La performance des deux approches est étudié via un ensemble de simulations, et les deux sont appliqués aux données transcriptomiques. [SDV] Life Sciences Réseaux de gènes régulateurs Méthodes bayésiennes empiriques Approximate Bayesian Computation Réseaux bayésiens dynamiques
5	Mécanismes moléculaires de la signalisation longue distance dépendante de l’interaction nitrate/cytokinine, chez Arabidopsis thaliana / Molecular basis of the nitrate / cytokinin dependent long distance signaling in Arabidopsis thaliana Poitout, Arthur 17 November 2017 (has links) Les plantes sont des organismes sessiles se développant dans un environnement hétérogène et fluctuant. La capacité d'acquisition des nutriments par le système racinaire est donc un caractère important pour leur croissance et leur développement.L'azote (N), notamment sous forme nitrate (NO3-), fait partie de ces éléments qui sont limitant pour la croissance des plantes mais aussi très mobiles dans le sol donc fréquemment distribués de façon hétérogène. Les plantes s'adaptent à cette contrainte en modulant le développement racinaire ainsi que la capacité de transport de ce nutriment dans les différentes parties du système racinaire en fonction de la disponibilité en NO3- et du besoin en azote (N) de la plante entière. Cette adaptation repose donc sur la combinaison de deux voies de signalisation, i) une signalisation locale dépendante de la disponibilité en NO3- dans le milieu extérieur ii) une signalisation longue distance (ou systémique) racines-feuilles-racines relative au besoin en N de la plante entière.Toutefois, les bases moléculaires de la signalisation longue distance comme les mécanismes de régulation qui y sont associés ne sont pas totalement connus. Ils reposent sur l'intégration au niveau des parties aériennes de signaux d'origine racinaire, provenant des racines exposées au NO3- mais aussi de celles qui en sont privées. Les parties aériennes jouent alors un rôle majeur dans la modulation de la physiologie et du développement racinaire en condition de disponibilité hétérogène en NO3-. Des études précédentes ont montré que la biosynthèse de cytokinines est essentielle pour la mise en place de cette réponse adaptative. De plus, il est connu qu'après un apport de NO3-, la biosynthèse de cette hormone dans les racines puis son accumulation dans les parties aériennes est augmentée. Dans ce contexte, nous avons émis l'hypothèse que les cytokinines pourraient correspondre à un messager racines/feuilles important pour la signalisation systémique NO3--dépendante.L'objectif de mon projet de thèse consistait à comprendre comment les parties aériennes contrôlent l'acquisition racinaire du NO3- en condition de disponibilité hétérogène en NO3-. Pour reproduire cette condition en laboratoire, le système de 'split-root', permettant de séparer le système racinaire en deux parties isolées pouvant être traitées différemment, a été utilisé pour exposer les plantes à différentes conditions de disponibilité en NO3-. Dans ces différentes conditions, les réponses moléculaires, métaboliques et physiologiques ont été caractérisées chez des plantes sauvages d'Arabidopsis et comparées à celles de mutants affectés dans la biosynthèse, le transport acropetal ou encore dans la perception des cytokinines. La combinaison de ces différentes approches m'a ainsi permis de démontrer que les cytokinines, et plus précisément les trans-zéatines, sont effectivement un messager racines-feuilles crucial pour la mise en place des réponses de la racine à une disponibilité hétérogène en NO3-. De plus, j'ai montré que l'apport hétérogène en NO3- comparé à l'apport homogène entraîne une importante reprogrammation de l'expression génique dans les parties aériennes qui est largement dépendante de ce transport de trans-zéatines vers les feuilles. Enfin, l'intégration de ces données transcriptomiques au sein de réseaux géniques a permis d'identifier des gènes candidats intéressants comme acteurs possibles de la signalisation feuilles-racines. / Plants are sessile organisms growing in a heterogeneous and fluctuating environment. Thus, foraging for nutrients is an important trait for plant growth and development. Nitrogen (N), especially as nitrate (NO3-) form, is one limiting element for plant growth but is also highly mobile in the soil leading to frequent heterogeneity distribution. Plants are managing this constraint through the regulation of root development and NO3- uptake in the different parts of the root system according to the spatial NO3- availability and the N needs of the whole plant. This adaptation relies on a dual signaling pathway involving i) a local signaling related to external NO3- supply and ii) a root-shoot-root long-distance (systemic) signaling related to the plant N needs..However, the molecular basis of the long-distance signaling as well as the regulatory mechanisms associated with, are not fully understood. They rely on the integration at the shoot level of signals originating from both NO3--supplied and N-deprived root parts. Therefore, the shoots have a key role for an efficient adaptation to heterogeneous NO3- environment through the adjustment of root physiology and development. Previously, cytokinin biosynthesis has been shown to be essential for both molecular and morphological root responses to NO3- heterogeneous environment. Moreover, it is known that upon NO3- supply, de novo biosynthesis of this hormone in the roots is increased along with its accumulation in the shoots. In this context, we hypothesized that cytokinins could correspond to an important root to shoot signal involved in NO3--dependent systemic signaling.The main objective of my PhD project was to decipher and understand how the shoots control root NO3- acquisition in response to spatial NO3- heterogeneity. To do so, we used the 'split-root' system, in which physically isolated roots of a same plant are challenged with different NO3- environments. In this framework, we characterized physiological, metabolic and molecular responses of Arabidopsis wild-type plants that we compared to responses of mutants impaired in cytokinin biosynthesis, acropetal transport or perception. The combination of these different approaches allowed me to demonstrate that cytokinins, and especially trans-zeatin species are indeed a root to shoot messenger that is crucial for root responses to spatial NO3- heterogeneity. Moreover, I have shown that NO3- heterogeneous supply compared to homogeneous supply triggers a substantial reprogramming of gene expression in aerial part, which largely depends on this trans-zeatin transport toward the shoots. Finally, the integration of these transcriptomic modifications into gene networks led to the identification of interesting candidate genes to characterize the shoot-to-root signaling. Nitrate Longue distance Signalisation Cytokinines Réseaux de gènes Arabidopsis Nitrate Long distance Signalling Cytokinins Gene networks Arabidopsis
6	Une approche de modélisation de biologie des systèmes sur la spondylarthrite / An approach of systems biology in spondyloarthritis Chaplais, Emmanuel 28 September 2015 (has links) La Spondyloarthrite (SpA) est un rhumatisme inflammatoire chronique fréquent, avec une prévalence de 0,43 % en France. Elle consiste en une atteinte prédominante du squelette axial, mais aussi des articulations périphériques, et peut conduire à une immobilité du rachis et des articulations sacro-iliaques. Des atteintes extra-articulaires sont fréquentes, telles qu'une uvéite, un psoriasis ou une maladie inflammatoire chronique de l'intestin. Les traitements actuels ne sont que symptomatiques, ciblant principalement les manifestations inflammatoires. L'étiologie de la SpA est multifactorielle avec une composante génétique dominée par l'association forte et bien connue avec l'allèle HLA-B27. Cependant, ce facteur génétique n'est clairement pas suffisant pour induire le développement de la maladie. L'objectif de ce projet de thèse était donc d'identifier d'autres facteurs génétiques à l'origine du développement de la SpA.Mon travail a porté sur l'analyse de deux jeux de données complémentaires, dans une perspective de biologie des systèmes. Dans une première partie, j'ai conduit une analyse de liaison dans 210 familles atteintes de la maladie représentant 1310 personnes génotypées avec des puces Affymetrix 250k. Une nouvelle région significativement liée à la SpA a été détectée en 13q13, avec un intervalle de 1,3 Mb défini par des haplotypes recombinants chez les patients.Ensuite, une analyse transcriptomique des cellules dendritiques dérivées des monocytes de 23 patients HLA-B27+, 23 témoins sains HLA-B27+ et 21 témoins sains HLA-B27-, et stimulées ou non par du LPS, a tenté de distinguer les gènes dont l'expression est modifiée par la maladie de ceux influencés par l'allèle HLA-B27 seul. L'annotation fonctionnelle et une analyse par réseau de gènes ont mis en évidence l'inhibition chez les patients des étapes précoces de la biosynthèse du cholestérol. / Spondyloarthritis is a frequent chronic inflammatory rheumatism, with a prevalence of 0.43 % in France. This disease presents axial skeleton injuries, but also on peripheral joints, and can results in a total spinal and sacro-iliac motility loss. Extra-articular features including uveitis, psoriasis and inflammatory bowel disease are frequent. Current SpA treatments are only symptomatic, relieving inflammatory symptoms. SpA etiology is largely multifactorial with a genetic component dominated by the long-known strong association with the HLA-B27 allele. This allele, however, is not sufficient for the disease to occur. This thesis project objective was then to identify other genetic factors in the origin of SpA.My work was mainly divided in two complementary data analyses, in a way to get a systems biology approach. The first one consisted in proceed linking analyses on data from Affymetrix genotyping chips gathered from DNA of 1310 people grouped in 210 families. This study allowed notably to detect a new significantly linked region to SpA : 13q13, with an interval of 1.3 Mb. This part of genome is currently being sequenced to allow a better causal SNP identification.Secondly, an Affymetrix HumanGene 1.0 st transcriptomic chips analysis was performed on MD-DCs extracted from 68 people, stimulated or not by LPS during 6 or 24 hours. This cohort was grouped between 23 patients HLA-B27+, 23 healthy controls HLA-B27+ and 21 healthy controls HLA-B27-. I could notice that HLA-B27 allele is farly enough to considerably affect cell transcriptomic profiles, which encourages to include HLA-B27+ healthy controls. Otherwise, a gene network analysis allowed me to highlight on an inhibition of early steps of cholesterol biosyntthesis. Spondyloarthrite Génétique Transcriptomique Réseaux de gènes Biologie intégrative Systèmes Package Spondyloarthritis Genetic Transcriptomic 576.6 CHA
7	Modélisation mathématique de la différenciation précoce des lymphocytes T auxiliaires / Mathematical modeling of the early differentiation of helper T cells Robert, Philippe A. 20 February 2017 (has links) Les Lymphocytes T auxiliaires sont nécessaires pour la production de cytokines adaptées au type d'infection. Différentes sous-populations ont été décrites, parmi lesquelles les Th1, Th2, et Th17, pro-inflammatoires et les iTregs, anti-inflammatoires, exprimant Foxp3. La décision prise par une cellules T naïve de se différentier en l'une de ces populations est étudiée ici.Des découvertes récentes ont montré que les nutriments peuvent modifier la différentiation, mais elles ont négligé la glutamine en dépit de son importance comme source principale d'azote. Dans cette étude, un manque de glutamine induit une expression ectopique de Foxp3 en cours de différentiation en Th1 mais pas en Th2, tout en altérant la différentiation des Th1 et Th17. Cela suggère que, dans des environnements métaboliquement pauvres comme au sein de tumeurs solides, le manque de glutamine pourrait supporter une réponse anti-inflammatoire et donc néfaste.Dans l'optique de comprendre comment la détection de la glutamine influence le réseau de régulation de la différentiation des lymphocytes auxiliaires, une approche de modélisation mathématique a été suivie, consistant d'équation différentielles, et conçue pour capturer les propriétés de cette différentiation. Pour la phase d'apprentissage du modèle, les cinétiques d'expression des principaux facteurs de transcription et cytokines ont été mesurées in vitro en conditions normales, en présence de glutamine. Ces données ont décelé des retards majeurs en terme de transcription, traduction et sécrétion des cytokines, qui à leur tour façonnent l'ordre des évènements qui décident l'issue de la différentiation. Le modèle a reproduit avec succès la dynamique des différentiation 'canoniques', montrant que celles-ci peuvent être expliquées par un réseau de régulation relativement simple. Cependant, le modèle n'a reproduit qu'une partie des propriétés de plasticité des lymphocytes T, et a besoin d'être affiné. Ce n'est qu'alors qu'il pourra être utilisé pour comparer différentes hypothèses mécanistiques sur l'impact de la glutamine sur la différentiation. / T helper cells are required to produce cytokines adapted to the type of infection. Several subsets have been defined, including pro-inflammatory Th1, Th2, Th17; and anti-inflammatory, Foxp3+ iTreg cells. The fate-determining decision of a naive T cell to differentiate into a defined subset was investigated here.Recent findings showed that metabolic constituents impact T cell differentiation, but so far the influence of glutamine on T cell differentiation has been neglected although being the main source of nitrogen. In this study, deprivation of glutamine induced an abnormal expression of Foxp3 under Th1 but not under Th2 condition, while impairing Th1 and Th17 differentiation. Thus, in poor metabolic micro-environments like solid tumours, a lack of glutamine would initiate a detrimental anti-inflammatory response.A mathematical modelling approach using Ordinary Differential Equations was chosen to capture the properties of T cell differentiation, first in normal conditions with glutamine. In order to train the model, kinetics of the master transcription factors and cytokines expression were measured under different T cell differentiation polarizing conditions. The in vitro data revealed major delays in transcription, translation and secretion of cytokines, which shaped the order of fate decision events. The model could successfully reproduce the dynamics of differentiation, confirming that the 'canonical' differentiation in vitro can be explained by a simple regulatory network. However, it only partially reproduced the plastic behaviour of T cells. The mathematical model will be utilized to compare different mechanistic hypotheses linking glutamine sensing to differentiation. Biologie Computationnelle Réseaux de gènes Métabolisme Différentiation Modélisation Lymphocytes Computational Gene Network Metabolism Differentiation Modeling Lymphocytes
8	Modélisation de phénomènes biologiques complexes : application à l'étude de la réponse antigénique de lymphocytes B sains et tumoraux / Modeling complex biological phenomena : application to the study of the antigenic response of healthy and tumor B lymphocytes Jung, Nicolas 03 December 2014 (has links) La biologie des systèmes complexes est le cadre idéal pour l'interdisciplinarité. Dans cette thèse, les modèles et les théories statistiques répondent aux modèles et aux expérimentations biologiques. Nous nous sommes intéressés au cas particulier de la leucémie lymphoïde chronique à cellules B, qui est une forme de cancer des cellules du sang. Nous avons commencé par modéliser le programme génique tumoral sous-jacent à cette maladie et nous l'avons comparé au programme génique d'individus sains. Pour ce faire, nous avons introduit la notion de réseau en cascade. Nous avons ensuite démontré notre capacité à contrôler ce système complexe, en prédisant mathématiquement les effets d'une expérience d'intervention consistant à inhiber l'expression d'un gène. Cette thèse s'achève sur la perspective d'une modulation orientée, c'est-à-dire le choix d'expériences d'intervention permettant de « reprogrammer » le programme génique tumoral vers un état normal. / System biology is a well-suited context for interdisciplinary. In this thesis, statistical models and theories closely meet biological models and experiments. We focused on a specific complex system model: the chronic B-cell chronic lymphocytic leukemia disease which is a cancer of the blood cells. We started by modeling the genetic program which underlies this disease and we compared it to the healthy one. This conduced us to introduce the concept of cascade networks. We then showed our ability to control this complex system by predicting with our mathematical model the effects of a gene inhibition experiment. This thesis ends with the perspective of oriented modulation, i.e. targeted interventional experiments on genes allowing to “reprogram” the cancerous genetic program toward a healthy normal state. Réseaux de gènes Régression Lasso Biologie des systèmes complexes Gene regulatory network Lasso Regression Systems biology 572.8 004
9	Développement d'outils statistiques pour l'analyse de données transcriptomiques par les réseaux de co-expression de gènes / A systemic approach to statistical analysis to transcriptomic data through co-expression network analysis Brunet, Anne-Claire 17 June 2016 (has links) Les nouvelles biotechnologies offrent aujourd'hui la possibilité de récolter une très grande variété et quantité de données biologiques (génomique, protéomique, métagénomique...), ouvrant ainsi de nouvelles perspectives de recherche pour la compréhension des processus biologiques. Dans cette thèse, nous nous sommes plus spécifiquement intéressés aux données transcriptomiques, celles-ci caractérisant l'activité ou le niveau d'expression de plusieurs dizaines de milliers de gènes dans une cellule donnée. L'objectif était alors de proposer des outils statistiques adaptés pour analyser ce type de données qui pose des problèmes de "grande dimension" (n<<p), car collectées sur des échantillons de tailles très limitées au regard du très grand nombre de variables (ici l'expression des gènes).La première partie de la thèse est consacrée à la présentation de méthodes d'apprentissage supervisé, telles que les forêts aléatoires de Breiman et les modèles de régressions pénalisées, utilisées dans le contexte de la grande dimension pour sélectionner les gènes (variables d'expression) qui sont les plus pertinents pour l'étude de la pathologie d'intérêt. Nous évoquons les limites de ces méthodes pour la sélection de gènes qui soient pertinents, non pas uniquement pour des considérations d'ordre statistique, mais qui le soient également sur le plan biologique, et notamment pour les sélections au sein des groupes de variables fortement corrélées, c'est à dire au sein des groupes de gènes co-exprimés. Les méthodes d'apprentissage classiques considèrent que chaque gène peut avoir une action isolée dans le modèle, ce qui est en pratique peu réaliste. Un caractère biologique observable est la résultante d'un ensemble de réactions au sein d'un système complexe faisant interagir les gènes les uns avec les autres, et les gènes impliqués dans une même fonction biologique ont tendance à être co-exprimés (expression corrélée). Ainsi, dans une deuxième partie, nous nous intéressons aux réseaux de co-expression de gènes sur lesquels deux gènes sont reliés si ils sont co-exprimés. Plus précisément, nous cherchons à mettre en évidence des communautés de gènes sur ces réseaux, c'est à dire des groupes de gènes co-exprimés, puis à sélectionner les communautés les plus pertinentes pour l'étude de la pathologie, ainsi que les "gènes clés" de ces communautés. Cela favorise les interprétations biologiques, car il est souvent possible d'associer une fonction biologique à une communauté de gènes. Nous proposons une approche originale et efficace permettant de traiter simultanément la problématique de la modélisation du réseau de co-expression de gènes et celle de la détection des communautés de gènes sur le réseau. Nous mettons en avant les performances de notre approche en la comparant à des méthodes existantes et populaires pour l'analyse des réseaux de co-expression de gènes (WGCNA et méthodes spectrales). Enfin, par l'analyse d'un jeu de données réelles, nous montrons dans la dernière partie de la thèse que l'approche que nous proposons permet d'obtenir des résultats convaincants sur le plan biologique, plus propices aux interprétations et plus robustes que ceux obtenus avec les méthodes d'apprentissage supervisé classiques. / Today's, new biotechnologies offer the opportunity to collect a large variety and volume of biological data (genomic, proteomic, metagenomic...), thus opening up new avenues for research into biological processes. In this thesis, what we are specifically interested is the transcriptomic data indicative of the activity or expression level of several thousands of genes in a given cell. The aim of this thesis was to propose proper statistical tools to analyse these high dimensional data (n<<p) collected from small samples with regard to the very large number of variables (gene expression variables). The first part of the thesis is devoted to a description of some supervised learning methods, such as random forest and penalized regression models. The following methods can be used for selecting the most relevant disease-related genes. However, the statistical relevance of the selections doesn't determine the biological relevance, and particularly when genes are selected within a group of highly correlated variables or co-expressed genes. Common supervised learning methods consider that every gene can have an isolated action in the model which is not so much realistic. An observable biological phenomenum is the result of a set of reactions inside a complex system which makes genes interact with each other, and genes that have a common biological function tend to be co-expressed (correlation between expression variables). Then, in a second part, we are interested in gene co-expression networks, where genes are linked if they are co-expressed. More precisely, we aim to identify communities of co-expressed genes, and then to select the most relevant disease-related communities as well as the "key-genes" of these communities. It leads to a variety of biological interpretations, because a community of co-expressed genes is often associated with a specific biological function. We propose an original and efficient approach that permits to treat simultaneously the problem of modeling the gene co-expression network and the problem of detecting the communities in network. We put forward the performances of our approach by comparing it to the existing methods that are popular for analysing gene co-expression networks (WGCNA and spectral approaches). The last part presents the results produced by applying our proposed approach on a real-world data set. We obtain convincing and robust results that help us make more diverse biological interpretations than with results produced by common supervised learning methods. Données transcriptomiques Réseaux de gènes Transcriptomic data Co-expression network Variable selection Dimensionality reduction Penalized regression Network clustering Machine learning
10	Modélisation et prédiction de la dynamique moléculaire de la maladie de Huntington par la théorie des graphes au travers des modèles et des espèces, et priorisation de cibles thérapeutiques / Huntington's disease, gene network, transcriptomics analysis, computational biology, spectral graph theory, neurodegenerative mechanisms Parmentier, Frédéric 17 September 2015 (has links) La maladie de Huntington est une maladie neurodégénérative héréditaire qui est devenue un modèle d'étude pour comprendre la physiopathologie des maladies du cerveau associées à la production de protéines mal conformées et à la neurodégénérescence. Bien que plusieurs mécanismes aient été mis en avant pour cette maladie, dont plusieurs seraient aussi impliqués dans des pathologies plus fréquentes comme la maladie d’Alzheimer ou la maladie de Parkinson, nous ne savons toujours pas quels sont les mécanismes ou les profils moléculaires qui déterminent fondamentalement la dynamique des processus de dysfonction et de dégénérescence neuronale dans cette maladie. De même, nous ne savons toujours pas comment le cerveau peut résister aussi longtemps à la production de protéines mal conformées, ce qui suggère en fait que ces protéines ne présentent qu’une toxicité modérée ou que le cerveau dispose d'une capacité de compensation et de résilience considérable. L'hypothèse de mon travail de thèse est que l'intégration de données génomiques et transcriptomiques au travers des modèles qui récapitulent différentes phases biologiques de la maladie de Huntington peut permettre de répondre à ces questions. Dans cette optique, l'utilisation des réseaux de gènes et la mise en application de concepts issus de la théorie des graphes sont particulièrement bien adaptés à l'intégration de données hétérogènes, au travers des modèles et au travers des espèces. Les résultats de mon travail suggèrent que l'altération précoce (avant les symptômes, avant la mort cellulaire) et éventuellement dès le développement cérébral) des grandes voies de développement et de maintenance neuronale, puis la persistance voire l'aggravation de ces effets, sont à la base des processus physiopathologiques qui conduisent à la dysfonction puis à la mort neuronale. Ces résultats permettent aussi de prioriser des gènes et de générer des hypothèses fortes sur les cibles thérapeutiques les plus intéressantes à étudier d'un point de vue expérimental. En conclusion, mes recherches ont un impact à la fois fondamental et translationnel sur l'étude de la maladie de Huntington, permettant de dégager des méthodes d'analyse et des hypothèses qui pourraient avoir valeur thérapeutique pour les maladies neurodégénératives en général. / Huntington’s disease is a hereditary neurodegenerative disease that has become a model to understand physiopathological mechanisms associated to misfolded proteins that ocurs in brain diseases. Despite exciting findings that have uncover pathological mechanisms occurring in this disease and that might also be relevant to Alzheimer’s disease and Parkinson’s disease, we still do not know yet which are the mechanisms and molecular profiles that rule the dynamic of neurodegenerative processes in Huntington’s disease. Also, we do not understand clearly how the brain resist over such a long time to misfolded proteins, which suggest that the toxicity of these proteins is mild, and that the brain have exceptional compensation capacities. My work is based on the hypothesis that integration of ‘omics’ data from models that depicts various stages of the disease might be able to give us clues to answer these questions. Within this framework, the use of network biology and graph theory concepts seems particularly well suited to help us integrate heterogeneous data across models and species. So far, the outcome of my work suggest that early, pre-symptomatic alterations of signaling pathways and cellular maintenance processes, and persistency and worthening of these phenomenon are at the basis of physiopathological processes that lead to neuronal dysfunction and death. These results might allow to prioritize targets and formulate new hypotheses that are interesting to further study and test experimentally. To conclude, this work shall have a fundamental and translational impact to the field of Huntington’s disease, by pinpointing methods and hypotheses that could be valuable in a therapeutic perspective. Maladie de Huntington Réseaux de gènes Analyse de transcriptome Biologie computationnelle Théorie spectrale des graphes Mécanismes neurodégénératifs Huntington's disease Gene network Transcriptomics analysis Computational biology Spectral graph theory Neurodegenerative mechanisms 616.83

Search results