À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d’annotation récentes reposent sur l’hypothèse d’association par culpabilité et s’appuient sur l’intégration de données pour la recherche de partenaires fonctionnels. Cependant, la majorité de ces méthodes souffrent de l’hétérogénéité des données et du manque de spécificité du contexte biologique ce qui expliquerait un taux élevé de faux positifs parmi les prédictions. Ce travail de thèse développe une approche intégrative de données moléculaires contrôlant leur hétérogénéité pour annoter des gènes d’Arabidopsis thaliana impliqués dans la réponse aux stress. Les contributions majeures de cette thèse sont: (1) l'annotation fonctionnelle de groupes de gènes coexprimés par l'intégration de données omiques (2) la construction d'un réseau de corégulation par une analyse transversale des groupes coexprimés qui renforce les liens fonctionnels entre les gènes. (3) le développement d’une méthode d’apprentissage supervisé pour l’inférence de fonction centrée sur les termes de la GO Slim en contrôlant le FDR. En identifiant une règle de décision par terme, cette méthode a permis de prédire la fonction de 47 gènes partiellement annotés ou orphelins. / In the era of computational biology, functional annotation remains a major challenge. Recent annotation methods are based on the guilt by association assumption and rely on data integration to identify functional partners. However, most of these methods suffer from data heterogeneity and a lack of biological context specificity which would probably explain the high rate of false positives among predictions. This thesis develops an approach of molecular data integration controlling their heterogeneity in order to annotate Arabidopsis thaliana genes involved in stress response. The major contributions of this thesis are: (1) functional annotation of groups of co-expressed genes by omics data integration (2) the construction of a coregulatory gene network through a cross-analysis of the coexpressed groups strengthening the functional links between genes (3) the development of a supervised learning method for the inference of gene function centered on the GO Slim terms with a control of the FDR. By identifying a decision rule by term, this method was used to predict the function of 47 orphan or partially annotated genes.
Identifer | oai:union.ndltd.org:theses.fr/2016SACLE013 |
Date | 20 June 2016 |
Creators | Zaag, Rim |
Contributors | Université Paris-Saclay (ComUE), Martin-Magniette, Marie-Laure, Delannoy, Etienne |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text, Image, StillImage |
Page generated in 0.0019 seconds