Jusqu’à 40% des protéines sont connues pour fixer des métaux, ces hétéroatomes jouant un rôle capital dans la régulation, la catalyse ou le maintien de la structure de ces protéines. Ces métalloprotéines sont ubiquitaires et d’une importance primordiale dans les trois domaines du vivant. Cependant, les méthodes actuelles dédiées à l’identification des membres de cette grande famille dans les protéomes bactériens sont soit inadaptées pour des approches à grande échelle, soit présentent des performances relativement limitées en l’absence d’une structure tridimensionnelle résolue. Dans ce contexte, différents outils d’analyse de séquence ont été testés, en recherchant des descripteurs de ces protéines (e.g. motifs, domaines conservés, empreintes phylogénétiques). Pour pallier le relatif manque de sensibilité de ceux-ci, de nouveaux descripteurs ont été construits, dédiés spécifiquement à l’identification des protéines à centre fer-soufre : (i) des profils de co-conservation des ligands du métal et (ii) des profile-HMMs adaptés à la détection d’homologues distants. Les pouvoirs prédictifs respectifs de ces catégories de descripteurs ont été évalués sur un jeu de protéines fer-soufre expertisé, en les considérant soit séparément soit en combinaison. L’ensemble de ces descripteurs a finalement été intégré dans un modèle linéaire généralisé en utilisant la technique d’elastic-net. Le modèle prédictif obtenu a été évalué sur le protéome complet d’Escherichia coli, sur lequel il atteint une précision de 89% et une sensibilité de 83%. Enfin, il a été appliqué à environ 300 protéomes pour explorer différentes relations biologiques comme l’abondance relative des protéines Fe-S et la tolérance à l’oxygène des organismes auxquelles elles appartiennent. / Up to 40% of all proteins are known to bind metals, the intrinsic metal atoms providing catalytic, regulatory and/or structural roles critical to their functions. These metalloproteins are ubiquitous and of major importance within the three domains of life. However, current methods dedicated to identifying members of this large family within bacterial proteomes are either not suitable for large-scale approach or are of relatively limited performance when no 3D structural template is available. Within this context, different sequence analysis tools relying on different category of protein descriptors (e.g. patterns, conserved domains, phylogenetic prints) were assessed. To overcome their relative lack of sensibility, new descriptors, specific towards iron-sulfur proteins identification were built: (i) co-conservation profiles of the metal ligands and (ii) tailored profile-HMMs for remote homologs detection. Their respective predictive power towards the identification of a manually curated iron-sulfur proteins dataset were assessed, either separately or in combination. All relevant descriptors were finally gathered into a generalized linear model by using the elastic-net method. The predictive model has been evaluated on Escherichia coli whole proteome resulting in a precision of 89% and a recall of 83%. Eventually, it has been applied to 300 proteomes allowing investigating different biological relationships, such as iron-sulfur proteins relative abundances and the oxygen dependency of bacterial organisms.
Identifer | oai:union.ndltd.org:theses.fr/2012GRENV046 |
Date | 22 October 2012 |
Creators | Estellon, Johan |
Contributors | Grenoble, Médigue, Claudine, Vandenbrouck, Yves |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0025 seconds