Return to search

Innovations pour l'annotation protéogénomique à grande échelle du vivant / Innovations for proteogenomic annotation on a large scale for microorganisms

La protéogénomique consiste à affiner l'annotation du génome d'organismes modèles pour lesquels des données protéomiques sont générées à haut-débit. Des erreurs d'annotation structurale ou fonctionnelle sont encore fréquentes. Innover dans les méthodologies permettant de lever ces ambiguïtés est essentiel. L'étude spécifique du N-terminome permet de vérifier expérimentalement l'identification du codon d'initiation de la traduction et de certifier les données obtenues. Pour cela, deux stratégies innovantes ont été développées basées sur : i) le marquage sélectif du N-terminal des protéines, ii) une digestion multienzymatique en parallèle, et ii) l'enrichissement spécifique des peptides N-terminaux marqués par chromatographies liquides successives ou immunocapture dirigée contre le groupement N-terminal ajouté. L'efficacité de ces méthodologies a été démontrée à partir du modèle bactérien Roseobacter denitrificans. Après enrichissement par chromatographie, 480 protéines ont été validées et 46 ré-annotées. Plusieurs sites d'initiation de la traduction ont été décelés et l'annotation par similarité a été remise en cause dans certains cas. Après immunocapture, 269 protéines ont été caractérisées dont 40% ont été identifiées spécifiquement après enrichissement. Trois gènes ont également été annotés pour la première fois. Les résultats complémentaires obtenus après analyse par spectrométrie de masse en tandem facilitent l'interprétation des données pour révéler les sites d'initiation réels de la synthèse des protéines et identifier de nouveaux produits d'expression des gènes. La ré-annotation peut devenir automatique et systématique pour améliorer les bases de données protéiques. / Proteogenomics is a recent field at the junction of genomics and proteomics which consists of refining the annotation of the genome of model organisms with the help of high-throughput proteomic data. Structural and functional errors are still frequent and have been reported on several occasions. Innovative methodologies to prevent such errors are essential. N-terminomics enables experimental validation of initiation codons and certification of the annotation data. With this objective in mind, two innovative strategies have been developed combining: i) selective N-terminal labeling of proteins, ii) multienzymatic digestion in parallel, and iii) specific enrichment of most N-terminal labeled peptides using either successive liquid chromatography steps or immunocapture directed towards the N-terminal label. Efficiency of these methodologies has been demonstrated using Roseobacter denitrificans as bacterial model organism. After enrichment with chromatography, 480 proteins were validated and 46 re-annotated. Several start sites for translation initiation were detected and homology driven annotation was challenged in some cases. After immunocapture, 269 proteins were characterized of which 40% were identified specifically after enrichment. Three novel genes were also annotated for the first time. Complementary results obtained after tandem mass spectrometry analysis allows easier data interpretation to reveal real start sites of translation initiation of proteins and to identify novel expressed products. In this way, the re-annotation process may become automatic and systematic to improve protein databases.

Identiferoai:union.ndltd.org:theses.fr/2013MON13508
Date23 September 2013
CreatorsBland, Céline
ContributorsMontpellier 1, Armengaud, Jean
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.002 seconds