Return to search

In silico identification of PPR proteins

Les protéines PentatricoPeptide-Repeats (PPR) représentent la plus grande famille de protéines de liaison à l’ARN connue. Elles sont caractérisées par la présence de motifs répétés en tandem d’environ 35 résidus ayant une structure hélice-tour-hélice. Depuis les premières études sur l’organisme modèle Arabidopsis thaliana, les protéines PPR ont aussi été découvertes chez d’autres espèces non-plantes, incluant les levures et l’humain. Cependant, la détection des protéines PPR en dehors des plantes est compliquée par le fait que les outils de recherche sont tous conçus pour les protéines de plantes. Récemment, une étude réalisée chez les levures a rapporté une méthode itérative semi-automatisée d’identification de PPR utilisant des profils Hidden Markov Models (HMM). Inspirés par cette approche, nous visons ici à développer une méthode complètement automatisée plus généralisable et sensible qui ne dépend pas du protéome de départ. Comme preuve de concept, nous avons choisi une espèce non reliée aux plantes possédant le plus grand nombre de protéines PPR en-dehors des plantes – le protiste marin unicellulaire Diplonema papillatum. Il s’agit d’un modèle émergent ayant reçu beaucoup d’intérêt pour l’excentricité de l’expression de son génome mitochondrial, pour lequel il a été suggéré que les protéines PPR jouent un rôle clé. Nous avons ici développé une approche itérative pour identifier et cataloguer les protéines PPR chez D. papillatum. Les fonctionnalités particulières de notre algorithme incluent l’inspection des intervalles de 30 à 40 résidus entre les motifs classiques déjà identifiés et l’utilisation des structures secondaires caractéristiques des motifs PPR pour valider les motifs candidats nouvellement identifiés. Au final, nous avons identifié près de 800 motifs PPR chez D.papillatum, dont plusieurs motifs « déviants » identifiés dans les espaces entre les motifs. La validation expérimentale des motifs candidats les plus prometteurs est en attente. / PentatricoPeptide-Repeat (PPR) proteins represent the largest family of RNA-binding proteins known. They are defined by containing tandemly arranged, ~35-residue long motifs assuming a helix-turn-helix structure, which are referred to as PPR motifs. Since the seminal studies undertaken in the model organism Arabidopsis, a few PPR proteins have been also discovered outside plants, including yeast and human. However, the detection of PPR proteins in non-plant eukaryotes is complicated by the fact that current search tools are tailored toward plants. Recently, a semi-automated method has been reported for identifying PPR motifs in yeast using iterative searches with profile Hidden Markov models (HMMs). Inspired by this work, we aimed to develop a fully automated, sensitive approach that can be used for detecting PPR proteins in any species, when using the corresponding proteome as input. For a proof of concept, we used a species that contains the largest number of PPR genes outside the plant kingdom –the unicellular protist Diplonema papillatum. This emerging model system has garnered much interest for the eccentricities of its mitochondrial gene expression, in which PPR proteins are posited to play a key role. Here, we have developed an iterative HMM-search method that comprehensively catalogues and classifies PPR motifs in D. papillatum. Particular features of our algorithm are that it inspects closely 30 to 40 residue-long intervals between readily identified (classical) motifs, makes use of the characteristic secondary structure of PPR motifs to validate newly detected candidate motifs. In total, we have identified around 800 PPR motifs in D. papillatum. Including several deviant candidates detected in ”gaps”. High ranking representatives of both classical and deviant motifs await experimental validation.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32365
Date08 1900
CreatorsLe Sieur, Félix-Antoine
ContributorsBurger, Gertraud
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0024 seconds