Return to search

Aprimoramento da anotação N-terminal de proteínas através da predição de peptídeo sinal em proteínas ortólogas e desenvolvimento de uma ferramenta automática para a identificação de grupos ortólogos contendo erros de anotação

Submitted by Nuzia Santos (nuzia@cpqrr.fiocruz.br) on 2013-05-23T18:32:40Z
No. of bitstreams: 1
TESE_Armando_de_Menezes_Neto_2012.pdf: 13065237 bytes, checksum: bdac30d844b06bec6a790e23fa724740 (MD5) / Made available in DSpace on 2013-05-23T18:32:40Z (GMT). No. of bitstreams: 1
TESE_Armando_de_Menezes_Neto_2012.pdf: 13065237 bytes, checksum: bdac30d844b06bec6a790e23fa724740 (MD5)
Previous issue date: 2012 / O peptídeo sinal é um motivo encontrado, geralmente, na extremidade N-terminal de
proteínas e a sua presença determina a entrada na via clássica de transporte intracelular, após a translocação da proteína para o lúmen do retículo endoplasmático. Portanto, a presença ou ausência do peptídeo sinal influencia a função biológica de uma proteína ao ser
um fator determinante da sua localização subcelular. Como a conservação de função entre proteínas ortólogas é esperada, foi hipotetizado que a localização subcelular e,
consequentemente, a presença do peptídeo sinal deveriam, também, se apresentar
conservadas. Partindo desta premissa, as predições de peptídeo sinal em proteínas
ortólogas de cinco espécies de Plasmodiumforam analisadas.
Predições de peptídeo sinal (SignalP) e informações de ortologia (OrthoMCL-DB)
para proteínas de cinco espécies do gênero Plasmodium(Plasmodium falciparum,
Plasmodium vivax, Plasmodium knowlesi, Plasmodium bergueie Plasmodium yoelii) foram combinadas em uma estratégia inovadora, visando a identificação de grupos de proteínas ortólogas que apresentam predições de peptídeo sinal divergentes (grupos Mistos). As proteínas pertencentes a estes grupos foram submetidas a uma análise comparativa baseada na inspeção visual de alinhamentos múltiplos e de modelos gênicos e regiões genômicas flanqueadoras da extremidade N-terminal. Novos modelos gênicos foram sugeridos para aquelas proteínas que apresentavam prováveis erros de anotação de sequência, especialmente na região N-terminal. Alguns dos novos modelos gênicos foram validados por RT-PCR. Os resultados da inspeção visual foram usados para treinar uma Máquina de Suporte de Vetores (Support Vector Machine) com o objetivo de classificar grupos Mistos em: (1)Com erros de anotação ou (2)Sem erros de anotação. O SVM foi aplicado para classificar os grupos Mistos de cinco bancos de dados, montados a partir de vinte e duas espécies.
Os grupos contendo proteínas com predições de peptídeo sinal divergentes
apresentaram uma alta taxa de erros de anotação. Um total de 478 proteínas de
Plasmodiumforam reanotadas sendo que a maioria apresentou inversões das suas
predições de peptídeo sinal originais, representando um impacto significativo no conjunto
final de proteínas destinadas à via clássica de transporte intracelular, principalmente para
Plasmodium vivaxe Plasmodium yoelii. O classificador baseado nos dados da inspeção
visual se mostrou bastante flexível e robusto, apresentando uma performance boa e
consistente mesmo frente a cenários variados de agrupamento de espécies.
A metodologia proposta introduz uma abordagem simples, porém promissora, para a
realização de tarefas de curadoria e controle de qualidade dos dados de anotação de
sequências proteicas em uma escala genômica. Os resultados do classificador definem a base para seu desenvolvimento em uma ferramenta computacional e os resultados das
reanotações em Plasmodiumimpactarão a busca por novos alvos vacinais e
quimioterápicos. / Signal peptide is a motif usually found in the N-terminal end of proteins and its
presence directs proteins to enter the classical intracellular transport pathway, after their co-translational translocation to the endoplasmic reticulum lumen. Therefore, the presence or absence of a signal peptide plays an indirect role in defining the biological function of a
protein, as it is a determinant of subcellular localization. Since function is usually conserved among orthologous proteins, it has been hypothesized that subcellular localization and,
consequently, signal peptide status are expected to behave accordingly. Based on this premise, signal peptide predictions among orthologous proteins from five Plasmodium species were analyzed.
Signal peptide predictions (SignalP) and orthology information (OrthoMCL-DB) for
proteins from five Plasmodiumspecies (Plasmodium falciparum, Plasmodium vivax,
Plasmodium knowlesi, Plasmodium bergueiand Plasmodium yoelii) were combined into an
innovative strategy, intending the identification of groups of orthologous proteins showing diverging signal peptide predictions (Mixed groups). The proteins belonging to these groups were submitted to a comparative analysis based on visual inspection of multiple alignments
and of gene models and their upstream flanking regions. New gene models were proposed for those proteins presenting putative sequence misannotations, especially in their N-terminal region. Some of the new gene models were validated through RT-PCR. Results from the visual inspection were used to train a Support Vector Machine to be able to classify Mixed groups into: (1)With misannotations and (2)Without misannotations. The SVM was applied
in the classification of Mixed groups from five datasets, built from twenty-two species.
Groups featruing proteins with diverging signal peptide predictions showed an
elevated rate of misannotations. A total of 478 Plasmodiumproteins were reannotated, and
most had their original signal peptide predictions inverted, representing a significant impact in the final set of proteins destined to the classical intracellular transport pathway, especially for Plasmodium vivaxand Plasmodium yoelii. The classifier based on the visual inspection data was shown to be flexible and robust, performing well and consistently even when dealing with highly ecletic species clusterings.
The proposed methodology introduces a simple yet promising approach to the tasks
of curation and quality control of annotation data from proteins sequences in genomic scale.
The classifier's results define the groundwork for its development into a computational tool and the reannotations results for Plasmodiumproteins shall impact the search for new vaccine and drug targes.

Identiferoai:union.ndltd.org:IBICT/oai:www.arca.fiocruz.br:icict/6517
Date January 2012
CreatorsMenezes Neto, Armando de
ContributorsBrito, Cristiana Ferreira Alves de, Ruiz, Jerônimo Conceição, Pais, Fabiano Sviatopolk Mirsky, Vieira, Gustavo Fioravanti, Lobo, Francisco Pereira, Brito, Cristiana Ferreira Alves de
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da FIOCRUZ, instname:Fundação Oswaldo Cruz, instacron:FIOCRUZ
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0124 seconds