Anotação proteogenômica é uma abordagem que une a análise proteômica com a anotação genômica. O intuito de tal abordagem é prover uma anotação mais detalhada ao gene. Intuito esse, que nem sempre é possível quando se trata apenas de genes, uma vez que produtos gênicos, com funções importantes preditas, somente passam a ter papel na fisiologia do organismo quando expressos e traduzidos. Com todo o avanço atual de estudos na área proteogenômica, a geração de dados tem crescido de modo exponencial e, com esse crescimento, nota-se a necessidade cada vez maior da criação de sistemas capazes de processar, armazenar e gerenciar essas novas informações produzidas. Assim, é descrito nesse trabalho o desenvolvimento do ProGen AP , sendo constituído de uma interface web construída em HTML/PHP5, um banco de dados cujo SGBD é o mySQL e de módulos de processamento de dados proteômicos, neste caso o LabKey (com o core Xtandem!) e o QuickMod. Todos os módulos são open source e comunicam entre si através de scripts PERL. Nesse sistema, o pesquisador fornece dados de experimentos proteômicos e o sistema, então, os processa e retorna ao usuário informações sobre o gene expresso, a localização dos peptídeos dentro do gene aos quais pertencem e, ainda, informações quantitativas sobre o peptídeo e a proteína identificados. Além disso, o uso de um processamento esquematizado reduz a possibilidade de erro de entrada/saída de dados nos módulos intermediários do processamento. Aqui, o ProGen AP foi aplicado no estudo proteômico do Mycobacterium tuberculosis (MTb). Na literatura, o genoma do MTb cepa H37Rv contém apenas 4062 open reading frames (ORFs) preditos e o complemento funcional desse genoma, o proteoma, ainda não está totalmente elucidado. A análise do proteoma do MTb, com o uso do ProGen AP, resultou em uma lista total de 154.982 identificações de peptídeos, representando um total de 147.334 peptídeos únicos. Até o momento, foram identificadas 2.369 proteínas, cobrindo aproximadamente 58% de todo o genoma do MTB. É importante ressaltar que, dentre todas as proteínas identificadas até o momento, a maioria delas está anotada como proteinas hipotéticas em seu genoma, e, por consequência, os resultados obtidos nesse projeto confirmam e validam a existência de tais produtos gênicos. Além disso, 567 peptídeos foram identificados como N-terminal e 1229 como C-terminal, o que indica a correta predição do início e do término da tradução de tais genes. Todos esses resultados positivos confirmam que a abordagem utilizada no ProGen AP é eficiente e pode ser usada em vários outros organismos de interesse do pesquisador. / Proteogenomic annotation is an approach that combines proteomic analysis and genomic annotation. The aim of this approach is to provide a more detailed annotation, which is not possible in most of the times when dealing mostly with genes, once that genomic products, with important predicted functions are only important in the organism physiology when they are expressed and translated. There have been occurring several advances in proteogenomic studies and the generation of new data sets has been growing in an exponential wave. With all this growth, the creation of systems able to storing, processing and analyzing all the new knowledge produced is eminent. This study presents the deployment of ProGen AP, a system built with a HTML/PHP5 web interface, a mySQL data management system to store the data and two processing modules (LabKey, with core X!Tandem and QuickMod). In this system, the researcher provides a data set from a proteomic experiment and then the system processes it and returns to the researcher information about the expressed gene, the peptides localization inside the gene that they belong and, also, quantitative information about the peptide and the protein that were identified. Also, the use of an automated pipeline reduces the possibility of making mistakes in input/output of the data when using the intermediate modules. Here, the ProGen AP were applied to perform a proteogenomic annotation of Mycobacterium tuberculosis (MTb). In literature, the MTb genome, strain H37RV, have only 4062 predicted open reading frames (ORFs) and the functional complement of this genome is not completely known. The MTb analysis using ProGen AP, resulted in a list of 154.982 peptides identification, representing a total of 147.334 single peptides. Until now, were identified 2.369 proteins, covering nearly of 58% of the whole MTb genome. Is very important to highlight that, among all the identified proteins until now, most of them are annotated as hypothetical proteins in the MTb genome, so can be affirmed that the results of this project can confirm and validate the existence of all these genomic products. Beside this, 567 peptides were identified as been an N-terminal peptide and 1229 were identified as been a C-terminal, this fact indicates that the prediction of the beginning and the end of translation of those genes are right. All these positive results corroborate that the approach utilized in the ProGen AP is efficient and can be used in studies of other organisms.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-11062013-162047 |
Date | 03 May 2013 |
Creators | Pinto, Beatriz Jeronimo |
Contributors | Giuliatti, Silvana |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | English |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0592 seconds