The type IV secretion system can be classified as a large family of macromolecule transporters divided in three recognized sub-families involved in different bacterial functions. The major sub-family of T4SS is the conjugation system, which allows transfer of genetic material as a nucleoprotein via cell contact among bacteria. Analogously to bacterial conjugation, the T4SS can transfer genetic material from bacteria to eukaryotic cells; such is the case of T-DNA transfer of Agrobacterium tumefaciens to host plant cells. The system of effector proteins transport constitutes the second sub-family, being indispensable for infection processes of several mammalian and plants pathogens. The third sub-family corresponds to the DNA uptake/release system involved in genetic transformation competence, independently of cell contact, as it was described to the systems VirB/D4 from Campylobacter jejuni and ComB form Helicobacter pylori.
Several essential features of T4SS are well known, but the knowledge in support of an uncomplicated classification or proper protein annotation of system subunits remains confusing, which in same cases can avoid making inferences about evolution of the system in bacterial species.
The purpose of this work was to organize, classify and integrate the knowledge about T4SS through building a database devoted to this bacterial secretion system.
The T4SS database was created using the SGBD MySQL and Perl programming language and with a web interface (HTML/CGI) that gives access to the database. Currently, this database hold genomic data from 43 bacteria and 10 plasmids acquired from the GenBank NCBI, these organisms comprise groups from Actionobacteria to Gram-negative Proteobacteria including symbiotic and pathogenic bacteria.
By applying Bidirectional Best-Hits method was possible to get a core set of 75 clusters with 974 proteins involved in the T4SS. Also, during this procedure BlastP, Muscle e ClustalW algorithms were applied. The database was manually annotated supported by cross references built-in the T4SS annotation pages, such as the UniProtKB/Swiss-Prot, COG, InterPro and TCDB as well as by the methods for signal peptide and transmembrane regions prediction.
All T4SS protein records scattered into 75 ortholog clusters were organized into five different classes of type IV secretion system proteins: (i) Type IVA Mpf/T4CP; (ii) Type IVA Dtr; (iii) F-type plasmid; (iv) IncP-1-type plasmid; (v) Type IVB Icm/Dot. All 974 proteins were annotated into 68 well-known families, which can be involved in conjugation, effector translocator, DNA uptake/release or even can be bifunctional proteins.
Also, by using the Maximum Likelihood method were built 70 unrooted phylogenetic trees that represents just 70 clusters instead of 75, this is due to five clusters had only two protein sequences, five unrooted phylogenetic trees were built for each group of first hierarchical classification, one unrooted phylogenetic trees including proteins from archetype systems of all groups, one unrooted phylogenetic trees from 16S sequence of each organism and one rooted tree including a sequence from a Gram-positive bacteria as an external group.
The phylogenetic analyses show that some proteins of T4SS are more divergent than others, which indicate that for a particular function few sequence mutations were needed, but other proteins required many sequence mutations to get another functions. Thus, these results proved that proteins belong to the same cluster show different functions: conjugation, DNA uptake/release or effector translocator. Consequently, it was possible verify that similar functions were grouped together within phylogenetic tree, which allowed to annotate a probable function of some uncharacterized proteins, that is possibly due to the sequence similarity may reveal a similar evolution to get the same function. Thus, the phylogenetic trees allowed confirming the protein annotation as well as inferring whether uncharacterized proteins would encompass a known function. The T4SS database will be an open access, given to the users searching and submission sequence tools, which will permit to get insights about classification and phylogeny of T4SS sequence of interest.
T4SS Database is accessible at the URL http://www.t4ss.lncc.br. / O T4SS pode ser classificado como uma família de transportadores de macromoléculas envolvidos em diferentes funções bacterianas. A maior subfamília do T4SS é a do sistema de conjugação, o qual permite a transferência de material genético entre bactérias. Analogamente à conjugação, o sistema pode transferir material genético entre bactérias e eucariotos, tal como a transferência de T-DNA de Agrobacterium tumefaciens. O sistema de transporte de proteínas efetoras constitui uma segunda subfamília do T4SS, sendo indispensável nos processos de infecção de vários patógenos de mamíferos e plantas. A última subfamília corresponde ao sistema DNA-uptake/release" que funciona independente de contato com uma célula alvo, representado pelos sistemas VirB/D4 de Campylobacter jejuni e ComB de Helicobacter pylori. Muitas características básicas do T4SS são bem conhecidas, entretanto o conhecimento para a classificação simples e intuitiva ou a anotação apropriada das proteínas ainda não está claro, impedindo em alguns casos estabelecer correlações evolutivas deste sistema em bactérias.
O objetivo deste trabalho foi o de organizar, classificar e integrar o conhecimento do T4SS através da construção de um banco de dados especializado para este sistema secretório bacteriano. O banco de dados T4SS foi criado utilizando o SGBD MySQL e a linguagem de programação Perl e com uma interface web (HTML/CGI) que fornece acesso ao banco. Este banco consta atualmente com 43 genomas bacterianos e 10 plasmídeos obtidos do GenBank NCBI, estes organismos vão desde Actinobactérias até Proteobactérias Gram-negativas, incluindo simbiontes e patogênicos. Foi utilizada a metodologia do Bidirectional Best-Hits", com a qual foi possível obter um conjunto mínimo de 75 clusters" com 974 proteínas envolvidas no T4SS. Também, durante este procedimento foram utilizados os algoritmos BlastP, Muscle e ClustalW. O banco foi anotado manualmente utilizando referências cruzadas incluídas nas páginas de anotação do T4SS, tais como UniProtKB/Swiss-Prot, COG, InterPro e TCDB e métodos para predição de regiões de peptídeos sinal e transmembrana.
As análises do banco T4SS permitiram criar uma classificação hierárquica e funcional para as proteínas do T4SS, consistindo em cinco grupos: (i) Type IVA Mpf/T4CP; (ii) Type IVA Dtr; (iii) F-type plasmid; (iv) IncP-1-type plasmid; (v) Type IVB Icm/Dot). As 974 proteínas foram anotadas em 68 famílias conhecidas, as quais podem estar envolvidas em conjugação, transferência de T-DNA, transferência de proteínas efetoras, DNA-uptake/release" ou bem serem proteínas bifuncionais. Também, através do método de máxima verossimilhança foram geradas 70 árvores filogenéticas não enraizadas (NR) representando apenas 70 clusters, já que cinco clusters apresentaram apenas duas seqüências de proteínas, cinco árvores filogenéticas NR foram criadas para cada grupo da primeira categoria hierárquica, uma árvore NR com representantes de todos os grupos, uma árvore NR gerada a partir das seqüências 16S de cada organismo e uma árvore de um cluster incluindo uma seqüência de bactéria Gram-positiva como grupo externo.
As análises filogenéticas mostram que determinadas proteínas do sistema são mais divergentes que outras, indicando que para uma determinada função poucas mutações de seqüências foram necessárias, já outras proteínas precisaram de maiores mutações para adquirir outras funções. Por isso, verifica-se que proteínas de um mesmo cluster apresentam diferentes funções: conjugação, DNA-uptake/release", traslocadores de proteínas efetoras. Conseqüentemente, foi possível verificar que funções semelhantes se agruparam juntas nas árvores filogenéticas, permitindo anotar uma função provável das proteínas ainda não caracterizadas (unknown"), isto possivelmente devido a que em virtude de sua semelhança de seqüências, possivelmente evoluíram para realizar a mesma função. Assim, as arvores possuíram a finalidade de confirmar a anotação e contribuíram permitindo inferir se os unknown" ou probable" podem ser de uma determinada classificação funcional. O banco T4SS será de uso público, oferecendo ao usuário ferramentas de buscas e submissão de seqüências, as quais permitirão inferir respostas sobre a classificação e filogenia da seqüência T4SS de interesse.
O banco de dados T4SS pode ser acessado na URL: http://www.t4ss.lncc.br.
Identifer | oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_LNCC:oai:lncc.br:85 |
Date | 31 October 2008 |
Creators | Diogo dos Santos Netto |
Contributors | Ana Tereza Ribeiro Vasconcelos, Fabiano Lopes Thompson, Carlos Eduardo Guerra Schrago, Paulo Sérgio Silva Rodrigues, Marisa Fabiana Nicolás |
Publisher | Laboratório Nacional de Computação Científica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf, application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do LNCC, instname:Laboratório Nacional de Computação Científica, instacron:LNCC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0044 seconds