• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Human Promoter Recognition Based on Principal Component Analysis

Li, Xiaomeng January 2008 (has links)
Master of Engineering / This thesis presents an innovative human promoter recognition model HPR-PCA. Principal component analysis (PCA) is applied on context feature selection DNA sequences and the prediction network is built with the artificial neural network (ANN). A thorough literature review of all the relevant topics in the promoter prediction field is also provided. As the main technique of HPR-PCA, the application of PCA on feature selection is firstly developed. In order to find informative and discriminative features for effective classification, PCA is applied on the different n-mer promoter and exon combined frequency matrices, and principal components (PCs) of each matrix are generated to construct the new feature space. ANN built classifiers are used to test the discriminability of each feature space. Finally, the 3 and 5-mer feature matrix is selected as the context feature in this model. Two proposed schemes of HPR-PCA model are discussed and the implementations of sub-modules in each scheme are introduced. The context features selected by PCA are III used to build three promoter and non-promoter classifiers. CpG-island modules are embedded into models in different ways. In the comparison, Scheme I obtains better prediction results on two test sets so it is adopted as the model for HPR-PCA for further evaluation. Three existing promoter prediction systems are used to compare to HPR-PCA on three test sets including the chromosome 22 sequence. The performance of HPR-PCA is outstanding compared to the other four systems.
2

Human Promoter Recognition Based on Principal Component Analysis

Li, Xiaomeng January 2008 (has links)
Master of Engineering / This thesis presents an innovative human promoter recognition model HPR-PCA. Principal component analysis (PCA) is applied on context feature selection DNA sequences and the prediction network is built with the artificial neural network (ANN). A thorough literature review of all the relevant topics in the promoter prediction field is also provided. As the main technique of HPR-PCA, the application of PCA on feature selection is firstly developed. In order to find informative and discriminative features for effective classification, PCA is applied on the different n-mer promoter and exon combined frequency matrices, and principal components (PCs) of each matrix are generated to construct the new feature space. ANN built classifiers are used to test the discriminability of each feature space. Finally, the 3 and 5-mer feature matrix is selected as the context feature in this model. Two proposed schemes of HPR-PCA model are discussed and the implementations of sub-modules in each scheme are introduced. The context features selected by PCA are III used to build three promoter and non-promoter classifiers. CpG-island modules are embedded into models in different ways. In the comparison, Scheme I obtains better prediction results on two test sets so it is adopted as the model for HPR-PCA for further evaluation. Three existing promoter prediction systems are used to compare to HPR-PCA on three test sets including the chromosome 22 sequence. The performance of HPR-PCA is outstanding compared to the other four systems.
3

A transcrição pervasiva na archaea Halobacterium salinarum NRC-1 e a identificação de novos transcritos / Pervasive transcription in the archaeon Halobacterium salinarum NRC- 1 and the identification of new transcripts.

Caten, Felipe ten 15 February 2017 (has links)
A caracterização em larga escala do transcritoma de diferentes organismos revelou um cenário complexo da expressão gênica, levando a identificação de inúmeros transcritos produzidos ao longo dos genomas de eucariotos e procariotos. Esse fenômeno recebeu o nome de transcrição pervasiva e tem sido fonte de estudos na busca de novos RNAs com importâncias regulatórias e também transcritos envolvidos na tradução de proteínas ainda não caracterizadas. A abundância de dados de transcritômica e proteômica, além de informações completas a respeito do genoma, fazem do extremófilo halofílico Halobacterium salinarum, um organismo modelo ideal para os estudos da transcrição pervasiva. Esse micro-organismo pertence ao grupo Archaea, o último dos três domínios da vida a ser descrito e com características compartilhadas entre bactérias e eucariotos. Através do uso da técnica de differential RNA-seq (dRNA-seq), a qual permite a distinção entre transcritos primários e processados, identificamos 179 TSSaRNAs em H. salinarum, esses pequenos RNAs estão associados ao início de transcrição e ainda não haviam sido descritos em archaea. A aplicação do dRNA-seq em amostras de RNA extraídas ao longo da curva de crescimento permitiu a identificação de 4540 TSS no genoma de H. salinarum NRC-1. Parte desses inícios de transcrição está localizada upstream a genes conhecidos, permitindo a identificação de inícios de transcrição em 1545 genes. 59,2% desses inícios de transcrição estão localizados até 10 pb. de distância do códon de início de tradução, confirmando a ausência de regiões UTRs em grande parte dos genes. A análise de expressão, em diferentes condições, das regiões relacionadas a inícios de transcrição antisense a genes revelou que a maioria dessas regiões apresenta um perfil de expressão correlacionado com os genes na fita oposta, indicando um possível papel regulatório desses transcritos. De forma similar, a análise da expressão de inícios de transcrição intergênicos permitiu a identificação de 132 regiões diferencialmente expressas e que não estão relacionadas a nenhum outro elemento no genoma de H. salinarum NRC-1. A análise comparativa com dados de proteômica revela que algumas dessas regiões podem estar envolvidas com a produção de pequenas proteínas. Além disso, a identificação de 1365 inícios de transcrição internos a genes sugere que a produção de transcritos intragênicos (intraRNAs) seja um fenômeno amplamente distribuído no genoma desse halófilo. Experimentos de Northern blot confirmaram a produção de um transcrito correspondente a porção final do gene VNG_RS05220, e experimentos de Western blot revelaram que a tradução desses intraRNAs é responsável pela produção de pequenas proteínas correspondentes a domínios proteicos individuais, com importante papel funcional em condições específicas de crescimento. A análise de inícios de transcrição upstream a regiões codificantes de domínios similares em bactérias e outras archaea sugere que a produção de intraRNAs codificantes é um fenômeno amplamente distribuído em procariotos e pode ser responsável pelo aumento da diversidade do proteoma através da geração de isoformas de proteínas a partir de um único gene. Por fim, a análise de dados de RNA-seq, em conjunto com a busca por assinaturas conhecidas de término de transcrição em archaea, permitiu a identificação da posição final de 58 genes. Os dados obtidos a partir dos experimentos e análises realizados ajudam a traçar um panorama mais completo do transcritoma de H. salinarum NRC-1 e revelam a presença de novos transcritos que podem ser amplamente distribuídos em procariotos e apresentar importantes papéis funcionais. / The large-scale transcriptome characterization of different organisms revealed a highly complex scenario of gene expression, leading to the identification of numerous transcripts in the genomes of eukaryotes and prokaryotes. This phenomenon has been named pervasive transcription and has been an important source for the search of new RNAs with regulatory functions or involved in the translation of unknown proteins. The abundance of transcriptomic and proteomic data, as well as complete information regarding the genome, allowed the halophilic extremophile Halobacterium salinarum to be an ideal model organism for studies of pervasive transcription. This microorganism belongs to the Archaea group, the last one of the three domains of life to be described, which presents shared characteristics with bacteria and eukaryotes. The use of differential RNA-seq (dRNA-seq) approach, which allows the distinction between primary and processed transcripts, allowed the identification of 179 TSSaRNAs, small RNAs associated with the transcription initiation in H. salinarum. The application of dRNA-seq in RNA samples collected along the growth curve allowed the identification of 4540 transcription start sites (TSS) in H. salinarum NRC-1. Some of these transcription initiation are located upstream to known genes, enabling the identification of TSSs for 1545 genes. 59.2% of these positions are located up to 10 bp away from the translation initiation codon, confirming that most of genes are leaderless. The expression analysis of regions related to antisense TSS under different conditions revealed that most of these regions have a correlated expression profile with genes in the opposite strand, indicating a possible regulatory role. Similarly, analysis of the expression of intergenic TSS allowed the identification of 132 differentially expressed regions that are not related to any other element in H. salinarum NRC-1 genome. Integration with proteomic data reveals that some of these regions may be involved in the production of small proteins. The identification of 1365 TSS located within genes suggests that the production of intragenic RNAs (intraRNAs) is a widely distributed phenomenon in H. salinarum NRC-1 genome. Northern blot experiments confirmed the production of a transcript corresponding to the final portion of VNG_RS05220 gene and Western blot experiments also revealed that the translation of intraRNAs is responsible for producing small proteins corresponding to individual protein domains with important functional role in specific growth conditions. Analysis of TSS upstream to the coding regions of similar protein domains in bacteria and other archaea suggests that the production of coding intraRNAs is a widely distributed phenomenon in prokaryotes and may be responsible for the increased proteome diversity through the generation of protein isoforms from a unique gene. Finally, the RNA-seq data analysis, combined with a search for known signatures for transcription termination in archaea, allowed the identification of the final position of 58 genes. The present work help to give a more complete picture of H. salinarum transcriptional landscape and reveals the presence of new transcripts that can be widely distributed in prokaryotes, with important functional roles.
4

O transcritoma antisense primário de Halobacterium salinarum NRC-1 / The antisense primary transcriptome of Halobacterium salinarum NRC-1

João Paulo Pereira de Almeida 04 September 2018 (has links)
Em procariotos, RNAs antisense (asRNAs) constituem a classe de RNAs não codificantes (ncRNAs) mais numerosa detectada por métodos de avaliação de transcritoma em larga escala. Apesar da grande abundância, pouco se sabe sobre mecanismos regulatórios e aspectos da conservação evolutiva dessas moléculas, principalmente em arquéias, onde o mecanismo de degradação de RNAs dupla fita (dsRNAs) é um fenômeno pouco conhecido. No presente estudo, utilizando dados de dRNA-seq, identificamos 1626 inícios de transcrição primários antisense (aTSSs) no genoma de Halobacterium salinarum NRC-1, importante organismo modelo para estudos de regulação gênica no domínio Archaea. Integrando dados de expressão gênica obtidos a partir de 18 bibliotecas de RNA-seq paired-end, anotamos 846 asRNAs a partir dos aTSSs mapeados. Encontramos asRNAs em ~21% dos genes anotados, alguns desses relacionados a importantes características desse organismo como: codificadores de proteínas que constituem vesículas de gás e da proteína bacteriorodopsina, além de vários genes relacionados a maquinaria de tradução e transposases. Além desses, encontramos asRNAs em genes pertencentes a sistemas de toxinas-antitoxinas do tipo II e utilizando dados públicos de dRNA-seq, evidenciamos que esse é um fenômeno que ocorre em bactérias e arquéias. A interação de um ncRNA com seu RNA alvo pode ser dependente de proteínas, em arquéias, a proteína LSm é uma chaperona de RNA homóloga a Hfq de bactérias, implicada no controle pós-transcricional. Utilizamos dados de RIP-seq de RNAs imunoprecipitados com LSm e identificamos 91 asRNAs interagindo com essa proteína, para 81 desses, o mRNA do gene sense também foi encontrado interagindo. Buscando por aTSSs presentes nas mesmas regiões de genes ortólogos, identificamos 160 aTSSs que dão origem a asRNAs em H. salinarum possivelmente conservados em Haloferax volcanii. A expressão dos asRNAs anotados foi avaliada ao longo de uma curva de crescimento e em uma linhagem knockout de um gene que codifica uma RNase R, possível degradadora de dsRNAs em arquéias. Encontramos um total de 144 asRNAs diferencialmente expressos ao longo da curva de crescimento, para 56 desses o gene sense também está diferencialmente expresso, caracterizando possíveis mecanismos de regulação em cis por esses RNAs. Na linhagem knockout, encontramos cinco asRNAs diferencialmente expressos e apenas para um desses o gene sense também está diferencialmente expresso, resultado que não nos permitiu inferir um possível papel de degradação de dsRNAs da RNAse R em H. salinarum NRC-1. Nesse trabalho apresentamos um mapeamento completo do transcritoma antisense primário de H. salinarum NRC-1 com resultados que consistem em um importante passo na direção da compreensão do envolvimento da transcrição antisense na regulação gênica pós-transcricional desse organismo modelo do terceiro domínio da vida. / Antisense RNAs (asRNAs) constitute the most numerous class of non-coding RNAs (ncRNAs) detected by transcriptome highthroughput methods in prokaryotes. Despite this abundance, little is known about regulatory mechanisms and evolutionary aspects of these molecules, mainly in archaea, where the mechanism of double-strand RNA (dsRNA) degradation remains poorly understood. In this study, using dRNA-seq data, we identified 1626 antisense transcription start sites (aTSSs) in the genome of Halobacterium salinarum NRC-1, an important model organism for gene expression regulation studies in Archaea. By integrating gene expression data from 18 RNA-seq paired-end libraries, we were able to annotate 846 asRNAs from mapped aTSSs. We found asRNAs in ~21% of annotated genes including genes related to important characteristics of this organism, such as: gas vesicle proteins, bacteriorhodopsin, translation machinery and transposases. We also found asRNAs in type II toxin-antitoxin systems and using public dRNA-seq data, we show evidences that this phenomenon might be conserved in archaea and bacteria. The interaction of a ncRNA with its target may depend on intermediary proteins action. In archaea, the LSm protein is a RNA chaperone homologous to bacterial Hfq, involved in post-transcriptional regulation. We used RIP-seq data from RNAs immunoprecipitated with LSm and identified 91 asRNAs interacting with this protein, for 81 of these the mRNA of the sense gene is also interacting. We searched for aTSSs present in the same region of orthologous genes in the Haloferax volcanii. We found 160 aTSSs that originated asRNAs in H. salinarum NRC-1 that might be conserved in this two archaea. The expression of annotated asRNAs was analyzed over a growth curve and in a knockout strain for RNase R gene. We found 144 asRNA differentially expressed over the growth curve, for 56 of these the sense gene was also differentially expressed, characterizing possible cis regulators asRNAs. In the knockout strain we found five differentially expressed asRNAs and only one asRNA/gene pair, this result does not allow us to infer a dsRNA degradation in vivo activity for this RNase in H. salinarum NRC- 1. This work contributes to the discovery of the antisense transcriptome in H. salinarum NRC- 1 a relevant step to uncover the post-transcriptional gene regulatory network in this archaeon.
5

O transcritoma antisense primário de Halobacterium salinarum NRC-1 / The antisense primary transcriptome of Halobacterium salinarum NRC-1

Almeida, João Paulo Pereira de 04 September 2018 (has links)
Em procariotos, RNAs antisense (asRNAs) constituem a classe de RNAs não codificantes (ncRNAs) mais numerosa detectada por métodos de avaliação de transcritoma em larga escala. Apesar da grande abundância, pouco se sabe sobre mecanismos regulatórios e aspectos da conservação evolutiva dessas moléculas, principalmente em arquéias, onde o mecanismo de degradação de RNAs dupla fita (dsRNAs) é um fenômeno pouco conhecido. No presente estudo, utilizando dados de dRNA-seq, identificamos 1626 inícios de transcrição primários antisense (aTSSs) no genoma de Halobacterium salinarum NRC-1, importante organismo modelo para estudos de regulação gênica no domínio Archaea. Integrando dados de expressão gênica obtidos a partir de 18 bibliotecas de RNA-seq paired-end, anotamos 846 asRNAs a partir dos aTSSs mapeados. Encontramos asRNAs em ~21% dos genes anotados, alguns desses relacionados a importantes características desse organismo como: codificadores de proteínas que constituem vesículas de gás e da proteína bacteriorodopsina, além de vários genes relacionados a maquinaria de tradução e transposases. Além desses, encontramos asRNAs em genes pertencentes a sistemas de toxinas-antitoxinas do tipo II e utilizando dados públicos de dRNA-seq, evidenciamos que esse é um fenômeno que ocorre em bactérias e arquéias. A interação de um ncRNA com seu RNA alvo pode ser dependente de proteínas, em arquéias, a proteína LSm é uma chaperona de RNA homóloga a Hfq de bactérias, implicada no controle pós-transcricional. Utilizamos dados de RIP-seq de RNAs imunoprecipitados com LSm e identificamos 91 asRNAs interagindo com essa proteína, para 81 desses, o mRNA do gene sense também foi encontrado interagindo. Buscando por aTSSs presentes nas mesmas regiões de genes ortólogos, identificamos 160 aTSSs que dão origem a asRNAs em H. salinarum possivelmente conservados em Haloferax volcanii. A expressão dos asRNAs anotados foi avaliada ao longo de uma curva de crescimento e em uma linhagem knockout de um gene que codifica uma RNase R, possível degradadora de dsRNAs em arquéias. Encontramos um total de 144 asRNAs diferencialmente expressos ao longo da curva de crescimento, para 56 desses o gene sense também está diferencialmente expresso, caracterizando possíveis mecanismos de regulação em cis por esses RNAs. Na linhagem knockout, encontramos cinco asRNAs diferencialmente expressos e apenas para um desses o gene sense também está diferencialmente expresso, resultado que não nos permitiu inferir um possível papel de degradação de dsRNAs da RNAse R em H. salinarum NRC-1. Nesse trabalho apresentamos um mapeamento completo do transcritoma antisense primário de H. salinarum NRC-1 com resultados que consistem em um importante passo na direção da compreensão do envolvimento da transcrição antisense na regulação gênica pós-transcricional desse organismo modelo do terceiro domínio da vida. / Antisense RNAs (asRNAs) constitute the most numerous class of non-coding RNAs (ncRNAs) detected by transcriptome highthroughput methods in prokaryotes. Despite this abundance, little is known about regulatory mechanisms and evolutionary aspects of these molecules, mainly in archaea, where the mechanism of double-strand RNA (dsRNA) degradation remains poorly understood. In this study, using dRNA-seq data, we identified 1626 antisense transcription start sites (aTSSs) in the genome of Halobacterium salinarum NRC-1, an important model organism for gene expression regulation studies in Archaea. By integrating gene expression data from 18 RNA-seq paired-end libraries, we were able to annotate 846 asRNAs from mapped aTSSs. We found asRNAs in ~21% of annotated genes including genes related to important characteristics of this organism, such as: gas vesicle proteins, bacteriorhodopsin, translation machinery and transposases. We also found asRNAs in type II toxin-antitoxin systems and using public dRNA-seq data, we show evidences that this phenomenon might be conserved in archaea and bacteria. The interaction of a ncRNA with its target may depend on intermediary proteins action. In archaea, the LSm protein is a RNA chaperone homologous to bacterial Hfq, involved in post-transcriptional regulation. We used RIP-seq data from RNAs immunoprecipitated with LSm and identified 91 asRNAs interacting with this protein, for 81 of these the mRNA of the sense gene is also interacting. We searched for aTSSs present in the same region of orthologous genes in the Haloferax volcanii. We found 160 aTSSs that originated asRNAs in H. salinarum NRC-1 that might be conserved in this two archaea. The expression of annotated asRNAs was analyzed over a growth curve and in a knockout strain for RNase R gene. We found 144 asRNA differentially expressed over the growth curve, for 56 of these the sense gene was also differentially expressed, characterizing possible cis regulators asRNAs. In the knockout strain we found five differentially expressed asRNAs and only one asRNA/gene pair, this result does not allow us to infer a dsRNA degradation in vivo activity for this RNase in H. salinarum NRC- 1. This work contributes to the discovery of the antisense transcriptome in H. salinarum NRC- 1 a relevant step to uncover the post-transcriptional gene regulatory network in this archaeon.

Page generated in 0.1332 seconds