Global ETD Search

1	Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh Araújo, Vanessa Cristina da Silva 07 March 2017 (has links) Submitted by Erika Demachki (erikademachki@gmail.com) on 2017-04-27T19:34:22Z No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-03T12:09:43Z (GMT) No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-05-03T12:09:43Z (GMT). No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-03-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Large-scale sequencing of transcripts via RNA-Seq has been changing paradigms by demonstrating that transcription is prevalent throughout the eukaryotic genome. In these organisms, the vast majority of transcripts are non-coding (ncRNA). One type of RNA that has aroused great interest, given its prevalence, is long non-coding RNAs (lncRNAs), which are ncRNA with more than 200 nucleotides. However, little is known about the role and prevalence of these lncRNAs in plant genomes, even in model species such as Arabidopsis thaliana (L.) Heynh. The objective of this work was to identify lncRNAs in the Arabidopsis genome and to characterize their size, structure and nucleotide diversity. The sequences were obtained from previous work that sequenced total RNA from A. thaliana, grown under different light regimes, using Illumina Hiseq 2000 platform. These sequences were mapped into the reference genome with TopHat and assembled with Cufflinks. The assembled transcripts were compared with the genome annotation with Cuffcompare, to identify non-annotated transcripts. A total of 4,305 long putative RNAs were obtained, with 314 (7%) sense in relation to coding transcripts (mRNAs), 392 (9%) intergenic, 2,216 intronic (52%) and 1,383 (32%) antisense mRNAs. The lncRNAs obtained were filtered to eliminate those with coding potential, as well as those related to rRNA, tRNA and miRNA synthesis. A total of 3,710 high-confidence lncRNAs (HC-lncRNA) were obtained, of which 58.6% were not previously annotated. These HC-lncRNA emcompass a low proportion (~ 1%) lncRNAs in the genome of Arabidopsis thaliana. A functional enrichment analysis of Gene Ontology (GO) categories demonstrated that among genes containing lncRNAs there is a high proportion of categories linked to the localization and transport of proteins within the cell, as well as to nucleic acid binding. A gene expression analyses identified only 22 differentially expressed lncRNAs under the different light conditions in which samples were exposed. Using the SNP data from the 1001 genomes project, identified high nucleotide diversity within lncRNAs regions, indicating low conservation of the primary structure of these transcripts. The nucleotide diversity in regions of long noncoding RNAs is lower than in coding regions, but less than a diversity observed in neutral regions such as pseudogenes. / O sequenciamento em larga escala de transcritos, via RNA-Seq, vêm mudando paradigmas ao demonstrar que a transcrição é prevalente por todo o genoma dos eucariotos. Nesses organismos, a grande maioria dos transcritos não codificam proteínas (ncRNA). Um tipo de RNA que vêm despertando grande interesse, dado sua prevalência, são os RNAs longos não codificantes (lncRNAs), que são ncRNA com mais de 200 nucleotídeos. No entanto, pouco se sabe sobre o seu papel e prevalência nos genomas de plantas, mesmo em espécies modelo como Arabidopsis thaliana (L.) Heynh. O objetivo desse trabalho foi identificar lncRNAs no genoma de Arabidopsis e caracterizar seus tamanhos, estruturas e diversidade genética. As sequências utilizadas foram obtidas de um trabalho que sequenciou RNA total de A. thaliana, sob diferentes regimes de luminosidade, utilizando a plataforma Illumina HiSeq 2000. Estas sequências foram mapeadas no genoma referência com o programa TopHat e montadas com o Cufflinks. Os transcritos montados foram comparados com a anotação do genoma com o Cuffcompare, afim de identificar transcritos ainda não anotados. Um total de 4.305 RNAs longos putativos foi obtido, sendo 314 (7%) senso em relação a transcritos codantes (mRNAs), 392 (9%) intergênicos, 2.216 intrônicos (52%) e 1.383 (32%) antisenso de mRNAs. Os lncRNAs obtidos foram filtrados para eliminar aqueles com potencial de codificação, bem como aqueles relacionados com a síntese rRNA, tRNA e miRNA. Após essa filtragem, foram obtidos 3.710 lncRNAs de alta cofiança (HC-lncRNA), sendo que desses 58,6% ainda não foram previamente anotados. Esses HC-lncRNA representam uma baixa proporção (~1%) do genoma de Arabidopsis thaliana. Uma análise de enriquecimento funcional de categorias do Gene Ontology (GO) demonstrou que os genes que contém lncRNAs apresentam enriquecimento para processos ligados à localização e transporte de proteínas dentro da célula, bem como para ligação a ácidos nucléicos. Uma análise de expressão gênica identificou apenas 22 lncRNAs diferencialmente expressos entre as diferentes condições de luminosidade em que as amostras foram expostas. Utilizando os SNPs do projeto 1001 genomes, identificou-se alta diversidade nucleotídica em regiões de lncRNAs, indicando baixa conservação da estrutura primária destes transcritos. A diversidade nucleotídica em regiões de RNAs longos não codificantes é menor do que em regiões codantes, mas menor do que a diversidade observada em regiões neutras como os pseudogenes. Arabidopsis Bionformática lncRNA RNA-Seq Bioinformatics CIENCIAS BIOLOGICAS::GENETICA
2	Modelamiento y Estudio de la Red de Interacciones Proteicas del Complejo NRC/MASC Campos Valenzuela, Jaime Alberto January 2010 (has links) La presente memoria tiene por objetivo investigar el sistema sináptico y levantar nuevas hipótesis acerca de la relación entre la organización de la densidad postsinaptica y el gatillamiento de enfermedades cognitivas, tales como, esquizofrenia, Alzheimer y retardo mental. Ello con la motivación de iniciar el desarrollo de nuevas terapias que permitan un ataque al mecanismo de estas enfermedades y no sólo a las consecuencias de ellas. En particular este trabajo explora nuevas metodologías en la inferencia de interacciones interproteicas y aplicar aquellas relaciones putativas en el estudio de la estructura receptora de glutamato NRC/MASC (NMDA receptor complex/ MAGUK associated signalling complex), ya que en la última década se ha determinado el rol fundamental del neurotransmisor glutamato en los procesos cognitivos y, por lo tanto, de la importancia de la recepción de él. Para el desarrollo de los objetivos se propuso un protocolo nuevo, en donde se unen dos metodologías novedosas. En primer lugar, la aplicación del clasificador Naïve-Bayes para inferir interacciones interproteicas del ser humano, logrando de esa forma obtener una red de interacción más amplia y con un parámetro de confianza para cada uno de sus elementos. En segundo lugar, utilizando esta red inferida, en conjunto con otras redes disponibles en literatura, se llevó a cabo un estudio sistémico de la unidad NRC/MASC, y como ésta se ve afectada en sujetos con enfermedades cognitivas. Para ello se utilizó un algoritmo de clustering que permitió la definición de los módulos funcionales del complejo. El primer resultado obtenido fue una red de interacciones interproteicas para el ser humano, compuesta por un número de proteínas comparable a las reportadas con anterioridad. La información disponible en estas redes fue integrada en un modelo único. Se seleccionaron los nodos pertenecientes al complejo receptor NRC/MASC, los que fueron agrupados en 12 módulos altamente especializados mediante el algoritmo de clustering. El análisis de las características de cada modulo permitió identificar una nueva organización no reportada en literatura: un gran módulo receptor conforma la capa de entrada de la señal de glutamato, seguido de una capa de modulación, para finalizar con la capa de módulos efectores. Por otro lado se designó una capa híbrida, con clusters con una función dual, tanto moduladores como efectores. Estos resultados permiten definir un nuevo modelo funcional del receptor, en donde se presentan una gran cantidad de vías de señalización y un aumento de la complejidad de las relaciones intermodulares. Además, se encontró que los clusters con una alta correlación con las enfermedades cognitivas serían el módulo receptor y el cluster modulador compuesto por 3 proteínas G. Finalmente, esta memoria ha propuesto un modelo funcional para la unidad receptora NRC/MASC, cuya composición y características organizativas se diferencian de los reportados anteriormente. Estas características transforman este modelo en una herramienta novedosa para el estudio de los complejos mecanismos que hay detrás de enfermedades como esquizofrenia y retardo mental. Biotecnología Biotecnología Bionformática Sinápsis Ácido glutámico Naive-Bayes
3	Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teins Carvalho, Thales Francisco Mota 25 July 2016 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1 texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result. Mineração de dados (Computação) Bancos de dados Bionformática Geminivirus Aprendizado de máquina Proteínas Ciência da Computação

Search results

Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh

Modelamiento y Estudio de la Red de Interacciones Proteicas del Complejo NRC/MASC