Spelling suggestions: "subject:"RNAs não codifica"" "subject:"RNAs não codificada""
1 |
Método para melhoria da eficiência na identificação computacional de RNAs não-codificantes / Method to obtain a more efficient tool that compares a non-coding RNA sequence against a sequence databaseOliveira, Cristina Teixeira de 17 April 2009 (has links)
Até pouco tempo acreditava-se que a maioria das moléculas de RNA estava relacionada à tradução de proteínas. Porém, descobriu-se que outros tipos de moléculas de RNA que não são traduzidas estão presentes em muitos organismos diferentes e afetam uma variedade de processos moleculares, são os chamados RNAs não-codificantes (ncRNAs). Apesar de sua importância funcional, os métodos biológicos e computacionais para a detecção e caracterização de RNAs não-codificantes ainda são imprecisos e incompletos. A identificação de novas espécies de ncRNAs é difícil através de procedimentos experimentais e as técnicas computacionais existentes são lentas. O objetivo deste trabalho foi obter uma ferramenta mais eficiente para a comparação de uma seqüência de RNA não-codificante contra um banco de seqüências. Para isso foi proposto e implementado um modelo para identificação computacional de ncRNAs com apoio dos pacote Viena e Infernal e foram realizados experimentos para avaliá-lo / Until recently it was generally accepted that most RNA molecules were involved in the translation process. However, it was discovered that many types of untranslated RNA molecules are present in many different organisms and they are related to a wide variety of molecular processes. These molecules are called non-coding RNAs (ncRNAs). Despite their functional importance, the biological and computational methods to detect and identify non-coding RNAs are still imprecise and incomplete. The discovery of new ncRNAs species is difficult through experimental procedures and the existing computational techniques are slow. This project aimed at obtaining a more efficient tool that compares a non-coding RNA sequence against a sequence database. In order to achieve this, a computational model for ncRNAs identification using the Vienna and Infernal packages has been proposed and implemented. Experiments were conduced to evaluate the model
|
2 |
Método para melhoria da eficiência na identificação computacional de RNAs não-codificantes / Method to obtain a more efficient tool that compares a non-coding RNA sequence against a sequence databaseCristina Teixeira de Oliveira 17 April 2009 (has links)
Até pouco tempo acreditava-se que a maioria das moléculas de RNA estava relacionada à tradução de proteínas. Porém, descobriu-se que outros tipos de moléculas de RNA que não são traduzidas estão presentes em muitos organismos diferentes e afetam uma variedade de processos moleculares, são os chamados RNAs não-codificantes (ncRNAs). Apesar de sua importância funcional, os métodos biológicos e computacionais para a detecção e caracterização de RNAs não-codificantes ainda são imprecisos e incompletos. A identificação de novas espécies de ncRNAs é difícil através de procedimentos experimentais e as técnicas computacionais existentes são lentas. O objetivo deste trabalho foi obter uma ferramenta mais eficiente para a comparação de uma seqüência de RNA não-codificante contra um banco de seqüências. Para isso foi proposto e implementado um modelo para identificação computacional de ncRNAs com apoio dos pacote Viena e Infernal e foram realizados experimentos para avaliá-lo / Until recently it was generally accepted that most RNA molecules were involved in the translation process. However, it was discovered that many types of untranslated RNA molecules are present in many different organisms and they are related to a wide variety of molecular processes. These molecules are called non-coding RNAs (ncRNAs). Despite their functional importance, the biological and computational methods to detect and identify non-coding RNAs are still imprecise and incomplete. The discovery of new ncRNAs species is difficult through experimental procedures and the existing computational techniques are slow. This project aimed at obtaining a more efficient tool that compares a non-coding RNA sequence against a sequence database. In order to achieve this, a computational model for ncRNAs identification using the Vienna and Infernal packages has been proposed and implemented. Experiments were conduced to evaluate the model
|
3 |
RNAs não-codificantes associados a IS200/605: identificação e caracterização funcional na archaea Halobacterium salinarum NRC-1 / Non-coding RNAs associated with IS200/605: Identification and functional characterizal in the archaea Halobacterium salinarum NRC-1Gomes Filho, José Vicente 13 June 2017 (has links)
Os elementos genéticos móveis (mobile genetic elements MGEs), são elementos extremamente importantes para plasticidade e evolução dos genomas. Uma das classes mais importantes de MGEs são as sequências de inserção (insertion sequences - IS). Estes elementos são encontrados em bactérias e archaea e apresentam grande diversidade de famílias e mecanismos de movimentação. Uma família interessante de IS é IS200/605, esta família encontra-se distribuída em bactérias, archaea e vírus e utiliza substratos de DNA de fita simples para seu processo de transposição. Neste trabalho, através da análise de dados públicos de transcritoma identificamos RNAs sobrepostos ao 3\' de genes tnpB de IS200/605 em archaea e bactérias, estes transcritos foram chamados de sense overlapping transcripts (sotRNAs). As extremidades 5\' e 3\' dos sotRNAs foram mapeadas através de dados de RNA-seq de pequenos RNAs (sRNA-seq) e validadas através da técnica de C-RACE. Análises de sequência e estrutura secundária demonstraram que estes RNAs apresentam um motivo conservado chamado de RE-like. Utilizando a sequência consenso deste motivo pudemos identificar RNAs intergênicos derivados de IS200/605 em H. salinarum NRC-1. Para caracterização funcional, construímos linhagens superexpressando os RNAs VNG_sot0042 e VNG_R0052, ambos contendo o motivo RE-like. Curvas de crescimento, utilizando as linhagens construídas demonstraram que a superexpressão destes RNAs aumenta o crescimento de H. salinarum demonstrando sua funcionalidade. Devido a presença do motivo RE-like, extremidades 5\' e 3\' determinadas e fenótipo visualizado em curva de crescimento padrão, o sotRNA VNG_sot0042 foi estudado mais a fundo. Realizamos experimentos de RNA-seq para avaliar o impacto desta superexpressão no transcritoma de H. salinarum NRC-1, assim como experimentos de SILAC para identificação de proteínas parceiras em larga escala. Nestes ensaios identificamos proteínas e genes associados ao processo de adesão, geração de células persistentes e resistência a metais pesados. Ensaios de adesão e sobrevivência a metais pesados demonstraram que a linhagem de superexpressão apresenta maior capacidade de aderir a vidro e maior sobrevivência em diversas condições de estresse. Deste modo, podemos sugerir que ncRNAs derivados de IS200/605 são importantes moléculas regulatórias em H. salinarum NRC-1 e nos ajudam a compreender a manutenção de IS200/605 e seus derivados nos genomas de procariotos. / Mobile genetic elements (MGEs) are extremely important for plasticity and evolution of genomes. Their impacts are diverse and could be related to antibiotic resistence or symbiosis. One of the most important class of MGEs are insertion sequences (ISs). These elements are found widespread throughout bacteria and archaea, presenting a great diversity of families. An interesting family is the IS200/605, this family is found widespread in bacteria, archaea and viruses and is divided in three subgroups according to it\'s genetic composition: IS200 with tnpA gene alone, IS605 with tnpA and tnpB and IS1341 with tnpB only. Another interesting aspect is the utilization of single-stranded DNA as a substrate during the transposition process. In this work, through the analysis of public available transcriptomic data we identified transcripts that overlaps the 3\' end of tnpB in IS200/605 in both bacteria and archaea. These transcripts were named sense overlapping transcripts (sotRNAs). Sequence and secondary structure analysis showed a conserved motif present in sotRNAs, the RE-like motif. Using the consensus sequence of this motif we identified novel intergenic ncRNAs containing this motif that are derived from IS200/605. For functional characterization we overexpressed a sotRNA (VNG_sot0042) and a intergenic (VNG_R0052), both containing the RE-like motif. Standard growth curves demonstrated that the overexpression of these ncRNAs improve H. salinarum growth showing that this RNA is functional. To further evaluate the impact of the overexpressions we prepared RNA-seq libraries of the strain overexpressing VNG_sot0042 and in parallel performed SILAC experiments to identify potential protein-RNA interaction partners. Differentially regulated genes and interacting proteins associated with adhesion and persistent cells generation were found. Adhesion and survival assays showed that the lineage overexpressing VNG_sot0042 has a better capability to adhere in glass surfaces and survive more in diverse stressful conditions.
|
4 |
RNAs não-codificantes associados a IS200/605: identificação e caracterização funcional na archaea Halobacterium salinarum NRC-1 / Non-coding RNAs associated with IS200/605: Identification and functional characterizal in the archaea Halobacterium salinarum NRC-1José Vicente Gomes Filho 13 June 2017 (has links)
Os elementos genéticos móveis (mobile genetic elements MGEs), são elementos extremamente importantes para plasticidade e evolução dos genomas. Uma das classes mais importantes de MGEs são as sequências de inserção (insertion sequences - IS). Estes elementos são encontrados em bactérias e archaea e apresentam grande diversidade de famílias e mecanismos de movimentação. Uma família interessante de IS é IS200/605, esta família encontra-se distribuída em bactérias, archaea e vírus e utiliza substratos de DNA de fita simples para seu processo de transposição. Neste trabalho, através da análise de dados públicos de transcritoma identificamos RNAs sobrepostos ao 3\' de genes tnpB de IS200/605 em archaea e bactérias, estes transcritos foram chamados de sense overlapping transcripts (sotRNAs). As extremidades 5\' e 3\' dos sotRNAs foram mapeadas através de dados de RNA-seq de pequenos RNAs (sRNA-seq) e validadas através da técnica de C-RACE. Análises de sequência e estrutura secundária demonstraram que estes RNAs apresentam um motivo conservado chamado de RE-like. Utilizando a sequência consenso deste motivo pudemos identificar RNAs intergênicos derivados de IS200/605 em H. salinarum NRC-1. Para caracterização funcional, construímos linhagens superexpressando os RNAs VNG_sot0042 e VNG_R0052, ambos contendo o motivo RE-like. Curvas de crescimento, utilizando as linhagens construídas demonstraram que a superexpressão destes RNAs aumenta o crescimento de H. salinarum demonstrando sua funcionalidade. Devido a presença do motivo RE-like, extremidades 5\' e 3\' determinadas e fenótipo visualizado em curva de crescimento padrão, o sotRNA VNG_sot0042 foi estudado mais a fundo. Realizamos experimentos de RNA-seq para avaliar o impacto desta superexpressão no transcritoma de H. salinarum NRC-1, assim como experimentos de SILAC para identificação de proteínas parceiras em larga escala. Nestes ensaios identificamos proteínas e genes associados ao processo de adesão, geração de células persistentes e resistência a metais pesados. Ensaios de adesão e sobrevivência a metais pesados demonstraram que a linhagem de superexpressão apresenta maior capacidade de aderir a vidro e maior sobrevivência em diversas condições de estresse. Deste modo, podemos sugerir que ncRNAs derivados de IS200/605 são importantes moléculas regulatórias em H. salinarum NRC-1 e nos ajudam a compreender a manutenção de IS200/605 e seus derivados nos genomas de procariotos. / Mobile genetic elements (MGEs) are extremely important for plasticity and evolution of genomes. Their impacts are diverse and could be related to antibiotic resistence or symbiosis. One of the most important class of MGEs are insertion sequences (ISs). These elements are found widespread throughout bacteria and archaea, presenting a great diversity of families. An interesting family is the IS200/605, this family is found widespread in bacteria, archaea and viruses and is divided in three subgroups according to it\'s genetic composition: IS200 with tnpA gene alone, IS605 with tnpA and tnpB and IS1341 with tnpB only. Another interesting aspect is the utilization of single-stranded DNA as a substrate during the transposition process. In this work, through the analysis of public available transcriptomic data we identified transcripts that overlaps the 3\' end of tnpB in IS200/605 in both bacteria and archaea. These transcripts were named sense overlapping transcripts (sotRNAs). Sequence and secondary structure analysis showed a conserved motif present in sotRNAs, the RE-like motif. Using the consensus sequence of this motif we identified novel intergenic ncRNAs containing this motif that are derived from IS200/605. For functional characterization we overexpressed a sotRNA (VNG_sot0042) and a intergenic (VNG_R0052), both containing the RE-like motif. Standard growth curves demonstrated that the overexpression of these ncRNAs improve H. salinarum growth showing that this RNA is functional. To further evaluate the impact of the overexpressions we prepared RNA-seq libraries of the strain overexpressing VNG_sot0042 and in parallel performed SILAC experiments to identify potential protein-RNA interaction partners. Differentially regulated genes and interacting proteins associated with adhesion and persistent cells generation were found. Adhesion and survival assays showed that the lineage overexpressing VNG_sot0042 has a better capability to adhere in glass surfaces and survive more in diverse stressful conditions.
|
5 |
Análise exploratória em larga escala de microRNAs expressos em tilápia do Nilo utilizando ferramentas de bioinformáticaBovolenta, Luiz Augusto. January 2016 (has links)
Orientador: Ney Lemke / Resumo: MicroRNAs (miRNAs) são pequenas moléculas de RNA que regulam pós-transcricionalmente a expressão de genes, modelando o transcriptoma e a produção de proteínas. Em geral, os miRNAs são conservados no genoma de eucariotos, sendo considerados elementos vitais em diversos processos biológicos durante o desenvolvimento, tais como crescimento, diferenciação e morte celular. A grande diversidade de miRNAs identificados está restrita a poucas espécies e apenas uma parte do total de alvos de miRNAs preditos foi caracterizada funcionalmente. Nesse contexto, o uso da tecnologia de sequenciamento de alto rendimento (high throughput sequencing) atrelada à análise de nível transcricional por RT-qPCR possibilitam a identificação do microRNoma. A tilápia do Nilo, Oreochromis niloticus, é considerada um excelente modelo biológico para o estudo de miRNAs em vertebrados devido à sua importância econômica e evolutiva. O presente trabalho teve como objetivos: organizar os dados do sequenciamento dos miRNAs da tilapia do Nilo; disponibilizá-los em forma de uma base de dados para a comunidade científica; integrar as informações dos miRNAs identificados com outros bancos de dados de miRNAs; analisar os dados através de análises de bioinformática para determinação de agrupamentos definidos pelo nível de expressão de cada miRNA em seis tipos de tecido (músculo branco, músculo vermelho, testículo, ovário, fígado, olho, cérebro e coração) com distinção entre os gêneros e nas fases do desenvolvimento (2,... (Resumo completo, clicar acesso eletrônico abaixo) / Doutor
|
6 |
Predição de RNAs não codificantes e sua aplicação na busca do componente RNA da telomerase / Noncoding RNA prediction and its application in the telomerase RNA component searchingLima, Ariane Machado 20 December 2006 (has links)
RNAs não codificantes (ncRNAs) têm ganho crescente prestígio nos últimos anos devido a recentes e contínuas descobertas revelando sua diversidade e importância. Porém, a identificação dessas moléculas ainda é um problema em aberto. Em particular, Plasmodium falciparum é um desafio para a pesquisa de ncRNAs, onde poucos foram identificados até o momento. P. falciparum é o parasita que causa uma malária humana letal. A descoberta de novos ncRNAs neste organismo pode auxiliar no desenvolvimento de novos tratamentos. Este trabalho faz um estudo sobre técnicas computacionais para a predição de ncRNAs e, utilizando como objeto de estudo P. falciparum, propõe uma metodologia de predição que seja aplicável inclusive a genomas com viés composicional. A ênfase deste estudo foi a predição de ncRNAs família-específicos, utilizando o componente RNA da telomerase como objeto de estudo. Este é um importante RNA que, devido à sua alta taxa de mutação, é de difícil identificação. Este RNA ainda não foi identificado em P. falciparum. No entanto, evidências biológicas indicam que este RNA é presente, funcional e deve ser essencial ao parasita, caracterizando-se como um alvo de drogas. Além disso, foi realizado um trabalho preliminar sobre a predição de ncRNAs em geral em P. falciparum utilizando uma abordagem comparativa. / Noncoding RNAs (ncRNAs) have been receiving increasing prestige in the last years due to recent and continuous discoveries revealing their diversity and importance. However, the identification of these molecules is still an open problem. In particular, Plasmodium falciparum is a challenge for the ncRNA research, in which few ncRNAs have been identified. P. falciparum is the parasite that causes a lethal human malaria. The discovery of new ncRNAs in this organism may help in the development of new treatments. This work does a research of computational techniques for the ncRNA prediction and, by using P. falciparum as target, proposes a prediction methodology which is also applicable to compositionally biased genomes. The emphasis of this study was the prediction of family-specific ncRNAs, by using the telomerase RNA component as target. This is an important RNA that has a high mutation rate, being difficult to predict. This RNA has not been identified in P. falciparum, yet. However, biological evidences indicate this RNA is present, functional and might be essential for the parasite, being a drug target. In addition, this work presents preliminary results about the prediction of general ncRNAs in P. falciparum by using a comparative approach.
|
7 |
Predição de RNAs não codificantes e sua aplicação na busca do componente RNA da telomerase / Noncoding RNA prediction and its application in the telomerase RNA component searchingAriane Machado Lima 20 December 2006 (has links)
RNAs não codificantes (ncRNAs) têm ganho crescente prestígio nos últimos anos devido a recentes e contínuas descobertas revelando sua diversidade e importância. Porém, a identificação dessas moléculas ainda é um problema em aberto. Em particular, Plasmodium falciparum é um desafio para a pesquisa de ncRNAs, onde poucos foram identificados até o momento. P. falciparum é o parasita que causa uma malária humana letal. A descoberta de novos ncRNAs neste organismo pode auxiliar no desenvolvimento de novos tratamentos. Este trabalho faz um estudo sobre técnicas computacionais para a predição de ncRNAs e, utilizando como objeto de estudo P. falciparum, propõe uma metodologia de predição que seja aplicável inclusive a genomas com viés composicional. A ênfase deste estudo foi a predição de ncRNAs família-específicos, utilizando o componente RNA da telomerase como objeto de estudo. Este é um importante RNA que, devido à sua alta taxa de mutação, é de difícil identificação. Este RNA ainda não foi identificado em P. falciparum. No entanto, evidências biológicas indicam que este RNA é presente, funcional e deve ser essencial ao parasita, caracterizando-se como um alvo de drogas. Além disso, foi realizado um trabalho preliminar sobre a predição de ncRNAs em geral em P. falciparum utilizando uma abordagem comparativa. / Noncoding RNAs (ncRNAs) have been receiving increasing prestige in the last years due to recent and continuous discoveries revealing their diversity and importance. However, the identification of these molecules is still an open problem. In particular, Plasmodium falciparum is a challenge for the ncRNA research, in which few ncRNAs have been identified. P. falciparum is the parasite that causes a lethal human malaria. The discovery of new ncRNAs in this organism may help in the development of new treatments. This work does a research of computational techniques for the ncRNA prediction and, by using P. falciparum as target, proposes a prediction methodology which is also applicable to compositionally biased genomes. The emphasis of this study was the prediction of family-specific ncRNAs, by using the telomerase RNA component as target. This is an important RNA that has a high mutation rate, being difficult to predict. This RNA has not been identified in P. falciparum, yet. However, biological evidences indicate this RNA is present, functional and might be essential for the parasite, being a drug target. In addition, this work presents preliminary results about the prediction of general ncRNAs in P. falciparum by using a comparative approach.
|
8 |
Métodos de validação tradicional e temporal aplicados à avaliação de classificadores de RNAs codificantes e não codificantes / Traditional and time validation methods applied to the evaluation of coding and non-coding RNA classifiersSá, Clebiano da Costa 23 March 2018 (has links)
Os ácidos ribonucleicos (RNAs) podem ser classificados em duas classes principais: codificante e não codificante de proteína. Os codificantes, representados pelos RNAs mensageiros (mRNAs), possuem a informação necessária à síntese proteica. Já os RNAs não codificantes (ncRNAs) não são traduzidos em proteínas, mas estão envolvidos em várias atividades celulares distintas e associados a várias doenças tais como cardiopatias, câncer e desordens psiquiátricas. A descoberta de novos ncRNAs e seus papéis moleculares favorece avanços no conhecimento da biologia molecular e pode também impulsionar o desenvolvimento de novas terapias contra doenças. A identificação de ncRNAs é uma ativa área de pesquisa e um dos correntes métodos é a classificação de sequências transcritas utilizando sistemas de reconhecimento de padrões baseados em suas características. Muitos classificadores têm sido desenvolvidos com este propósito, especialmente nos últimos três anos. Um exemplo é o Coding Potential Calculator (CPC), baseado em Máquinas de Vetores de Suporte (SVM). No entanto, outros algoritmos robustos são também reconhecidos pelo seu potencial em tarefas de classificação, como por exemplo Random Forest (RF). O método mais utilizado para avaliação destas ferramentas tem sido a validação cruzada k-fold. Uma questão não considerada nessa forma de validação é a suposição de que as distribuições de frequências dentro do banco de dados, em termos das classes das sequências e outras variáveis, não se alteram ao longo do tempo. Caso essa premissa não seja verdadeira, métodos tradicionais como a validação cruzada e o hold-out podem subestimar os erros de classificação. Constata-se, portanto, a necessidade de um método de validação que leve em consideração a constante evolução dos bancos de dados ao longo do tempo, para proporcionar uma análise de desempenho mais realista destes classificadores. Neste trabalho comparamos dois métodos de avaliação de classificadores: hold-out temporal e hold-out tradicional (atemporal). Além disso, testamos novos modelos de classificação a partir da combinação de diferentes algoritmos de indução com características de classificadores do estado da arte e um novo conjunto de características. A partir dos testes das hipóteses, observamos que tanto a validação hold-out tradicional quanto a validação hold-out temporal tendem a subestimar os erros de classificação, que a avaliação por validação temporal é mais fidedigna, que classificadores treinados a partir de parâmetros calibrados por validação temporal não melhoram a classificação e que nosso modelo de classificação baseado em Random Forest e treinado com características de classificadores do estado da arte e mais um novo conjunto de características proporcionou uma melhora significativa na discriminação dos RNAs codificantes e não codificantes. Por fim, destacamos o potencial do algoritmo Random Forest e das características utilizadas, diante deste problema de classificação, e sugerimos o uso do método de validação hold-out temporal para a obtenção de estimativas de desempenho mais fidedignas para os classificadores de RNAs codificantes e não codificantes de proteína. / Ribonucleic acids (RNAs) can be classified into two main classes: coding and non-coding of protein. The coding, represented by messenger RNAs (mRNAs), has the necessary information for protein synthesis. Non-coding RNAs (ncRNAs) are not translated into proteins but are involved in several distinct cellular activities associated with various diseases such as heart disease, cancer and psychiatric disorders. The discovery of new ncRNAs and their molecular roles favors advances in the knowledge of molecular biology and may also boost the development of new therapies against diseases. The identification of ncRNAs is an active area of research and one of the current methods is the classification of transcribed sequences using pattern recognition systems based on their characteristics. Many classifiers have been developed for this purpose, especially in the last three years. An example is the Coding Potential Calculator (CPC), based on Supporting Vector Machines (SVM). However, other robust algorithms are also recognized for their potential in classification tasks, such as Random Forest (RF). The most commonly used method for evaluating these tools has been cross-validation k-fold. An issue not considered in this form of validation is the assumption that frequency distributions within the database, in terms of sequence classes and other variables, do not change over time. If this assumption is not true, traditional methods such as cross-validation and hold-out may underestimate classification errors. The need for a validation method that takes into account the constant evolution of databases over time is therefore needed to provide a more realistic performance analysis of these classifiers. In this work we compare two methods of evaluation of classifiers: time hold-out and traditional hold-out (without considering the time). In addition, we tested new classification models from the combination of different induction algorithms with state-ofthe-art classifier characteristics and a new set of characteristics. From the hypothesis tests, we observe that both the traditional hold-out validation and the time hold-out validation tend to underestimate the classification errors, that the time validation evaluation is more reliable, than classifiers trained from parameters calibrated by time validation did not improve classification and that our Random Forest-based classification model trained with state-of-the-art classifier characteristics and a new set of characteristics provided a significant improvement in the discrimination of the coding and non-coding RNAs. Finally, we highlight the potential of the Random Forest algorithm and the characteristics used, in view of this classification problem, and we suggest the use of the time hold-out validation method to obtain more reliable estimates of the protein coding and non-coding RNA classifiers.
|
9 |
SIMTar: uma ferramenta para predição de SNPs interferindo em sítios alvos de microRNAs / SIMTar: a tool for prediction of SNPs interfering on microRNA target sitesPiovezani, Amanda Rusiska 12 September 2013 (has links)
Polimorfismos de um nucleotídeo (SNPs) podem alterar, além de códons de leitura da tradução de genes, posições genômicas importantes do processo de regulação gênica, como sítios de iniciação de transcrição, de splicing e, mais especificamente, sítios alvos de microRNAs (miRNAs). Em parti- cular, a identificação de SNPs alterando sítios alvos de miRNAs é um problema em aberto, embora venha ganhando um importante destaque nos últimos anos decorrente dos avanços descobertos sobre a capacidade dos miRNAs como elementos reguladores do genoma, associados inclusive a muitas doenças como o câncer e vários transtornos psiquiátricos. Os recursos computacionais atualmente disponíveis para esta finalidade (alguns bancos de dados e uma ferramenta) estão restritos à análise de SNPs na região 3UTR (UnTranslated Regions) de RNAs mensageiros, onde miRNAs geralmente se ligam para reprimir sua tradução. No entanto, essa é uma simplificação do problema, dado que já se conhece a regulação por miRNAs ativando ou reprimindo a transcrição gênica quando ligados à sua região promotora, aumentando a efetividade da regulação negativa da tradução quando ligados à região codificante do gene ou ainda miRNAs se ligando a RNAs não codificantes. Esses recursos se limitam também à identificação de SNPs na região seed dos sítios de miRNAs, e portanto só identificam criação ou ruptura de sítios. Porém, SNPs localizados fora dessa região não só podem colaborar na criação e ruptura de sítios como também interferir na estabilidade de ligação de miRNAs e, por- tanto, na efetividade da regulação. Além disso, considerando toda a extensão do sítio, não somente a seed , é possível ocorrer mais de um SNP e, sendo assim, a combinação desses SNPs pode ter uma influência ainda maior na ligação com o miRNA. Os recursos atuais também não informam quais alelos dos SNPs, muito menos quais combinações deles, estão causando qual efeito. Por fim, tais recursos estão restritos a Homo sapiens e Mus musculus. Assim, este trabalho apresenta a ferramenta computacional SIMTar (SNPs Interfering in MicroRNA Targets), desenvolvida para identificar SNPs que alteram sítios alvos de miRNAs e que preenche as lacunas mencionadas. Além disso, é descrita uma aplicação de SIMTar na análise de 114 SNPs associados à esquizofrenia, na qual todos foram preditos interferindo em sítios alvos de miRNAs. / Single nucleotide polymorphisms (SNPs) can be involved in alteration of not only open reading frame but also important genomic positions of gene regulation process such as transcription initiation sites, splicing sites and microRNA target sites. In particular, the identification of SNPs interfering on microRNA target sites is still an open problem, despite its increasing prominence in recent years due to the discoveries about the microRNA abilities as regulatory elements in the genome and association with severals diseases such as cancer and psychiatric disorders. The computational resources currently available for this purpose (four databases and one tool) are restricted to the analysis of SNPs in the 3UTR (UnTranslated Regions) of mRNAs, where the microRNAs typically bind in order to repress their translation. However, this is a simplification of the problem, since it is already known the gene transcription activation by microRNAs bound to its promoter region, increasing of the effectiveness of negative regulation of translation when microRNAs are bound to the coding region of the gene or binding of microRNA into non-coding RNAs. These resources are also limited to the identification of SNPs in the seed region of miRNAs, and therefore they can only identify sites creation or disruption. However, SNPs located outside this region can not only create and disrupt target sites but also interfere on the stability of miRNAs binding and therefore on the regulation effectiveness. Moreover, considering the target site length, more than one SNP can occur inside of a site and thus, the combination of these SNPs can have an even greater influence on the microRNA binding. Also, current resources do not display which alleles of SNPs or what combinations of them are causing which effect. Finally, these features are restricted to the Homo sapiens and Mus musculus species. This work presents the computational tool SIMTar (SNPs Interfering on MicroRNA Targets), developed to identify SNPs that alter miRNA target sites and fills the mentioned gaps. Finally, it is described an application of SIMTar on the analysis of 114 SNPs associated with schizophrenia, all of them being predicted interfering with miRNA target sites.
|
10 |
Métodos de validação tradicional e temporal aplicados à avaliação de classificadores de RNAs codificantes e não codificantes / Traditional and time validation methods applied to the evaluation of coding and non-coding RNA classifiersClebiano da Costa Sá 23 March 2018 (has links)
Os ácidos ribonucleicos (RNAs) podem ser classificados em duas classes principais: codificante e não codificante de proteína. Os codificantes, representados pelos RNAs mensageiros (mRNAs), possuem a informação necessária à síntese proteica. Já os RNAs não codificantes (ncRNAs) não são traduzidos em proteínas, mas estão envolvidos em várias atividades celulares distintas e associados a várias doenças tais como cardiopatias, câncer e desordens psiquiátricas. A descoberta de novos ncRNAs e seus papéis moleculares favorece avanços no conhecimento da biologia molecular e pode também impulsionar o desenvolvimento de novas terapias contra doenças. A identificação de ncRNAs é uma ativa área de pesquisa e um dos correntes métodos é a classificação de sequências transcritas utilizando sistemas de reconhecimento de padrões baseados em suas características. Muitos classificadores têm sido desenvolvidos com este propósito, especialmente nos últimos três anos. Um exemplo é o Coding Potential Calculator (CPC), baseado em Máquinas de Vetores de Suporte (SVM). No entanto, outros algoritmos robustos são também reconhecidos pelo seu potencial em tarefas de classificação, como por exemplo Random Forest (RF). O método mais utilizado para avaliação destas ferramentas tem sido a validação cruzada k-fold. Uma questão não considerada nessa forma de validação é a suposição de que as distribuições de frequências dentro do banco de dados, em termos das classes das sequências e outras variáveis, não se alteram ao longo do tempo. Caso essa premissa não seja verdadeira, métodos tradicionais como a validação cruzada e o hold-out podem subestimar os erros de classificação. Constata-se, portanto, a necessidade de um método de validação que leve em consideração a constante evolução dos bancos de dados ao longo do tempo, para proporcionar uma análise de desempenho mais realista destes classificadores. Neste trabalho comparamos dois métodos de avaliação de classificadores: hold-out temporal e hold-out tradicional (atemporal). Além disso, testamos novos modelos de classificação a partir da combinação de diferentes algoritmos de indução com características de classificadores do estado da arte e um novo conjunto de características. A partir dos testes das hipóteses, observamos que tanto a validação hold-out tradicional quanto a validação hold-out temporal tendem a subestimar os erros de classificação, que a avaliação por validação temporal é mais fidedigna, que classificadores treinados a partir de parâmetros calibrados por validação temporal não melhoram a classificação e que nosso modelo de classificação baseado em Random Forest e treinado com características de classificadores do estado da arte e mais um novo conjunto de características proporcionou uma melhora significativa na discriminação dos RNAs codificantes e não codificantes. Por fim, destacamos o potencial do algoritmo Random Forest e das características utilizadas, diante deste problema de classificação, e sugerimos o uso do método de validação hold-out temporal para a obtenção de estimativas de desempenho mais fidedignas para os classificadores de RNAs codificantes e não codificantes de proteína. / Ribonucleic acids (RNAs) can be classified into two main classes: coding and non-coding of protein. The coding, represented by messenger RNAs (mRNAs), has the necessary information for protein synthesis. Non-coding RNAs (ncRNAs) are not translated into proteins but are involved in several distinct cellular activities associated with various diseases such as heart disease, cancer and psychiatric disorders. The discovery of new ncRNAs and their molecular roles favors advances in the knowledge of molecular biology and may also boost the development of new therapies against diseases. The identification of ncRNAs is an active area of research and one of the current methods is the classification of transcribed sequences using pattern recognition systems based on their characteristics. Many classifiers have been developed for this purpose, especially in the last three years. An example is the Coding Potential Calculator (CPC), based on Supporting Vector Machines (SVM). However, other robust algorithms are also recognized for their potential in classification tasks, such as Random Forest (RF). The most commonly used method for evaluating these tools has been cross-validation k-fold. An issue not considered in this form of validation is the assumption that frequency distributions within the database, in terms of sequence classes and other variables, do not change over time. If this assumption is not true, traditional methods such as cross-validation and hold-out may underestimate classification errors. The need for a validation method that takes into account the constant evolution of databases over time is therefore needed to provide a more realistic performance analysis of these classifiers. In this work we compare two methods of evaluation of classifiers: time hold-out and traditional hold-out (without considering the time). In addition, we tested new classification models from the combination of different induction algorithms with state-ofthe-art classifier characteristics and a new set of characteristics. From the hypothesis tests, we observe that both the traditional hold-out validation and the time hold-out validation tend to underestimate the classification errors, that the time validation evaluation is more reliable, than classifiers trained from parameters calibrated by time validation did not improve classification and that our Random Forest-based classification model trained with state-of-the-art classifier characteristics and a new set of characteristics provided a significant improvement in the discrimination of the coding and non-coding RNAs. Finally, we highlight the potential of the Random Forest algorithm and the characteristics used, in view of this classification problem, and we suggest the use of the time hold-out validation method to obtain more reliable estimates of the protein coding and non-coding RNA classifiers.
|
Page generated in 0.0692 seconds