Spelling suggestions: "subject:"rna""
31 |
Identificação e caracterização de transcritos humanos: novas famílias de pequenas GTPases e novos longos RNAs intrônicos não-codificantes / Identification and characterization of human transcripts: novel small GTPase gene families and novel Long Intronic non-coding RNAsRodrigo Louro 27 November 2006 (has links)
Terminado o sequenciamento do genoma humano, as atenções se voltaram para a determinação do conjunto completo de transcritos humanos. Diversos trabalhos sugerem que enquanto apenas uma pequena fração de mRNAs codificantes para proteína não é conhecida, existe um grande número de RNAs não-codificantes (ncRNAs) ainda não caracterizados. Nesse contexto, o presente trabalho visou explorar as informações de expressão gênica contidas em ESTs para identificar e caracterizar novos transcritos humanos. A busca genômica por membros de famílias gênicas relacionadas com câncer levou a identificação de novas pequenas GTPases, destacando uma subfamília que deve apresentar função supressora tumoral em próstata. Uma classe de ncRNAs longos, sem splicing, expressos antisenso a partir de regiões intrônicas foi descrita utilizando plataformas de microarrays, construídas pelo grupo, enriquecidas com seqüências sem anotação. O perfil de expressão de 23 ncRNAs intrônicos estava significativamente correlacionado com o grau de diferenciação de tumores de próstata (Gleason Score), e pode ser utilizado como candidato a marcador molecular de prognóstico. Um total de 39 ncRNAs intrônicos responderam à estimulação por andrógeno, apontando para um mecanismo regulatório da expressão intrônica por sinais fisiológicos hormonais. A biogênese da expressão intrônica parece ser complexa, pois uma fração não é transcrita pela RNA Polimerase II. A transcrição intrônica estava correlacionada com uso de exons em células tratadas com andrógeno. Assinaturas de expressão intrônica conservadas em tecidos humanos e de camundongos, e interações de transcritos intrônicos com proteínas regulatórias foram observadas. Este trabalho contribui com novas e originais evidências que dão apoio ao papel postulado para esses ncRNAs no controle fino do programa transcricional humano. / With the completion of the human genome sequence, attention has shifted towards determining the complete set of human transcripts. Multiple lines of evidence suggest that while only a small fraction of protein-coding mRNAs remains to be described, there is a huge amount of uncharacterized non-coding RNAs (ncRNAs). In this context, the present work sought to explore the gene expression information provided by ESTs to identify and characterize new human transcripts. A genomic-wide search for cancer related gene family members identified novel small GTPase genes, and highlighted an uncharacterized subfamily that may have a tumor suppressor role in prostate cancer. A class of long unspliced ncRNAs, expressed antisense from introns of protein-coding genes was described using custom-designed microarray platforms enriched with unannotated sequences. The expression profile of 23 intronic ncRNAs was significantly correlated to the degree of prostate tumor differentiation (Gleason Score), and could be used as a candidate prognostic molecular maker. A total of 39 intronic ncRNAs were responsive to androgen stimulation, poiting to a mechanism of intronic expression regulation by physiological hormone signals. Intronic ncRNA biogenesis seems to be complex, since a fraction of them is not transcribed by RNA Polymerase II. Intronic transcription was correlated to exon usage in androgen treated cells. Tissue expression signatures of intronic transcription were conserved in human and mouse, and intronic transcripts were found to interact with regulatory proteins. This work provides new and original contributions that support the postulated role of ncRNAs in the fine tunning of the human transcriptional program.
|
32 |
Modulation of Alphaviruses by Small RNAsMorazzani, Elaine M. 19 September 2011 (has links)
Mosquito-borne diseases remain a significant burden on global public health. Maintenance of mosquito-borne viruses in nature requires a biological transmission cycle that involves alternating virus replication in a susceptible vertebrate and mosquito host. Although infection of the vertebrate host is acute and often associated with disease, continual transmission of these viruses in nature depends on the establishment of a persistent, nonpathogenic infection in the mosquito vector. It is well known that invertebrates rely on small RNA pathways as an adaptive antiviral defense. The canonical antiviral response in these organisms involves dicer enzymes that cleave viral double-stranded RNA replicative intermediates (RIs) into small interfering RNAs (siRNAs; ~21-24 nucleotides). One strand of the siRNA duplex guides the targeting and destruction of complementary viral RNAs when loaded and retained in a multi-protein complex called the RNA-induced silencing complex. Here, we show that mosquito vectors mount a redundant double defense against virus infection mediated by two different small RNA pathways. Specifically, we demonstrate that in addition to a canonical antiviral response mediated by siRNAs, virus infection of the mosquito soma also triggers an antiviral immune pathway directed by ping-pong-dependent PIWI-interacting RNAs (piRNAs; ~24-30 nucleotides). The complexity of mosquito antiviral immunity has important implications for understanding how viruses both induce and modulate RNA-silencing responses in mosquito vectors.
In mammals, viral RIs induce a range of relatively nonspecific antiviral responses. However, it remains unclear if viral RIs also trigger RNA silencing in mammals. Mosquito-borne viruses represent an ideal model for addressing this question as their transmission cycles involve alternating replication in mammalian and invertebrate hosts. Although we report identifying a subset of virus-derived small RNAs that appear to be products of RNA silencing in two mammalian cell lines infected with the mosquito-borne chikungunya virus (CHIKV), our studies suggest these small RNAs have little biological relevance in combating virus infections. Thus, while the accumulation of virus-derived siRNAs is essential to the survival of mosquitoes infected with CHIKV, they appear to have little functional significance in mammalian antiviral immunity. / Ph. D.
|
33 |
Biogênese, estabilidade e localização sub-celular de RNAs não-codificadores longos expressos em regiões intrônicas do genoma humano / Biogenesis, stability and sub-cellular localization of long non-coding RNAs expressed in intronic regions of the human genomeOliveira, Ana Carolina Ayupe de 26 March 2012 (has links)
Trabalhos recentes indicam que a maior parte do transcriptoma de células de mamíferos é composto por RNAs não-codificadores de proteínas (ncRNAs). Nosso grupo tem identificado e caracterizado ncRNAs longos (>200 nt), sem splicing, expressos em regiões intrônicas de genes codificadores de proteína. Contudo, a biogênese, processamento e localização sub-celular desta classe de RNAs permanecem desconhecidos. Este trabalho teve como objetivos i) investigar a contribuição da RNA Polimerase II (RNAP II) na transcrição de ncRNAs intrônicos, ii) avaliar a meia-vida destes ncRNAs em relação a mRNAs, e iii) verificar a distribuição sub-celular de ncRNAs intrônicos. Os resultados obtidos indicaram que ncRNAs intrônicos são predominantemente transcritos pela RNAP II a partir de regiões promotoras funcionalmente semelhantes as que controlam a transcrição de mRNAs. Ensaios de estabilidade revelaram que, em média, ncRNAs intrônicos possuem meia-vida igual ou maior (3,4h a 4,2h) do que mRNAs (3,1h). A maior parte dos ncRNAs intrônicos possui estrutura cap 5\', sugerindo que sejam estabilizados para desempenhar papéis na biologia da célula que não dependam de um rápido turnover. A maior parte dos ncRNAs intrônicos é exportada para o citoplasma, indicando que devam exercer alguma função biológica neste compartimento. Em conjunto, este trabalho fornece informações novas a respeito da biogênese, estabilidade e localização sub-celular ncRNAs intrônicos expressos em células humanas, contribuindo para avançar o conhecimento sobre esta classe de transcritos celulares. / Recent studies have shown that most of the mammalian transcriptome is comprised of non-coding RNAs (lncRNAs). Our group has identified and characterized long (>200 nt), unspliced lncRNAs expressed in intronic regions of protein coding genes. However, the biogenesis, processing, stability and subcellular localization of members from this RNA class remain unknown. The aims of this work were i) to investigate the contribution of RNA Polymerase II (RNAP II) to the transcription of intronic, ii) to evaluate the half-life of these ncRNAs relative to mRNAs, and iii) determine their subcellular distribution. Our results indicate that intronic ncRNAs are predominantly transcribed by RNAP II from promoter regions functionally similar to those that control the transcription of mRNAs. Stability assays revealed that intronic ncRNAs have an average half-life equal or greater (3.4h to 4.2h) than mRNAs (3.1h). The majority of intronic ncRNAs have 5\' cap modification suggesting that these transcripts are stabilized, possibly to exert roles in the biology of the cell that does not depend on a rapid turnover. Although intronic ncRNAs do not encode proteins, most of these transcripts are transported to the cytoplasm which indicates that they may perform some biological function in this compartment. Altogether, this study reveals with novel information regarding the biogenesis, stability and subcellular localization of intronic ncRNAs expressed in human cells, thus contributing to advance the knowledge on this class of cellular transcripts.
|
34 |
Métodos de validação tradicional e temporal aplicados à avaliação de classificadores de RNAs codificantes e não codificantes / Traditional and time validation methods applied to the evaluation of coding and non-coding RNA classifiersSá, Clebiano da Costa 23 March 2018 (has links)
Os ácidos ribonucleicos (RNAs) podem ser classificados em duas classes principais: codificante e não codificante de proteína. Os codificantes, representados pelos RNAs mensageiros (mRNAs), possuem a informação necessária à síntese proteica. Já os RNAs não codificantes (ncRNAs) não são traduzidos em proteínas, mas estão envolvidos em várias atividades celulares distintas e associados a várias doenças tais como cardiopatias, câncer e desordens psiquiátricas. A descoberta de novos ncRNAs e seus papéis moleculares favorece avanços no conhecimento da biologia molecular e pode também impulsionar o desenvolvimento de novas terapias contra doenças. A identificação de ncRNAs é uma ativa área de pesquisa e um dos correntes métodos é a classificação de sequências transcritas utilizando sistemas de reconhecimento de padrões baseados em suas características. Muitos classificadores têm sido desenvolvidos com este propósito, especialmente nos últimos três anos. Um exemplo é o Coding Potential Calculator (CPC), baseado em Máquinas de Vetores de Suporte (SVM). No entanto, outros algoritmos robustos são também reconhecidos pelo seu potencial em tarefas de classificação, como por exemplo Random Forest (RF). O método mais utilizado para avaliação destas ferramentas tem sido a validação cruzada k-fold. Uma questão não considerada nessa forma de validação é a suposição de que as distribuições de frequências dentro do banco de dados, em termos das classes das sequências e outras variáveis, não se alteram ao longo do tempo. Caso essa premissa não seja verdadeira, métodos tradicionais como a validação cruzada e o hold-out podem subestimar os erros de classificação. Constata-se, portanto, a necessidade de um método de validação que leve em consideração a constante evolução dos bancos de dados ao longo do tempo, para proporcionar uma análise de desempenho mais realista destes classificadores. Neste trabalho comparamos dois métodos de avaliação de classificadores: hold-out temporal e hold-out tradicional (atemporal). Além disso, testamos novos modelos de classificação a partir da combinação de diferentes algoritmos de indução com características de classificadores do estado da arte e um novo conjunto de características. A partir dos testes das hipóteses, observamos que tanto a validação hold-out tradicional quanto a validação hold-out temporal tendem a subestimar os erros de classificação, que a avaliação por validação temporal é mais fidedigna, que classificadores treinados a partir de parâmetros calibrados por validação temporal não melhoram a classificação e que nosso modelo de classificação baseado em Random Forest e treinado com características de classificadores do estado da arte e mais um novo conjunto de características proporcionou uma melhora significativa na discriminação dos RNAs codificantes e não codificantes. Por fim, destacamos o potencial do algoritmo Random Forest e das características utilizadas, diante deste problema de classificação, e sugerimos o uso do método de validação hold-out temporal para a obtenção de estimativas de desempenho mais fidedignas para os classificadores de RNAs codificantes e não codificantes de proteína. / Ribonucleic acids (RNAs) can be classified into two main classes: coding and non-coding of protein. The coding, represented by messenger RNAs (mRNAs), has the necessary information for protein synthesis. Non-coding RNAs (ncRNAs) are not translated into proteins but are involved in several distinct cellular activities associated with various diseases such as heart disease, cancer and psychiatric disorders. The discovery of new ncRNAs and their molecular roles favors advances in the knowledge of molecular biology and may also boost the development of new therapies against diseases. The identification of ncRNAs is an active area of research and one of the current methods is the classification of transcribed sequences using pattern recognition systems based on their characteristics. Many classifiers have been developed for this purpose, especially in the last three years. An example is the Coding Potential Calculator (CPC), based on Supporting Vector Machines (SVM). However, other robust algorithms are also recognized for their potential in classification tasks, such as Random Forest (RF). The most commonly used method for evaluating these tools has been cross-validation k-fold. An issue not considered in this form of validation is the assumption that frequency distributions within the database, in terms of sequence classes and other variables, do not change over time. If this assumption is not true, traditional methods such as cross-validation and hold-out may underestimate classification errors. The need for a validation method that takes into account the constant evolution of databases over time is therefore needed to provide a more realistic performance analysis of these classifiers. In this work we compare two methods of evaluation of classifiers: time hold-out and traditional hold-out (without considering the time). In addition, we tested new classification models from the combination of different induction algorithms with state-ofthe-art classifier characteristics and a new set of characteristics. From the hypothesis tests, we observe that both the traditional hold-out validation and the time hold-out validation tend to underestimate the classification errors, that the time validation evaluation is more reliable, than classifiers trained from parameters calibrated by time validation did not improve classification and that our Random Forest-based classification model trained with state-of-the-art classifier characteristics and a new set of characteristics provided a significant improvement in the discrimination of the coding and non-coding RNAs. Finally, we highlight the potential of the Random Forest algorithm and the characteristics used, in view of this classification problem, and we suggest the use of the time hold-out validation method to obtain more reliable estimates of the protein coding and non-coding RNA classifiers.
|
35 |
Biogênese, estabilidade e localização sub-celular de RNAs não-codificadores longos expressos em regiões intrônicas do genoma humano / Biogenesis, stability and sub-cellular localization of long non-coding RNAs expressed in intronic regions of the human genomeAna Carolina Ayupe de Oliveira 26 March 2012 (has links)
Trabalhos recentes indicam que a maior parte do transcriptoma de células de mamíferos é composto por RNAs não-codificadores de proteínas (ncRNAs). Nosso grupo tem identificado e caracterizado ncRNAs longos (>200 nt), sem splicing, expressos em regiões intrônicas de genes codificadores de proteína. Contudo, a biogênese, processamento e localização sub-celular desta classe de RNAs permanecem desconhecidos. Este trabalho teve como objetivos i) investigar a contribuição da RNA Polimerase II (RNAP II) na transcrição de ncRNAs intrônicos, ii) avaliar a meia-vida destes ncRNAs em relação a mRNAs, e iii) verificar a distribuição sub-celular de ncRNAs intrônicos. Os resultados obtidos indicaram que ncRNAs intrônicos são predominantemente transcritos pela RNAP II a partir de regiões promotoras funcionalmente semelhantes as que controlam a transcrição de mRNAs. Ensaios de estabilidade revelaram que, em média, ncRNAs intrônicos possuem meia-vida igual ou maior (3,4h a 4,2h) do que mRNAs (3,1h). A maior parte dos ncRNAs intrônicos possui estrutura cap 5\', sugerindo que sejam estabilizados para desempenhar papéis na biologia da célula que não dependam de um rápido turnover. A maior parte dos ncRNAs intrônicos é exportada para o citoplasma, indicando que devam exercer alguma função biológica neste compartimento. Em conjunto, este trabalho fornece informações novas a respeito da biogênese, estabilidade e localização sub-celular ncRNAs intrônicos expressos em células humanas, contribuindo para avançar o conhecimento sobre esta classe de transcritos celulares. / Recent studies have shown that most of the mammalian transcriptome is comprised of non-coding RNAs (lncRNAs). Our group has identified and characterized long (>200 nt), unspliced lncRNAs expressed in intronic regions of protein coding genes. However, the biogenesis, processing, stability and subcellular localization of members from this RNA class remain unknown. The aims of this work were i) to investigate the contribution of RNA Polymerase II (RNAP II) to the transcription of intronic, ii) to evaluate the half-life of these ncRNAs relative to mRNAs, and iii) determine their subcellular distribution. Our results indicate that intronic ncRNAs are predominantly transcribed by RNAP II from promoter regions functionally similar to those that control the transcription of mRNAs. Stability assays revealed that intronic ncRNAs have an average half-life equal or greater (3.4h to 4.2h) than mRNAs (3.1h). The majority of intronic ncRNAs have 5\' cap modification suggesting that these transcripts are stabilized, possibly to exert roles in the biology of the cell that does not depend on a rapid turnover. Although intronic ncRNAs do not encode proteins, most of these transcripts are transported to the cytoplasm which indicates that they may perform some biological function in this compartment. Altogether, this study reveals with novel information regarding the biogenesis, stability and subcellular localization of intronic ncRNAs expressed in human cells, thus contributing to advance the knowledge on this class of cellular transcripts.
|
36 |
Avaliação meta-classificatória de ferramentas de predição de alvos de microRNAs e análise de enriquecimento funcional de alvos utilizando Homo sapiens como modelo biológicoOliveira, Arthur Casulli de January 2017 (has links)
Orientador: Danillo Pinhal / Resumo: MicroRNAs (miRNAs) são pequenos RNAs não codificadores que regulam uma ampla gama de vias biológicas. Esta regulação ocorre através do pareamento complementar entre o miRNA e seu RNA mensageiro (mRNA) alvo, gelramente na região 3’UTR, inibindo a síntese proteica. Diversos trabalhos têm buscado determinar as funções biológicas desempenhadas pelos miRNAs por meio da identificação de seus alvos e posterior análise de enriquecimento funcional. Entretanto, as ferramentas de predição de alvos in silico disponíveis atualmente apresentam resultados pouco robustos e não há um consenso sobre a melhor ferramenta e estratégia para análise dos dados. Adicionalmente, a metodologia de enriquecimento funcional atual não leva em conta diversos fatores fundamentais atuantes na regulação dos alvos dos miRNAs, retornando resultados inconsistentes que culminam em experimentos de validação desnecessários e pouco específicos, com consequente desperdício de tempo e recursos. Desta maneira, o presente trabalho tem como objetivos (i) elaborar metodologia de predição de alvos com alta eficiência utilizando as ferramentas de bioiformática disponíveis e (ii) avaliar a regulação dos processos biológicos controlados pelos miRNAs através da análise de enriquecimento funcional, considerando o foldchange de seus mRNA alvo. Para tal, comparou-se as performances das três ferramentas de predição de alvos atualmente mais utilizadas (TargetScan, miRanda-mirSVR, e Pita), assim como testou-se todas a... (Resumo completo, clicar acesso eletrônico abaixo) / Mestre
|
37 |
Genome-wide expression analysis and regulation of microRNAs and cis natural antisense transcripts in Arabidopsis thalianaZhan, Shuhua 13 January 2012 (has links)
Small RNAs (sRNAs), circa 21-26nt RNA molecules, are a novel class of regulatory molecules that influence many aspects of plant biology. The first objective of this thesis was to utilize computational approaches both to investigate how microRNAs (miRNAs), a type of sRNA, as a class affect their target transcripts’ accumulation and to identify novel miRNAs in Arabidopsis thaliana. The second objective of this thesis was to examine the regulation of protein coding (PC) cis natural antisense transcripts (cis-NATs), which have the potential to make double stranded RNA.
Computational analysis of the expression of miRNA-regulated genes demonstrated that the transcriptomes of the inflorescences of plants defective in miRNA biogenesis were similar to normal leaf tissues and dissimilar to normal pollen and seed. Thus, miRNAs cause the plant transcriptome to shift from a vegetative to reproductive state. Known miRNA targets fail to explain miRNA-defective mutant transcriptome patterns. Novel computational approaches were used to discover five new mature miRNAs. Interestingly, two miRNAs have different functions but are encoded by perfect complements of the same precursor molecule.
Genome-wide analysis of cis-NAT abundances revealed that protein coding (PC) cis-NATs tend to be co-expressed, broadly expressed, and highly expressed across diverse abiotic stress conditions. These expression patterns were negatively associated with sRNAs because sRNAs were under-represented within PC cis-NATs compared to PC non-cis-NATs. sRNAs also mapped to cis-NATs and non-cis-NATs at similar frequencies in mutants defective in nat-siRNA biogenesis relative to other genotypes. We suggest a common euchromatin environment and possibly antisense RNA stabilization of mRNA transcripts may contribute to the high level, breadth, and co-expression of cis-NATs. However, cis-NATs are correlated less frequently than expected, and cis-NAT transcript abundances often differ more than expected. In addition, sRNAs matched PC cis-NATs relative to PC non-cis-NATs more frequently in abiotic stress conditions than in control conditions. Thus, although sRNAs do not have a widespread role in regulating cis-NATs, sRNAs may have a focused role in regulating cis-NAT transcript abundances. / PhD thesis / NSERC
|
38 |
Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniquesSchneider, Hugo Wruck 28 September 2017 (has links)
Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-12-18T16:34:15Z
No. of bitstreams: 1
2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-02-20T20:23:11Z (GMT) No. of bitstreams: 1
2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Made available in DSpace on 2018-02-20T20:23:11Z (GMT). No. of bitstreams: 1
2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5)
Previous issue date: 2018-02-20 / Dentre as análises que devem ser realizadas nos projetos de sequenciamento, um problema importante é a distinção entre transcritos codificadores de proteinas (PCTs) e RNAs nãocodificadores longos (lncRNAs). Esse trabalho investiga potenciais características dos lncRNAs e propõe dois métodos para distinção dessas duas classes de transcritos (PCTs e lncRNAs). O primeiro método foi proposto com base em máquinas de vetores de suporte (SVM), enquanto o segundo utilizou técnicas de aprendizado semi-supervisionado. O mé- todo utilizando SVM obteve excelentes resultados, quando comparados a outras propostas existentes na literatura. Esse método foi treinado e testado com dados de humanos, camundongos e peixe-zebra, tendo atingido uma acurácia de ≈ 98% com dados de humanos e camundongos, e de ≈ 96% para os dados do peixe-zebra. Ainda, foram criados modelos utilizando várias espécies, que mostraram classificações melhores para outras espécies diferentes daquelas do treinamento, ou seja, mostraram boa capacidade de generalização. Para validar esse método, foram utilizados dados de ratos, porcos e drosófilas, além de dados de RNA-seq de humanos, gorilas e macacos. Essa validação atingiu uma acurácia de mais de 85%, em todos os casos. Por fim, esse método foi capaz de identificar duas sequências dentro do Swiss-Prot que puderam ser reanotadas. O método baseado em aprendizado semi-supervisionado foi treinado e testado com dados de humanos, camundongos, ornitorrincos, galinhas, gambás, orangotangos e rãs, tendo sido utilizadas cinco técnicas de aprendizado semi-supervisionado. A contribuição desse método foi que ele permitiu a redução do tamanho do conjunto de dados classificados, utilizados no treinamento. No melhor caso, somente 2 sequências bem anotadas foram usadas no treinamento, o que, comparado com outras ferramentas disponíveis na literatura, indica um ganho expressivo. A acurácia obtida pelo método nos melhores casos foram de ≈ 95% para dados de humanos e camundongos, ≈ 90% para dados de galinhas, gambás e orangutangos, e ≈ 80% para dados de ornitorrincos e rãs. Dados de RNA-seq foram utilizados para teste, tendo sido obtida acurácia de mais de 95%. Esses dados foram utilizados para treinamento dos modelos de orangotango e de rã, que também apresentaram acurácias excelentes. / Among the analyses that have to be performed in sequencing projects, an important problem to be addressed is the distinction of protein coding transcripts (PCTs) and long non-coding RNAs (lncRNA). This work investigates potential characteristics of the lncRNAs and proposes two methods for distinguishing these two classes of transcripts (PCTs and lncRNAs). The first methods was based on Support Vector Machine (SVM), while the second one used semi-supervised learning techniques. The SVM based method obtained excellent results when compared to other methods in the literature. This method was trained and tested with data from human, mouse and zebrafish, and reached accuracy of ≈ 98% for human and mouse data, and ≈ 96% for zebrafish data. Besides, models with multiple species were created, which improved the classification for species different from those used in the training phase, i.e., these models could also be used in the classification of species different from those that were used in the training phase. To validate this method, data from rat, pig and drosophila, and RNA-seq data from humans, gorillas and macaque were used. This validation reached an accuracy of more than 85% for all the species. Finally, this method was able to identify two sequences within the Swiss-Prot database that were reannotated. The semi-supervised based method was trained and tested with data from human, mouse, platypus, chicken, opossum, orangutan and xenopus, in five semi-supervised learning techniques. The contribution of this method was the reduction of the size of the classified training data set. In the best scenario, only two annotated sequences were used in the training phase, which is an expressive gain when compared to other tools available in the literature. Accuracies obtained by the method in the best cases were ≈ 95% for human and mouse datasets, ≈ 90% for chicken, opossum and orangutan datasets, and ≈ 80% for data platypus and xenopus datasets. RNA-seq data were used for testing, having obtained more than 95% of accuracy. This data was used to train the orangutan and xenopus models, also leading to an excellent accuracy.
|
39 |
Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínasKümmel, Bruno Couto 12 December 2017 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2018-04-10T18:44:42Z
No. of bitstreams: 1
2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-04-12T19:37:08Z (GMT) No. of bitstreams: 1
2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) / Made available in DSpace on 2018-04-12T19:37:08Z (GMT). No. of bitstreams: 1
2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5)
Previous issue date: 2018-04-12 / RNAs não-codificadores longos (long non-coding RNA - lncRNAs) constitui uma classe heterogênea de RNAs que agrega transcritos com pouca capacidade de codificar proteínas e que possuem mais de 200 nucleotídeos em sua composição. Estudos recentes apontam que essas moléculas possuem funções de regulação de processos biológicos importantes dentro das células. Sabe-se também que o nível de expressão dos lncRNAs está correlacionado com diversas doenças genéticas, tais como câncer e doenças neuro-degenerativas. Este trabalho apresenta um método para seleção das características mais relevantes para modelos de aprendizado de máquina aplicados ao problema de distinguir lncRNAs de transcritos codificadores de proteínas. O método proposto, denominadoSingle Score Feature Selection (S2FS), utilizou como características as frequências de 2-mers, 3-mers e 4-mers dos transcritos, para detectar aquelas mais relevantes para distinguir lncRNAs de transcritos codificadores de proteínas. As características identificadas pelo S2FS foram avaliadas nos datasets obtidos de repositórios públicos de transcritos RNAs codicadores de proteínas e de lncRNAs de Homo sapiens, Mus musculus e Danio rerio. Para o dataset de H. sapiens, também foi utilizada a característica da ORF mais longa de cada transcrito. Os resultados obtidos indicam que o S2FS identificou boas características para os modelos de predição de lncRNAs baseados em Random Forest. Nos modelos de classificação testados, as características selecionadas pelo S2FS possibilitaram resultados melhores do que as características selecionadas por um método de seleção univariada de características baseado no escore da função χ2. / Long non-coding RNA(lncRNAs) constitutes a heterogeneous class of RNAs that includes RNAs with more than 200 nucleotides and poor capacity for coding proteins. Recent studies have indicated that these molecules act on critical biological processes inside the cells. However, their expression levels are also correlated with a number of complex human diseases, such as cancer, neuro-degenerative diseases and others. This work proposes a method for feature selection for machine learning methods applied to the task of distinguishing lncRNAs from protein coding transcripts. The proposed method, called Single Score Feature Selection (S2FS), used as features the 2-mer, 3-mer and 4-mer frequencies of the transcripts, in order to detect those more relevant to distinguish lncRNAs from protein coding transcripts. The features identified by S2FS were evaluated on datasets obtained from public repositories of protein coding transcripts and lncRNAs of Homo Sapiens, Mus musculus and Danio rerio. For the H. sapiens dataset, the longest ORF of each transcript was also used as a feature. The obtained results show that the S2FS identified good features for the lncRNA prediction models based on Random Forest. In the tested classification models, the selected features from S2FS enabled better performance results than the features selected by an univariate selection method based on the scores of a χ2 function.
|
40 |
ncRNA-Agents : anotação de RNAs não-codificadores baseada em sistema multiagenteArruda, Wosley da Costa 10 July 2015 (has links)
Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2015-12-17T16:33:56Z
No. of bitstreams: 1
2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2015-12-17T17:05:51Z (GMT) No. of bitstreams: 1
2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Made available in DSpace on 2015-12-17T17:05:51Z (GMT). No. of bitstreams: 1
2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Os RNAs não-codificadores (ncRNAs) constituem um importante subconjunto dos transcritos produzidos nas células dos organismos, pois afetam diversos processos celulares. Embora existam métodos computacionais bastante eficazes para identificar proteínas, a anotação de ncRNAs é hoje objeto de pesquisa intensa, pois suas características e sinais não são ainda completamente conhecidos. Neste contexto, nesta tese, apresentamos uma arquitetura para anotação de ncRNAs baseada no paradigma de Sistema Multiagente. A implementação do sistema, denominado de ncRNA-Agents, usa agentes colaborativos, em que cada agente tem conhecimento e raciocínio (simulando os de biólogos) sobre um aspecto específico de RNA, o que contribui para uma anotação curada de ncRNA, com qualidade associada e explicações baseadas nos resultados das ferramentas usadas pelo sistema para recomendar a anotação. Além disso, foram realizados três estudos de casos com os fungos Saccharomyces cerevisiae, Paracoccidioides brasilienses e Schizosaccharomyces pombe, para avaliar o desempenho do sistema quanto a sua capacidade de anotar ncRNAs conhecidos e de predizer novos ncRNAs. Acesso público a esta ferramenta está em http://www.biomol.unb.br/ncrna-agents. ______________________________________________________________________________________________ ABSTRACT / Non-coding RNAs (ncRNAs) are an important subset of the transcripts produced in the cells of organisms, since they affect many cellular processes. Although there are efficient and fast computational methods to identify proteins, annotation of ncRNAs is now focus of intensive research once their characteristics and signals are not yet entirely known. In this context, in this thesis, we present an architecture for ncRNAs annotation based on the multi-agent system paradigm. The implementation of a system, called ncRNA-Agents, uses collaborative agents, where each agent has knowledge and reasonig (simulating biologists) about a specific aspect of RNA, which contributes to a curated ncRNA annotation, with associated quality and explanations based on the results of the tools used by the system to recommend the annotation. In addition, we performed three case studies with three fungi, Saccharomyces cerevisiae, Schizosaccharomyces pombe and Paracoccidioides brasiliensis, to evaluate the performance of the system and its ability to annotate known ncRNAs and predict new ncRNAs. This tool is publicly available at http://www.biomol.unb.br/ncrna-agents.
|
Page generated in 0.0475 seconds