Global ETD Search

1	Métodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínas Vieira, Lucas Maciel 01 March 2018 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2018-08-22T21:11:06Z No. of bitstreams: 1 2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-08-22T21:13:46Z (GMT) No. of bitstreams: 1 2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) / Made available in DSpace on 2018-08-22T21:13:46Z (GMT). No. of bitstreams: 1 2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) Previous issue date: 2018-08-22 / Os RNAs não-codificadores (ncRNAs) constituem uma classe importante de moléculas produzidas nas células de organismos. Dentre eles, temos os ncRNAs longos (lncRNAs), uma classe de ncRNAs com predição díficil, pois podem estar sobrepostas a transcritos codificadores de proteínas (Protein Coding Transcripts - PCTs). Porém, existe uma classe de lncRNAs, os RNAs longos intergênicos (long non-condig RNAS - lincRNAS), que são lncRNAs que aparecem entre dois genes, que vêm sendo estudados devido a seus papéis regulatórios nos mecanismos celulares e sobretudo porque estão ligados a doenças como câncer. Apesar da importância destes lincRNAs, poucos métodos computacionais para distinção entre essa molécula e PCTs estão disponíveis. Além disso, os métodos existentes devem ser aplicados a organismos específicos, não podendo ser utilizados para distinguir lincRNAs de PCTs em espécies diferentes daquelas para as quais os modelos foram originalmente construídos. Na literatura, a predição de lncRNAs e lincRNAs vem sendo explorada com técnicas de Aprendizagem de Máquina. Neste contexto, este trabalho propõe dois métodos para discriminar lincRNAs de PCTs. O primeiro é um workflow para distinguir lincRNAs de PCTs em plantas, o qual utiliza ferramentas de bioinformática e Máquina de Vetores de Suporte, uma técnica de aprendizagem de máquina. O workflow foi aplicado em dois estudos de caso: cana-de-açúcar (Saccharum spp) e milho (Zea mays), tendo sido encontrados potenciais lincRNAs em ambos organismos. Além disso, um estudo de expressão diferencial de lincRNAs foi feito em cada estudo de caso, revelando possível interação desses lincRNAs com certos microorganismos que foram inoculados nas duas espécies de plantas. O segundo método propõe o uso de Ensemble para melhorar a capacidade de generalização e a robustez no método de distinguir de lincRNAs e PCTs. Este método foi aplicado em duas espécies, Homo sapiens (humano), montagem GRCh38, e Mus musculus (camundongo), montagem GRCm38. Os resultados mostram boas acurácias de 94% e 96% para humanos e camundongo, respectivamente. Deve-se notar que essas acurácias foram iguais ou melhores do que as acurácias de métodos existentes na literatura. / Non-coding RNAs (ncRNAs) constitute an important set of transcripts produced in the cells of organisms. Among them, there is a large amount of a particular class of long ncRNAs (lncRNAs) that are difficult to predict, the so-called long intergenic ncRNAs (lincRNAs), which might play essential roles in gene regulation and other cellular processes, and they can be mistaken with transcripts that code proteins. Despite the importance of these lincRNAs, there is still a lack of biological knowledge, and also a few computational methods, most of them being specific to organisms, which usually can not be successfully applied to other species, different from those that they have been originally designed to. In literature, prediction of lncRNAs performed with machine learning techniques, and lincRNA prediction has been explored with supervised learrning methods. In this context, this work proposes two methods for discriminating lincRNAs from protein coding transcripts (PCTs). The first one is a workflow to distinguish lincRNAs from PCTs in plants, considering a pipeline that includes known bioinformatics tools together with machine learning techniques, here Support Vector Machine (SVM). We discuss two case studies that were able to identify novel lincRNAs, in sugarcane (Saccharum spp) and in maize (Zea mays). From the results, we also could identify differentially expressed lincRNAs in sugarcane and maize plants submitted to pathogenic and beneficial microorganisms. The second method is the distinction of lincRNAs from PCTs using ensemble, a method that improves generalizability and robustness. We applied this method in two species, Homo sapiens (human), assembly GRCh38, and Mus musculus (mouse), assembly GRCm38. The results show good accuracies of 94% and 96% for human and mouse, respectively, which are best or at least are comparable to the accuracies presented in related works. Aprendizagem - computadores Aprendizagem de máquina RNAs não-codificadores
2	Avaliação meta-classificatória de ferramentas de predição de alvos de microRNAs e análise de enriquecimento funcional de alvos utilizando Homo sapiens como modelo biológico Oliveira, Arthur Casulli de January 2017 (has links) Orientador: Danillo Pinhal / Resumo: MicroRNAs (miRNAs) são pequenos RNAs não codificadores que regulam uma ampla gama de vias biológicas. Esta regulação ocorre através do pareamento complementar entre o miRNA e seu RNA mensageiro (mRNA) alvo, gelramente na região 3’UTR, inibindo a síntese proteica. Diversos trabalhos têm buscado determinar as funções biológicas desempenhadas pelos miRNAs por meio da identificação de seus alvos e posterior análise de enriquecimento funcional. Entretanto, as ferramentas de predição de alvos in silico disponíveis atualmente apresentam resultados pouco robustos e não há um consenso sobre a melhor ferramenta e estratégia para análise dos dados. Adicionalmente, a metodologia de enriquecimento funcional atual não leva em conta diversos fatores fundamentais atuantes na regulação dos alvos dos miRNAs, retornando resultados inconsistentes que culminam em experimentos de validação desnecessários e pouco específicos, com consequente desperdício de tempo e recursos. Desta maneira, o presente trabalho tem como objetivos (i) elaborar metodologia de predição de alvos com alta eficiência utilizando as ferramentas de bioiformática disponíveis e (ii) avaliar a regulação dos processos biológicos controlados pelos miRNAs através da análise de enriquecimento funcional, considerando o foldchange de seus mRNA alvo. Para tal, comparou-se as performances das três ferramentas de predição de alvos atualmente mais utilizadas (TargetScan, miRanda-mirSVR, e Pita), assim como testou-se todas a... (Resumo completo, clicar acesso eletrônico abaixo) / Mestre Bioinformática. Genética humana. RNAs não-codificadores Regulação Gênica
3	Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniques Schneider, Hugo Wruck 28 September 2017 (has links) Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-12-18T16:34:15Z No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-02-20T20:23:11Z (GMT) No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Made available in DSpace on 2018-02-20T20:23:11Z (GMT). No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) Previous issue date: 2018-02-20 / Dentre as análises que devem ser realizadas nos projetos de sequenciamento, um problema importante é a distinção entre transcritos codificadores de proteinas (PCTs) e RNAs nãocodificadores longos (lncRNAs). Esse trabalho investiga potenciais características dos lncRNAs e propõe dois métodos para distinção dessas duas classes de transcritos (PCTs e lncRNAs). O primeiro método foi proposto com base em máquinas de vetores de suporte (SVM), enquanto o segundo utilizou técnicas de aprendizado semi-supervisionado. O mé- todo utilizando SVM obteve excelentes resultados, quando comparados a outras propostas existentes na literatura. Esse método foi treinado e testado com dados de humanos, camundongos e peixe-zebra, tendo atingido uma acurácia de ≈ 98% com dados de humanos e camundongos, e de ≈ 96% para os dados do peixe-zebra. Ainda, foram criados modelos utilizando várias espécies, que mostraram classificações melhores para outras espécies diferentes daquelas do treinamento, ou seja, mostraram boa capacidade de generalização. Para validar esse método, foram utilizados dados de ratos, porcos e drosófilas, além de dados de RNA-seq de humanos, gorilas e macacos. Essa validação atingiu uma acurácia de mais de 85%, em todos os casos. Por fim, esse método foi capaz de identificar duas sequências dentro do Swiss-Prot que puderam ser reanotadas. O método baseado em aprendizado semi-supervisionado foi treinado e testado com dados de humanos, camundongos, ornitorrincos, galinhas, gambás, orangotangos e rãs, tendo sido utilizadas cinco técnicas de aprendizado semi-supervisionado. A contribuição desse método foi que ele permitiu a redução do tamanho do conjunto de dados classificados, utilizados no treinamento. No melhor caso, somente 2 sequências bem anotadas foram usadas no treinamento, o que, comparado com outras ferramentas disponíveis na literatura, indica um ganho expressivo. A acurácia obtida pelo método nos melhores casos foram de ≈ 95% para dados de humanos e camundongos, ≈ 90% para dados de galinhas, gambás e orangutangos, e ≈ 80% para dados de ornitorrincos e rãs. Dados de RNA-seq foram utilizados para teste, tendo sido obtida acurácia de mais de 95%. Esses dados foram utilizados para treinamento dos modelos de orangotango e de rã, que também apresentaram acurácias excelentes. / Among the analyses that have to be performed in sequencing projects, an important problem to be addressed is the distinction of protein coding transcripts (PCTs) and long non-coding RNAs (lncRNA). This work investigates potential characteristics of the lncRNAs and proposes two methods for distinguishing these two classes of transcripts (PCTs and lncRNAs). The first methods was based on Support Vector Machine (SVM), while the second one used semi-supervised learning techniques. The SVM based method obtained excellent results when compared to other methods in the literature. This method was trained and tested with data from human, mouse and zebrafish, and reached accuracy of ≈ 98% for human and mouse data, and ≈ 96% for zebrafish data. Besides, models with multiple species were created, which improved the classification for species different from those used in the training phase, i.e., these models could also be used in the classification of species different from those that were used in the training phase. To validate this method, data from rat, pig and drosophila, and RNA-seq data from humans, gorillas and macaque were used. This validation reached an accuracy of more than 85% for all the species. Finally, this method was able to identify two sequences within the Swiss-Prot database that were reannotated. The semi-supervised based method was trained and tested with data from human, mouse, platypus, chicken, opossum, orangutan and xenopus, in five semi-supervised learning techniques. The contribution of this method was the reduction of the size of the classified training data set. In the best scenario, only two annotated sequences were used in the training phase, which is an expressive gain when compared to other tools available in the literature. Accuracies obtained by the method in the best cases were ≈ 95% for human and mouse datasets, ≈ 90% for chicken, opossum and orangutan datasets, and ≈ 80% for data platypus and xenopus datasets. RNA-seq data were used for testing, having obtained more than 95% of accuracy. This data was used to train the orangutan and xenopus models, also leading to an excellent accuracy. RNAs não-codificadores Máquinas de vetores de suporte Análise de componentes principais
4	Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codiﬁcadores longos e RNAs codiﬁcadores de proteínas Kümmel, Bruno Couto 12 December 2017 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2018-04-10T18:44:42Z No. of bitstreams: 1 2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-04-12T19:37:08Z (GMT) No. of bitstreams: 1 2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) / Made available in DSpace on 2018-04-12T19:37:08Z (GMT). No. of bitstreams: 1 2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) Previous issue date: 2018-04-12 / RNAs não-codiﬁcadores longos (long non-coding RNA - lncRNAs) constitui uma classe heterogênea de RNAs que agrega transcritos com pouca capacidade de codiﬁcar proteínas e que possuem mais de 200 nucleotídeos em sua composição. Estudos recentes apontam que essas moléculas possuem funções de regulação de processos biológicos importantes dentro das células. Sabe-se também que o nível de expressão dos lncRNAs está correlacionado com diversas doenças genéticas, tais como câncer e doenças neuro-degenerativas. Este trabalho apresenta um método para seleção das características mais relevantes para modelos de aprendizado de máquina aplicados ao problema de distinguir lncRNAs de transcritos codiﬁcadores de proteínas. O método proposto, denominadoSingle Score Feature Selection (S2FS), utilizou como características as frequências de 2-mers, 3-mers e 4-mers dos transcritos, para detectar aquelas mais relevantes para distinguir lncRNAs de transcritos codiﬁcadores de proteínas. As características identiﬁcadas pelo S2FS foram avaliadas nos datasets obtidos de repositórios públicos de transcritos RNAs codicadores de proteínas e de lncRNAs de Homo sapiens, Mus musculus e Danio rerio. Para o dataset de H. sapiens, também foi utilizada a característica da ORF mais longa de cada transcrito. Os resultados obtidos indicam que o S2FS identiﬁcou boas características para os modelos de predição de lncRNAs baseados em Random Forest. Nos modelos de classiﬁcação testados, as características selecionadas pelo S2FS possibilitaram resultados melhores do que as características selecionadas por um método de seleção univariada de características baseado no escore da função χ2. / Long non-coding RNA(lncRNAs) constitutes a heterogeneous class of RNAs that includes RNAs with more than 200 nucleotides and poor capacity for coding proteins. Recent studies have indicated that these molecules act on critical biological processes inside the cells. However, their expression levels are also correlated with a number of complex human diseases, such as cancer, neuro-degenerative diseases and others. This work proposes a method for feature selection for machine learning methods applied to the task of distinguishing lncRNAs from protein coding transcripts. The proposed method, called Single Score Feature Selection (S2FS), used as features the 2-mer, 3-mer and 4-mer frequencies of the transcripts, in order to detect those more relevant to distinguish lncRNAs from protein coding transcripts. The features identiﬁed by S2FS were evaluated on datasets obtained from public repositories of protein coding transcripts and lncRNAs of Homo Sapiens, Mus musculus and Danio rerio. For the H. sapiens dataset, the longest ORF of each transcript was also used as a feature. The obtained results show that the S2FS identiﬁed good features for the lncRNA prediction models based on Random Forest. In the tested classiﬁcation models, the selected features from S2FS enabled better performance results than the features selected by an univariate selection method based on the scores of a χ2 function. RNAs não-codificadores Aprendizagem de máquina lncRNAs
5	ncRNA-Agents : anotação de RNAs não-codificadores baseada em sistema multiagente Arruda, Wosley da Costa 10 July 2015 (has links) Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2015-12-17T16:33:56Z No. of bitstreams: 1 2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2015-12-17T17:05:51Z (GMT) No. of bitstreams: 1 2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Made available in DSpace on 2015-12-17T17:05:51Z (GMT). No. of bitstreams: 1 2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Os RNAs não-codificadores (ncRNAs) constituem um importante subconjunto dos transcritos produzidos nas células dos organismos, pois afetam diversos processos celulares. Embora existam métodos computacionais bastante eficazes para identificar proteínas, a anotação de ncRNAs é hoje objeto de pesquisa intensa, pois suas características e sinais não são ainda completamente conhecidos. Neste contexto, nesta tese, apresentamos uma arquitetura para anotação de ncRNAs baseada no paradigma de Sistema Multiagente. A implementação do sistema, denominado de ncRNA-Agents, usa agentes colaborativos, em que cada agente tem conhecimento e raciocínio (simulando os de biólogos) sobre um aspecto específico de RNA, o que contribui para uma anotação curada de ncRNA, com qualidade associada e explicações baseadas nos resultados das ferramentas usadas pelo sistema para recomendar a anotação. Além disso, foram realizados três estudos de casos com os fungos Saccharomyces cerevisiae, Paracoccidioides brasilienses e Schizosaccharomyces pombe, para avaliar o desempenho do sistema quanto a sua capacidade de anotar ncRNAs conhecidos e de predizer novos ncRNAs. Acesso público a esta ferramenta está em http://www.biomol.unb.br/ncrna-agents. ______________________________________________________________________________________________ ABSTRACT / Non-coding RNAs (ncRNAs) are an important subset of the transcripts produced in the cells of organisms, since they affect many cellular processes. Although there are efficient and fast computational methods to identify proteins, annotation of ncRNAs is now focus of intensive research once their characteristics and signals are not yet entirely known. In this context, in this thesis, we present an architecture for ncRNAs annotation based on the multi-agent system paradigm. The implementation of a system, called ncRNA-Agents, uses collaborative agents, where each agent has knowledge and reasonig (simulating biologists) about a specific aspect of RNA, which contributes to a curated ncRNA annotation, with associated quality and explanations based on the results of the tools used by the system to recommend the annotation. In addition, we performed three case studies with three fungi, Saccharomyces cerevisiae, Schizosaccharomyces pombe and Paracoccidioides brasiliensis, to evaluate the performance of the system and its ability to annotate known ncRNAs and predict new ncRNAs. This tool is publicly available at http://www.biomol.unb.br/ncrna-agents. Sistemas Multiagentes (SMA) Bioinformática RNAs não-codificadores Inteligência artificial
6	Identificação de snoRNAs usando aprendizagem de máquina Oliveira, João Victor de Araujo 29 January 2016 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2016. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2016-08-03T13:45:05Z No. of bitstreams: 1 2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Approved for entry into archive by Patrícia Nunes da Silva(patricia@bce.unb.br) on 2016-12-06T13:01:15Z (GMT) No. of bitstreams: 1 2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Made available in DSpace on 2016-12-06T13:01:15Z (GMT). No. of bitstreams: 1 2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Métodos de aprendizagem de máquina vêm sendo amplamente usados na identificação e classificação de diferentes famílias de RNAs não-codificadores (ncRNAs). Muitos desses métodos são baseados na aprendizagem supervisionada, onde atributos anteriormente conhecidos, chamados features, são extraídos de uma sequência e usados em um classificador. Nesta dissertação, apresentamos dois métodos para a identificação das duas classes principais de snoRNAs, C/D box e H/ACA box snoRNAs: snoReport 2.0, uma melhoria significativa da primeira versão do snoReport; e o snoRNA-EDeN, um novo método baseado no EDeN, que é um kernel decomposicional de grafos. O snoReport 2.0 é um método que, usando features extraídas de sequências candidatas em genomas, combina predição de estrutura secundária de ncRNAs com Máquina de Vetores de Suporte (Support Vector Machine - SVM), para identificar C/D box e H/ACA box snoRNAs. Seu classificador de H/ACA box snoRNA mostrou um F-score de 93% (uma melhoria de 10% em relação à primeira versão do snoReport), enquanto o classificador de C/D box snoRNA obteve F-score de 94% (melhoria de 14%). Alem disso, ambos os classificadores tiveram todas as medidas de performances acima de 90%. Na fase de validação, o snoReport 2.0 identificou 67,43% dos snoRNAs de vertebrados de ambas as classes. Em Nematóides, o snoReport 2.0 identificou 29,6% dos C/D box snoRNAs e 69% dos H/ACA box snoRNAs. Para as Drosofilídeas, foram identificados 3,2% dos C/D box snoRNAs e 76,7% dos H/ACA box snoRNAs. Esses resultados mostram que o snoReport 2.0 é eficiente na identificação de snoRNAs em organismos vertebrados, e também para H/ACA box snoRNAs de organismos invertebrados. Por outro lado, em vez de usar features de uma sequência (em geral, difíceis de identificar), uma abordagem recente de aprendizagem de máquina é descrita a seguir. Dada uma região de interesse de uma sequencia, o objetivo é gerar um vetor esparso que pode ser usado como micro-features em algum algoritmo de aprendizado de máquina, ou pode ser usado para a criação de features poderosas. Essa abordagem é usada no EDeN (Explicit Decomposition with Neighbourhoods), um kernel decomposicional de grafos baseado na técnica Neighborhood Subgraph Pairwise Distance Kernel (NSPDK). O EDeN transforma um grafo em um vetor esparso, decompondo-o em todos os pares de subgrafos vizinhos de raios pequenos, a distâncias crescentes. Baseado no EDeN, foi desenvolvido um método chamado snoRNA-EDeN. Na fase de testes, para C/D box snoRNAs, o snoRNA-EDeN obteve um F-score de 93,4%, enquanto que para H/ACA box snoRNAs o F-score foi de 85.12%. Na fase de validação, para C/D box snoRNA, o snoRNA-EDeN mostrou uma grande capacidade de generalização, identificando 94,61% de snoRNAs de vertebrados e 63,52% de invertebrados, um resultado significantemente melhor em comparação ao snoReport 2.0, que identificou apenas 52,92% dos vertebrados e 14,6% dos invertebrados. Para o H/ACA box, o snoReport 2.0 identificou 79,9% dos snoRNAs de vertebrados e 73,3% dos snoRNAs de Nematóides e Drosofilídeos, enquanto que o snoRNA-EDeN identificou 95,4% dos vertebrados e 57.8% dos nematóides e drosofilas. Ambos os métodos estão disponíveis em: http://www.biomol.unb.br/snoreport e http://www.biomol.unb.br/snorna_eden. ___________________________________________________________________________ ABSTRACT / Machine learning methods have been widely used to identify and classify different families of non-coding RNAs. Many of these methods are based on supervised learning, where some previous known attributes, called features, are extracted from a sequence, and then used in a classifier. In this work, we present two methods to identify the two main classes of snoRNAs, C/D box and H/ACA box: snoReport 2.0, a significant improvement of the original snoReport version; and snoRNA-EDeN, a new method based on EDeN, a decompositional graph kernel. On one hand, snoReport 2.0 is a method that, using features extracted from candidate sequences in genomes, combines secondary structure prediction with Support Vector Machine (SVM) to identify C/D box and H/ACA box snoRNAs. H/ACA box snoRNA classifier showed a F-score of 93% (an improvement of 10% regarding to the previous version), while C/D box snoRNA classifier a F-Score of 94% (improvement of 14%). Besides, both classifiers exhibited performance measures above 90%. In the validation phase, snoReport 2.0 predicted 67.43% of vertebrate organisms for both classes. SnoReport 2.0 predicted: for Nematodes, 29.6% of C/D box and 69% of H/ACA box snoRNAs; and for Drosophilids, 3.2% of C/D box and 76.7% of H/ACA box snoRNAs. These results show that snoReport 2.0 is efficient to identify snoRNAs in vertebrates, and also H/ACA box snoRNAs in invertebrates organisms. On the other hand, instead of using known features from a sequence (difficult to find in general), a recent approach in machine learning is described as follows. Given a region of interest of a sequence, the objective is to generate a sparse vector that can be used as micro-features in a specific machine learning algorithm, or it can be used to create powerful features. This approach is used in EDeN (Explicit Decomposition with Neighbourhoods), a decompositional graph kernel based on Neighborhood Subgraph Pairwise Distance Kernel (NSPDK). EDeN transforms one graph in a sparse vector, decomposing it in all pairs of neighborhood subgraphs of small radius at increasing distances. Based on EDeN, we developed a method called snoRNA-EDeN. On the test phase, for C/D box snoRNAs, snoRNA-EDeN showed a F-score of 93.4%, while for H/ACA box snoRNAs, the F-score was 72%. On the validation phase, for C/D box snoRNAs, snoRNA-EDeN showed a better capacity of generalization, predicting 94.61% of vertebrate C/D box snoRNAs and 63.52% of invertebrates, a significantly better result compared to snoReport 2.0, which predicted only 52.92% of vertebrates and 14.6% of invertebrates. For H/ACA box snoRNAs, snoReport 2.0 predicted 79.9% of vertebrate snoRNAs and 73.3% of Nematode and Drosophilid sequences, while snoRNA-EDeN predicted 95.4% of vertebrate snoRNAs and 57.8% of Nematode and Drosophilid sequences. Both methods are available at http://www.biomol.unb.br/snoreport and http://www.biomol.unb.br/snorna_eden. Bioinformática Inteligência artificial Aprendizagem de máquina RNAs não-codificadores Small nucleolar RNAs
7	Predição de RNAs não-codificadores no transcriptoma do fungo Paracoccidioides brasiliensis usando aprendizagem de máquina Arrial, Roberto Ternes 04 1900 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, 2008. / Submitted by Diogo Trindade Fóis (diogo_fois@hotmail.com) on 2009-10-06T11:45:45Z No. of bitstreams: 1 2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2009-11-03T17:27:16Z (GMT) No. of bitstreams: 1 2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) / Made available in DSpace on 2009-11-03T17:27:16Z (GMT). No. of bitstreams: 1 2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) Previous issue date: 2008-04 / Paracoccidioides brasiliensis (Pb) é um fungo saprófito e dimórfico de importância clínica, pois seus propágulos, quando inalados por humanos, desencadeiam a doença conhecida como paracoccidioidomicose. No ano de 2005 foi publicado o transcriptoma do Pb, apontando diversos alvos potenciais de drogas, mas ainda assim uma parte significativa dos transcritos seqüenciados não possui proteínas homólogas identificadas. Esse trabalho sugere que alguns desses RNAs possam ser não-codificadores (ncRNAs), uma classe de moléculas biologicamente funcionais que no entanto não codificam para nenhum produto protéico. Para tanto foi feita uma abordagem exclusivamente computacional, utilizando exemplos conhecidos de mRNAs e ncRNAs para treinamento de dois algoritmos de aprendizado de máquina: naive Bayes (nB) e Máquinas de Vetores de Suporte (MVS). Diversos programas descritos na literatura e desenvolvidos localmente foram usados para obter propriedades dos transcritos e de seus produtos protéicos, de forma que os algoritmos de aprendizado de máquina fossem capazes de diferenciar satisfatoriamente um mRNA de um ncRNA. O uso de várias medidas de eficiência mostra que ambos algoritmos, MVS e nB, induziram classificadores que discriminam as duas classes de RNAs de forma muito eficiente, mas também indicam que o MVS possui uma vantagem significativa em relação à sua detecção de ncRNAs. Acurácia média mensurada por validação cruzada de 10 vezes para o MVS foi de 92,4%, e para o nB, 75,3%. Quando usados no transcriptoma de Pb, o MVS e o nB detectam, respectivamente, 970 e 262 ncRNAs, dos quais a maior parte é de transcritos sem anotação e singlets, duas características que apóiam a possibilidade de que esses transcritos sejam realmente ncRNAs. Comparações a programas relacionados mostram que o programa aqui descrito apresenta um ganho em velocidade computacional sem perda de acurácia. Foi desenvolvido nesse trabalho um programa computacional de análise ab initio, designado PORTRAIT, especializado em detecção de ncRNAs em transcriptomas de organismos pouco caracterizados. __________________________________________________________________________________________ ABSTRACT / Paracoccidioides brasiliensis (Pb) is a saprophytic and dimorphic fungus of clinical importance because its propagules, when inhaled by humans, cause the disease known as paracoccidioidomycosis. In the year 2005 the Pb transcriptome was published, pointing out several potential drug targets, but still a significative amount of sequenced transcripts lack identified homologous proteins. This work suggests that these RNAs may be non-coding RNAs (ncRNAs), a class of biologically functional molecules that do not code for any protein product. Aiming this, a strictly computational approach was made, using known examples of mRNAs and ncRNAs for training two machine learning algorithms: naive Bayes (nB) and Support Vector Machines (SVM). Several programs available from literature and locally developed were used to obtain properties from transcripts and its corresponding protein products, in such a way that machine learning algorithms could successfully discriminate between mRNA and ncRNA. Several efficiency measurements show that both algorithms, SVM and nB, induced classifiers able to efficiently discriminate the two classes of RNAs, and also indicate that SVM has a significative advantage regarding ncRNA detection. Mean accuracy as estimated by 10-fold cross-validation procedure was 92.4% for SVM and 75.3% for nB. When used in the Pb transcriptome, SVM and nB detect, respectively, 970 and 262 ncRNAs, of which the majority is composed of singlets and unnanotated transcripts, two characteristics that support the possibility that these transcripts are real ncRNAs. Comparison to related works indicates that the described program offers a computational speed improvement without hindering accuracy. This work describes the design of a computational program for ab initio analysis, named PORTRAIT, specialized in detection of ncRNAs in transcriptomes from poorly characterized organisms. RNAs não-codificadores Aprendizagem de máquina Máquinas de vetores de suporte Paracoccidioides brasiliensis Transcriptoma Genética molecular Fungos Biologia molecular
8	Caracterização da Estrutura e Regulação dos Genes MGC16121 e CR596471 / Structural and Regulatory Characterization of Genes MGC16121 and CR596471 Muys, Bruna Rodrigues 10 June 2013 (has links) Os genes MGC16121 e CR596471 localizam-se no cromossomo X (Xq26) entre os loci HPRT1 e PLAC1, uma região rica em genes associados com a reprodução humana. A importância de tais genes reside na possibilidade de estarem envolvidos no desenvolvimento placentário e fetal e de serem expressos em poucos tecidos normais. Camundongos portadores de deleções próximas do gene ortólogo HPRT1 de humanos apresentam cerca de um terço do tamanho dos camundongos selvagens ou em alguns casos são natimortos. No entanto, este fenótipo não é observado quando o gene está mutado. Assim, pode-se supor que o fenótipo anormal das cobaias não é resultado da deficiência do HPRT1, mas sim de genes e/ou microRNAs (miRNAs) próximos a ele. Estes resultados abrem perspectivas em relação ao estudo dos genes MGC16121, CR596471 e miRNAs das vizinhanças. O objetivo deste trabalho foi caracterizar a estrutura, a expressão e o mecanismo de regulação por metilação dos genes MGC16121 e CR596471. Adicionalmente foram analisados quanto ao perfil de expressão e regulação por metilação os miRNAs das vizinhanças (miR-424, 503, 450a, 450b-5p e 542-3p). O gene MGC16121 mostrou-se específico de placenta e também expresso em 50% das 18 linhagens tumorais analisadas. Já CR596471 e os miRNAs das vizinhanças foram mais expressos em placenta do que qualquer outro tecido normal analisado, sendo o primeiro expresso também em 100% das linhagens tumorais avaliadas. Houve correlação positiva e significativa entre todos os genes e miRNAs em relação à expressão em tecidos normais, porém o mesmo não foi observado para linhagens tumorais. A respeito da regulação, os genes CR596471 e MGC16121 e os miRNAs miR-424, 503 e 450a foram regulados negativamente por metilação do DNA em pelo menos uma das três linhagens tratadas com o agente demetilante 5-aza-2-deoxicitidina. Apoiando este fato, os dinucleotídeos CpG das ilhas CpGs situadas próximas às regiões 5 dos genes CR596471 e MGC16121 foram pelo menos em parte desmetilados após o mesmo tratamento.Os dados relativos à estrutura primária dos genes indicam que os transcritos, apesar de serem lncRNAs apresentaram características de mRNAs. Para MGC16121 foi determinado um transcrito composto de 3 éxons e, para CR596471, um transcrito composto de 3 éxons e outro composto de 2 éxons. Os transcritos aqui determinados são relativamente conservados quando comparados a sequências de RNA encontradas em outros mamíferos, principalmente em primatas. Adicionalmente, o transcrito de MGC16121 possui subestruturas secundárias visivelmente semelhantes com aquelas dos transcritos homólogos encontrados em alguns primatas. De acordo com os resultados, o gene MGC16121 pode ser considerado um possível bom marcador para diagnóstico, prognóstico e talvez para terapias contra cânceres. Todavia, mais experimentos devem ser realizados para verificar a função dos genes MGC16212 e CR5976471, além de avaliar mais robustamente a capacidade do gene MGC16121 ser utilizado como ferramenta na medicina contra o câncer. / CR596471 and MGC16121 genes lie on chromosome X (Xq26) between the HPRT1 and PLAC1 loci, a region rich in genes associated with human reproduction. The importance of such genes is the possibility that they might be involved in placental and fetal development, aware that they are expressed in few normal tissues. Deletions in mice around the orthologous gene of human HPRT1 affect their development or lead to stillbirth. However, this phenotype is not observed when this gene is mutated. So we can assume that the abnormal phenotype of mice cannot be due to HPRT1 deficiency, but to genes and/or microRNAs (miRNAs) nearby. These results support the idea of investigating the mechanisms involved in the regulation of the MGC16121 and CR596471 genes, and their neighbor miRNAs. This study aimed to characterize the structure, expression and regulation mechanism by methylation of genes MGC16121 and CR596471. In addition, the expression profile and methylation regulation of the neighbor miRNAs (miR-424, 503, 450a, 450b-5p and 542-3p) were analyzed. MGC16121 was demonstrated to be placenta specific and expressed in 50% of 18 tumor cell lines analyzed. CR596471 and the neighbor miRNAs were more expressed in placenta than in any other normal tissue analyzed. The former was also expressed in all tumor cell lines evaluated. There was significant and positive correlation between all genes and miRNAs regarding normal tissue expression. However, the same was not observed for the tumor cell lines. With respect to regulation, the genes CR596471 and MGC16121, and miRNAs miR-424, 503 and 450a were negatively regulated by DNA methylation at least in one of the three cell lines treated with the demethylating agent 5- aza-2-deoxycytidine. Supporting these results, the CpG dinucleotides from CpG islands located near the CR596471 and MGC16121 5 regions were at least partially demethylated after the same treatment. The data concerning to genes primary structures indicate that the transcripts, despite of being considered lncRNAs, presented mRNAs characteristics. It was determined one transcript for MGC16121 gene which consisted of three exons, and for CR596471 gene, two transcripts were found, one with three exons and other composed of two exons. The transcripts herein determined are relatively conserved when compared to RNAs sequences found in other mammals, mostly in primates. Besides, the MGC16121 transcript presents similar secondary substructures to those found in homologous transcripts from other primate species. According to the results, MGC16121 gene could be considered a possible good biomarker to diagnosis, prognosis and perhaps to therapies against cancers. Nevertheless, more experiments must be accomplished in order to verify the functions of MGC16121 and CR596471 genes, in addition to evaluate more robustly the competence of MGC16121 gene to be used as a tool in medicine against cancer. MGC16121 and CR596471 genes Biomarcadores Biomarkers Cancer Câncer Expressão gênica Gene expression Genes MGC16121 e CR596471 Non-coding RNAs RNAs não codificadores
9	Expressão de RNAs não codificadores intrônicos longos em linhagens celulares humanas e o seu controle epigenético por metilação do DNA / Long intronic noncoding RNA expression in human cell lines and its DNA methylation epigenetic control Camargo, Lauren 27 September 2012 (has links) Estudos recentes têm revelado que uma fração significativa do transcriptoma de eucariotos é composta por RNAs não codificadores longos (lncRNAs). Este trabalho investigou o padrão de expressão de um conjunto de lncRNAs originados a partir de regiões intrônicas de genes codificadores de proteínas em três linhagens celulares tumorais humanas utilizando microarranjos de DNA customizados. Realizamos uma série de análises in silico com a perspectiva de identificar propriedades globais desses transcritos, tais como a abundância relativa em diferentes tecidos, características evolutivas, estruturais e regulatórias, além de possíveis funções celulares. Avaliamos também a contribuição da metilação do DNA, um mecanismo de silenciamento epigenético da expressão de genes codificadores de proteínas, na regulação da expressão de lncRNAs intrônicos. Observamos que uma fração dos lncRNAs intrônicos detectados nas linhagens estudadas são conservados evolutivamente, tem padrão de expressão tecido específico, e está enriquecida em elementos regulatórios na sua extremidade 5\'. Foram identificados subconjuntos de lncRNAs intrônicos possivelmente atuando sobre genes associados a vias regulatórias importantes para o controle do desenvolvimento de organismos e ciclo celular. Comparativamente a mRNAs, uma menor proporção de lncRNAs intrônicos possui ilhas CpGs (CGIs) na vizinhança de seu início de transcrição. Apesar disso, observamos que um subconjunto desses transcritos teve sua expressão sensível ao tratamento com o agente desmetilante de DNA 5-AZA, demonstrando que lncRNAs intrônicos transcritos podem estar sujeitos a regulação transcricional mediada por metilação do DNA. Dentre os lncRNAs intrônicos regulados por metilação do DNA, destaca-se o lncRNA AS-APP, cuja expressão aumentou em 25 a 80 vezes nas linhagens celulares DU-145 e HEK293, respectivamente, após tratamento com 5-AZA. Este lncRNA possui uma CGI metilada e um promotor ativo a cerca de 4 kb de distância do seu início de transcrição conhecido. O aumento da transcrição do lncRNA AS-APP após desmetilação do DNA correlacionou-se a uma diminuição significativa dos níveis de expressão do mRNA do gene APP. Este resultado sugere uma possível ação regulatória em cis do lncRNA AS-APP no locus APP, um importante gene envolvido na doença de Alzheimer e com expressão associada ao prognóstico de alguns tipos de câncer. Os resultados obtidos neste trabalho reforçam a ideia de que lncRNAs intrônicos constituem unidades transcricionais independentes que se encontram sobre controle regulatório nos diferentes tipos celulares. Foi gerado também um catálogo de lncRNAs intrônicos regulados por metilação que permitirá a seleção de candidatos com maior potencial de relevância funcional para caracterização detalhada. / Recent studies have revealed that a significant fraction of the eukaryotic transcriptome is composed of long noncoding RNAs (lncRNAs). This work investigated the expression pattern in three human tumor cell lines of a set of lncRNAs originated from intronic regions of protein coding RNAs, using custom DNA oligoarrays. In silico analyses were performed to identify global properties of these transcripts such as relative abundance in different human tissues, regulatory, evolutionary and structural aspects, as well as their possible cellular functions. In addition, we evaluated the contribution of DNA methylation, an important epigenetic mechanism that control the expression of protein coding genes, in the regulation of intronic lncRNAs expression. We found that a fraction of the intronic lncRNAs detected in the cell lines are evolutionarily conserved, show a tissue specific expression pattern, and is enriched in regulatory elements at their 5\' end region. Subsets of intronic lncRNAs possibly acting on genes associated to important regulatory pathways controlling organism development and cell cycle were identified. A smaller proportion of intronic lncRNAs relative to mRNAs displayed CpG islands (CGI) in the vicinity of the transcription start site. Notwithstanding, we observed that a subset of these transcripts responded to treatment with the DNA demethylation agent 5-AZA, demonstrating that intronic lncRNAs may be under transcriptional regulation mediated by DNA methylation. Among intronic lncRNAs regulated by DNA demethylation, stands out AS-APP lncRNA, which was up regulated 25 to 80 times in DU-145 and HEK293 cell lines following 5-AZA treatment, respectively,. This lncRNAs has a methylated CGI and an active promoter at 4-kb upstream from its known transcription start site. Increased AS-APP lncRNA transcription following DNA demethylation correlated with a significant decrease of APP gene messenger RNA levels. This finding suggests a possible cis-regulatory action of the lncRNA AS-APP in the APP locus, an important gene involved in Alzheimer disease and whose expression is associated with prognosis of different cancer types. The results obtained in this study reinforce the idea that intronic lncRNAs constitute independent transcriptional units under regulatory control in the different cell types. It was generated a catalog of intronic lncRNAs regulated by DNA methylation that will allow the selection of candidates with higher potential of functional relevance for detailed characterization DNA methylation Epigenética Epigenetics Expressão gênica Gene expression Intronic noncoding RNAs Metilação do DNA RNAs não codificadores intrônicos
10	Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1 / In Silico identification of non-coding RNAs in Halobacterium salinarum NRC-1 model archeon organism Marcos Abraão de Souza Fonseca 25 April 2016 (has links) A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um crescente interesse no papel de regulação desempenhado por moléculas de RNA não codificadores (ncRNA), que podem atuar em vários níveis de processamento da informação biológica. Organismos modelos oferecem uma forma conveniente de pesquisa e diferentes grupos buscam direcionar seus estudos para um entendimento mais amplo no que se refere aos mecanismos celulares presentes nesses organismos. Apesar da existência de alguns elementos conhecidos para o organismo modelo Halobacterium salinarum, acreditamos que nem todos seus elementos de ncRNAs foram identificados. Nesse contexto, desenvolvemos uma análise in silico para a identificação de novos ncRNAs em H. salinarum NRC-1 e aplicamos metodologias para a predição de possíveis interações RNA-Proteína. Com base em uma pespectiva de integração de dados e diferentes metodologias existentes, modelos de Aprendizado de Máquina (AM) foram criados e utilizados para a definição de regiões candidatas a ncRNAs. De acordo com os resultados, 42 novos ncRNAs puderam ser identificados e possibilitaram completar o catálogo de genes ncRNAs de H. salinarum NRC-1 e aumentar o universo conhecido destes em 82%. A análise dos resultados obtidos por outras abordagens disponíveis para a identificação de ncRNAs corroboram com alguns dos candidatos sugeridos neste trabalho. Adicionalmente, foram aplicados e avaliados métodos, também baseados em AM, para a identificação de candidatos à interação com a proteína de interesse LSm, presente no organismo em estudo, no intuito de incluir uma possível caracterização funcional de ncRNAs. Os resultados alcançados na aplicação metodologias para a predição de interações RNA-Proteína não foram suficientes para a criação de um modelo com predições de alto grau de acurácia porém, contribuem como estudos preliminares e discussões para o desenvolvimento de outras estratégias. / The gene expression regulation occurs on different cell levels in response to dynamics established between an organism and its environment. In addition to the regulatory elements already known, for instance, transcription factors or post-translation modifications, there is growing interests in the regulatory role played by non-coding RNA molecules (ncRNA) whose functions can be performed on different level of biological information processing. Model organisms allow a convenient way to work on laboratory and different research groups aiming to guide their studies for a mutual and wide understanding of the cellular mechanisms present on these organisms. Although some ncRNAs elements have been found in Halobacterium salinarum model organism we believe that not enough is knowing about these genomic regions. In these context, an in silico analysis for ncRNAs identification and RNA-protein prediction approach were applied to H. salinarum NRC-1. Considering a data integration perspective and some available methodologies, several machine learning models was built and used to designate candidate ncRNAs genome regions. According to achieve results, 42 new ncRNAs could be identified, increasing 82% the total of known ncRNAs in H. salinarum NRC-1. Combing analysis with other available tools, it had been observed that some suggested candidates also was found with different methodologies and thus, it highlights the proposed results. Additionally, we developed and analyzed methods, also machine learning based, to predict ncRNAs candidates to interact with LSm protein, present on the interested model organism aiming a basic ncRNA characterization. The achieved results in this part was not satisfactory since the applied models were not substantially accurate predictions. However, we believe that these preliminary results can contribute with some discussions to new different approaches. Aprendizado de máquina Halobactrium salinarum Interação RNA-Proteína RNAs não-codificadores Halobacterium salinarum Machine learning Non-coding RNAs RNA-Protein interaction

Search results