Global ETD Search

1	Estudo de verbos codificadores de extensão ou escala no jogo da linguagem: uma perspectiva funcionalista. CRISTOVAO, H. F. 05 August 2013 (has links) Made available in DSpace on 2016-08-29T15:08:55Z (GMT). No. of bitstreams: 1 tese_6730_Dissertação de mestrado.pdf: 812841 bytes, checksum: 71e524e49439abe4acf2da511e7345ab (MD5) Previous issue date: 2013-08-05 / A maioria dos gramáticos acolhe os verbos em duas sessões: uma que trata de aspectos morfológicos; em seguida, dentro de uma perspectiva sintático-semântica, que aborda os verbos quanto à predicação. Isso se configura um problema nesse modelo de análise, visto que, ao considerar os verbos como elementos discretos, em frases descontextualizadas, não se consideram as relações morfológicas, sintáticas, semânticas, pragmáticas e discursivas que só podem ser observadas a partir da língua em uso, dentro do jogo combinatório da linguagem. A partir dessas considerações, a concepção de língua que adotamos se coaduna com aquela proposta pelo Funcionalismo, que defende os estudos de fenômenos linguísticos a partir da análise das estruturas em uso real, priorizando as relações que se estabelecem no contexto comunicativo. Igualmente importante, foi o estudo da estrutura argumental da oração, formada pelo verbo e seus selecionados elementos obrigatórios (argumentos). Com relação aos verbos que serão objeto da pesquisa, orientamo-nos pela classificação realizada por Azeredo (2004, p.180), baseada na proposta de estudo de Cano Aguilar (1981) para a língua espanhola, que arrolou o grupo de verbos codificadores de extensão ou escala no português, entre eles: atravessar, percorrer, subir, abraçar, presidir, contornar, ocupar, preencher, inundar, medir 1 (ele mediu um terreno), medir 2 (o terreno mede 160 m), valer e durar (a viagem durou 80 dias). Em nossa pesquisa, analisaremos a transitividade de um recorte desse grupo, composto pelos verbos subir, ocupar, medir, durar, valer e seu uso na língua portuguesa, que, juntamente com a escolha do referencial teórico, justificam a importância deste estudo, visto que esse fenômeno é mais bem observado em condições reais de comunicação. O corpus é constituído de textos do âmbito jornalístico escrito e o levantamento de dados foi realizado por meio de ferramenta de pesquisa on-line no acervo digital da Revista Veja. Esperamos que o resultado desta pesquisa evidencie que um estudo que tenha como ponto de partida a língua em uso vá muito além das proposições das gramáticas. Transitividade
2	Métodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínas Vieira, Lucas Maciel 01 March 2018 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2018-08-22T21:11:06Z No. of bitstreams: 1 2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-08-22T21:13:46Z (GMT) No. of bitstreams: 1 2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) / Made available in DSpace on 2018-08-22T21:13:46Z (GMT). No. of bitstreams: 1 2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) Previous issue date: 2018-08-22 / Os RNAs não-codificadores (ncRNAs) constituem uma classe importante de moléculas produzidas nas células de organismos. Dentre eles, temos os ncRNAs longos (lncRNAs), uma classe de ncRNAs com predição díficil, pois podem estar sobrepostas a transcritos codificadores de proteínas (Protein Coding Transcripts - PCTs). Porém, existe uma classe de lncRNAs, os RNAs longos intergênicos (long non-condig RNAS - lincRNAS), que são lncRNAs que aparecem entre dois genes, que vêm sendo estudados devido a seus papéis regulatórios nos mecanismos celulares e sobretudo porque estão ligados a doenças como câncer. Apesar da importância destes lincRNAs, poucos métodos computacionais para distinção entre essa molécula e PCTs estão disponíveis. Além disso, os métodos existentes devem ser aplicados a organismos específicos, não podendo ser utilizados para distinguir lincRNAs de PCTs em espécies diferentes daquelas para as quais os modelos foram originalmente construídos. Na literatura, a predição de lncRNAs e lincRNAs vem sendo explorada com técnicas de Aprendizagem de Máquina. Neste contexto, este trabalho propõe dois métodos para discriminar lincRNAs de PCTs. O primeiro é um workflow para distinguir lincRNAs de PCTs em plantas, o qual utiliza ferramentas de bioinformática e Máquina de Vetores de Suporte, uma técnica de aprendizagem de máquina. O workflow foi aplicado em dois estudos de caso: cana-de-açúcar (Saccharum spp) e milho (Zea mays), tendo sido encontrados potenciais lincRNAs em ambos organismos. Além disso, um estudo de expressão diferencial de lincRNAs foi feito em cada estudo de caso, revelando possível interação desses lincRNAs com certos microorganismos que foram inoculados nas duas espécies de plantas. O segundo método propõe o uso de Ensemble para melhorar a capacidade de generalização e a robustez no método de distinguir de lincRNAs e PCTs. Este método foi aplicado em duas espécies, Homo sapiens (humano), montagem GRCh38, e Mus musculus (camundongo), montagem GRCm38. Os resultados mostram boas acurácias de 94% e 96% para humanos e camundongo, respectivamente. Deve-se notar que essas acurácias foram iguais ou melhores do que as acurácias de métodos existentes na literatura. / Non-coding RNAs (ncRNAs) constitute an important set of transcripts produced in the cells of organisms. Among them, there is a large amount of a particular class of long ncRNAs (lncRNAs) that are difficult to predict, the so-called long intergenic ncRNAs (lincRNAs), which might play essential roles in gene regulation and other cellular processes, and they can be mistaken with transcripts that code proteins. Despite the importance of these lincRNAs, there is still a lack of biological knowledge, and also a few computational methods, most of them being specific to organisms, which usually can not be successfully applied to other species, different from those that they have been originally designed to. In literature, prediction of lncRNAs performed with machine learning techniques, and lincRNA prediction has been explored with supervised learrning methods. In this context, this work proposes two methods for discriminating lincRNAs from protein coding transcripts (PCTs). The first one is a workflow to distinguish lincRNAs from PCTs in plants, considering a pipeline that includes known bioinformatics tools together with machine learning techniques, here Support Vector Machine (SVM). We discuss two case studies that were able to identify novel lincRNAs, in sugarcane (Saccharum spp) and in maize (Zea mays). From the results, we also could identify differentially expressed lincRNAs in sugarcane and maize plants submitted to pathogenic and beneficial microorganisms. The second method is the distinction of lincRNAs from PCTs using ensemble, a method that improves generalizability and robustness. We applied this method in two species, Homo sapiens (human), assembly GRCh38, and Mus musculus (mouse), assembly GRCm38. The results show good accuracies of 94% and 96% for human and mouse, respectively, which are best or at least are comparable to the accuracies presented in related works. Aprendizagem - computadores Aprendizagem de máquina RNAs não-codificadores
3	Análise da expressão de RNAs longos não-codificadores em linhagens celulares de melanoma em diferentes estágios de progressão tumoral / Analysis of long noncoding RNAs expression in melanoma cell lines at different stages of tumor progression Siena, Ádamo Davi Diógenes 03 June 2016 (has links) Evidências sugerem que somente cerca de 2% do genoma codifica proteínas, mas que a maior parte dos 80% restante possui atividade transcricional. Por não ser codificadora de proteínas, essa fração do genoma foi considerada como \'DNA lixo\'. Entretanto, estudos mais recentes e análises pós-ENCODE vem demonstrando que parte significativa destes RNAs não-codificantes desempenham papéis importantes em processos biológicos essenciais e também em doenças. Os RNAs longos não codificadores (lncRNAs) embora tradicionalmente conhecidos pelo imprintinggenômico, vem demonstrando diversos mecanismos de regulação da expressão gênica, principalmente emnível pós transcricional. Um destes lncRNAs que está envolvido principalmente com a metastase em câncer é o HOTAIR. O melanoma tem sido utilizado como modelo de progressao do câncer por suas etapas bem definidas e por isso já tem apresentado alguns lncRNAs envolvidos na melanomagenese e progressão do melanoma, tal como o HOTAIR. Assim, neste trabalho foi analisado a expressão de lncRNAs de amostras de melanócito e melanoma, sendo que as amostras malignas representam as principais fases de progressão deste tipo de câncer. Foram analisados os níveis de expressão relativa. Além disso, foi realizado a expressão diferencial dos grupos representativos do melanoma. Foram encontrados lncRNAs com valores de expressão e significância (p-ajustado <0,01 e fold change >1) que podem ser indicativos de expressão associada a progressão do melanoma. Os lncRNAs mais diferencialmente expressos foram avaliados quanto a sua capacidade de interação proteína-RNA e literatura científica disponível e então foram selecionados para posteriores ensaios funcionais. / Evidence suggests that only about 2% of the genome encodes protein, but most remaining 80% has transcriptional activity. Since they do not coding for proteins, this fraction of the genome was considered \'junk DNA\', However, recent studies and post-ENCODE analisys has shown that significant part of these non-coding RNAs play important roles in essential biological processes and in disease. Long noncoding RNAs (lncRNAs) although traditionally known for genomic imprinting, has demonstrated several mechanisms of regulation of gene expression, especially at the post transcriptional level. One of these lncRNAs that is involved primarily with metastasis in câncer is HOTAIR. Melanoma has been used as a model of câncer progression by its well-defined steps, and so it has been presented some lncRNAs involved in melanoma progression and melanomagenese, as HOTAIR was demonstrated. In this work it was analyzed the expression of lncRNAs of melanocyte and melanoma samples, and malignant samples represent the main stages of progression of this type of câncer. Relative expression levels were analyzed. Furthermore, it was performed differential expression of representative melanoma groups. lncRNAs found with expression values and significance (p-adjusted <0.01 and fold change> 1) may be indicative of expression associated with melanoma progression. The lncRNAs more differentially expressed were evaluated for their ability to interact protein-RNA and available scientific literature and then were selected for further functional assays. Long noncoding RNAs Melanoma Melanoma RNAs longos não codificadores
4	Avaliação meta-classificatória de ferramentas de predição de alvos de microRNAs e análise de enriquecimento funcional de alvos utilizando Homo sapiens como modelo biológico Oliveira, Arthur Casulli de January 2017 (has links) Orientador: Danillo Pinhal / Resumo: MicroRNAs (miRNAs) são pequenos RNAs não codificadores que regulam uma ampla gama de vias biológicas. Esta regulação ocorre através do pareamento complementar entre o miRNA e seu RNA mensageiro (mRNA) alvo, gelramente na região 3’UTR, inibindo a síntese proteica. Diversos trabalhos têm buscado determinar as funções biológicas desempenhadas pelos miRNAs por meio da identificação de seus alvos e posterior análise de enriquecimento funcional. Entretanto, as ferramentas de predição de alvos in silico disponíveis atualmente apresentam resultados pouco robustos e não há um consenso sobre a melhor ferramenta e estratégia para análise dos dados. Adicionalmente, a metodologia de enriquecimento funcional atual não leva em conta diversos fatores fundamentais atuantes na regulação dos alvos dos miRNAs, retornando resultados inconsistentes que culminam em experimentos de validação desnecessários e pouco específicos, com consequente desperdício de tempo e recursos. Desta maneira, o presente trabalho tem como objetivos (i) elaborar metodologia de predição de alvos com alta eficiência utilizando as ferramentas de bioiformática disponíveis e (ii) avaliar a regulação dos processos biológicos controlados pelos miRNAs através da análise de enriquecimento funcional, considerando o foldchange de seus mRNA alvo. Para tal, comparou-se as performances das três ferramentas de predição de alvos atualmente mais utilizadas (TargetScan, miRanda-mirSVR, e Pita), assim como testou-se todas a... (Resumo completo, clicar acesso eletrônico abaixo) / Mestre Bioinformática. Genética humana. RNAs não-codificadores Regulação Gênica
5	Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniques Schneider, Hugo Wruck 28 September 2017 (has links) Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-12-18T16:34:15Z No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-02-20T20:23:11Z (GMT) No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Made available in DSpace on 2018-02-20T20:23:11Z (GMT). No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) Previous issue date: 2018-02-20 / Dentre as análises que devem ser realizadas nos projetos de sequenciamento, um problema importante é a distinção entre transcritos codificadores de proteinas (PCTs) e RNAs nãocodificadores longos (lncRNAs). Esse trabalho investiga potenciais características dos lncRNAs e propõe dois métodos para distinção dessas duas classes de transcritos (PCTs e lncRNAs). O primeiro método foi proposto com base em máquinas de vetores de suporte (SVM), enquanto o segundo utilizou técnicas de aprendizado semi-supervisionado. O mé- todo utilizando SVM obteve excelentes resultados, quando comparados a outras propostas existentes na literatura. Esse método foi treinado e testado com dados de humanos, camundongos e peixe-zebra, tendo atingido uma acurácia de ≈ 98% com dados de humanos e camundongos, e de ≈ 96% para os dados do peixe-zebra. Ainda, foram criados modelos utilizando várias espécies, que mostraram classificações melhores para outras espécies diferentes daquelas do treinamento, ou seja, mostraram boa capacidade de generalização. Para validar esse método, foram utilizados dados de ratos, porcos e drosófilas, além de dados de RNA-seq de humanos, gorilas e macacos. Essa validação atingiu uma acurácia de mais de 85%, em todos os casos. Por fim, esse método foi capaz de identificar duas sequências dentro do Swiss-Prot que puderam ser reanotadas. O método baseado em aprendizado semi-supervisionado foi treinado e testado com dados de humanos, camundongos, ornitorrincos, galinhas, gambás, orangotangos e rãs, tendo sido utilizadas cinco técnicas de aprendizado semi-supervisionado. A contribuição desse método foi que ele permitiu a redução do tamanho do conjunto de dados classificados, utilizados no treinamento. No melhor caso, somente 2 sequências bem anotadas foram usadas no treinamento, o que, comparado com outras ferramentas disponíveis na literatura, indica um ganho expressivo. A acurácia obtida pelo método nos melhores casos foram de ≈ 95% para dados de humanos e camundongos, ≈ 90% para dados de galinhas, gambás e orangutangos, e ≈ 80% para dados de ornitorrincos e rãs. Dados de RNA-seq foram utilizados para teste, tendo sido obtida acurácia de mais de 95%. Esses dados foram utilizados para treinamento dos modelos de orangotango e de rã, que também apresentaram acurácias excelentes. / Among the analyses that have to be performed in sequencing projects, an important problem to be addressed is the distinction of protein coding transcripts (PCTs) and long non-coding RNAs (lncRNA). This work investigates potential characteristics of the lncRNAs and proposes two methods for distinguishing these two classes of transcripts (PCTs and lncRNAs). The first methods was based on Support Vector Machine (SVM), while the second one used semi-supervised learning techniques. The SVM based method obtained excellent results when compared to other methods in the literature. This method was trained and tested with data from human, mouse and zebrafish, and reached accuracy of ≈ 98% for human and mouse data, and ≈ 96% for zebrafish data. Besides, models with multiple species were created, which improved the classification for species different from those used in the training phase, i.e., these models could also be used in the classification of species different from those that were used in the training phase. To validate this method, data from rat, pig and drosophila, and RNA-seq data from humans, gorillas and macaque were used. This validation reached an accuracy of more than 85% for all the species. Finally, this method was able to identify two sequences within the Swiss-Prot database that were reannotated. The semi-supervised based method was trained and tested with data from human, mouse, platypus, chicken, opossum, orangutan and xenopus, in five semi-supervised learning techniques. The contribution of this method was the reduction of the size of the classified training data set. In the best scenario, only two annotated sequences were used in the training phase, which is an expressive gain when compared to other tools available in the literature. Accuracies obtained by the method in the best cases were ≈ 95% for human and mouse datasets, ≈ 90% for chicken, opossum and orangutan datasets, and ≈ 80% for data platypus and xenopus datasets. RNA-seq data were used for testing, having obtained more than 95% of accuracy. This data was used to train the orangutan and xenopus models, also leading to an excellent accuracy. RNAs não-codificadores Máquinas de vetores de suporte Análise de componentes principais
6	Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codiﬁcadores longos e RNAs codiﬁcadores de proteínas Kümmel, Bruno Couto 12 December 2017 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2018-04-10T18:44:42Z No. of bitstreams: 1 2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-04-12T19:37:08Z (GMT) No. of bitstreams: 1 2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) / Made available in DSpace on 2018-04-12T19:37:08Z (GMT). No. of bitstreams: 1 2017_BrunoCoutoK¨ummel.pdf: 3746010 bytes, checksum: fb3e186abc2f80bf5a5302719a1aa78b (MD5) Previous issue date: 2018-04-12 / RNAs não-codiﬁcadores longos (long non-coding RNA - lncRNAs) constitui uma classe heterogênea de RNAs que agrega transcritos com pouca capacidade de codiﬁcar proteínas e que possuem mais de 200 nucleotídeos em sua composição. Estudos recentes apontam que essas moléculas possuem funções de regulação de processos biológicos importantes dentro das células. Sabe-se também que o nível de expressão dos lncRNAs está correlacionado com diversas doenças genéticas, tais como câncer e doenças neuro-degenerativas. Este trabalho apresenta um método para seleção das características mais relevantes para modelos de aprendizado de máquina aplicados ao problema de distinguir lncRNAs de transcritos codiﬁcadores de proteínas. O método proposto, denominadoSingle Score Feature Selection (S2FS), utilizou como características as frequências de 2-mers, 3-mers e 4-mers dos transcritos, para detectar aquelas mais relevantes para distinguir lncRNAs de transcritos codiﬁcadores de proteínas. As características identiﬁcadas pelo S2FS foram avaliadas nos datasets obtidos de repositórios públicos de transcritos RNAs codicadores de proteínas e de lncRNAs de Homo sapiens, Mus musculus e Danio rerio. Para o dataset de H. sapiens, também foi utilizada a característica da ORF mais longa de cada transcrito. Os resultados obtidos indicam que o S2FS identiﬁcou boas características para os modelos de predição de lncRNAs baseados em Random Forest. Nos modelos de classiﬁcação testados, as características selecionadas pelo S2FS possibilitaram resultados melhores do que as características selecionadas por um método de seleção univariada de características baseado no escore da função χ2. / Long non-coding RNA(lncRNAs) constitutes a heterogeneous class of RNAs that includes RNAs with more than 200 nucleotides and poor capacity for coding proteins. Recent studies have indicated that these molecules act on critical biological processes inside the cells. However, their expression levels are also correlated with a number of complex human diseases, such as cancer, neuro-degenerative diseases and others. This work proposes a method for feature selection for machine learning methods applied to the task of distinguishing lncRNAs from protein coding transcripts. The proposed method, called Single Score Feature Selection (S2FS), used as features the 2-mer, 3-mer and 4-mer frequencies of the transcripts, in order to detect those more relevant to distinguish lncRNAs from protein coding transcripts. The features identiﬁed by S2FS were evaluated on datasets obtained from public repositories of protein coding transcripts and lncRNAs of Homo Sapiens, Mus musculus and Danio rerio. For the H. sapiens dataset, the longest ORF of each transcript was also used as a feature. The obtained results show that the S2FS identiﬁed good features for the lncRNA prediction models based on Random Forest. In the tested classiﬁcation models, the selected features from S2FS enabled better performance results than the features selected by an univariate selection method based on the scores of a χ2 function. RNAs não-codificadores Aprendizagem de máquina lncRNAs
7	ncRNA-Agents : anotação de RNAs não-codificadores baseada em sistema multiagente Arruda, Wosley da Costa 10 July 2015 (has links) Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2015-12-17T16:33:56Z No. of bitstreams: 1 2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2015-12-17T17:05:51Z (GMT) No. of bitstreams: 1 2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Made available in DSpace on 2015-12-17T17:05:51Z (GMT). No. of bitstreams: 1 2015_WosleydaCostaArruda.pdf: 9296287 bytes, checksum: 948dd92adae694c04c1b0c23076481e6 (MD5) / Os RNAs não-codificadores (ncRNAs) constituem um importante subconjunto dos transcritos produzidos nas células dos organismos, pois afetam diversos processos celulares. Embora existam métodos computacionais bastante eficazes para identificar proteínas, a anotação de ncRNAs é hoje objeto de pesquisa intensa, pois suas características e sinais não são ainda completamente conhecidos. Neste contexto, nesta tese, apresentamos uma arquitetura para anotação de ncRNAs baseada no paradigma de Sistema Multiagente. A implementação do sistema, denominado de ncRNA-Agents, usa agentes colaborativos, em que cada agente tem conhecimento e raciocínio (simulando os de biólogos) sobre um aspecto específico de RNA, o que contribui para uma anotação curada de ncRNA, com qualidade associada e explicações baseadas nos resultados das ferramentas usadas pelo sistema para recomendar a anotação. Além disso, foram realizados três estudos de casos com os fungos Saccharomyces cerevisiae, Paracoccidioides brasilienses e Schizosaccharomyces pombe, para avaliar o desempenho do sistema quanto a sua capacidade de anotar ncRNAs conhecidos e de predizer novos ncRNAs. Acesso público a esta ferramenta está em http://www.biomol.unb.br/ncrna-agents. ______________________________________________________________________________________________ ABSTRACT / Non-coding RNAs (ncRNAs) are an important subset of the transcripts produced in the cells of organisms, since they affect many cellular processes. Although there are efficient and fast computational methods to identify proteins, annotation of ncRNAs is now focus of intensive research once their characteristics and signals are not yet entirely known. In this context, in this thesis, we present an architecture for ncRNAs annotation based on the multi-agent system paradigm. The implementation of a system, called ncRNA-Agents, uses collaborative agents, where each agent has knowledge and reasonig (simulating biologists) about a specific aspect of RNA, which contributes to a curated ncRNA annotation, with associated quality and explanations based on the results of the tools used by the system to recommend the annotation. In addition, we performed three case studies with three fungi, Saccharomyces cerevisiae, Schizosaccharomyces pombe and Paracoccidioides brasiliensis, to evaluate the performance of the system and its ability to annotate known ncRNAs and predict new ncRNAs. This tool is publicly available at http://www.biomol.unb.br/ncrna-agents. Sistemas Multiagentes (SMA) Bioinformática RNAs não-codificadores Inteligência artificial
8	Análise da expressão de RNAs longos não-codificadores em linhagens celulares de melanoma em diferentes estágios de progressão tumoral / Analysis of long noncoding RNAs expression in melanoma cell lines at different stages of tumor progression Ádamo Davi Diógenes Siena 03 June 2016 (has links) Evidências sugerem que somente cerca de 2% do genoma codifica proteínas, mas que a maior parte dos 80% restante possui atividade transcricional. Por não ser codificadora de proteínas, essa fração do genoma foi considerada como \'DNA lixo\'. Entretanto, estudos mais recentes e análises pós-ENCODE vem demonstrando que parte significativa destes RNAs não-codificantes desempenham papéis importantes em processos biológicos essenciais e também em doenças. Os RNAs longos não codificadores (lncRNAs) embora tradicionalmente conhecidos pelo imprintinggenômico, vem demonstrando diversos mecanismos de regulação da expressão gênica, principalmente emnível pós transcricional. Um destes lncRNAs que está envolvido principalmente com a metastase em câncer é o HOTAIR. O melanoma tem sido utilizado como modelo de progressao do câncer por suas etapas bem definidas e por isso já tem apresentado alguns lncRNAs envolvidos na melanomagenese e progressão do melanoma, tal como o HOTAIR. Assim, neste trabalho foi analisado a expressão de lncRNAs de amostras de melanócito e melanoma, sendo que as amostras malignas representam as principais fases de progressão deste tipo de câncer. Foram analisados os níveis de expressão relativa. Além disso, foi realizado a expressão diferencial dos grupos representativos do melanoma. Foram encontrados lncRNAs com valores de expressão e significância (p-ajustado <0,01 e fold change >1) que podem ser indicativos de expressão associada a progressão do melanoma. Os lncRNAs mais diferencialmente expressos foram avaliados quanto a sua capacidade de interação proteína-RNA e literatura científica disponível e então foram selecionados para posteriores ensaios funcionais. / Evidence suggests that only about 2% of the genome encodes protein, but most remaining 80% has transcriptional activity. Since they do not coding for proteins, this fraction of the genome was considered \'junk DNA\', However, recent studies and post-ENCODE analisys has shown that significant part of these non-coding RNAs play important roles in essential biological processes and in disease. Long noncoding RNAs (lncRNAs) although traditionally known for genomic imprinting, has demonstrated several mechanisms of regulation of gene expression, especially at the post transcriptional level. One of these lncRNAs that is involved primarily with metastasis in câncer is HOTAIR. Melanoma has been used as a model of câncer progression by its well-defined steps, and so it has been presented some lncRNAs involved in melanoma progression and melanomagenese, as HOTAIR was demonstrated. In this work it was analyzed the expression of lncRNAs of melanocyte and melanoma samples, and malignant samples represent the main stages of progression of this type of câncer. Relative expression levels were analyzed. Furthermore, it was performed differential expression of representative melanoma groups. lncRNAs found with expression values and significance (p-adjusted <0.01 and fold change> 1) may be indicative of expression associated with melanoma progression. The lncRNAs more differentially expressed were evaluated for their ability to interact protein-RNA and available scientific literature and then were selected for further functional assays. Melanoma RNAs longos não codificadores Long noncoding RNAs Melanoma
9	Codificação conjunta fonte-canal utilizando codificadores universais adaptativos. Mariana Olivieri Caixeta Altoé 21 March 2007 (has links) Tradicionalmente, codificação de fonte e codificação de canal são tratados independentemente, no que se denomina sistema de codificação em dois passos. Isso ocorre porque o teorema da separação das codificações de fonte e canal garante que não há perdas em termos de confiabilidade da transmissão em assim fazê-lo quando o volume de dados gerados pela fonte cresce indefinidamente. No entanto, para seqüências finitas, foi mostrado que pode ser mais eficiente realizar a codificação em apenas um passo, denominada codificação conjunta fonte-canal, que faz uso das características da fonte ou do codificador de fonte para prover proteção contra erros. Este trabalho propõe uma técnica de codificação conjunta utilizando codificadores de fonte e canal consagrados e encontrados em aplicações práticas. São eles o codificador universal adaptativo LZW e o codificador de canal Reed-Solomon. O método proposto utiliza o fato do codificador de fonte não remover completamente a redundância dos arquivos originais para adicionar bits extras, sem perda de desempenho e sem distorção dos dados originais. A redundância remanescente no código é então utilizada para embutir os bits de paridade do código de canal. O desempenho do método é medido através de sua aplicação em arquivos dos corpos de Calgary e Canterbury. A exploração da redundância remanescente no código gerado pelo LZW pode ser aplicada aos codificadores universais LZ78 e suas variações que se baseiam no mesmo princípio de atualização do dicionário. Codificação concatenada Codificadores Codificação redundante Compressão de dados Códigos de correção de erros Transmissão de sinais Telecomunicações Engenharia eletrônica
10	Identificação de snoRNAs usando aprendizagem de máquina Oliveira, João Victor de Araujo 29 January 2016 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2016. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2016-08-03T13:45:05Z No. of bitstreams: 1 2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Approved for entry into archive by Patrícia Nunes da Silva(patricia@bce.unb.br) on 2016-12-06T13:01:15Z (GMT) No. of bitstreams: 1 2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Made available in DSpace on 2016-12-06T13:01:15Z (GMT). No. of bitstreams: 1 2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Métodos de aprendizagem de máquina vêm sendo amplamente usados na identificação e classificação de diferentes famílias de RNAs não-codificadores (ncRNAs). Muitos desses métodos são baseados na aprendizagem supervisionada, onde atributos anteriormente conhecidos, chamados features, são extraídos de uma sequência e usados em um classificador. Nesta dissertação, apresentamos dois métodos para a identificação das duas classes principais de snoRNAs, C/D box e H/ACA box snoRNAs: snoReport 2.0, uma melhoria significativa da primeira versão do snoReport; e o snoRNA-EDeN, um novo método baseado no EDeN, que é um kernel decomposicional de grafos. O snoReport 2.0 é um método que, usando features extraídas de sequências candidatas em genomas, combina predição de estrutura secundária de ncRNAs com Máquina de Vetores de Suporte (Support Vector Machine - SVM), para identificar C/D box e H/ACA box snoRNAs. Seu classificador de H/ACA box snoRNA mostrou um F-score de 93% (uma melhoria de 10% em relação à primeira versão do snoReport), enquanto o classificador de C/D box snoRNA obteve F-score de 94% (melhoria de 14%). Alem disso, ambos os classificadores tiveram todas as medidas de performances acima de 90%. Na fase de validação, o snoReport 2.0 identificou 67,43% dos snoRNAs de vertebrados de ambas as classes. Em Nematóides, o snoReport 2.0 identificou 29,6% dos C/D box snoRNAs e 69% dos H/ACA box snoRNAs. Para as Drosofilídeas, foram identificados 3,2% dos C/D box snoRNAs e 76,7% dos H/ACA box snoRNAs. Esses resultados mostram que o snoReport 2.0 é eficiente na identificação de snoRNAs em organismos vertebrados, e também para H/ACA box snoRNAs de organismos invertebrados. Por outro lado, em vez de usar features de uma sequência (em geral, difíceis de identificar), uma abordagem recente de aprendizagem de máquina é descrita a seguir. Dada uma região de interesse de uma sequencia, o objetivo é gerar um vetor esparso que pode ser usado como micro-features em algum algoritmo de aprendizado de máquina, ou pode ser usado para a criação de features poderosas. Essa abordagem é usada no EDeN (Explicit Decomposition with Neighbourhoods), um kernel decomposicional de grafos baseado na técnica Neighborhood Subgraph Pairwise Distance Kernel (NSPDK). O EDeN transforma um grafo em um vetor esparso, decompondo-o em todos os pares de subgrafos vizinhos de raios pequenos, a distâncias crescentes. Baseado no EDeN, foi desenvolvido um método chamado snoRNA-EDeN. Na fase de testes, para C/D box snoRNAs, o snoRNA-EDeN obteve um F-score de 93,4%, enquanto que para H/ACA box snoRNAs o F-score foi de 85.12%. Na fase de validação, para C/D box snoRNA, o snoRNA-EDeN mostrou uma grande capacidade de generalização, identificando 94,61% de snoRNAs de vertebrados e 63,52% de invertebrados, um resultado significantemente melhor em comparação ao snoReport 2.0, que identificou apenas 52,92% dos vertebrados e 14,6% dos invertebrados. Para o H/ACA box, o snoReport 2.0 identificou 79,9% dos snoRNAs de vertebrados e 73,3% dos snoRNAs de Nematóides e Drosofilídeos, enquanto que o snoRNA-EDeN identificou 95,4% dos vertebrados e 57.8% dos nematóides e drosofilas. Ambos os métodos estão disponíveis em: http://www.biomol.unb.br/snoreport e http://www.biomol.unb.br/snorna_eden. ___________________________________________________________________________ ABSTRACT / Machine learning methods have been widely used to identify and classify different families of non-coding RNAs. Many of these methods are based on supervised learning, where some previous known attributes, called features, are extracted from a sequence, and then used in a classifier. In this work, we present two methods to identify the two main classes of snoRNAs, C/D box and H/ACA box: snoReport 2.0, a significant improvement of the original snoReport version; and snoRNA-EDeN, a new method based on EDeN, a decompositional graph kernel. On one hand, snoReport 2.0 is a method that, using features extracted from candidate sequences in genomes, combines secondary structure prediction with Support Vector Machine (SVM) to identify C/D box and H/ACA box snoRNAs. H/ACA box snoRNA classifier showed a F-score of 93% (an improvement of 10% regarding to the previous version), while C/D box snoRNA classifier a F-Score of 94% (improvement of 14%). Besides, both classifiers exhibited performance measures above 90%. In the validation phase, snoReport 2.0 predicted 67.43% of vertebrate organisms for both classes. SnoReport 2.0 predicted: for Nematodes, 29.6% of C/D box and 69% of H/ACA box snoRNAs; and for Drosophilids, 3.2% of C/D box and 76.7% of H/ACA box snoRNAs. These results show that snoReport 2.0 is efficient to identify snoRNAs in vertebrates, and also H/ACA box snoRNAs in invertebrates organisms. On the other hand, instead of using known features from a sequence (difficult to find in general), a recent approach in machine learning is described as follows. Given a region of interest of a sequence, the objective is to generate a sparse vector that can be used as micro-features in a specific machine learning algorithm, or it can be used to create powerful features. This approach is used in EDeN (Explicit Decomposition with Neighbourhoods), a decompositional graph kernel based on Neighborhood Subgraph Pairwise Distance Kernel (NSPDK). EDeN transforms one graph in a sparse vector, decomposing it in all pairs of neighborhood subgraphs of small radius at increasing distances. Based on EDeN, we developed a method called snoRNA-EDeN. On the test phase, for C/D box snoRNAs, snoRNA-EDeN showed a F-score of 93.4%, while for H/ACA box snoRNAs, the F-score was 72%. On the validation phase, for C/D box snoRNAs, snoRNA-EDeN showed a better capacity of generalization, predicting 94.61% of vertebrate C/D box snoRNAs and 63.52% of invertebrates, a significantly better result compared to snoReport 2.0, which predicted only 52.92% of vertebrates and 14.6% of invertebrates. For H/ACA box snoRNAs, snoReport 2.0 predicted 79.9% of vertebrate snoRNAs and 73.3% of Nematode and Drosophilid sequences, while snoRNA-EDeN predicted 95.4% of vertebrate snoRNAs and 57.8% of Nematode and Drosophilid sequences. Both methods are available at http://www.biomol.unb.br/snoreport and http://www.biomol.unb.br/snorna_eden. Bioinformática Inteligência artificial Aprendizagem de máquina RNAs não-codificadores Small nucleolar RNAs

Search results