Return to search

Métodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínas

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2018-08-22T21:11:06Z
No. of bitstreams: 1
2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-08-22T21:13:46Z (GMT) No. of bitstreams: 1
2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5) / Made available in DSpace on 2018-08-22T21:13:46Z (GMT). No. of bitstreams: 1
2018_LucasMacielVieira.pdf: 1813707 bytes, checksum: 34477a299c2d3aee137d4312b9bceeef (MD5)
Previous issue date: 2018-08-22 / Os RNAs não-codificadores (ncRNAs) constituem uma classe importante de moléculas
produzidas nas células de organismos. Dentre eles, temos os ncRNAs longos (lncRNAs),
uma classe de ncRNAs com predição díficil, pois podem estar sobrepostas a transcritos
codificadores de proteínas (Protein Coding Transcripts - PCTs). Porém, existe uma classe
de lncRNAs, os RNAs longos intergênicos (long non-condig RNAS - lincRNAS), que são
lncRNAs que aparecem entre dois genes, que vêm sendo estudados devido a seus papéis
regulatórios nos mecanismos celulares e sobretudo porque estão ligados a doenças como
câncer. Apesar da importância destes lincRNAs, poucos métodos computacionais para
distinção entre essa molécula e PCTs estão disponíveis. Além disso, os métodos existentes
devem ser aplicados a organismos específicos, não podendo ser utilizados para distinguir
lincRNAs de PCTs em espécies diferentes daquelas para as quais os modelos foram originalmente
construídos. Na literatura, a predição de lncRNAs e lincRNAs vem sendo
explorada com técnicas de Aprendizagem de Máquina. Neste contexto, este trabalho
propõe dois métodos para discriminar lincRNAs de PCTs. O primeiro é um workflow
para distinguir lincRNAs de PCTs em plantas, o qual utiliza ferramentas de bioinformática
e Máquina de Vetores de Suporte, uma técnica de aprendizagem de máquina. O
workflow foi aplicado em dois estudos de caso: cana-de-açúcar (Saccharum spp) e milho
(Zea mays), tendo sido encontrados potenciais lincRNAs em ambos organismos. Além
disso, um estudo de expressão diferencial de lincRNAs foi feito em cada estudo de caso,
revelando possível interação desses lincRNAs com certos microorganismos que foram inoculados
nas duas espécies de plantas. O segundo método propõe o uso de Ensemble para
melhorar a capacidade de generalização e a robustez no método de distinguir de lincRNAs
e PCTs. Este método foi aplicado em duas espécies, Homo sapiens (humano), montagem
GRCh38, e Mus musculus (camundongo), montagem GRCm38. Os resultados mostram
boas acurácias de 94% e 96% para humanos e camundongo, respectivamente. Deve-se notar
que essas acurácias foram iguais ou melhores do que as acurácias de métodos existentes
na literatura. / Non-coding RNAs (ncRNAs) constitute an important set of transcripts produced in the
cells of organisms. Among them, there is a large amount of a particular class of long ncRNAs
(lncRNAs) that are difficult to predict, the so-called long intergenic ncRNAs (lincRNAs),
which might play essential roles in gene regulation and other cellular processes,
and they can be mistaken with transcripts that code proteins. Despite the importance of
these lincRNAs, there is still a lack of biological knowledge, and also a few computational
methods, most of them being specific to organisms, which usually can not be successfully
applied to other species, different from those that they have been originally designed to.
In literature, prediction of lncRNAs performed with machine learning techniques, and lincRNA
prediction has been explored with supervised learrning methods. In this context,
this work proposes two methods for discriminating lincRNAs from protein coding transcripts
(PCTs). The first one is a workflow to distinguish lincRNAs from PCTs in plants,
considering a pipeline that includes known bioinformatics tools together with machine
learning techniques, here Support Vector Machine (SVM). We discuss two case studies
that were able to identify novel lincRNAs, in sugarcane (Saccharum spp) and in maize
(Zea mays). From the results, we also could identify differentially expressed lincRNAs in
sugarcane and maize plants submitted to pathogenic and beneficial microorganisms. The
second method is the distinction of lincRNAs from PCTs using ensemble, a method that
improves generalizability and robustness. We applied this method in two species, Homo
sapiens (human), assembly GRCh38, and Mus musculus (mouse), assembly GRCm38.
The results show good accuracies of 94% and 96% for human and mouse, respectively,
which are best or at least are comparable to the accuracies presented in related works.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/32463
Date01 March 2018
CreatorsVieira, Lucas Maciel
ContributorsWalter, Maria Emília Machado Telles
Source SetsIBICT Brazilian ETDs
LanguageInglês
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
RightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data., info:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds