Return to search

Predição de RNAs não-codificadores no transcriptoma do fungo Paracoccidioides brasiliensis usando aprendizagem de máquina

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, 2008. / Submitted by Diogo Trindade Fóis (diogo_fois@hotmail.com) on 2009-10-06T11:45:45Z
No. of bitstreams: 1
2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2009-11-03T17:27:16Z (GMT) No. of bitstreams: 1
2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) / Made available in DSpace on 2009-11-03T17:27:16Z (GMT). No. of bitstreams: 1
2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5)
Previous issue date: 2008-04 / Paracoccidioides brasiliensis (Pb) é um fungo saprófito e dimórfico de importância clínica, pois seus propágulos, quando inalados por humanos, desencadeiam a doença conhecida como paracoccidioidomicose. No ano de 2005 foi publicado o transcriptoma do Pb, apontando diversos alvos potenciais de drogas, mas ainda assim uma parte significativa dos transcritos seqüenciados não possui proteínas homólogas identificadas. Esse trabalho sugere que alguns desses RNAs possam ser não-codificadores (ncRNAs), uma classe de moléculas biologicamente funcionais que no entanto não codificam para nenhum produto protéico. Para tanto foi feita uma abordagem exclusivamente computacional, utilizando exemplos conhecidos de mRNAs e ncRNAs para treinamento de dois algoritmos de aprendizado de máquina: naive Bayes (nB) e Máquinas de Vetores de Suporte (MVS). Diversos programas descritos na literatura e desenvolvidos localmente foram usados para obter propriedades dos transcritos e de seus produtos protéicos, de forma que os algoritmos de aprendizado de máquina fossem capazes de diferenciar satisfatoriamente um mRNA de um ncRNA. O uso de várias medidas de eficiência mostra que ambos algoritmos, MVS e nB, induziram classificadores que discriminam as duas classes de RNAs de forma muito eficiente, mas também indicam que o MVS possui uma vantagem significativa em relação à sua detecção de ncRNAs. Acurácia média mensurada por validação cruzada de 10 vezes para o MVS foi de 92,4%, e para o nB, 75,3%. Quando usados no transcriptoma de Pb, o MVS e o nB detectam, respectivamente, 970 e 262 ncRNAs, dos quais a maior parte é de transcritos sem anotação e singlets, duas características que apóiam a possibilidade de que esses transcritos sejam realmente ncRNAs. Comparações a programas relacionados mostram que o programa aqui descrito apresenta um ganho em velocidade computacional sem perda de acurácia. Foi desenvolvido nesse trabalho um programa computacional de análise ab initio, designado PORTRAIT, especializado em detecção de ncRNAs em transcriptomas de organismos pouco caracterizados. __________________________________________________________________________________________ ABSTRACT / Paracoccidioides brasiliensis (Pb) is a saprophytic and dimorphic fungus of clinical importance because its propagules, when inhaled by humans, cause the disease known as paracoccidioidomycosis. In the year 2005 the Pb transcriptome was published, pointing out several potential drug targets, but still a significative amount of sequenced transcripts lack identified homologous proteins. This work suggests that these RNAs may be non-coding RNAs (ncRNAs), a class of biologically functional molecules that do not code for any protein product. Aiming this, a strictly computational approach was made, using known examples of mRNAs and ncRNAs for training two machine learning algorithms: naive Bayes (nB) and Support Vector Machines (SVM). Several programs available from literature and locally developed were used to obtain properties from transcripts and its corresponding protein products, in such a way that machine learning algorithms could successfully discriminate between mRNA and ncRNA. Several efficiency measurements show that both algorithms, SVM and nB, induced classifiers able to efficiently discriminate the two classes of RNAs, and also indicate that SVM has a significative advantage regarding ncRNA detection. Mean accuracy as estimated by 10-fold cross-validation procedure was 92.4% for SVM and 75.3% for nB. When used in the Pb transcriptome, SVM and nB detect, respectively, 970 and 262 ncRNAs, of which the majority is composed of singlets and unnanotated transcripts, two characteristics that support the possibility that these transcripts are real ncRNAs. Comparison to related works indicates that the described program offers a computational speed improvement without hindering accuracy. This work describes the design of a computational program for ab initio analysis, named PORTRAIT, specialized in detection of ncRNAs in transcriptomes from poorly characterized organisms.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/2105
Date04 1900
CreatorsArrial, Roberto Ternes
ContributorsBrígido, Marcelo de Macedo, Togawa, Roberto Coiti
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds