Return to search

Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae / Data warehouse enriched with machine learning methods for the Geminiviridae family

Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:52:35Z
No. of bitstreams: 1
texto completo.pdf: 3471654 bytes, checksum: 82ea26892b0d158adb1ef3c47fefcab1 (MD5) / Made available in DSpace on 2017-02-10T10:52:35Z (GMT). No. of bitstreams: 1
texto completo.pdf: 3471654 bytes, checksum: 82ea26892b0d158adb1ef3c47fefcab1 (MD5)
Previous issue date: 2016-07-25 / Geminivírus infectam uma ampla faixa de plantas monocotiledôneas e dicotiledô- neas e causam expressivas perdas econômicas. A família Geminividae é uma das mais importantes famílias de vírus de plantas. Atualmente está composta por sete gêneros, é reconhecida pelo tipo de inseto vetor, hospedeiro, organização genômica e reconstrução filogenética. A amplificação por ciclo rolante permitiu que milhares de sequências completas e parciais fossem depositadas em bases de dados públi- cas. Entretanto, tais bases de dados são limitadas em ferramentas avançadas que permitam responder perguntas sofisticadas. Ao contrário de outros importantes patógenos virais, nenhum banco de dados para geminivírus que integre todas as informações relevantes foi ainda sugerido. Neste trabalho, um Data Warehouse (DW) designado geminivirus.com é proposto. Um DW amplamente enriquecido por abordagens de aprendizado de máquina que vise garantir confiabilidade e qua- lidade das sequências genômicas e seus metadados associados. As metodologias de extração, transformação dessas sequências e seus metadados foram implemen- tadas em um processo ETL (Extract, Transform and Load) específico para dados de geminivírus. Além disso, neste processo, o uso de algoritmos de aprendizado de máquina como Multilayer Perceptron (MLP), Máquina de Vetores de Suporte (SVM) e Random Forest são utilizados como classificadores taxonômicos in silico para classificar as sequências completas. Ademais, modelos de aprendizado de máquina foram propostos para classificação de genes. Os modelos para ambos os fins superam 98% de acurácia e precisão, utilizando apenas atributos extraídos da sequência genômica completa, sequência CDS (Coding DNA Sequence) e sequên- cia de aminoácidos. Também técnicas de Processamento de Linguagem Natural baseadas em teoria dos grafos foram propostas para extração de informação e co- nhecimento em resumos de artigos. Essa metodologia apresentou grande potencial para responder perguntas específicas. Explorando o grafo de texto buscando por palavras chaves que representam os mecanismos evolutivos, verificou-se que o tema recombinação é os mais estudado se comparado à mutação, migração, seleção na- tural e deriva genética. Tornando-se assim, uma técnica propicia para gerar novas hipóteses. Ao utilizar tal técnica, observou-se que ferramentas de predição de genes não foram mencionadas. Dessa oportunidade, sugerimos um método para predição e classificação de genes designado Fangorn Forest (F2). Além disso, como parte desse método sugerimos um algoritmo para predição de genes designado Millau Bridge (MB). Esse algoritmo testa todas as possíveis ORFs que uma sequência genômica completa pode codificar por meio de codons de iniciação e terminação. Além disso, identifica sítios de excisão de splicing. geminivrus.com tornou-se uma base de dados robusta capaz de proporcionar dados com boa qualidade, ferramen- tas avançadas enriquecidas por métodos de aprendizado de máquina que auxiliam pesquisadores em suas atividades de pesquisa e tomada de decisão. / Geminiviruses infect a wide range of monocot and dicot plants and cause sig- nificant economic losses. The Geminividae family is one of the most important plant virus families. Currently, it consists of seven genera and is recognized by the type of insect vector, host range, genome organization and phylogenetic re- construction. The rolling cycle amplification allowed thousands of complete and partial sequences to be made available in public databases. However, such databa- ses have limitations concerning advanced tools to answer sophisticated questions. Unlike other major viral pathogens, no database for geminiviruses that integrates all relevant information was suggested yet. In this work, a Data Warehouse (DW) designated geminivirus.org is proposed. It is a DW widely enriched by machine learning (ML) approaches designed to ensure reliability and quality of the genomic sequences and their associated metadata. The methods for extraction and trans- formation of these sequences and their metadata have been implemented using the ETL process (Extract, Transform and Load), specifically for geminivirus data. In addition, ML algorithms such as Multilayer Perceptron (MLP), Support Vector Machine (SVM), and Random Forest classifier are used as in silico taxonomic clas- sifiers to classify complete sequences. Furthermore, ML models are proposed for gene classification. All models exceed 98% accuracy and precision using only ex- tracted attributes of the complete genome sequence, Coding DNA Sequence (CDS) and protein sequence. Additionally, Natural Language Processing based on graph theory techniques have been proposed for extracting information and knowledge articles. This methodology presented great potential to answer specific questi- ons. While exploring the word graph by searching for keywords that represent evolutionary mechanisms, it was found that the subject of recombination is the most studied compared to the mutation, migration, natural selection and, genetic drift. The resulting method is demonstrated, thus, to be an interesting techni- que to generate new hypotheses. By using this technique, it was observed that gene prediction tools have not been mentioned. In this opportunity, we suggest a powerful method for prediction and classification of genes called Fangorn Forest (F2). Also as part of this method, we suggest a greedy algorithm for predicting genes designated Millau bridge (MB). This algorithm tests all possible ORFs that a complete genomic sequence can encode inspecting initiation and termination co- dons. Furthermore, it identifies splicing sites. geminivirus.org became a robust database capable of providing data with good quality, advanced tools enriched by machine learning methods that help researchers in their research activities and decision making.

Identiferoai:union.ndltd.org:IBICT/oai:localhost:123456789/9483
Date25 July 2016
CreatorsSilva, José Cleydson Ferreira da
ContributorsFontes, Elizabeth Pacheco Batista, Cerqueira, Fabio Ribeiro
PublisherUniversidade Federal de Viçosa
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFV, instname:Universidade Federal de Viçosa, instacron:UFV
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds