Comunidades microbianas possuem papéis importantes em processos que ocorrem em diversos ambientes, tais como solos, oceanos e o trato gastrointestinal dos seres humanos. Portanto, é de interesse a compreensão da estrutura e do funcionamento dessas comunidades. A estrutura dessas comunidades, em termos de organismos componentes, pode ser determinada com o uso do sequenciamento de nova geração em conjunto com as técnicas meta-ômicas e pela análise taxonômica das sequências obtidas com programas de classificação taxonômica. Se por um lado diversos programas estão disponíveis, por outro lado eles cometem erros, como a identificação parcial dos organismos presentes na amostra e a identificação de organismos que não estão presentes na amostra (os falsos positivos - FPs). Algumas abordagens foram propostas para a melhoria das classificações taxonômicas obtidas por esses programas com a redução desses FPs, porém elas abordam apenas um tipo de meta-ômica, a metagenômica. Neste trabalho, propomos uma nova abordagem através da integração de diferentes meta-ômicas - metagenômicas shotgun e de amplicons de 16S, e metatranscritômica. Exploramos os resultados de classificações de dados simulados e mocks para a extração de variáveis e desenvolvemos modelos de classificação para discriminação de predições de espécies de bactérias classificadas como corretas ou incorretas. Comparamos o desempenho dos resultados obtidos entre as meta-ômicas individuais e os obtidos através da integração observando o balanceamento entre a precisão e a sensibilidade. De acordo com as medidas calculadas com nossos conjuntos de dados, nossa abordagem demonstrou melhorias na classificação com a redução de FPs e aumentos para a medida F1, quando comparada com abordagens não integrativas, inclusive com o uso de métodos de combinação de classificadores. Para facilitar seu uso, desenvolvemos o Gunga, uma ferramenta que incorpora a abordagem desenvolvida em formato de pacote do R, com funcionalidades para a integração de dados de classificação taxonômica com diferentes meta-ômicas e a classificação das predições incorretas. / Microbial communities play important roles in processes that occur in diverse environments, such as soils, oceans, and the gastrointestinal tract of humans. Therefore, it is of interest to understand the structure and functioning of these communities. The structure of these communities, in terms of component organisms, can be determined by the use of the next generation sequencing in conjunction with the meta-omics techniques and by the taxonomic analysis of the sequences obtained with taxonomic classification programs. If on the one hand several programs are available, on the other hand they make mistakes, such as the partial identification of the organisms present in the sample and the identification of organisms that are not present in the sample (the false positives - FPs). Some approaches have been proposed to improve the taxonomic classifications obtained by these programs with the reduction of these FPs, but they address only one type of meta-omics, the metagenomics. In this work, we propose a new approach by integrating different meta-omics - shotgun and 16S amplicon metagenomics, and metatranscriptomics. We explored the classifications results of simulated data and mocks for variable extraction and developed classification models for discriminating predictions of bacterial species classified as correct or incorrect. We compared the performance of the results obtained between the individual meta-omics and the obtained through the integration observing the balance between precision and sensitivity. According to the measures calculated with our data sets, our approach has shown improvements in the classification with the reduction of the FPs and increases for the F1 measure, when compared to non-integrative approaches, including the use of classifiers combination methods. To facilitate its use, we developed the Gunga, a tool that incorporates the developed approach in R package format, with features for the integration of taxonomic classification data with different meta-omics and the classification of the incorrect predictions.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-17092019-002727 |
Date | 20 August 2019 |
Creators | Lima, Felipe Prata |
Contributors | Setubal, João Carlos |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | English |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0019 seconds