Return to search

Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais / Application of chemoinformatic tools in the study of plant metabolic profiles and dereplication

Com o surgimento da era computacional com especial aplicação em química, as substâncias de origem naturais puderam ter suas informações armazenadas em bancos de dados. Desta forma, surge a oportunidade de se empregar bancos de dados de produtos naturais e de algumas ferramentas de quimioinformática como os estudos de Quantitative Structure-Retention Relationship (QSRR) para acelerar a identificação de substâncias em estudos metabolômicos. Este trabalho propôs o desenvolvimento de três estudos de QSRR, bem como a construção de um banco de dados (AsterDB) com estruturas químicas da família Asteraceae e informações a elas associadas (ex.: ocorrências botânicas e taxonômicas, atividade biológica, informações analíticas etc.) para auxiliar a desreplicação de substâncias em extratos vegetais. O primeiro estudo foi elaborado com 39 lactonas sesquiterpênicas (LST) analisadas em dois diferentes sistemas de solventes (MeOH-H2O 55:45 e MeCN-H2O 35:65), três grupos de descritores estruturais (2D-descr, 3D-1conf e 3D-weigh), dois diferentes conjuntos para treino e teste (26:13 e 29:10), quatro algoritmos para seleção de descritores (best first, linear forward - LFS, greedy stepwise e algoritmo genético - GA), três diferentes tamanhos de modelos (quatro, cinco e seis descritores) e dois métodos de modelagem (mínimos quadrados parciais - PLS e redes neurais artificiais - ANN). O segundo foi desenvolvido com 50 substâncias de diferentes classes químicas com intuito de avaliar as diferenças entre substâncias analisadas individualmente e em mistura em três diferentes equipamentos e dois métodos cromatográficos. O terceiro foi elaborado com 2.635 estruturas químicas com um teste externo comum a todos os modelos (25%, n = 656), três métodos de separação para teste e treino (partição baseada na resposta e baseada nos preditores 2D e 3D), três diferentes tamanhos de modelos selecionados por GA e dois métodos de modelagem (MLR e redes neurais feed-forward com regularização bayesiana - BRNN). O banco de dados AsterDB foi desenvolvido para ser preenchido de forma gradual e atualmente possui cerca de 2.000 estruturas químicas. O primeiro estudo de QSRR gerou bons modelos capazes de estimar o logaritmo do fator de retenção (logk) das LST com P2>0,81 para o sistema MeCN-H2O. O segundo estudo mostrou que não houve diferença estatística entre as substâncias analisadas individualmente e em mistura (p-valor>0,95) e que a correlação entre os dois métodos cromatográficos e equipamentos utilizados foi reprodutível (R>0,95). Estas análises mostraram que foi possível desenvolver modelos de QSRR para um método cromatográfico e equipamento e transpô-los para outro equipamento seguindo o uso de substâncias em comum. O terceiro estudo produziu modelos com boa capacidade de predição (P2>0,81) utilizando alta amplitude de espaço químico e rigor estatístico. Conclui-se que, estas informações podem ser utilizadas como uma plataforma piloto para análises de dados com objetivo de auxiliar na desreplicação de extratos de plantas em estudos metabolômicos / After the emergence of the computing era with special application in chemistry, all substances from natural sources might have their information stored in databases. Therefore, the opportunity arises to employ natural product databases and some chemoinformatic tools such as QSRR studies to speed up the identification of substances from metabolomic studies. This paper proposes the development of three QSRR studies as well as the building of a database (AsterDB) with chemical structures from the Asteraceae family and related information (i.e.: botanical and taxonomic occurrences, biological activity, analytical information, etc.) aiming to assist the dereplication of substances in plant extracts. The first study was carried out with 39 sesquiterpene lactones (STLs) analysed using two different solvent systems (MeOH-H2O 55:45 and MeCN-H2O 35:65), three groups of structural descriptors (2D-descr, 3D-1conf, and 3D-weigh), two different sets for training and testing (26:13 and 29:10), four algorithms for selection of descriptors (best first, LFS, greedy stepwise, and GA), three different model sizes (four, five, and six descriptors) and two modelling methods (PLS and ANN). The second study was developed with 50 compounds of different chemical classification in order to assess the differences between individual and mixed compounds analysed in three different equipments and two chromatographic methods. The third was elaborated with 2,635 chemical structures with a common external test to all models (25%, n = 656), three separation methods for testing- and training-set (based on response and on 2D and 3D predictors partitions), three different sizes of models selected by GA and two modelling methods (MLR and BrNN). The AsterDB database was developed to be populated gradually and currently, it has about 2,000 chemical structures. The first QSRR study generated good models, able to estimate the logarithm of the retention factor (logk) of STLs with P2>0.81 for the MeCN-H2O system. The second study showed that there was no statistical difference between the substances analysed individually and mixed (p-value>0.95) and the correlation between the two chromatographic methods and equipments used was reproducible (R>0.95). These analyses showed that it was possible to develop QSRR models for a chromatographic method and equipment and translate them into other equipment following the use of substances in common. The third study produced models with good predictive capacity (P2>0.81) using a high range of chemical space and statistical accuracy. In conclusion, this information can be used as a pilot platform for data analysis in order to assist in plant dereplication in metabolomics studies

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-28102015-155052
Date10 September 2015
CreatorsOliveira, Tiago Branquinho
ContributorsCosta, Fernando Batista da
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0027 seconds