Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte

O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The transcription process concerns reading the information contained in DNA to generate the corresponding messenger RNA. To initiate the transcription process of a given gene, RNA polymerase enzyme needs to recognize the promoter region, thereby regulating gene expression. Literature proposes several computational methods to predict promoter sequences, but most of them is focused on Gramnegative bacteria. Therefore, the objective of this work is to predict promoters in intergenic regions of the Bacillus subtilis bacterium (Gram-positive) through the application of machine learning techniques: Artificial Neural Networks (RN) and Support Vector Machines (SVM). The training of the RN was performed through the Multilayer Perceptron (MLP) algorithm that is based on the error correction learning rule (backpropagation). For SVM, the kernels (maps the characteristics space to identify ideal support vectors) that stands out are Radial Basis Function (RBF) that uses a Gaussian function; SIGMOID that uses a hyperbolic tangent function; and Nu- Support Vector Classification (Nu-SVC) that limits the penalty cost between 0 and 1. The first step was to obtain the genome and the promoters recognized by the Sigma factors of Bacillus subtilis from data in public data bases. Biological data gathered from Bacillus subtilis generated 767 promoter regions, being the majority found by Sigma SigA factor. These data were processed and used as input in RN and SVM machine learning techniques. Hence, it was possible to compare the efficiency of the two solutions. In both solutions, the same input data and 5-fold cross-validation were used. We obtained 93.20% and 95.63% accuracy in the SVM application (combining the SIGMOID and RBF kernels with the Nu-SVC algorithm). With RN (MLP with 5 and 7 neurons in the hidden layer and 1 neuron in the output layer), the best results were 98.57% and 97.69% accuracy. Both results are consistent and competitive when compared to those in literature. In addition, both solutions proved the reliability of the obtained data. Finally, it is possible to state that the prediction of Bacillus subtilis promoter regions can be successfully performed both using RN and SVM, although RN has obtained better performance.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ucs.br:11338/3795
Date13 April 2017
CreatorsCoelho, Rafael Vieira
ContributorsLemke, Ney, Dorn, Marcio, Notari, Daniel Luís, Delamare, Ana Paula Longaray
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UCS, instname:Universidade de Caxias do Sul, instacron:UCS
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0017 seconds