Global ETD Search

Return to search

Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae / Empirical analysis of machine learning techniques for classification of protein sequences of Metarhizium Anisopliae

Submitted by Maria Cristina (library@lncc.br) on 2015-04-02T18:45:21Z
No. of bitstreams: 1
Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5) / Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-02T18:45:37Z (GMT) No. of bitstreams: 1
Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5) / Made available in DSpace on 2015-04-02T18:45:51Z (GMT). No. of bitstreams: 1
Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5)
Previous issue date: 2015-02-23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) / Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins.
One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable.

WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V.

Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively.

Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone.

The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model. / Metarhizium anisopliae é um fungo entomopatogênico utilizado como inseticida biológico. Este organismo possui proteínas ligadas ao processo de infecção cujos mecanismos de controle ainda são desconhecidos. Muitos destes mecanismos podem ser controlados pelo sistema de ubiquitinação. Neste trabalho, foram utilizados métodos de aprendizado de máquina para classificar sítios de ubiquitinação em proteínas preditas, a partir do genoma do fungo {\it \Manisopliae~} isolado E6.
Cento e cinquenta e um (151) peptídeos ubiquitinados e cento e cinquenta e um (151) peptídeos não-ubiquitinados de {\it S.cereviseae} e {\it H.sapiens} foram utilizados como conjunto de treinamento.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} Cada um destes peptídeos foi composto por 21 aminoácidos com um resíduo de lisina central. Os peptídeos foram representados como vetores numéricos que correspondem ao valor médio das propriedades físico-químicas dos aminoácidos. O agrupamento hierárquico feito com os peptídeos (dados de treinamento), mostrou evidências de correlação entre várias propriedades físico-químicas, indicando alguma redundância nos atributos. Atributos redundantes podem causar {\it overfitting} do modelo e aumentar o custo computacional. Nós utilizamos o algoritmo {\it WeightedVotingXValidation} para descobrir o conjunto mínimo de atributos que me\-lhor re\-pre\-sen\-tam os peptídeos a serem classificados como ubiquitináveis ou
não.

O algoritmo {\it WeightedVotingXValidation} apresentou um comportamento semelhante para vetores de 10 e 31 dimensões. A correlação entre os atributos foi confirmada pelo teste de correlação de Pearson (coeficientes que variam de -0,95 a -0,40 e 0,40 a 0,98). Em seguida, comparamos o desempenho dos classificadores W-V e {\it Support Vector Machine} (SVM) com a função {\it kernel} radial para vetores com 10 ou 31 dimensões. Em ambos os casos, os resultados do SVM superou W-V. O resultado de {\it recall}, precisão e acurácia quando utilizamos 10 atributos foram, respectivamente, 67 \%, 65\% e 66\% para SVM, contra 65\%, 55\% e 47\% para W-V. Com o uso de 31 atributos, o resultado para os indicadores de desempenho foi de 71\%, 71\% e 71\% para SVM contra 60\%, 55\%, 52\% para W-V.

Os dados foram processados em um {\it notebook} ASUS K43U com AMD Dual Core C60 1.0GHz , 2 x 512 KB de memória cache, 4 GB de RAM. O tempo de processamento foi de 8h e 22h, para SVM com 10 e 31 atributos físico-químicos, respectivamente.

Considerando-se o risco de {\it overfitting} do modelo e a redundância dos atributos, nós aplicamos o algoritmo SVM treinado com 10 atributos físico-químicos para classificar possíveis proteínas propensas a ubiquitinação no proteoma de {\it \Manisopliae~} isolado E6 (10.775 proteínas). Os 160.694 peptídeos particionados em 21 aminoácidos contendo um resíduo de lisina na posição central, extraídos a partir de proteínas, foram representados por vetores de 10 dimensões e utilizados como conjunto independente. Das \seqliprot, 9.314 foram classificadas como sendo propensas a ubiquitinação e 1.417 como não-ubiquitináveis. Quarenta e quatro destas proteínas não foram analisadas por não possuírem o aminoácido lisina.

A pequena perda de desempenho com a redução de dimensão do espaço de dados é compensada pela redução significativa no tempo de processamento e pelo menor risco de {\it overfitting} utilizando vetores de 10 dimensões.

Bioinformática

Ubiquitinas

Bioinformatics

Ciência da Computação

Ciências Biológicas

Identifer	oai:union.ndltd.org:IBICT/oai:tede-server.lncc.br:tede/198
Date	23 February 2015
Creators	Dias, Maria Fernanda Ribeiro
Contributors	Guedes, Luciane Prioli Ciapina, Kritz, Maurício Vieira, Coimbra, Roney dos Santos, Barreto, André da Motta Salles, Alves, Ronnie Cley de Oliveira
Publisher	Laboratório Nacional de Computação Científica, Programa de Pós-Graduação em Modelagem Computacional, LNCC, Brasil, Serviço de Análise e Apoio a Formação de Recursos Humanos
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Source	reponame:Biblioteca Digital de Teses e Dissertações do LNCC, instname:Laboratório Nacional de Computação Científica, instacron:LNCC
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0029 seconds

Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae / Empirical analysis of machine learning techniques for classification of protein sequences of Metarhizium Anisopliae

Description

Links & Downloads

Tags

Additional Fields