Return to search

Melhoria da Sensibilidade em dados de proteômica Shotgun usando redes neurais artificiais sensíveis ao custo e o algoritmo threshold selector / Improving sensitivity in shotgun proteomics using cost sensitive artificial neural networks and a threshold selector algorithm

Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2016-02-16T08:33:17Z
No. of bitstreams: 1
texto completo.pdf: 4266396 bytes, checksum: 856cd30ea465e06e8c9ff8dc295ffd91 (MD5) / Made available in DSpace on 2016-02-16T08:33:17Z (GMT). No. of bitstreams: 1
texto completo.pdf: 4266396 bytes, checksum: 856cd30ea465e06e8c9ff8dc295ffd91 (MD5)
Previous issue date: 2015-12-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Antecedentes: Este trabalho apresenta uma estratégia de aprendizagem de máquina para aumentar sensibilidade na análise de dados de espectrometria de massa para identificação de peptídeos / proteínas. A espectrometria de massa em tandem é uma técnica de química analítica amplamente utilizada para identificar as proteínas em misturas complexas, dando origem a milhares de espectros em uma única corrida que são depois interpretados por software. A maioria destas abordagens computacionais usam bancos de dados de proteínas para realizar a interpretação dos espectros, ou seja, para cada um, obter a melhor correspondência entre o mesmo e a sequência de um peptídeo obtido computacionalmente, a partir das sequências de proteínas do banco de dados. As correspondências espectro-peptídeo (PSM - peptide-spectrum matches) também devem ser avaliadas por ferramentas computacionais já que a análise manual não é possível em função do volume. A estratégia do banco de dados target-decoy é largamente utilizada para avaliação de PSMs. No entanto, em geral, o método não considera a sensibilidade, apenas a estimativa de erro. Resultados: Em trabalho de pesquisa anterior, o método MUMAL aplica uma rede neural artificial para gerar um modelo para classificar PSMs usando a estratégia do banco de dados target-decoy para o aumento da sensibilidade. Entretanto, o presente trabalho de pesquisa mostra que a sensibilidade pode ser melhorada com a utilização de uma matriz de custo associada com o algoritmo de aprendizagem. Demonstra-se também que a utilização do algoritmo threshold selector para o ajuste de probabilidades conduz a valores mais coerentes de probabilidade atribuídos para os PSMs, o que afeta positivamente a etapa de inferência de proteínas. Portanto, a abordagem aqui proposta, denominada MUMAL2, fornece duas contribuições para proteômica shotgun. Em primeiro lugar, o aumento no número de espectros corretamente interpretados no nível de peptídeo aumenta a chance de identificar mais proteínas. Em segundo lugar, os valores mais adequados de pro- babilidade dos PSMs produzidos pelo algoritmo threshold selector impactam de forma positiva a fase de inferência de proteínas, realizada por programas que levam em conta estas probabilidades, tais como o ProteinProphet. Os experimentos demonstraram que o MUMAL2 fornece um maior número de verdadeiros positivos em comparação com métodos convencionais para avaliação de PSMs. Esta nova abordagem atingiu cerca de 15% de melhoria na sensibilidade em comparação com o melhor método atual. Além disso, a área sob a curva ROC obtida foi de 0,93, o que demonstra que as probabi- lidades geradas pelo MUMAL2 são, de fato, apropriadas. Finalmente, diagramas de Venn comparando o MUMAL2 com o melhor método atual mostram que o número de peptídeos exclusivos encontrado pelo MUMAL2 foi quase quatro vezes superior, o que impacta diretamente a cobertura do proteoma. Conclusões: A inclusão de uma matriz de custos e do algoritmo threshold selector na tarefa de aprendizagem melhora, ainda mais, a análise pela estratégia banco de dados target-decoy para identificação dos peptídeos, e contribui de forma eficaz para a difícil tarefa de identificação no nível de proteínas, resultando em uma poderosa ferramenta computacional para a proteômica shotgun. / Background: This work presents a machine learning strategy to increase sensitivity in mass spectrometry data analysis for peptide/protein identification. Tandem mass spectrometry is a widely used analytical chemistry technique used to identify proteins in complex mixtures, yielding thousands of spectra in a single run which are then inter- preted by software. Most of these computer programs use a protein database to match peptide sequences to the observed spectra. The peptide-spectrum matches (PSMs) must also be assessed by computational tools since manual evaluation is not practica- ble. The target-decoy database strategy is largely used for PSM assessment. However, in general, the method does not account for sensitivity, only for error estimate. Re- sults: In a previous study, we proposed the method MUMAL that applies an artificial neural network to effectively generate a model to classify PSMs using decoy hits with increased sensitivity. Nevertheless, the present approach shows that the sensitivity can be further improved with the use of a cost matrix associated with the learning algo- rithm. We also demonstrate that using a threshold selector algorithm for probability adjustment leads to more coherent probability values assigned to the PSMs. Our new approach, termed MUMAL2, provides a two-fold contribution to shotgun proteomics. First, the increase in the number of correctly interpreted spectra in the peptide level augments the chance of identifying more proteins. Second, the more appropriate PSM probability values that are produced by the threshold selector algorithm impact the protein inference stage performed by programs that take probabilities into account, such as ProteinProphet. Our experiments demonstrated that MUMAL2 provides a higher number of true positives compared with standard methods for PSM evaluation. This new approach reached around 15% of improvement in sensitivity compared to the best current method. Furthermore, the area under the ROC curve obtained was 0.93, demonstrating that the probabilities generated by our model are in fact appro- priate. Finally, Venn diagrams comparing MUMAL2 with the best current method show that the number of exclusive peptides found by our method was nearly 4-fold higher, which directly impacts the proteome coverage. Conclusions: The inclusion of a cost matrix and a probability threshold selector algorithm to the learning task further improves the target-decoy database analysis for identifying peptides, which optimally contributes to the challenging task of protein level identification, resulting in a powerful computational tool for shotgun proteomics.

Identiferoai:union.ndltd.org:IBICT/oai:localhost:123456789/7275
Date07 December 2015
CreatorsRicardo, Adilson Mendes
ContributorsOliveira, Alcione P., Cerqueira, Fábio Ribeiro
PublisherUniversidade Federal de Viçosa
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFV, instname:Universidade Federal de Viçosa, instacron:UFV
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0165 seconds