Return to search

Deep learning algorithms for database-driven peptide search

Modern proteomics – the large-scale analysis of proteins (Graves and Haystead, 2002) – relies heavily on the analysis of complex raw experimental, time series-like data. In a typical shotgun mass spectrometry workflow where the goal is to identify proteins in solution, a complex protein mixture is prepared, digested, fractionated for example by mass range, ionized and injected into a mass spectrometer, resulting in a so-called mass spectrum which, in tandem mass spectrometry, achieves obtain amino acid-resolution signals for the detected peptides. The spectrum must be cleaned up to become suitable for further analysis, then the peaks defined by the m/z to intensity values in the spectrum can be matched to some expected peak sequence from a set of candidate peptides (which are often simply in silico digests from the source specie’s proteome), which is the process of peptide identification proper. In this work, we select and solve some current limitations in the computational side of peptide identification research. We first introduce a new, research-oriented search engine. A major question at the boundary of current proteomics research is the integration and viability of new deep learning-driven algorithms for identification. Very little work has been done on this topic so far, with Prosit (Gessulat et al., 2019) being the only such software to see integration in an existing search engine, as far as we are aware (although rescoring algorithms like Percolator (Käll et al., 2007), which typically use more classical machine learning algorithms, have been in routine use for a while by now, they are merely applied as a postprocessing step and not integrated in the engine per se). To investigate this, we develop and present a new deep learning algorithm that performs peptide length prediction from a spectrum (a first, as far as we are aware). We compute metrics based on this prediction that we use during rescoring, and demonstrate consistently improved peptide identifications. Moreover, we propose a new full spectrum prediction algorithm (in line with PredFull (Liu et al., 2020) rather than Prosit) and a novel, random forest-based rescoring algorithm and paradigm, which we integrate within our search engine. Altogether, the deep learning tools we propose show an increase of over 20% in peptide identification rates at a 1% false discovery rate (FDR) threshold. These results provide strong evidence that deep learning-based tools proposed for proteomics can greatly improve peptide identifications. / La protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead,
2002) - dépend fortement de l’analyse de données expérimentales de série chronologique
complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif
est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré,
fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans
un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le
mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des
acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une
analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité
dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon
la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par
digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des
peptides proprement dit.
Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques
au côté informatique de la recherche sur l’identification des peptides. Nous introduisons
d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à
la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes
basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été
effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de
ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos
connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) ,
qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont
habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués
comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème,
nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue
la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme
de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme
résultant pour démontrer des identifications de peptides constamment améliorées après intégration
dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de
5
spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un
nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons
encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur
que nous proposons démontrent une amélioration de plus de 20% des taux d’identification
de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent
pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique
peuvent en effet largement améliorer les identifications.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/33618
Date09 1900
CreatorsZumer, Jeremie
ContributorsLemieux, Sébastien
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0032 seconds