Return to search

Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe / Novel interpretation method of tandem mass spectrometry data for microorganisms identification in a complex sample

Identifier rapidement le contenu microbien d’un échantillon biologique complexe constitue un enjeu majeur en biodéfense et dans les domaines concernant la santé humaine, les biotechnologies et l’environnement. La spectrométrie de masse en tandem (MS/MS) permet de sonder le contenu protéique d’un échantillon avec précision. Ce travail de thèse porte sur le développement d’un nouveau concept d’interprétation des données de spectrométrie de masse MS/MS à des fins d’identification sans a priori du contenu microbien d’un échantillon à l’aide de bases de données protéiques généralistes. L’approche d’identification se base (i) sur la base de données actuelle la plus exhaustive, et (ii) sur un algorithme d’interprétation de spectres MS/MS. Une architecture informatique a été développée afin de regrouper les résultats MS/MS selon la taxonomie des organismes vivants tout en veillant à minimiser le temps de traitement nécessaire et à maximiser le taux d’attribution de spectres MS/MS. Une stratégie d’identification récursive à travers l’arbre taxonomique basée sur le nombre de spectres spécifiques associés à chaque taxon est possible, mais ne permet pas d’identifier avec confiance le contenu d’un échantillon multi-organismes séquencés. Le concept innovant développé a permis d’établir une corrélation entre le nombre de spectres attribués à un taxon et la distance phylogénétique de ce taxon au taxon de l’organisme présent dans le cas d’un échantillon mono-organisme séquencé. Cette corrélation permet de modéliser et de déterminer la présence de tout organisme séquencé dans un échantillon multi-organismes. Un outil automatique d’estimation de distances phylogénétiques entre taxons a donc été mis au point, basé sur l’ajout de nouveaux organismes à un alignement multiple de séquences de référence composé de 31 familles de protéines universelles pour des organismes des 3 domaines du vivants (bactéries, archées, eucaryotes). Enfin, deux algorithmes d’identification du contenu d’un échantillon multi-organismes séquencés ont été évalués : un algorithme glouton naïf basé sur une heuristique et un algorithme résolvant un problème d’optimisation non-convexe de manière itérative utilisant un terme de régularisation pondéré de norme ℓ1. / The rapid identification of the microbial content of a complex biological sample is a major issue in biodefense and in areas related to human health, biotechnology and the environment. Tandem mass spectrometry (MS/MS) enables accurate profiling of the protein content of a sample. This thesis focuses on the development of a new concept in MS/MS data interpretation to identify the microbial content of a sample using general protein databases without prior knowledge of the target. The identification approach is based on (i) the most extensive protein database currently available and (ii) an MS/MS spectra interpretation algorithm. A dedicated computer architecture has been developed to combine the MS/MS results according to the taxonomy of living organisms while minimizing the required processing time and maximizing the MS/MS spectra assignment rate. A recursive identification strategy across the taxonomic tree based on the number of specific spectra associated with each taxon is possible but does not confidently identify the contents of a sample containing multiple sequenced organisms. The innovative concept developed here enables the correlation of the number of spectra assigned to a given taxon and the phylogenetic distances between this taxon and the taxon of the organism present in the case of a sample containing a single sequenced organism. This correlation allows us to model and determine the presence of any sequenced organism in a sample containing multiple organisms. An automatic tool for estimating phylogenetic distances between taxa has been developed. This tool is based on the addition of new organisms to a multiple sequence alignment comprising 31 families of universal proteins from organisms from all 3 domains of life (Bacteria, Archaea, Eukarya). Finally, two algorithms for identifying multiple organisms from a single sample have been assessed : a naive greedy algorithm based on a heuristic and an iterative algorithm that solves a non-convex optimization problem using a weighted ℓ1 norm regularization term.

Identiferoai:union.ndltd.org:theses.fr/2014ISAM0010
Date08 July 2014
CreatorsAllain, François
ContributorsRouen, INSA, Armengaud, Jean, Canu, Stéphane
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0021 seconds