191 |
Phylogénomique des ArchéesGrenier, Jean-Christophe 07 1900 (has links)
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple.
Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées. / Horizontal gene transfer (HGT) had been demonstrated to play an important role in the evolution of prokaryotes. Their impact on phylogeny was the subject of a heated debate, with some proposing that the concept of a species tree should be abandoned. The phylogeny of prokaryotes does contain a major part of the historical signal, because stable and functional horizontal transmissions appear to be by far rarer than vertical transmissions (tens versus billions). However, the cumulative effect of HGT is non-negligible and can potentially affect phylogenetic inference. Therefore, most researchers base their phylogenetic inference on a low number of rarely transferred genes such as ribosomal proteins, but they assume the selection of the model of evolution as less important, this despite the fact that it has been shown of prime importance for much less deep divergences, e.g. like animals.
Here, we used a combination of simulations and of real data from Archaea to study the relative impact of HGT and of the inference methods on the phylogenetic accuracy. Our simulations prove that (1) HGTs have a limited impact on phylogeny, assuming a realistic rate and (2) the supermatrix is much more accurate than the supertree approach. We also observed that more complex models of evolution not only have a better fit to the data, but can also have a direct impact on different phylogenetic groups and on the robustness of the tree. Our results are in contradiction to a recent publication proposing that the Thaumarchaeota are at the base of the Archaeal tree.
|
192 |
Amélioration de l'exactitude de l'inférence phylogénomiqueRoure, Béatrice 04 1900 (has links)
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif. / The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution.
|
193 |
Dynamic epigenetic changes in immune responses to infection in human dendritic cellsPacis, Alain 05 1900 (has links)
La méthylation de l'ADN est une marque épigénétique importante chez les mammifères. Malgré le fait que la méthylation de la cytosine en 5' (5mC) soit reconnue comme une modification épigénétique stable, il devient de plus en plus reconnu qu'elle soit un processus plus dynamique impliquant des voies de méthylation et de déméthylation actives. La dynamique de la méthylation de l'ADN est désormais bien caractérisée dans le développement et dans le fonctionnement cellulaire des mammifères. Très peu est cependant connu concernant les implications régulatrices dans les réponses immunitaires. Pour se faire, nous avons effectué des analyses du niveau de transcription des gènes ainsi que du profilage épigénétique de cellules dendritiques (DCs) humaines. Ceux-ci ont été faits avant et après infection par le pathogène Mycobacterium tuberculosis (MTB). Nos résultats fournissent le premier portrait génomique du remodelage épigénétique survenant dans les DCs en réponse à une infection bactérienne. Nous avons constaté que les changements dans la méthylation de l'ADN sont omniprésents, identifiant 3,926 régions différentiellement méthylées lors des infections par MTB (MTB-RDMs). Les MTB-RDMs montrent un chevauchement frappant avec les régions génomiques marquées par les histones associées avec des régions amplificatrices. De plus, nos analyses ont révélées que les MTB-RDMs sont activement liées par des facteurs de transcription associés à l'immunité avant même d'être infecté par MTB, suggérant ces domaines comme étant des éléments d'activation dans un état de dormance. Nos données suggèrent que les changements actifs dans la méthylation jouent un rôle essentiel pour contrôler la réponse cellulaire des DCs à l'infection bactérienne. / DNA methylation is an important epigenetic mark in mammals. Although methylation at the 5’ position of cytosine (5mC) is recognized as a stable epigenetic modification, it is becoming increasingly viewed as a more dynamic process that involves both active methylation and demethylation pathways. While the dynamics of DNA methylation has been well characterized in mammalian development and normal cellular function, little is known about its regulatory implications in immune responses. To that end, we performed comprehensive transcriptional and epigenetic profiling of primary dendritic cell (DC) samples from humans, before and after infection with Mycobacterium tuberculosis (MTB). Our results provide the first complete genomic portrait of the extensive epigenetic remodeling occurring in primary DCs in response to a bacterial infection. We found that active changes in DNA methylation are pervasive, identifying 3,926 MTB-induced differentially methylated regions (MTB-DMRs). MTB-DMRs show a striking overlap with genomic regions marked by histones associated with enhancer activity. ATAC-seq footprinting analysis revealed that regions that change methylation were actively bound by immune-related TFs prior to MTB-infection suggesting that these domains are likely to represent enhancer elements in a poised state. Our data suggests that active changes in DNA methylation play an essential and previously unappreciated role at controlling of the regulatory programs engaged by DCs in response to a bacterial infection.
|
194 |
Analyse transcriptomique et applications en développement préclinique des médicamentsEl-Hachem, Nehme 12 1900 (has links)
L’émergence des Mégadonnées (« Big Data ») en biologie moléculaire, surtout à travers la transcriptomique, a révolutionné la façon dont nous étudions diverses disciplines telles que le processus de développement du médicament ou la recherche sur le cancer. Ceci fut associé à un nouveau concept, la médecine de précision, dont le principal but est de comprendre les mécanismes moléculaires entraînant une meilleure réponse thérapeutique chez le patient.
Cette thèse est à mi-chemin entre les études pharmaco — et toxicogénomiques expérimentales, et les études cliniques et translationnelles. Le but de cette thèse est surtout de montrer le potentiel et les limites de ces jeux de données et leur pertinence pour la découverte de biomarqueurs de réponse ainsi que la compréhension des mécanismes d’action/toxicité de médicaments, en vue d’utiliser ces informations à des fins thérapeutiques. L’originalité de cette thèse réside dans son approche globale pour analyser les plus larges jeux de données pharmaco/toxicogénomiques publiés à ce jour et ceci pour : 1) Aborder la notion de biomarqueurs de réponse aux médicaments en pharmacogénomique du cancer, en étudiant les facteurs discordants entre deux grandes études publiées en 2012; 2) Comprendre le mécanisme d’action des médicaments et construire une taxonomie performante en utilisant une approche intégrative; et 3) Créer un répertoire toxicogénomique à partir des hépatocytes humains, exposés à différentes classes de médicaments et composés chimiques.
Mes contributions principales sont les suivantes :
• J’ai développé une approche bioinformatique pour étudier les facteurs discordants entre deux grandes études pharmacogénomiques et suggérées que les différences observées émergeaient plutôt de l’absence de standardisation des mesures pharmacologiques qui pourrait limiter la validation de biomarqueurs de réponse aux médicaments.
• J’ai implémenté une approche bioinformatique qui montre la supériorité de l’intégration tenant en compte des différents paramètres pour les médicaments (structure, cytotoxicité, perturbation du transcriptome) afin d’élucider leur mécanisme d’action (MoA).
• J’ai développé un pipeline bioinformatique pour étudier le niveau de conservation des mécanismes moléculaires entre les études toxicogénomiques in vivo et in vitro démontrant que les hépatocytes humains sont un modèle fiable pour détecter les produits toxiques hépatocarcinogènes.
Au total, nos études ont permis de fournir un cadre de travail original pour l’exploitation de différents types de données transcriptomiques pour comprendre l’impact des produits chimiques sur la biologie cellulaire. / The emergence of Big Data in molecular biology, especially through the study of
transcriptomics, has revolutionized the way we look at various disciplines, such as drug
development and cancer research. Big data analysis is an important part of the concept of
precision medicine, which primary purpose is to understand the molecular mechanisms
leading to better therapeutic response in patients.
This thesis is halfway between pharmaco-toxicogenomics experimental studies, and clinical
and translational studies. The aim of this thesis is mainly to show the potential and limitations
of these studies and their relevance, especially for the discovery of drug response biomarkers
and understanding the drug mechanisms (targets, toxicities). This thesis is an original work
since it proposes a global approach to analyzing the largest pharmaco-toxicogenomic datasets
available to date. The key aims were: 1) Addressing the challenge of reproducibility for
biomarker discovery in cancer pharmacogenomics, by comparing two large
pharmacogenomics studies published in 2012; 2) Understanding drugs mechanism of action
using an integrative approach to generate a superior drug-taxonomy; and 3) Evaluating the
conservation of toxicogenomic responses in primary hepatocytes vs. in vivo liver samples in
order to check the feasability of cell models in toxicology studies. My main contributions can be summarized as follow:
- I developed a bioinformatics pipeline to study the factors that trigger (in)consistency between
two major pharmacogenomic studies. I suggested that the observed differences emerged from
the non-standardization of pharmacological measurements, which could limit the validation of
drug response biomarker.
- I implemented a bioinformatics pipeline that demonstrated the superiority of the integrative
approach, since it takes into account different parameters for the drug (structure, cytotoxicity,
transcriptional perturbation) to elucidate the mechanism of action (MoA).
- I developed a bioinformatics pipeline to study the level of conservation of toxicity
mechanisms between the in vivo and in vitro system, showing that human hepatocytes is a
reliable model for hepatocarcinogens testing. Overall, our studies have provided a unique framework to leverage various types of
transcriptomic data in order to understand the impact of chemicals on cell biology.
|
195 |
MODELING HETEROTACHY IN PHYLOGENETICSZhou, Yan 04 1900 (has links)
Il a été démontré que l’hétérotachie, variation du taux de substitutions au cours du temps et entre les sites, est un phénomène fréquent au sein de données réelles. Échouer à modéliser l’hétérotachie peut potentiellement causer des artéfacts phylogénétiques. Actuellement, plusieurs modèles traitent l’hétérotachie : le modèle à mélange des longueurs de branche (MLB) ainsi que diverses formes du modèle covarion. Dans ce projet, notre but est de trouver un modèle qui prenne efficacement en compte les signaux hétérotaches présents dans les données, et ainsi améliorer l’inférence phylogénétique.
Pour parvenir à nos fins, deux études ont été réalisées. Dans la première, nous comparons le modèle MLB avec le modèle covarion et le modèle homogène grâce aux test AIC et BIC, ainsi que par validation croisée. A partir de nos résultats, nous pouvons conclure que le modèle MLB n’est pas nécessaire pour les sites dont les longueurs de branche diffèrent sur l’ensemble de l’arbre, car, dans les données réelles, le signaux hétérotaches qui interfèrent avec l’inférence phylogénétique sont généralement concentrés dans une zone limitée de l’arbre. Dans la seconde étude, nous relaxons l’hypothèse que le modèle covarion est homogène entre les sites, et développons un modèle à mélanges basé sur un processus de Dirichlet. Afin d’évaluer différents modèles hétérogènes, nous définissons plusieurs tests de non-conformité par échantillonnage postérieur prédictif pour étudier divers aspects de l’évolution moléculaire à partir de cartographies stochastiques. Ces tests montrent que le modèle à mélanges covarion utilisé avec une loi gamma est capable de refléter adéquatement les variations de substitutions tant à l’intérieur d’un site qu’entre les sites.
Notre recherche permet de décrire de façon détaillée l’hétérotachie dans des données réelles et donne des pistes à suivre pour de futurs modèles hétérotaches. Les tests de non conformité par échantillonnage postérieur prédictif fournissent des outils de diagnostic pour évaluer les modèles en détails. De plus, nos deux études révèlent la non spécificité des modèles hétérogènes et, en conséquence, la présence d’interactions entre différents modèles hétérogènes. Nos études suggèrent fortement que les données contiennent différents caractères hétérogènes qui devraient être pris en compte simultanément dans les analyses phylogénétiques. / Heterotachy, substitution rate variation across sites and time, has shown to be a frequent phenomenon in the real data. Failure to model heterotachy could potentially cause phylogenetic artefacts. Currently, there are several models to handle heterotachy, the mixture branch length model (MBL) and several variant forms of the covarion model. In this project, our objective is to find a model that efficiently handles heterotachous signals in the data, and thereby improves phylogenetic inference.
In order to achieve our goal, two individual studies were conducted. In the first study, we make comparisons among the MBL, covarion and homotachous models using AIC, BIC and cross validation. Based on our results, we conclude that the MBL model, in which sites have different branch lengths along the entire tree, is an over-parameterized model. Real data indicate that the heterotachous signals which interfere with phylogenetic inference are generally limited to a small area of the tree. In the second study, we relax the assumption of the homogeneity of the covarion parameters over sites, and develop a mixture covarion model using a Dirichlet process. In order to evaluate different heterogeneous models, we design several posterior predictive discrepancy tests to study different aspects of molecular evolution using stochastic mappings. The posterior predictive discrepancy tests demonstrate that the covarion mixture +Γ model is able to adequately model the substitution variation within and among sites.
Our research permits a detailed view of heterotachy in real datasets and gives directions for future heterotachous models. The posterior predictive discrepancy tests provide diagnostic tools to assess models in detail. Furthermore, both of our studies reveal the non-specificity of heterogeneous models. Our studies strongly suggest that different heterogeneous features in the data should be handled simultaneously.
|
196 |
Approches algorithmiques pour l’inférence d’histoires de duplication en tandem avec inversions et délétions pour des familles multigéniquesLajoie, Mathieu 08 1900 (has links)
[Français] Une fraction importante des génomes eucaryotes est constituée de Gènes Répétés en Tandem (GRT). Un mécanisme fondamental dans l’évolution des GRT est la recombinaison inégale durant la méiose, entrainant la duplication locale (en tandem) de segments chromosomiques contenant un ou plusieurs gènes adjacents.
Différents algorithmes ont été proposés pour inférer une histoire de duplication en
tandem pour un cluster de GRT. Cependant, leur utilisation est limitée dans la pratique, car ils ne tiennent pas compte d’autres événements évolutifs pourtant fréquents, comme les inversions, les duplications inversées et les délétions.
Cette thèse propose différentes approches algorithmiques permettant d’intégrer ces
événements dans le modèle de duplication en tandem classique. Nos contributions sont
les suivantes:
• Intégrer les inversions dans un modèle de duplication en tandem simple (duplication
d’un gène à la fois) et proposer un algorithme exact permettant de calculer
le nombre minimal d’inversions s’étant produites dans l’évolution d’un cluster de
GRT.
• Généraliser ce modèle pour l’étude d’un ensemble de clusters orthologues dans
plusieurs espèces.
• Proposer un algorithme permettant d’inférer l’histoire évolutive d’un cluster de GRT en tenant compte des duplications en tandem, duplications inversées, inversions
et délétions de segments chromosomiques contenant un ou plusieurs gènes adjacents. / [English] Tandemly arrayed genes (TAGs) represent an important fraction of most genomes. A fundamental mechanism at the origin of TAG clusters is unequal crossing-over during meiosis, leading to the duplication of chromosomal segments containing one or many adjacent genes. Such duplications are called tandem duplications, as the duplicated segment is placed next to the original one on the chromosome.
Different algorithms have been proposed to infer the tandem duplication history of
a TAG cluster. However, their applicability is limited in practice since they do not take
into account other frequent evolutionary events such as inversion, inverted duplication and deletion.
In this thesis, we propose different algorithmic approaches allowing to integrate these evolutionary events in the original tandem duplication model of evolution. Our contributions are summarized as follows:
• We integrate inversion events in a tandem duplication model restricted to single
gene duplications, and we propose an exact algorithm allowing to compute the minimum number of inversions explaining the evolution of a TAG cluster.
• We generalize this model to the study of orthologous TAG clusters in different species.
• We propose an algorithm allowing to infer the evolutionary history of a TAG cluster
through tandem duplication, inverted duplication, inversion and deletion of
chromosomal segments containing one or many adjacent genes.
|
197 |
Statistical potentials for evolutionary studiesKleinman, Claudia L. 06 1900 (has links)
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée
en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique. / Protein sequences are the net result of the interplay of mutation, natural selection and stochastic variation. Probabilistic models of molecular evolution accounting for these processes have been substantially improved over the last years. In particular, models that explicitly incorporate protein structure and site interdependencies have recently been developed, as well as statistical tools for assessing their performance. Despite major advances in this direction, only simple representations of protein structure have been used so far. In this context, the main theme of this dissertation has been the modeling of three-dimensional protein structure for evolutionary studies, taking into account the limitations imposed by computationally demanding phylogenetic methods. First, a general statistical framework for optimizing the parameters of a statistical potential (an energy-like scoring system for sequence-structure compatibility) is presented. The functional form of the potential is then refined, increasing the detail of structural description without inflating computational costs. Always at the residue-level, several structural elements are investigated: pairwise distance interactions, solvent accessibility, backbone conformation and flexibility of the residues. The potentials are then included into an evolutionary model and their performance is assessed in terms of model fit, compared to standard evolutionary models. Finally, this new structurally constrained phylogenetic model is used to better understand the selective forces behind the differences in conservation found in genes of very different expression levels.
|
198 |
Identification des peptides du complexe majeur d’histocompatibilité de classe I par spectrométrie de masseBramoullé, Alexandre 12 1900 (has links)
L’immunité adaptive et la discrimination entre le soi et le non-soi chez les vertébrés à mâchoire reposent sur la présentation de peptides par les récepteurs d’histocompatibilité majeur de classe I. Les peptides antigéniques, présentés par les molécules du complexe d’histocompatibilité (CMH), sont scrutés par les lymphocytes T CD8 pour une réponse immunitaire appropriée. Le répertoire des peptides du CMH de classe I, aussi appelé immunopeptidome, est généré par la dégradation protéosomale des protéines endogènes, et a un rôle essentiel dans la régulation de l’immunité cellulaire. La composition de l’immunopeptidome dépend du type de cellule et peut présenter des caractéristiques liées à des maladies comme le cancer. Les peptides antigéniques peuvent être utilisés à des fins immunothérapeutiques notamment dans le traitement voire la prévention de certains cancers. La spectrométrie de masse est un outil de choix pour l’identification, le séquençage et la caractérisation de ces peptides. Cependant, la composition en acides aminés, la faible abondance et la diversité de ces peptides compliquent leur détection et leur séquençage. Nous avons développé un programme appelé StatPeaks qui permet de calculer un certains nombres de statistiques relatives à la fragmentation des peptides. À l’aide de ce programme, nous montrons sans équivoque que les peptides du CMH classe I, en mode de fragmentation par dissociation induite par collision (CID), fragmentent très différemment des peptides trypsiques communément utilisés en protéomique. Néanmoins, la fragmentation par décomposition induite par collision à plus haute énergie (HCD) proposée par le spectromètre LTQ-Orbitrap Velos améliore la fragmentation et fournit une haute résolution qui permet d’obtenir une meilleure confiance dans l’identification des peptides du CMH de classe I. Cet avantage permet d’effectuer le séquençage de novo pour identifier les variants polymorphes qui ne sont normalement pas identifiés par les recherches utilisant des bases de données. La comparaison des programmes de séquençage Lutefisk, pepNovo, pNovo, Vonode et Peaks met en évidence que le dernier permet d’identifier un plus grand nombre de peptides du CMH de classe I. Ce programme est intégré dans une chaîne de traitement de recherche d’antigènes mineurs d’histocompatibilité. Enfin, une base de données contenant les informations spectrales de plusieurs centaines de peptides du CMH de classe I accessible par Internet a été développée. / Adaptive immunity and discrimination between self and nonself in jawed vertebrates relies on the presentation of peptides by the major histocompatibility (MHC) class I receptors. Foreign or self peptide antigens presented by the MHC molecules are probed by CD8 T-cell lymphocyte for proper immune response. The repertoire of MHC I peptides collectively referred to as the immunopeptidome is generated through the proteasomal degradation of endogenous proteins and plays an important role in the regulation of cellular immunity. The composition of the immunopeptidome is cell specific and can harbor important hallmark of human diseases including cancer. Antigenic peptides can also be used in immunotherapy to mount an appropriate immune response against cancer cells displaying these peptides. Mass spectrometry is a tool of choice for the identification, sequencing and characterization of these peptides. However, the amino acid composition, the low abundance and diversity of these peptides make their detection and sequencing more challenging. We developed a software, called StatPeaks, that calculates statistics relative to the fragmentation of peptides. Using this software, we demonstrate that under collision induced dissociation (CID) MHC class I peptides fragment in a very different fashion than tryptic peptides, commonly used in proteomics. However, the higher-energy collisional dissociation (HCD) mode available on the LTQ-Orbitrap Velos enhances peptide fragmentation and provides high resolution fragment information that significantly improves the confidence in MHC class I peptide identification. This inherent advantage confers the ability to perform de novo sequencing to identify polymorphic variants that would normally elude conventional database searches. The comparison of de novo peptide sequencing software Lutefisk, pepNovo, pNovo, Vonode and Peaks indicated that the later software enabled higher rates of correct identification for MHC class I peptides. This software was integrated into a data analysis pipeline for the identification minor histocompatibility antigens (MiHAs). A web-based library that stores spectral information of hundreds of synthetic MHC class I peptides was developed in support to the needs of the immunopeptidome discovery program.
|
199 |
Identification de nouveaux substrats des kinases Erk1/2 par une approche bio-informatique, pharmacologique et phosphoprotéomiqueCourcelles, Mathieu 12 1900 (has links)
La phosphorylation est une modification post-traductionnelle omniprésente des protéines Cette modification est ajoutée et enlevée par l’activité enzymatique respective des protéines kinases et phosphatases. Les kinases Erk1/2 sont au cœur d’une voie de signalisation importante qui régule l’activité de protéines impliquées dans la traduction, le cycle cellulaire, le réarrangement du cytosquelette et la transcription. Ces kinases sont aussi impliquées dans le développement de l’organisme, le métabolisme du glucose, la réponse immunitaire et la mémoire. Différentes pathologies humaines comme le diabète, les maladies cardiovasculaires et principalement le cancer, sont associées à une perturbation de la phosphorylation sur les différents acteurs de cette voie. Considérant l’importance biologique et clinique de ces deux kinases, connaître l’étendue de leur activité enzymatique pourrait mener au développement de nouvelles thérapies pharmacologiques.
Dans ce contexte, l’objectif principal de cette thèse était de mesurer l’influence de cette voie sur le phosphoprotéome et de découvrir de nouveaux substrats des kinases Erk1/2. Une étude phosphoprotéomique de cinétique d’inhibition pharmacologique de la voie de signalisation Erk1/2 a alors été entreprise. Le succès de cette étude était basé sur trois technologies clés, soit l’enrichissement des phosphopeptides avec le dioxyde de titane, la spectrométrie de masse haut débit et haute résolution, et le développement d’une plateforme bio-informatique nommée ProteoConnections. Cette plateforme permet d’organiser les données de protéomique, évaluer leur qualité, indiquer les changements d’abondance et accélérer l’interprétation des données. Une fonctionnalité distinctive de ProteoConnections est l’annotation des sites phosphorylés identifiés (kinases, domaines, structures, conservation, interactions protéiques phospho-dépendantes). Ces informations ont été essentielles à l’analyse des 9615 sites phosphorylés sur les 2108 protéines identifiées dans cette étude, soit le plus large ensemble rapporté chez le rat jusqu’à ce jour. L’analyse des domaines protéiques a révélé que les domaines impliqués dans les interactions avec les protéines, les acides nucléiques et les autres molécules sont les plus fréquemment phosphorylés et que les sites sont stratégiquement localisés pour affecter les interactions.
Un algorithme a été implémenté pour trouver les substrats potentiels des kinases Erk1/2 à partir des sites identifiés selon leur motif de phosphorylation, leur cinétique de stimulation au sérum et l’inhibition pharmacologique de Mek1/2. Une liste de 157 substrats potentiels des kinases Erk1/2 a ainsi été obtenue. Parmi les substrats identifiés, douze ont déjà été rapportés et plusieurs autres ont des fonctions associées aux substrats déjà connus. Six substrats (Ddx47, Hmg20a, Junb, Map2k2, Numa1, Rras2) ont été confirmés par un essai kinase in vitro avec Erk1. Nos expériences d’immunofluorescence ont démontré que la phosphorylation de Hmg20a sur la sérine 105 par Erk1/2 affecte la localisation nucléocytoplasmique de cette protéine.
Finalement, les phosphopeptides isomériques positionnels, soit des peptides avec la même séquence d’acides aminés mais phosphorylés à différentes positions, ont été étudiés avec deux nouveaux algorithmes. Cette étude a permis de déterminer leur fréquence dans un extrait enrichi en phosphopeptides et d’évaluer leur séparation par chromatographie liquide en phase inverse. Une stratégie analytique employant un des algorithmes a été développée pour réaliser une analyse de spectrométrie de masse ciblée afin de découvrir les isomères ayant été manqués par la méthode d’analyse conventionnelle. / Phosphorylation is an omnipresent post-translational modification of proteins that regulates numerous cellular processes. This modification is controlled by the enzymatic activity of protein kinases and phosphatases. Erk1/2 kinases are central to an important signaling pathway that modulates translation, cell cycle, cytoskeleton rearrangement and transcription. They are also implicated in organism development, glucose metabolism, immune response and memory. Different human pathologies such as diabetes, cardiovascular diseases, and most importantly cancer, are associated with misregulation or mutations in members of this pathway. Considering the biological and clinical importance of those two kinases, discovering the extent of their enzymatic activity could favor the development of new pharmacological therapies.
In this context, the principal objective of this thesis was to measure the influence of this pathway on the phosphoproteome and to discover new substrates of the Erk1/2 kinases. A phosphoproteomics study on the pharmacological inhibition kinetics of the Erk1/2 signaling pathway was initiated. The success of this study was based on three key technologies such as phosphopeptides enrichment with titanium dioxide, high-throughput and high-resolution mass spectrometry, and the development of ProteoConnections, a bioinformatics analysis platform. This platform is dedicated to organize proteomics data, evaluate data quality, report changes of abundance and accelerate data interpretation. A distinctive functionality of ProteoConnections is the annotation of phosphorylated sites (kinases, domains, structures, conservation, phospho-dependant protein interactions, etc.). This information was essential for the dataset analysis of 9615 phosphorylated sites identified on 2108 proteins during the study, which is, until now, the largest one reported for rat. Protein domain analysis revealed that domains implicated in proteins, nucleic acids and other molecules binding were the most frequently phosphorylated and that these sites are strategically located to affect the interactions.
An algorithm was implemented to find Erk1/2 kinases potential substrates of identified sites using their phosphorylation motif, serum stimulation and Mek1/2 inhibition kinetic profile. A list of 157 potential Erk1/2 substrates was obtained. Twelve of them were previously reported and many more have functions associated to known substrates. Six substrates (Ddx47, Hmg20a, Junb, Map2k2, Numa1, and Rras2) were confirmed by in vitro kinase assays with Erk1. Our immunofluorescence experiments demonstrated that the phosphorylation of Hmg20a on serine 105 by Erk1/2 affects the nucleocytoplasmic localization of this protein.
Finally, phosphopeptides positional isomers, peptides with the same amino acids sequence but phosphorylated at different positions, were studied with two new algorithms. This study allowed us to determine their frequency in an enriched phosphopeptide extract and to evaluate their separation by reverse-phase liquid chromatography. An analytical strategy that uses one of the algorithms was developed to do a targeted mass spectrometry analysis to discover the isomers that had been missed by the conventional method.
|
200 |
Structural aspects of the ribosome evolution and functionBokov, Konstantin 04 1900 (has links)
Les résultats ont été obtenus avec le logiciel "Insight-2" de Accelris (San Diego, CA) / En 2000, les structures à hautes résolutions des deux sous-unités ribosomiques ont finalement été mises à la disposition du public. L'année suivante, la structure aux rayons X de l'ensemble du ribosome bactérien a été publiée. Ces grandes réalisations ont ouvert une nouvelle ère dans l'étude des mécanismes de la synthèse des protéines. Dès lors, il est devenu possible de relier différents aspects de la fonction du ribosome à des éléments particuliers de sa structure tertiaire. L'établissement de la relation structure-fonction peut toutefois être problématique en raison de l'immense complexité de la structure du ribosome. En d'autres termes, pour que les données cristallographiques sur la structure tertiaire du ribosome soient vraiment utiles à la compréhension du fonctionnement du ribosome, ces données devraient elles-mêmes faire l'objet d'une analyse approfondie. Le travail, présenté ici, peut être vu comme une tentative de ce genre. En appliquant l’analyse systématique des structure cristallographiques du ribosome disponibles, nous avons essayé de résoudre deux problèmes fondamentaux de la biologie ribosomale concernant (1) la nature des réarrangements du ribosome qui ont lieu à différentes étapes de son cycle de fonctionnement et (2) la possibilité de reconstitution de l'évolution du ribosome du monde-à-ARN jusqu’à nos jours.
Dans le premier projet, nous avons systématiquement comparé les structures du ribosome disponibles et de sa sous-unité afin d'identifier les domaines rigides, qui ont toujours la même conformation, et les régions flexibles dont la conformation peut varier d'une structure de ribosome à une autre. Il y a deux types de réarrangements structuraux connus dont nous voulions comprendre les mécanismes: le « ratchet-like movement » et la «fermeture de domaines ». Le premier a lieu au cours de la translocation du ribosome et est plus ou moins perçu comme une rotation d'une sous-unité par rapport à l'autre. Le deuxième se produit dans la petite sous-unité et est associé à la reconnaissance codon-anticodon au site A.
La comparaison des conformations ribosomales disponibles a révélé les mécanismes spécifiques des deux réarrangements. Bien que la sélection de l'aminoacyl-ARNt appropriée au site A et la translocation du ribosome n'ont jamais été considérés comme ayant quelque chose en commun, nous démontrons ici que les réarrangements de la structure des ribosomes associés au premier processus répète les réarrangements associés au deuxième mais dans l’ordre inverse. En d'autres termes, pendant le cycle d'élongation, la fermeture de domaine et le « ratchet » peuvent
ii être considérés comme un mouvement de va-et-vient, qui renvoie finalement le ribosome à sa conformation initiale.
Dans le second projet, nous avons fait une tentative de reconstitution de l'évolution de l'ARNr 23S, du monde-à-ARN jusqu`à nos jours. Ici nous nous sommes basés sur la supposition que l'évolution de cette molécule a procédé par des insertions aléatoires des régions relativement courtes dans différentes parties de la chaîne poly-nucléotidique. Pour cela, nous avons élaboré des critères de l'intégrité de la structure ribosomale et présumé que lors de l'évolution, la structure du ribosome s’est toujours adaptée à ces standards. Nous avons examiné l'interaction de type A-mineur, un arrangement fréquent dans la structure de l’ARN ribosomique, constitué d'un empilement d’adénosines non-appariées, attachées à une double hélice. Nous avons supposé que dans toutes les interactions A-mineurs existantes dans le ribosome, la double hélice est apparue avant ou au moins simultanément avec la pile d’adénosines correspondantes. L'application systématique de ce principe à la structure tertiaire de l’ARN 23S a permis d'élucider de manière progressive l'ordre dans lequel les parties différentes de l’ARN 23S ont rejoint la structure.
Pris ensemble, les deux projets démontrent l'efficacité de l'analyse systématique in-silico de la structure tertiaire du ribosome et ouvrent la voie à de futures découvertes. / In the year 2000, the first high-resolution structures of the individual ribosomal subunits became available to the public. The following year, the X-ray structure of the complete bacterial ribosome was published. These major achievements opened a new era in studying the mechanisms of protein synthesis. From then on, it became possible to attribute different aspects of the ribosome function to particular elements of its tertiary structure. However, establishing the structure-function relationships is problematic due to the immense complexity of the ribosome structure. In other words, in order to make the crystallographic data on the ribosome tertiary structure really useful for understanding of how the ribosome functions, it must be thoroughly analyzed. Here, based on systematic analysis of the available X-ray conformations of the ribosome we have tried to resolve two fundamental problems of the ribosome biology: concerning (1) the nature of rearrangements in the ribosome that take place at different steps of its functional cycle, and (2) the reconstruction of the ribosome evolution from the RNA world to present time.
In the first project, we systematically compared the available structures of the ribosome and its subunits to identify rigid domains, which always have the same conformation, and flexible regions, where the conformation can vary from one ribosome structure to another. There were two known types of structural rearrangements whose mechanisms we wanted to understand: the ratchet-like motion and the so-called domain closure. The ratchet-like motion takes place during the ribosomal translocation and is roughly seen as a rotation of one subunit with respect to the other. The domain closure occurs in the small subunit and is associated with the cognate codon-anticodon recognition in the A-site.
Comparison of the available ribosome conformations revealed the detailed mechanisms of both rearrangements. Although the selection of the cognate amino-acyl-tRNA in the A-site and of the ribosomal translocation have never been thought to have anything in common, we demonstrate that the rearrangements in the ribosome structure associated with the first process repeat in reverse order the rearrangements associated with the second process. In other words, during the ribosome elongation cycle, the domain closure and the ratchet-like motion can be seen as a back-and-forth movement, which eventually returns the ribosome to the initial conformation.
iv
In the second project, we attempted to reconstruct the evolution of the 23S rRNA from the RNA world to present time based on the presumption that the evolutionary expansion of this molecule proceeded though random insertions of relatively short regions into different regions of the polynucleotide chain. We developed criteria for integrity of the ribosome structure and presumed that during the evolutionary expansion, the ribosome structure always matched to these standards. For this, we specifically considered the A-minor interaction, a frequent arrangement in the rRNA structure consisting of a stack of unpaired adenosines tightly attached to a double helix. We presumed that in all A-minor interactions present in the ribosome, the double helix emerged before or at least simultaneously with the corresponding adenosine stack. The systematic application of this principle to the known tertiary structure of the 23S rRNA allowed us to elucidate in a step-vise manner the order in which different part of the modern 23S rRNA joined the structure.
Taken together, the two projects demonstrate the effectiveness of the systematic in-silico analysis of the ribosome tertiary structure and pave the way for future discoveries.
|
Page generated in 0.0284 seconds