Spelling suggestions: "subject:"biology - bioinformatics"" "subject:"biology - ioinformatics""
351 |
Identification des peptides du complexe majeur d’histocompatibilité de classe I par spectrométrie de masseBramoullé, Alexandre 12 1900 (has links)
L’immunité adaptive et la discrimination entre le soi et le non-soi chez les vertébrés à mâchoire reposent sur la présentation de peptides par les récepteurs d’histocompatibilité majeur de classe I. Les peptides antigéniques, présentés par les molécules du complexe d’histocompatibilité (CMH), sont scrutés par les lymphocytes T CD8 pour une réponse immunitaire appropriée. Le répertoire des peptides du CMH de classe I, aussi appelé immunopeptidome, est généré par la dégradation protéosomale des protéines endogènes, et a un rôle essentiel dans la régulation de l’immunité cellulaire. La composition de l’immunopeptidome dépend du type de cellule et peut présenter des caractéristiques liées à des maladies comme le cancer. Les peptides antigéniques peuvent être utilisés à des fins immunothérapeutiques notamment dans le traitement voire la prévention de certains cancers. La spectrométrie de masse est un outil de choix pour l’identification, le séquençage et la caractérisation de ces peptides. Cependant, la composition en acides aminés, la faible abondance et la diversité de ces peptides compliquent leur détection et leur séquençage. Nous avons développé un programme appelé StatPeaks qui permet de calculer un certains nombres de statistiques relatives à la fragmentation des peptides. À l’aide de ce programme, nous montrons sans équivoque que les peptides du CMH classe I, en mode de fragmentation par dissociation induite par collision (CID), fragmentent très différemment des peptides trypsiques communément utilisés en protéomique. Néanmoins, la fragmentation par décomposition induite par collision à plus haute énergie (HCD) proposée par le spectromètre LTQ-Orbitrap Velos améliore la fragmentation et fournit une haute résolution qui permet d’obtenir une meilleure confiance dans l’identification des peptides du CMH de classe I. Cet avantage permet d’effectuer le séquençage de novo pour identifier les variants polymorphes qui ne sont normalement pas identifiés par les recherches utilisant des bases de données. La comparaison des programmes de séquençage Lutefisk, pepNovo, pNovo, Vonode et Peaks met en évidence que le dernier permet d’identifier un plus grand nombre de peptides du CMH de classe I. Ce programme est intégré dans une chaîne de traitement de recherche d’antigènes mineurs d’histocompatibilité. Enfin, une base de données contenant les informations spectrales de plusieurs centaines de peptides du CMH de classe I accessible par Internet a été développée. / Adaptive immunity and discrimination between self and nonself in jawed vertebrates relies on the presentation of peptides by the major histocompatibility (MHC) class I receptors. Foreign or self peptide antigens presented by the MHC molecules are probed by CD8 T-cell lymphocyte for proper immune response. The repertoire of MHC I peptides collectively referred to as the immunopeptidome is generated through the proteasomal degradation of endogenous proteins and plays an important role in the regulation of cellular immunity. The composition of the immunopeptidome is cell specific and can harbor important hallmark of human diseases including cancer. Antigenic peptides can also be used in immunotherapy to mount an appropriate immune response against cancer cells displaying these peptides. Mass spectrometry is a tool of choice for the identification, sequencing and characterization of these peptides. However, the amino acid composition, the low abundance and diversity of these peptides make their detection and sequencing more challenging. We developed a software, called StatPeaks, that calculates statistics relative to the fragmentation of peptides. Using this software, we demonstrate that under collision induced dissociation (CID) MHC class I peptides fragment in a very different fashion than tryptic peptides, commonly used in proteomics. However, the higher-energy collisional dissociation (HCD) mode available on the LTQ-Orbitrap Velos enhances peptide fragmentation and provides high resolution fragment information that significantly improves the confidence in MHC class I peptide identification. This inherent advantage confers the ability to perform de novo sequencing to identify polymorphic variants that would normally elude conventional database searches. The comparison of de novo peptide sequencing software Lutefisk, pepNovo, pNovo, Vonode and Peaks indicated that the later software enabled higher rates of correct identification for MHC class I peptides. This software was integrated into a data analysis pipeline for the identification minor histocompatibility antigens (MiHAs). A web-based library that stores spectral information of hundreds of synthetic MHC class I peptides was developed in support to the needs of the immunopeptidome discovery program.
|
352 |
Amélioration de l'exactitude de l'inférence phylogénomiqueRoure, Béatrice 04 1900 (has links)
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif. / The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution.
|
353 |
Phylogénomique des ArchéesGrenier, Jean-Christophe 07 1900 (has links)
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple.
Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées. / Horizontal gene transfer (HGT) had been demonstrated to play an important role in the evolution of prokaryotes. Their impact on phylogeny was the subject of a heated debate, with some proposing that the concept of a species tree should be abandoned. The phylogeny of prokaryotes does contain a major part of the historical signal, because stable and functional horizontal transmissions appear to be by far rarer than vertical transmissions (tens versus billions). However, the cumulative effect of HGT is non-negligible and can potentially affect phylogenetic inference. Therefore, most researchers base their phylogenetic inference on a low number of rarely transferred genes such as ribosomal proteins, but they assume the selection of the model of evolution as less important, this despite the fact that it has been shown of prime importance for much less deep divergences, e.g. like animals.
Here, we used a combination of simulations and of real data from Archaea to study the relative impact of HGT and of the inference methods on the phylogenetic accuracy. Our simulations prove that (1) HGTs have a limited impact on phylogeny, assuming a realistic rate and (2) the supermatrix is much more accurate than the supertree approach. We also observed that more complex models of evolution not only have a better fit to the data, but can also have a direct impact on different phylogenetic groups and on the robustness of the tree. Our results are in contradiction to a recent publication proposing that the Thaumarchaeota are at the base of the Archaeal tree.
|
354 |
Identification de nouveaux substrats des kinases Erk1/2 par une approche bio-informatique, pharmacologique et phosphoprotéomiqueCourcelles, Mathieu 12 1900 (has links)
La phosphorylation est une modification post-traductionnelle omniprésente des protéines Cette modification est ajoutée et enlevée par l’activité enzymatique respective des protéines kinases et phosphatases. Les kinases Erk1/2 sont au cœur d’une voie de signalisation importante qui régule l’activité de protéines impliquées dans la traduction, le cycle cellulaire, le réarrangement du cytosquelette et la transcription. Ces kinases sont aussi impliquées dans le développement de l’organisme, le métabolisme du glucose, la réponse immunitaire et la mémoire. Différentes pathologies humaines comme le diabète, les maladies cardiovasculaires et principalement le cancer, sont associées à une perturbation de la phosphorylation sur les différents acteurs de cette voie. Considérant l’importance biologique et clinique de ces deux kinases, connaître l’étendue de leur activité enzymatique pourrait mener au développement de nouvelles thérapies pharmacologiques.
Dans ce contexte, l’objectif principal de cette thèse était de mesurer l’influence de cette voie sur le phosphoprotéome et de découvrir de nouveaux substrats des kinases Erk1/2. Une étude phosphoprotéomique de cinétique d’inhibition pharmacologique de la voie de signalisation Erk1/2 a alors été entreprise. Le succès de cette étude était basé sur trois technologies clés, soit l’enrichissement des phosphopeptides avec le dioxyde de titane, la spectrométrie de masse haut débit et haute résolution, et le développement d’une plateforme bio-informatique nommée ProteoConnections. Cette plateforme permet d’organiser les données de protéomique, évaluer leur qualité, indiquer les changements d’abondance et accélérer l’interprétation des données. Une fonctionnalité distinctive de ProteoConnections est l’annotation des sites phosphorylés identifiés (kinases, domaines, structures, conservation, interactions protéiques phospho-dépendantes). Ces informations ont été essentielles à l’analyse des 9615 sites phosphorylés sur les 2108 protéines identifiées dans cette étude, soit le plus large ensemble rapporté chez le rat jusqu’à ce jour. L’analyse des domaines protéiques a révélé que les domaines impliqués dans les interactions avec les protéines, les acides nucléiques et les autres molécules sont les plus fréquemment phosphorylés et que les sites sont stratégiquement localisés pour affecter les interactions.
Un algorithme a été implémenté pour trouver les substrats potentiels des kinases Erk1/2 à partir des sites identifiés selon leur motif de phosphorylation, leur cinétique de stimulation au sérum et l’inhibition pharmacologique de Mek1/2. Une liste de 157 substrats potentiels des kinases Erk1/2 a ainsi été obtenue. Parmi les substrats identifiés, douze ont déjà été rapportés et plusieurs autres ont des fonctions associées aux substrats déjà connus. Six substrats (Ddx47, Hmg20a, Junb, Map2k2, Numa1, Rras2) ont été confirmés par un essai kinase in vitro avec Erk1. Nos expériences d’immunofluorescence ont démontré que la phosphorylation de Hmg20a sur la sérine 105 par Erk1/2 affecte la localisation nucléocytoplasmique de cette protéine.
Finalement, les phosphopeptides isomériques positionnels, soit des peptides avec la même séquence d’acides aminés mais phosphorylés à différentes positions, ont été étudiés avec deux nouveaux algorithmes. Cette étude a permis de déterminer leur fréquence dans un extrait enrichi en phosphopeptides et d’évaluer leur séparation par chromatographie liquide en phase inverse. Une stratégie analytique employant un des algorithmes a été développée pour réaliser une analyse de spectrométrie de masse ciblée afin de découvrir les isomères ayant été manqués par la méthode d’analyse conventionnelle. / Phosphorylation is an omnipresent post-translational modification of proteins that regulates numerous cellular processes. This modification is controlled by the enzymatic activity of protein kinases and phosphatases. Erk1/2 kinases are central to an important signaling pathway that modulates translation, cell cycle, cytoskeleton rearrangement and transcription. They are also implicated in organism development, glucose metabolism, immune response and memory. Different human pathologies such as diabetes, cardiovascular diseases, and most importantly cancer, are associated with misregulation or mutations in members of this pathway. Considering the biological and clinical importance of those two kinases, discovering the extent of their enzymatic activity could favor the development of new pharmacological therapies.
In this context, the principal objective of this thesis was to measure the influence of this pathway on the phosphoproteome and to discover new substrates of the Erk1/2 kinases. A phosphoproteomics study on the pharmacological inhibition kinetics of the Erk1/2 signaling pathway was initiated. The success of this study was based on three key technologies such as phosphopeptides enrichment with titanium dioxide, high-throughput and high-resolution mass spectrometry, and the development of ProteoConnections, a bioinformatics analysis platform. This platform is dedicated to organize proteomics data, evaluate data quality, report changes of abundance and accelerate data interpretation. A distinctive functionality of ProteoConnections is the annotation of phosphorylated sites (kinases, domains, structures, conservation, phospho-dependant protein interactions, etc.). This information was essential for the dataset analysis of 9615 phosphorylated sites identified on 2108 proteins during the study, which is, until now, the largest one reported for rat. Protein domain analysis revealed that domains implicated in proteins, nucleic acids and other molecules binding were the most frequently phosphorylated and that these sites are strategically located to affect the interactions.
An algorithm was implemented to find Erk1/2 kinases potential substrates of identified sites using their phosphorylation motif, serum stimulation and Mek1/2 inhibition kinetic profile. A list of 157 potential Erk1/2 substrates was obtained. Twelve of them were previously reported and many more have functions associated to known substrates. Six substrates (Ddx47, Hmg20a, Junb, Map2k2, Numa1, and Rras2) were confirmed by in vitro kinase assays with Erk1. Our immunofluorescence experiments demonstrated that the phosphorylation of Hmg20a on serine 105 by Erk1/2 affects the nucleocytoplasmic localization of this protein.
Finally, phosphopeptides positional isomers, peptides with the same amino acids sequence but phosphorylated at different positions, were studied with two new algorithms. This study allowed us to determine their frequency in an enriched phosphopeptide extract and to evaluate their separation by reverse-phase liquid chromatography. An analytical strategy that uses one of the algorithms was developed to do a targeted mass spectrometry analysis to discover the isomers that had been missed by the conventional method.
|
355 |
Structural aspects of the ribosome evolution and functionBokov, Konstantin 04 1900 (has links)
En 2000, les structures à hautes résolutions des deux sous-unités ribosomiques ont finalement été mises à la disposition du public. L'année suivante, la structure aux rayons X de l'ensemble du ribosome bactérien a été publiée. Ces grandes réalisations ont ouvert une nouvelle ère dans l'étude des mécanismes de la synthèse des protéines. Dès lors, il est devenu possible de relier différents aspects de la fonction du ribosome à des éléments particuliers de sa structure tertiaire. L'établissement de la relation structure-fonction peut toutefois être problématique en raison de l'immense complexité de la structure du ribosome. En d'autres termes, pour que les données cristallographiques sur la structure tertiaire du ribosome soient vraiment utiles à la compréhension du fonctionnement du ribosome, ces données devraient elles-mêmes faire l'objet d'une analyse approfondie. Le travail, présenté ici, peut être vu comme une tentative de ce genre. En appliquant l’analyse systématique des structure cristallographiques du ribosome disponibles, nous avons essayé de résoudre deux problèmes fondamentaux de la biologie ribosomale concernant (1) la nature des réarrangements du ribosome qui ont lieu à différentes étapes de son cycle de fonctionnement et (2) la possibilité de reconstitution de l'évolution du ribosome du monde-à-ARN jusqu’à nos jours.
Dans le premier projet, nous avons systématiquement comparé les structures du ribosome disponibles et de sa sous-unité afin d'identifier les domaines rigides, qui ont toujours la même conformation, et les régions flexibles dont la conformation peut varier d'une structure de ribosome à une autre. Il y a deux types de réarrangements structuraux connus dont nous voulions comprendre les mécanismes: le « ratchet-like movement » et la «fermeture de domaines ». Le premier a lieu au cours de la translocation du ribosome et est plus ou moins perçu comme une rotation d'une sous-unité par rapport à l'autre. Le deuxième se produit dans la petite sous-unité et est associé à la reconnaissance codon-anticodon au site A.
La comparaison des conformations ribosomales disponibles a révélé les mécanismes spécifiques des deux réarrangements. Bien que la sélection de l'aminoacyl-ARNt appropriée au site A et la translocation du ribosome n'ont jamais été considérés comme ayant quelque chose en commun, nous démontrons ici que les réarrangements de la structure des ribosomes associés au premier processus répète les réarrangements associés au deuxième mais dans l’ordre inverse. En d'autres termes, pendant le cycle d'élongation, la fermeture de domaine et le « ratchet » peuvent
ii être considérés comme un mouvement de va-et-vient, qui renvoie finalement le ribosome à sa conformation initiale.
Dans le second projet, nous avons fait une tentative de reconstitution de l'évolution de l'ARNr 23S, du monde-à-ARN jusqu`à nos jours. Ici nous nous sommes basés sur la supposition que l'évolution de cette molécule a procédé par des insertions aléatoires des régions relativement courtes dans différentes parties de la chaîne poly-nucléotidique. Pour cela, nous avons élaboré des critères de l'intégrité de la structure ribosomale et présumé que lors de l'évolution, la structure du ribosome s’est toujours adaptée à ces standards. Nous avons examiné l'interaction de type A-mineur, un arrangement fréquent dans la structure de l’ARN ribosomique, constitué d'un empilement d’adénosines non-appariées, attachées à une double hélice. Nous avons supposé que dans toutes les interactions A-mineurs existantes dans le ribosome, la double hélice est apparue avant ou au moins simultanément avec la pile d’adénosines correspondantes. L'application systématique de ce principe à la structure tertiaire de l’ARN 23S a permis d'élucider de manière progressive l'ordre dans lequel les parties différentes de l’ARN 23S ont rejoint la structure.
Pris ensemble, les deux projets démontrent l'efficacité de l'analyse systématique in-silico de la structure tertiaire du ribosome et ouvrent la voie à de futures découvertes. / In the year 2000, the first high-resolution structures of the individual ribosomal subunits became available to the public. The following year, the X-ray structure of the complete bacterial ribosome was published. These major achievements opened a new era in studying the mechanisms of protein synthesis. From then on, it became possible to attribute different aspects of the ribosome function to particular elements of its tertiary structure. However, establishing the structure-function relationships is problematic due to the immense complexity of the ribosome structure. In other words, in order to make the crystallographic data on the ribosome tertiary structure really useful for understanding of how the ribosome functions, it must be thoroughly analyzed. Here, based on systematic analysis of the available X-ray conformations of the ribosome we have tried to resolve two fundamental problems of the ribosome biology: concerning (1) the nature of rearrangements in the ribosome that take place at different steps of its functional cycle, and (2) the reconstruction of the ribosome evolution from the RNA world to present time.
In the first project, we systematically compared the available structures of the ribosome and its subunits to identify rigid domains, which always have the same conformation, and flexible regions, where the conformation can vary from one ribosome structure to another. There were two known types of structural rearrangements whose mechanisms we wanted to understand: the ratchet-like motion and the so-called domain closure. The ratchet-like motion takes place during the ribosomal translocation and is roughly seen as a rotation of one subunit with respect to the other. The domain closure occurs in the small subunit and is associated with the cognate codon-anticodon recognition in the A-site.
Comparison of the available ribosome conformations revealed the detailed mechanisms of both rearrangements. Although the selection of the cognate amino-acyl-tRNA in the A-site and of the ribosomal translocation have never been thought to have anything in common, we demonstrate that the rearrangements in the ribosome structure associated with the first process repeat in reverse order the rearrangements associated with the second process. In other words, during the ribosome elongation cycle, the domain closure and the ratchet-like motion can be seen as a back-and-forth movement, which eventually returns the ribosome to the initial conformation.
iv
In the second project, we attempted to reconstruct the evolution of the 23S rRNA from the RNA world to present time based on the presumption that the evolutionary expansion of this molecule proceeded though random insertions of relatively short regions into different regions of the polynucleotide chain. We developed criteria for integrity of the ribosome structure and presumed that during the evolutionary expansion, the ribosome structure always matched to these standards. For this, we specifically considered the A-minor interaction, a frequent arrangement in the rRNA structure consisting of a stack of unpaired adenosines tightly attached to a double helix. We presumed that in all A-minor interactions present in the ribosome, the double helix emerged before or at least simultaneously with the corresponding adenosine stack. The systematic application of this principle to the known tertiary structure of the 23S rRNA allowed us to elucidate in a step-vise manner the order in which different part of the modern 23S rRNA joined the structure.
Taken together, the two projects demonstrate the effectiveness of the systematic in-silico analysis of the ribosome tertiary structure and pave the way for future discoveries. / Les résultats ont été obtenus avec le logiciel "Insight-2" de Accelris (San Diego, CA)
|
356 |
Approches bio-informatiques appliquées aux technologies émergentes en génomiqueLemieux Perreault, Louis-Philippe 02 1900 (has links)
Les études génétiques, telles que les études de liaison ou d’association, ont permis d’acquérir une plus grande connaissance sur l’étiologie de plusieurs maladies affectant les populations humaines. Même si une dizaine de milliers d’études génétiques ont été réalisées sur des centaines de maladies ou autres traits, une grande partie de leur héritabilité reste inexpliquée. Depuis une dizaine d’années, plusieurs percées dans le domaine de la génomique ont été réalisées. Par exemple, l’utilisation des micropuces d’hybridation génomique comparative à haute densité a permis de démontrer l’existence à grande échelle des variations et des polymorphismes en nombre de copies. Ces derniers sont maintenant détectables à l’aide de micropuce d’ADN ou du séquençage à haut débit. De plus, des études récentes utilisant le séquençage à haut débit ont permis de démontrer que la majorité des variations présentes dans l’exome d’un individu étaient rares ou même propres à cet individu. Ceci a permis la conception d’une nouvelle micropuce d’ADN permettant de déterminer rapidement et à faible coût le génotype de plusieurs milliers de variations rares pour un grand ensemble d’individus à la fois.
Dans ce contexte, l’objectif général de cette thèse vise le développement de nouvelles méthodologies et de nouveaux outils bio-informatiques de haute performance permettant la détection, à de hauts critères de qualité, des variations en nombre de copies et des variations nucléotidiques rares dans le cadre d’études génétiques. Ces avancées permettront, à long terme, d’expliquer une plus grande partie de l’héritabilité manquante des traits complexes, poussant ainsi l’avancement des connaissances sur l’étiologie de ces derniers.
Un algorithme permettant le partitionnement des polymorphismes en nombre de copies a donc été conçu, rendant possible l’utilisation de ces variations structurales dans le cadre d’étude de liaison génétique sur données familiales. Ensuite, une étude exploratoire a permis de caractériser les différents problèmes associés aux études génétiques utilisant des variations en nombre de copies rares sur des individus non reliés. Cette étude a été réalisée avec la collaboration du Wellcome Trust Centre for Human Genetics de l’University of Oxford. Par la suite, une comparaison de la performance des algorithmes de génotypage lors de leur utilisation avec une nouvelle micropuce d’ADN contenant une majorité de marqueurs rares a été réalisée. Finalement, un outil bio-informatique permettant de filtrer de façon efficace et rapide des données génétiques a été implémenté. Cet outil permet de générer des données de meilleure qualité, avec une meilleure reproductibilité des résultats, tout en diminuant les chances d’obtenir une fausse association. / Genetic studies, such as linkage and association studies, have contributed greatly to a better understanding
of the etiology of several diseases. Nonetheless, despite the tens of thousands of genetic
studies performed to date, a large part of the heritability of diseases and traits remains unexplained.
The last decade experienced unprecedented progress in genomics. For example, the use of
microarrays for high-density comparative genomic hybridization has demonstrated the existence
of large-scale copy number variations and polymorphisms. These are now detectable using DNA
microarray or high-throughput sequencing. In addition, high-throughput sequencing has shown
that the majority of variations in the exome are rare or unique to the individual. This has led to
the design of a new type of DNA microarray that is enriched for rare variants that can be quickly
and inexpensively genotyped in high throughput capacity.
In this context, the general objective of this thesis is the development of methodological approaches
and bioinformatics tools for the detection at the highest quality standards of copy number polymorphisms
and rare single nucleotide variations. It is expected that by doing so, more of the
missing heritability of complex traits can then be accounted for, contributing to the advancement
of knowledge of the etiology of diseases.
We have developed an algorithm for the partition of copy number polymorphisms, making it feasible
to use these structural changes in genetic linkage studies with family data. We have also conducted
an extensive study in collaboration with the Wellcome Trust Centre for Human Genetics of the
University of Oxford to characterize rare copy number definition metrics and their impact on study
results with unrelated individuals. We have conducted a thorough comparison of the performance
of genotyping algorithms when used with a new DNA microarray composed of a majority of very
rare genetic variants. Finally, we have developed a bioinformatics tool for the fast and efficient
processing of genetic data to increase quality, reproducibility of results and to reduce spurious
associations.
|
357 |
The genetics of red blood cell density, a biomarker of clinical severity in sickle cell diseaseIlboudo, Yann 12 1900 (has links)
No description available.
|
358 |
Bayesian codon models for detecting convergent molecular adaptationParto, Sahar 11 1900 (has links)
No description available.
|
359 |
Edit distance metrics for measuring dissimilarity between labeled gene treesBriand, Samuel 08 1900 (has links)
Les arbres phylogénétiques sont des instruments de biologie évolutive offrant de formidables moyens d'étude pour la génomique comparative.
Ils fournissent des moyens de représenter des mécanismes permettant de modéliser les relations de parenté entre les espèces ou les membres de familles de gènes en fonction de la diversité taxonomique, ainsi que des observations et des renseignements sur l'histoire évolutive, la structure et la variation des processus biologiques.
Cependant, les méthodes traditionnelles d'inférence phylogénétique ont la réputation d'être sensibles aux erreurs.
Il est donc indispensable de comparer les arbres phylogénétiques et de les analyser pour obtenir la meilleure interprétation des données biologiques qu'ils peuvent fournir.
Nous commençons par aborder les travaux connexes existants pour déduire, comparer et analyser les arbres phylogénétiques, en évaluant leurs bonnes caractéristiques ainsi que leurs défauts, et discuter des pistes d'améliorations futures.
La deuxième partie de cette thèse se concentre sur le développement de mesures efficaces et précises pour analyser et comparer des paires d'arbres génétiques avec des nœuds internes étiquetés. Nous montrons que notre extension de la métrique bien connue de Robinson-Foulds donne lieu à une bonne métrique pour la comparaison d'arbres génétiques étiquetés sous divers modèles évolutifs, et qui peuvent impliquer divers événements évolutifs. / Phylogenetic trees are instruments of evolutionary biology offering great insight for comparative genomics.
They provide mechanisms to model the kinship relations between species or members of gene families as a function of taxonomic diversity. They also provide evidence and insights into the evolutionary history, structure, and variation of biological processes.
However, traditional phylogenetic inference methods have the reputation to be prone to errors.
Therefore, comparing and analysing phylogenetic trees is indispensable for obtaining the best interpretation of the biological information they can provide.
We start by assessing existing related work to infer, compare, and analyse phylogenetic trees, evaluating their advantageous traits and flaws, and discussing avenues for future improvements.
The second part of this thesis focuses on the development of efficient and accurate metrics to analyse and compare pairs of gene trees with labeled internal nodes. We show that our attempt in extending the popular Robinson-Foulds metric is useful for the preliminary analysis and comparison of labeled gene trees under various evolutionary models that may involve various evolutionary events.
|
360 |
An analysis of translation heterogeneity in ribosome profiling datado Couto Bordignon, Pedro 12 1900 (has links)
Les protéines sont responsables de pratiquement toutes les fonctions performées au sein du corps cellulaire et de ses alentours. Le contrôle de l’expression génique détermine l’abondance, la localisation et le moment de la production de protéines dans la cellule. Il s’agit de l’un des processus centraux à la régulation de la physiologie et du fonctionnement cellulaire. La moindre perte de balance dans ce complexe système engendre des conséquences majeures sur l’intégrité cellulaire, menant au développement de plusieurs maladies parfois incurables. La traduction de l’ARN messager en produit protéique constitue la dernière étape de l’expression génique. Elle est régulée de plusieurs façons, intrinsèques et extrinsèques à la séquence. Il s’agit également du processus cellulaire le plus coûteux en termes d’énergie. Le profilage des ribosomes (Ribo-Seq) figure parmi les récentes et prometteuses technologies ayant permis une meilleure étude des mécanismes de régulation de la traduction. Ces résultats contiennent toutefois la présence de variabilité et de bruits de nature infondée. Ce travail présente la mise en place d’une stratégie permettant la dissociation de signaux d’origine biologique de ceux ayant une origine technique. Ceci est effectué au travers de la mise en place de profiles consensus de densité ribosomale extrait d’une analyse comparative de plusieurs expériences de Ribo-Seq chez la levure (Saccharomyces cerevisiae). Les signaux biologiques dérivés par les profils consensus correspondent avec les signatures de pauses ribosomales connues, telles que les scores de repliements de l’ARNm et la charge des acides aminés. Épatamment, notre stratégie a également permis l’identification de séquences différentiellement transcrites (DT). Ces dernières jouent un rôle sur la cinétique de la phase d’élongation de la traduction, elles comportent notamment une surreprésentation de codons associés aux modifications des ARNs de transfert (tRNAs). Elles se retrouvent d’ailleurs impliquées dans le maintien de l’homéostase cellulaire, ayant une présence marquée chez des gènes prenants part aux mécanismes de biosynthèse de la macromolécule ribosomale ainsi que chez les ARNms aux sublocalisations cellulaires précises, notamment chez les mitochondries et le réticulum endoplasmique (ER). En plus de démontrer les possibilités de découvertes offertes par la technique du Ribo-Seq, cette étude présente une évidence de la nature dynamique et hétérogène du processus de traduction chez la cellule eucaryote. Elle démontre également le rôle de l’information directement encodée dans la séquence dans l’optimisation générale de l’homéostasie cellulaire. / Proteins are responsible for virtually all functions performed within and in the surroundings of a cell. The control of gene expression, which determines the amount, localisation and timing of protein production in the cell, is the central processes in the regulation of cellular physiology and function. Any disturbance in this complex system can generate important consequences on cellular integrity, sometimes leading to incurable diseases. The translation of messenger RNA into a protein product is the last step of the gene expression mechanism. It can be regulated in manifold ways, both intrinsically and extrinsically to the transcript sequence. It is also the costliest cellular process in terms of energy. Ribosome profiling (Ribo-Seq) is one of the recent and promising technologies making it possible to better study the mechanisms of translation regulation. Its results have however been shown to display variability in reproducibility and to contain noise of uncharted sources. This work presents the implementation of a strategy for dissociating signals of biological origin from those of technical origin. This is performed by the computation of a consensus profile of ribosomal density derived from a comparative analysis of several Ribo-Seq experiments in yeast (Saccharomyces cerevisiae). The biological signals derived by the consensus profiles correspond with signatures of known ribosomal pauses, such as mRNA folding strength and amino acid charges. Amazingly, our strategy also enabled the identification of differentially transcribed (DT) sequences. The latter have shown an over-representation of codons associated with modifications of transfer RNAs (tRNAs). They are also involved in the control of cellular homeostasis, exhibiting a marked presence in genes involved in ribosome biosynthesis as well as in mRNAs with precise translation sub-localization, particularly in mitochondria and the endoplasmic reticulum (ER). In addition to demonstrating the possibilities of discovery offered by the Ribo-Seq technique, this study also presents evidence of the dynamic and heterogeneous nature of the translation process in the eukaryotic cell. It also showcases its diverse regulatory mechanisms and the role of information directly encoded in the sequence in the general optimization of cellular homeostasis.
|
Page generated in 0.1001 seconds