Spelling suggestions: "subject:"bioinformatics"" "subject:"bionformatics""
11 |
Évolution de familles de gènes par duplications et pertes : algorithmes pour la correction d’arbres bruitésDoroftei, Andrea 02 1900 (has links)
Les gènes sont les parties du génome qui codent pour les protéines. Les gènes d’une ou plusieurs espèces peuvent être regroupés en "familles", en fonction de leur similarité de séquence. Cependant, pour connaître les relations fonctionnelles entre ces copies de gènes, la similarité de séquence ne suffit pas. Pour cela, il est important d’étudier l’évolution d’une famille par duplications et pertes afin de pouvoir distinguer entre gènes orthologues, des copies ayant évolué par spéciation et susceptibles d’avoir conservé une fonction commune, et gènes paralogues, des copies ayant évolué par duplication qui ont probablement développé des nouvelles fonctions.
Étant donnée une famille de gènes présents dans n espèces différentes, un arbre de gènes (obtenu par une méthode phylogénétique classique), et un arbre phylogénétique pour les n espèces, la "réconciliation" est l’approche la plus courante permettant d’inférer une histoire d’évolution de cette famille par duplications, spéciations et pertes. Le degré de confiance accordé à l’histoire inférée est directement relié au degré de confiance accordé à l’arbre de gènes lui-même. Il est donc important de disposer d’une méthode préliminaire de correction d’arbres de gènes.
Ce travail introduit une méthodologie permettant de "corriger" un arbre de gènes : supprimer le minimum de feuilles "mal placées" afin d’obtenir un arbre dont les sommets de duplications (inférés par la réconciliation) sont tous des sommets de "duplications apparentes" et obtenir ainsi un arbre de gènes en "accord" avec la phylogénie des espèces. J’introduis un algorithme exact pour des arbres d’une certaine classe, et une heuristique pour le cas général. / Genes are segments of genomes that code for proteins. Genes of one or more species can be grouped into gene families based on their sequence similarity. In order to determine functional relationships among these multiple gene copies of a family, sequence homology is insufficient as no direct information on the evolution of the gene family by duplication, speciation and loss can be inferred directly from a family of homologous genes. And it is precisely this information that allows us to distinguish between orthologous gene copies, that have evolved by speciation and are more likely to preserve the same function and paralogous gene copies that have evolved by duplication and usually acquire new functions.
For a given gene family contained within n species, a gene tree (inferred by typical phylogenetic methods) and a phylogenetic tree of the considered species, reconciliation between the gene tree and the species tree is the most commonly used approach to infer a duplication, speciation and loss history for the gene family. The main criticism towards reconciliation methods is that the inferred duplication and loss history for a gene family is strongly dependent on the gene tree considered for this family. Indeed, just a few misplaced leaves in the gene tree can lead to a completely different history, possibly with significantly more duplications and losses. It is therefore important to have a preliminary method for "correcting” the gene tree, i.e. removing potentially misplaced branches.
N. El-Mabrouk and C. Chauve introduced "non-apparent duplications" as nodes that are likely to result from the misplacement of one leaf in the gene tree. Simply put, such a node indicates that one or more triplets contradict the phylogeny given by the species tree. In this work, the problem of eliminating non-apparent duplications from a given gene tree by a minimum number of leaf removals is considered. Depending on the disposition of this type of nodes in the gene tree, the algorithm introduced leads to an O(nlogn) performance and an optimal solution in a best case scenario . The general case however is solved using an heuristic method.
|
12 |
Génomique en temps réel appliquée aux isolats bactériens cliniques atypiques / Real-time genomics applied to atypical clinical bacterial isolatesBeye, Mamadou 24 November 2017 (has links)
Le diagnostic, la caractérisation et l'identification rapides et précis des agents pathogènes sont essentiels pour guider le traitement, détecter les événements de transmission ou les échecs de traitement. Cependant le monde biomédical est confronté à des pathogènes émergents et ré-émergents. Ainsi certaines souches bactériennes cliniques présentent des spécificités de virulence, contagiosité et/ou de résistance aux antibiotiques. Le séquençage génomique à haut débit et l’analyse comparative des génomes bactériens constituent une bonne stratégie pour étudier rapidement les caractéristiques de ces pathogènes émergents. En à peine un peu plus de 20 ans, la génomique a connu un développement considérable grâce aux nouvelles technologies de séquençage à haut débit et à l’intérêt des scientifiques, qui ont permis l’augmentation exponentielle du nombre de génomes bactériens séquencés et disponibles dans les bases de données publiques. La génomique en temps-réel consiste en une analyse rapide du génome d’une souche bactérienne clinique pour identifier les déterminants génétiques de ses caractéristiques phénotypiques inhabituelles. C’est ainsi que les objectifs de ce projet de thèse étaient : d’exploiter rapidement les données de séquençage de génomes complets pour déterminer les répertoires de résistance et de virulence ; de comparer les génomes provenant des bactéries cliniques atypiques à ceux d’autres bactéries des mêmes espèces pour identifier leurs caractéristiques spécifiques ; d’utiliser les génomes comme outil taxonomique pour décrire rapidement les nouvelles espèces bactériennes isolées dans le laboratoire par culturomique. / Rapid and accurate diagnosis, characterization and identification of pathogens are essential to guide treatment and detect transmission events or treatments failures. However, the biomedical field is confronted with emerging and re-emerging pathogens. Some of these clinical bacterial strains exhibit specificities concerning the virulence, contagiousness and / or resistance to antibiotics. High-throughput sequencing and comparative analysis of bacterial genomes is a reliable strategy enabling the rapid study of the characteristics of these emerging pathogens. In a short period, not exceeding 20 years, genomics has known a considerable revolution. In effect the introduction of the new high-throughput sequencingtechnologies and the increased concern of the scientist into this field, led to an exponential increase of number of available sequenced bacterial genomes in public databases. Real-time genomics is a strategy consisting on rapid analysis of the genome of a clinical bacterial strain in order to identify the genetic determinants justifying its unusual phenotypic characteristics. Thus, the objectives of this thesis project were: to rapidly exploit whole-genome sequencing data for identification of the virulence or resistance repertoire; to compare genomes from atypical clinical bacteria to those of other bacteria of the same species in order to identify their specific features; to use genomes as a taxonomic tool to rapidly describe the new bacterial species isolated in the laboratory by culturomics approach.
|
13 |
Développements méthodologiques en protéomique quantitative pour mieux comprendre la biologie évolutive d'espèces non séquencées / Methodological developments in quantitative proteomics to better understand the evolutive biology of non sequenced speciesBenhaïm, Margaux 27 September 2017 (has links)
L’analyse protéomique consiste en l’analyse qualitative et quantitative de l’ensemble des protéines exprimées dans une cellule ou tissu dans des conditions données (protéome). Les progrès instrumentaux en spectrométrie de masse et les avancées bioinformatiques des dernières années ont permis d’imposer ce domaine dans les sciences de la vie. Diverses stratégies protéomiques permettent ainsi, aujourd’hui, d’identifier et quantifier plusieurs centaines/milliers de protéines dans un échantillon complexe, ce qui permet classiquement de caractériser les états physiopathologiques. En revanche, la protéomique est un outil émergent en biologie évolutive. Ce domaine vise à comprendre les déterminants de la diversité des organismes présents sur Terre et de leur « fonctionnement », notamment leurs adaptations à certaines contraintes environnementales.L’objectif de cette thèse était d’étudier, de l’organe à l’écosystème, les variations protéomiques induites par des changements environnementaux, tout en adaptant les différentes étapes de l’analyse à chaque type d’échantillons, à chaque organisme, de la préparation d’échantillons à l’analyse des données. Grâce à la mise en place d’une stratégie de séquençage de novo quantitative originale, ces travaux de thèse ont été l’occasion d’étudier le rôle du tissu adipeux brun dans la protection contre l’obésité chez le campagnol, espèce dont le génome n’est pas séquencé. D’autres traits particuliers ont été explorés, tels que l’obésité réversible du microcèbe, ou encore les interactions entre socialité et longévité chez la fourmi. Les solutions logicielles envisagées ne permettant de quantifier de manière robuste des peptides identifiés par séquençage de novo à partir d’échantillons fractionnés, nous avons ainsi établi que le préfractionnement permet d’obtenir une meilleure couverture de protéome. En revanche, sans préfractionnement, le séquençage de novo produit un gain indéniable. Enfin, en étudiant le métaprotéome de communautés biotiques des sols alpins, nous avons mis en évidence l’intérêt de combiner protéomique et génomique, afin d’établir la banque de données protéiques la plus appropriée, mais aussi pour « valider » les données protéomiques. / Proteomics analysis corresponds to the qualitative and quantitative analysis of all proteins expressed in a cell or tissue under given conditions (proteome). Instrumental progresses in mass spectrometry and bioinformatics advances in recent years have allowed its establishment in life sciences. Diverse proteomics strategies thus allow identification and quantification of hundreds/thousands of proteins in complex samples, which classically allows physiopathological states to be characterized. However, proteomics is only emerging in the evolutionary biology field. This field aims at understanding the determinants of the diversity of organisms present on Earth and their “functioning”, including their adaptations to certain environmental constraints.The objective of this thesis was to study, from the organ to the eco-system, the proteomic variations induced by environmental changes, while adapting the different steps of the analysis to each type of sample, each organism, from sample preparation to data analysis. Through the introduction of an original quantitative de novo sequencing strategy, we studied the role of brown adipose tissue against obesity in a non-sequenced species: the vole. Other particular traits were explored, such as the reversible obesity of the grey mouse lemur or the interactions between sociality and longevity in the ant. The considered software solutions did not allow to robustly quantify peptides identified by de novo sequencing from fractionated samples, we thus determined that prefractionation allows for better proteome coverage. On the other hand, without prefractionation, de novo sequencing produces an undeniable gain. Finally, by studying the metaproteome of alpine soil biotic communities, we have highlighted the advantage of combining proteomics and genomics, in order to establish the most appropriate protein database and to “validate” proteomics data.
|
14 |
Tirer profit de l’espace de séquence : une approche multidisciplinaire pour élucider l’évolution d’une famille d’enzymes primitivesLemay-St-Denis, Claudèle 01 1900 (has links)
L’habileté des enzymes à évoluer joue un rôle fondamental dans l'adaptation des organismes à leur environnement, leur permettant de s'adapter aux changements de température, aux nutriments disponibles ou encore à l'introduction de composés cytotoxiques. Au cours des dernières décennies, cette capacité a conduit à l'émergence rapide de mécanismes de résistance aux antibiotiques chez des bactéries pathogènes pour l’humain, notamment dans le cas de l'antibiotique synthétique triméthoprime. Dix ans après l'introduction de cet antibiotique, l'enzyme dihydrofolate réductase de type B (DfrB) a été identifiée comme conférant une résistance aux bactéries l'exprimant en catalysant par voie d’enzyme alternative la réaction inhibée par l’antibiotique.
Des études structurales, cinétiques et mécanistiques de la DfrB en ont révélé la nature atypique, et suggèrent que cette enzyme est un modèle d’enzyme primitive. En particulier, son site actif unique est formé via l’interface de quatre protomères identiques. Puisque les DfrB ne sont pas apparentées sur le plan évolutif à des protéines connues et caractérisées, on ne connait pas comment elles ont évolué pour ultimement contribuer à la résistance au triméthoprime, et en particulier comment leur capacité catalytique a émergé au sein du petit domaine codé par leurs gènes. Ainsi, cette thèse vise à approfondir notre compréhension de l’évolution des enzymes en examinant spécifiquement l’évolution des DfrB et les propriétés qui ont guidé ce processus.
Puisque les gènes des DfrB ont rarement été rapportés, je présente d’abord nos efforts déployés pour identifier et caractériser de manière génomique les DfrB dans les bases de données publiques. Ces efforts ont conduit à la découverte, pour la première fois, de DfrB en dehors du contexte clinique. Nous avons ensuite caractérisé, sur le plan biophysique et enzymatique, des homologues protéiques aux DfrB que nous avons identifiés dans des bases de données de protéines putatives. Nous avons démontré la capacité d’homologues identifiés dans des contextes environnementaux, non associés aux activités humaines, à catalyser la réduction du dihydrofolate de la même façon que les DfrB. Enfin, une large exploration d’homologues de séquence, suivie d'une caractérisation expérimentale et computationnelle, nous a permis d'identifier des homologues distants des DfrB, certains capables de procurer une résistance au triméthoprime, et d'autres dépourvus de cette capacité. Ces résultats nous ont permis de proposer un modèle expliquant l’émergence de l'activité catalytique au sein du domaine protéique des DfrB.
En résumé, cette thèse présente une approche multidisciplinaire pour l’exploration et la caractérisation de l’espace de séquence d’une famille de protéines. Cette approche, qui comprend des analyses génomiques, enzymologiques, biophysiques et bio-informatiques, nous a permis d’identifier les caractéristiques structurales et de séquences nécessaires à la formation d’une enzyme DfrB fonctionnelle. Nous avons également proposé un modèle pour expliquer l’évolution de cette enzyme primitive. Dans l’ensemble, nos résultats suggèrent que la capacité catalytique des DfrB a évolué indépendamment de l’introduction de l’antibiotique triméthoprime, et donc que ce mécanisme de résistance existait dans l’environnement préalablement à son recrutement génomique dans un contexte clinique.
Ces travaux contribuent à notre compréhension fondamentale des mécanismes sous-jacents à l’émergence de l’activité catalytique au sein d’un domaine protéique non catalytique, et informent les études des mécanismes développés par les bactéries pour proliférer en présence d’antibiotiques. / The ability of enzymes to evolve plays a fundamental role in the adaptation of organisms to their environment, allowing them to adjust to changes in temperature, available nutrients, or the introduction of cytotoxic compounds. In recent decades, this ability has led to the rapid emergence of antibiotic resistance mechanisms in human pathogenic bacteria, particularly in the case of the synthetic antibiotic trimethoprim. Ten years after the introduction of this antibiotic, the type B dihydrofolate reductase (DfrB) was identified as conferring resistance to bacteria expressing it by providing an alternative enzyme to catalyze the reaction inhibited by the antibiotic.
Structural, kinetic, and mechanistic studies of DfrB have revealed its atypical nature and suggest that this enzyme is a model of a primitive enzyme. In particular, its unique active site is formed by the interface of four identical protomers. Since DfrB enzymes are not evolutionarily related to any known and characterized proteins, it is not known how they evolved to ultimately contribute to trimethoprim resistance, and in particular how their catalytic ability arose within the small domain encoded by their genes. Thus, this thesis aims to deepen our understanding of enzyme evolution by specifically examining the evolution of DfrB and the properties that guided this process.
Since DfrB genes have rarely been reported, I first present our efforts to genomically identify and characterize DfrB in public databases. These efforts led to the first discovery of DfrB genes outside the clinical context. We then biophysically and enzymatically characterized protein homologues of the DfrB we identified in putative protein databases. We demonstrated the ability of homologues identified in environmental contexts unrelated to human activities to catalyze dihydrofolate reduction in the same manner as DfrB. Finally, a broad search for sequence homologues, followed by experimental and computational characterization, allowed us to identify distant DfrB homologues, some capable of conferring resistance to trimethoprim and others lacking this ability. These results have allowed us to propose a model that explains the emergence of catalytic activity within the DfrB domain.
In summary, this thesis presents a multidisciplinary approach to explore and characterize the sequence space of a protein family. This approach, which includes genomic, enzymatic, biophysical and bioinformatic analyses, has enabled us to identify the structural and sequence features necessary for the formation of a functional DfrB enzyme. We have also proposed a model to explain the evolution of this primitive enzyme. Overall, our results suggest that the catalytic capacity of DfrB evolved independently of the introduction of the antibiotic trimethoprim, and thus that this resistance mechanism existed in the environment prior to its genomic recruitment in a clinical context.
This work contributes to our fundamental understanding of the mechanisms underlying the emergence of catalytic activity within a non-catalytic protein domain, and informs studies of the mechanisms developed by bacteria to proliferate in the presence of antibiotics.
|
Page generated in 0.0684 seconds