Global ETD Search

241	Identification des peptides du complexe majeur d’histocompatibilité de classe I par spectrométrie de masse Bramoullé, Alexandre 12 1900 (has links) L’immunité adaptive et la discrimination entre le soi et le non-soi chez les vertébrés à mâchoire reposent sur la présentation de peptides par les récepteurs d’histocompatibilité majeur de classe I. Les peptides antigéniques, présentés par les molécules du complexe d’histocompatibilité (CMH), sont scrutés par les lymphocytes T CD8 pour une réponse immunitaire appropriée. Le répertoire des peptides du CMH de classe I, aussi appelé immunopeptidome, est généré par la dégradation protéosomale des protéines endogènes, et a un rôle essentiel dans la régulation de l’immunité cellulaire. La composition de l’immunopeptidome dépend du type de cellule et peut présenter des caractéristiques liées à des maladies comme le cancer. Les peptides antigéniques peuvent être utilisés à des fins immunothérapeutiques notamment dans le traitement voire la prévention de certains cancers. La spectrométrie de masse est un outil de choix pour l’identification, le séquençage et la caractérisation de ces peptides. Cependant, la composition en acides aminés, la faible abondance et la diversité de ces peptides compliquent leur détection et leur séquençage. Nous avons développé un programme appelé StatPeaks qui permet de calculer un certains nombres de statistiques relatives à la fragmentation des peptides. À l’aide de ce programme, nous montrons sans équivoque que les peptides du CMH classe I, en mode de fragmentation par dissociation induite par collision (CID), fragmentent très différemment des peptides trypsiques communément utilisés en protéomique. Néanmoins, la fragmentation par décomposition induite par collision à plus haute énergie (HCD) proposée par le spectromètre LTQ-Orbitrap Velos améliore la fragmentation et fournit une haute résolution qui permet d’obtenir une meilleure confiance dans l’identification des peptides du CMH de classe I. Cet avantage permet d’effectuer le séquençage de novo pour identifier les variants polymorphes qui ne sont normalement pas identifiés par les recherches utilisant des bases de données. La comparaison des programmes de séquençage Lutefisk, pepNovo, pNovo, Vonode et Peaks met en évidence que le dernier permet d’identifier un plus grand nombre de peptides du CMH de classe I. Ce programme est intégré dans une chaîne de traitement de recherche d’antigènes mineurs d’histocompatibilité. Enfin, une base de données contenant les informations spectrales de plusieurs centaines de peptides du CMH de classe I accessible par Internet a été développée. / Adaptive immunity and discrimination between self and nonself in jawed vertebrates relies on the presentation of peptides by the major histocompatibility (MHC) class I receptors. Foreign or self peptide antigens presented by the MHC molecules are probed by CD8 T-cell lymphocyte for proper immune response. The repertoire of MHC I peptides collectively referred to as the immunopeptidome is generated through the proteasomal degradation of endogenous proteins and plays an important role in the regulation of cellular immunity. The composition of the immunopeptidome is cell specific and can harbor important hallmark of human diseases including cancer. Antigenic peptides can also be used in immunotherapy to mount an appropriate immune response against cancer cells displaying these peptides. Mass spectrometry is a tool of choice for the identification, sequencing and characterization of these peptides. However, the amino acid composition, the low abundance and diversity of these peptides make their detection and sequencing more challenging. We developed a software, called StatPeaks, that calculates statistics relative to the fragmentation of peptides. Using this software, we demonstrate that under collision induced dissociation (CID) MHC class I peptides fragment in a very different fashion than tryptic peptides, commonly used in proteomics. However, the higher-energy collisional dissociation (HCD) mode available on the LTQ-Orbitrap Velos enhances peptide fragmentation and provides high resolution fragment information that significantly improves the confidence in MHC class I peptide identification. This inherent advantage confers the ability to perform de novo sequencing to identify polymorphic variants that would normally elude conventional database searches. The comparison of de novo peptide sequencing software Lutefisk, pepNovo, pNovo, Vonode and Peaks indicated that the later software enabled higher rates of correct identification for MHC class I peptides. This software was integrated into a data analysis pipeline for the identification minor histocompatibility antigens (MiHAs). A web-based library that stores spectral information of hundreds of synthetic MHC class I peptides was developed in support to the needs of the immunopeptidome discovery program. antigènes CMH de classe I immunopeptidome spectrométrie de masse séquençage de novo polymorphisme mononucléotidique antigen MHC Class I mass spectrometry de novo sequencing single nucleotide polymorphism
242	Amélioration de l'exactitude de l'inférence phylogénomique Roure, Béatrice 04 1900 (has links) L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif. / The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution. Phylogénomique Exactitude de l’inférence Hétéropécilie Échantillonnage des espèces Sélection des séquences Données manquantes Violation de modèle Phylogenomics Accuracy of the inference Heteropecilly Species sampling Sequence sorting Missing data Model violation
243	Phylogénomique des Archées Grenier, Jean-Christophe 07 1900 (has links) Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple. Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées. / Horizontal gene transfer (HGT) had been demonstrated to play an important role in the evolution of prokaryotes. Their impact on phylogeny was the subject of a heated debate, with some proposing that the concept of a species tree should be abandoned. The phylogeny of prokaryotes does contain a major part of the historical signal, because stable and functional horizontal transmissions appear to be by far rarer than vertical transmissions (tens versus billions). However, the cumulative effect of HGT is non-negligible and can potentially affect phylogenetic inference. Therefore, most researchers base their phylogenetic inference on a low number of rarely transferred genes such as ribosomal proteins, but they assume the selection of the model of evolution as less important, this despite the fact that it has been shown of prime importance for much less deep divergences, e.g. like animals. Here, we used a combination of simulations and of real data from Archaea to study the relative impact of HGT and of the inference methods on the phylogenetic accuracy. Our simulations prove that (1) HGTs have a limited impact on phylogeny, assuming a realistic rate and (2) the supermatrix is much more accurate than the supertree approach. We also observed that more complex models of evolution not only have a better fit to the data, but can also have a direct impact on different phylogenetic groups and on the robustness of the tree. Our results are in contradiction to a recent publication proposing that the Thaumarchaeota are at the base of the Archaeal tree. phylogénie phylogeny phylogénomique phylogenomics procaryotes prokaryotes Archées Archaea transfert horizontal de gènes horizontal gene transfer évolution moléculaire molecular evolution simulations simulation modèles évolutifs evolutionary models super-matrice supermatrix super-arbre supertree
244	Structural aspects of the ribosome evolution and function Bokov, Konstantin 04 1900 (has links) En 2000, les structures à hautes résolutions des deux sous-unités ribosomiques ont finalement été mises à la disposition du public. L'année suivante, la structure aux rayons X de l'ensemble du ribosome bactérien a été publiée. Ces grandes réalisations ont ouvert une nouvelle ère dans l'étude des mécanismes de la synthèse des protéines. Dès lors, il est devenu possible de relier différents aspects de la fonction du ribosome à des éléments particuliers de sa structure tertiaire. L'établissement de la relation structure-fonction peut toutefois être problématique en raison de l'immense complexité de la structure du ribosome. En d'autres termes, pour que les données cristallographiques sur la structure tertiaire du ribosome soient vraiment utiles à la compréhension du fonctionnement du ribosome, ces données devraient elles-mêmes faire l'objet d'une analyse approfondie. Le travail, présenté ici, peut être vu comme une tentative de ce genre. En appliquant l’analyse systématique des structure cristallographiques du ribosome disponibles, nous avons essayé de résoudre deux problèmes fondamentaux de la biologie ribosomale concernant (1) la nature des réarrangements du ribosome qui ont lieu à différentes étapes de son cycle de fonctionnement et (2) la possibilité de reconstitution de l'évolution du ribosome du monde-à-ARN jusqu’à nos jours. Dans le premier projet, nous avons systématiquement comparé les structures du ribosome disponibles et de sa sous-unité afin d'identifier les domaines rigides, qui ont toujours la même conformation, et les régions flexibles dont la conformation peut varier d'une structure de ribosome à une autre. Il y a deux types de réarrangements structuraux connus dont nous voulions comprendre les mécanismes: le « ratchet-like movement » et la «fermeture de domaines ». Le premier a lieu au cours de la translocation du ribosome et est plus ou moins perçu comme une rotation d'une sous-unité par rapport à l'autre. Le deuxième se produit dans la petite sous-unité et est associé à la reconnaissance codon-anticodon au site A. La comparaison des conformations ribosomales disponibles a révélé les mécanismes spécifiques des deux réarrangements. Bien que la sélection de l'aminoacyl-ARNt appropriée au site A et la translocation du ribosome n'ont jamais été considérés comme ayant quelque chose en commun, nous démontrons ici que les réarrangements de la structure des ribosomes associés au premier processus répète les réarrangements associés au deuxième mais dans l’ordre inverse. En d'autres termes, pendant le cycle d'élongation, la fermeture de domaine et le « ratchet » peuvent ii être considérés comme un mouvement de va-et-vient, qui renvoie finalement le ribosome à sa conformation initiale. Dans le second projet, nous avons fait une tentative de reconstitution de l'évolution de l'ARNr 23S, du monde-à-ARN jusqu`à nos jours. Ici nous nous sommes basés sur la supposition que l'évolution de cette molécule a procédé par des insertions aléatoires des régions relativement courtes dans différentes parties de la chaîne poly-nucléotidique. Pour cela, nous avons élaboré des critères de l'intégrité de la structure ribosomale et présumé que lors de l'évolution, la structure du ribosome s’est toujours adaptée à ces standards. Nous avons examiné l'interaction de type A-mineur, un arrangement fréquent dans la structure de l’ARN ribosomique, constitué d'un empilement d’adénosines non-appariées, attachées à une double hélice. Nous avons supposé que dans toutes les interactions A-mineurs existantes dans le ribosome, la double hélice est apparue avant ou au moins simultanément avec la pile d’adénosines correspondantes. L'application systématique de ce principe à la structure tertiaire de l’ARN 23S a permis d'élucider de manière progressive l'ordre dans lequel les parties différentes de l’ARN 23S ont rejoint la structure. Pris ensemble, les deux projets démontrent l'efficacité de l'analyse systématique in-silico de la structure tertiaire du ribosome et ouvrent la voie à de futures découvertes. / In the year 2000, the first high-resolution structures of the individual ribosomal subunits became available to the public. The following year, the X-ray structure of the complete bacterial ribosome was published. These major achievements opened a new era in studying the mechanisms of protein synthesis. From then on, it became possible to attribute different aspects of the ribosome function to particular elements of its tertiary structure. However, establishing the structure-function relationships is problematic due to the immense complexity of the ribosome structure. In other words, in order to make the crystallographic data on the ribosome tertiary structure really useful for understanding of how the ribosome functions, it must be thoroughly analyzed. Here, based on systematic analysis of the available X-ray conformations of the ribosome we have tried to resolve two fundamental problems of the ribosome biology: concerning (1) the nature of rearrangements in the ribosome that take place at different steps of its functional cycle, and (2) the reconstruction of the ribosome evolution from the RNA world to present time. In the first project, we systematically compared the available structures of the ribosome and its subunits to identify rigid domains, which always have the same conformation, and flexible regions, where the conformation can vary from one ribosome structure to another. There were two known types of structural rearrangements whose mechanisms we wanted to understand: the ratchet-like motion and the so-called domain closure. The ratchet-like motion takes place during the ribosomal translocation and is roughly seen as a rotation of one subunit with respect to the other. The domain closure occurs in the small subunit and is associated with the cognate codon-anticodon recognition in the A-site. Comparison of the available ribosome conformations revealed the detailed mechanisms of both rearrangements. Although the selection of the cognate amino-acyl-tRNA in the A-site and of the ribosomal translocation have never been thought to have anything in common, we demonstrate that the rearrangements in the ribosome structure associated with the first process repeat in reverse order the rearrangements associated with the second process. In other words, during the ribosome elongation cycle, the domain closure and the ratchet-like motion can be seen as a back-and-forth movement, which eventually returns the ribosome to the initial conformation. iv In the second project, we attempted to reconstruct the evolution of the 23S rRNA from the RNA world to present time based on the presumption that the evolutionary expansion of this molecule proceeded though random insertions of relatively short regions into different regions of the polynucleotide chain. We developed criteria for integrity of the ribosome structure and presumed that during the evolutionary expansion, the ribosome structure always matched to these standards. For this, we specifically considered the A-minor interaction, a frequent arrangement in the rRNA structure consisting of a stack of unpaired adenosines tightly attached to a double helix. We presumed that in all A-minor interactions present in the ribosome, the double helix emerged before or at least simultaneously with the corresponding adenosine stack. The systematic application of this principle to the known tertiary structure of the 23S rRNA allowed us to elucidate in a step-vise manner the order in which different part of the modern 23S rRNA joined the structure. Taken together, the two projects demonstrate the effectiveness of the systematic in-silico analysis of the ribosome tertiary structure and pave the way for future discoveries. / Les résultats ont été obtenus avec le logiciel "Insight-2" de Accelris (San Diego, CA) Évolution La structure du ribosome tertiaire L'ARN ribosomal Le mouvement de cliquet La fermeture de la petite sous-unité Evolution Ribosome tertiary structure Ribosomal RNA Ratchet-like motion Small subunit domain closure
245	Etudes d'objets combinatoires : applications à la bio-informatique Vernay, Rémi 29 June 2011 (has links) (PDF) Cette thèse porte sur des classes d'objets combinatoires, qui modélisent des données en bio-informatique. Nous étudions notamment deux méthodes de mutation des gènes à l'intérieur du génome : la duplication et l'inversion. Nous étudions d'une part le problème de la duplication-miroir complète avec perte aléatoire en termes de permutations à motifs exclus. Nous démontrons que la classe de permutations obtenue avec cette méthode après p duplications à partir de l'identité est la classe de permutations qui évite les permutations alternées de longueur 2p + 1. Nous énumérons également le nombre de duplications nécessaires et suffisantes pour obtenir une permutation quelconque de longueur n à partir de l'identité. Nous proposons également deux algorithmes efficaces permettant de reconstituer deux chemins différents entre l'identité et une permutation déterminée. Nous donnons enfin des résultats connexes sur d'autres classes proches. La restriction de la relation d'ordre < induite par le code de Gray réfléchi à l'ensemble des compositions et des compositions bornées induit de nouveaux codes de Gray pour ces ensembles. La relation d'ordre < restreinte à l'ensemble des compositions bornées d'un intervalle fournit encore un code de Gray. L'ensemble des ncompositions bornées d'un intervalle généralise simultanément l'ensemble produit et l'ensemble des compositions d'un entier et donc la relation < définit de façon unifiée tous ces codes de Gray. Nous réexprimons les codes de Gray de Walsh et Knuth pour les compositions (bornées) d'un entier à l'aide d'une unique relation d'ordre. Alors, le code de Gray deWalsh pour des classes de compositions et de permutations devient une sous-liste de celui de Knuth, lequel est à son tour une sous-liste du code de Gray réfléchi. Combinatoire Permutations Compositions d'entiers Codes de Gray Duplication Inversion Bio-informatique
246	The genetics of red blood cell density, a biomarker of clinical severity in sickle cell disease Ilboudo, Yann 12 1900 (has links) No description available. Analyse pangénomique Séquençage d’exome Anémie falciforme Densité des globules rouges Hydratation des hématies EQTL Genome wide association Whole-exome sequencing Sickle cell disease Erythrocyte density Red blood cell hydration
247	Bayesian codon models for detecting convergent molecular adaptation Parto, Sahar 11 1900 (has links) No description available. Évolution Mutation Modèle à Codon Pression de Sélection Inférence Bayésienne Sélection Différentielle VIH Rubisco Evolution Mutation Codon Model Selective Pressure Bayesian Inference Differential Selection HIV Rubisco
248	Développement et évaluation de méthodes bioinformatiques pour la détection de séquences cis-régulatrices impliquées dans le développement de la drosophile Turatsinze, Jean Valéry 23 November 2009 (has links) L'objectif de ce travail est de développer et d'évaluer des approches méthodologiques pour la<p>prédiction de séquences cis-régulatrices. Ces approches ont été intégrées dans la suite logicielle<p>RSAT (Regulatory Sequences Analysis Tools). Ces séquences jouent un rôle important dans la<p>régulation de l'expression des gènes. Cette régulation, au niveau transcriptionnel, s'effectue à<p>travers la reconnaissance spécifique entre les facteurs de transcription et leurs sites de fixation<p>(TFBS) au niveau de l'ADN.<p>Nous avons développé et évalué une série d'outils bioinformatiques qui utilisent les matrices<p>position-poids pour prédire les TFBS ainsi que les modules cis-régulateurs (CRM). Nos outils<p>présentent l'avantage d'intégrer les différentes approches déjà proposées par d'autres auteurs tout<p>en proposant des fonctionnalités innovantes.<p>Nous proposons notamment une nouvelle approche pour la prédiction de CRM basé sur la<p>détection de régions significativement enrichies en TFBS. Nous les avons appelés les CRER (pour<p>Cis-Regulatory Elements Enriched Regions). Un autre aspect essentiel de toute notre approche<p>réside dans le fait que nous proposons des mesures statistiques rigoureuses pour estimer<p>théoriquement et empiriquement le risque associé aux différentes prédictions. Les méthodes de<p>prédictions de séquences cis-regulatrices prédisent en effet un taux de fausses prédictions<p>généralement élevé. Nous intégrons un calcul des P-valeurs associées à toutes les prédictions.<p>Nous proposons ainsi une mesure fiable de la probabilité de faux positifs.<p>Nous avons appliqué nos outils pour une évaluation systématique de l'effet du modèle de<p>background sur la précision des prédictions à partir de la base de données de TRANSFAC. Nos<p>résultats suggèrent une grande variabilité pour les modèles qui optimisent la précision des<p>prédictions. Il faut choisir le modèle de background au cas par cas selon la matrice considérée.<p>Nous avons ensuite évalué la qualité des matrices de tous les facteurs de transcription de<p>drosophile de la base de données ORegAnno, c'est à dire leur pouvoir de discrimination entre les<p>TFBS et les séquences génomiques. Nous avons ainsi collecté des matrices des facteurs de<p>transcription de drosophile de bonne qualité.<p>A partir des matrices de drosophile que nous avons collectées, nous avons entamé une analyse<p>préliminaire multi-genome de prédictions de TFBS et de CRM dans la région de lʼenhancer dorsocentral<p>(DCE) du complexe achaete-scute de drosophile. Les gènes de ce complexe jouent un<p>rôle important dans la détermination des cellules système nerveux périphérique de drosophile. Il a<p>été prouvé expérimentalement qu'il existe un lien direct entre le phénotype du système nerveux<p>périphérique et les séquences cis-régulateurs des gènes de ce complexe.<p>Les outils que nous avons développés durant ce projet peuvent s'appliquer à la prédiction des<p>séquences de régulation dans les génomes de tous les organismes. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Biologie Sciences exactes et naturelles Bioinformatics Drosophila Gene expression Genetic regulation Bio-informatique Drosophiles Expression génique Régulation génétique RSAT pattern matching matrix-scan cis-regulatory modules position specific scoring matrix regulatory sequences
249	Etude bioinformatique de la stabilité thermique des protéines: conception de potentiels statistiques dépendant de la température et développement d'approches prédictives / Bioinformatic study of protein thermal stability: development of temperature dependent statistical potentials and design of predictive approaches Folch, Benjamin 16 June 2010 (has links) Cette thèse de doctorat s’inscrit dans le cadre de l’étude in silico des relations qui lient la séquence d’une protéine à sa structure, sa stabilité et sa fonction. Elle a pour objectif de permettre à terme la conception rationnelle de protéines modifiées qui restent actives dans des conditions physico chimiques non physiologiques. Nous nous sommes plus particulièrement penchés sur la stabilité thermique des protéines, qui est définie par leur température de fusion Tm au delà de laquelle leur structure n’est thermodynamiquement plus stable. Notre travail s’articule en trois grandes parties :la recherche de facteurs favorisant la thermostabilité des protéines parmi des familles de protéines homologues, la mise sur pied d’une base de données de protéines de structure et de Tm déterminées expérimentalement, de laquelle sont dérivés des potentiels statistiques dépendant de la température, et enfin la mise au point de deux outils bioinformatiques visant à prédire d’une part la Tm d’une protéine à partir de la Tm de protéines homologues et d’autre part les changements de thermostabilité d’une protéine (Tm) engendrés par l’introduction d’une mutation ponctuelle.<p><p>La première partie a pour objectif l’identification des facteurs de séquence et de structure (e.g. fréquence de ponts salins, d’interactions cation-{pi}) responsables des différentes stabilités thermiques de protéines homologues au sein de huit familles (chapitre 2). La spécificité de chaque famille ne nous a pas permis de généraliser l’impact de ces différents facteurs sur la stabilité thermique des protéines. Cependant, cette approche nous a permis de constater la multitude de stratégies différentes suivies par les protéines pour atteindre une plus grande thermostabilité.<p><p>La deuxième partie concerne le développement d’une approche originale pour évaluer l’influence de la température sur la contribution de différents types d’interactions à l’énergie libre de repliement des protéines (chapitres 3 et 4). Cette approche repose sur la dérivation de potentiels statistiques à partir d’ensembles de protéines de thermostabilité moyenne distincte. Nous avons d’une part collecté le plus grand nombre possible de protéines de structure et de Tm déterminées expérimentalement, et d’autre part développé des potentiels tenant compte de l’adaptation des protéines aux températures extrêmes au cours de leur évolution. Cette méthode originale a mis en évidence la dépendance en la température d’interactions protéiques tels les ponts salins, les interactions cation-{pi}, certains empilements hydrophobes .Elle nous a en outre permis de mettre le doigt sur l’importance de considérer la dépendance en la température non seulement des interactions attractives mais également des interactions répulsives, ainsi que sur l’importance de décrire la résistance thermique par la Tm plutôt que la Tenv, température de l’environnement de l’organisme dont elle provient (chapitre 5).<p><p>La dernière partie de cette thèse concerne l’utilisation des profils énergétiques dans un but prédictif. Tout d’abord, nous avons développé un logiciel bioinformatique pour prédire la thermostabilité d’une protéine sur la base de la thermostabilité de protéines homologues. Cet outil s’est avéré prometteur après l’avoir testé sur huit familles de protéines homologues. Nous avons également développé un deuxième outil bioinformatique pour prédire les changements de thermostabilité d’une protéine engendrés par l’introduction d’une mutation ponctuelle, en s’inspirant d’un logiciel de prédiction des changements de stabilité thermodynamique des protéines développé au sein de notre équipe de recherche. Ce deuxième algorithme de prédiction repose sur le développement d’une grande base de données de mutants caractérisés expérimentalement, d’une combinaison linéaire de potentiels pour évaluer la Tm, et d’un réseau de neurones pour identifier les coefficients de la combinaison. Les prédictions générées par notre logiciel ont été comparées à celles obtenues via la corrélation qui existe entre stabilités thermique et thermodynamique, et se sont avérées plus fiables.<p><p>Les travaux décrits dans notre thèse, et en particulier le développement de potentiels statistiques dépendant de la température, constituent une nouvelle approche très prometteuse pour comprendre et prédire la thermostabilité des protéines. En outre, nos travaux de recherche ont permis de développer une méthodologie qui pourra être adaptée à l’étude et à la prédiction d’autres propriétés physico chimiques des protéines comme leur solubilité, leur stabilité vis à vis de l’acidité, de la pression, de la salinité .lorsque suffisamment de données expérimentales seront disponibles.<p> / Doctorat en Sciences agronomiques et ingénierie biologique / info:eu-repo/semantics/nonPublished Agronomie générale Sciences de l'ingénieur Proteins -- Conformation Bioinformatics Protéines -- Conformation Bio-informatique thermostabilité/thermostability
250	Gaussian graphical model selection for gene regulatory network reverse engineering and function prediction Kontos, Kevin 02 July 2009 (has links) One of the most important and challenging ``knowledge extraction' tasks in bioinformatics is the reverse engineering of gene regulatory networks (GRNs) from DNA microarray gene expression data. Indeed, as a result of the development of high-throughput data-collection techniques, biology is experiencing a data flood phenomenon that pushes biologists toward a new view of biology--systems biology--that aims at system-level understanding of biological systems.<p><p>Unfortunately, even for small model organisms such as the yeast Saccharomyces cerevisiae, the number p of genes is much larger than the number n of expression data samples. The dimensionality issue induced by this ``small n, large p' data setting renders standard statistical learning methods inadequate. Restricting the complexity of the models enables to deal with this serious impediment. Indeed, by introducing (a priori undesirable) bias in the model selection procedure, one reduces the variance of the selected model thereby increasing its accuracy.<p><p>Gaussian graphical models (GGMs) have proven to be a very powerful formalism to infer GRNs from expression data. Standard GGM selection techniques can unfortunately not be used in the ``small n, large p' data setting. One way to overcome this issue is to resort to regularization. In particular, shrinkage estimators of the covariance matrix--required to infer GGMs--have proven to be very effective. Our first contribution consists in a new shrinkage estimator that improves upon existing ones through the use of a Monte Carlo (parametric bootstrap) procedure.<p><p>Another approach to GGM selection in the ``small n, large p' data setting consists in reverse engineering limited-order partial correlation graphs (q-partial correlation graphs) to approximate GGMs. Our second contribution consists in an inference algorithm, the q-nested procedure, that builds a sequence of nested q-partial correlation graphs to take advantage of the smaller order graphs' topology to infer higher order graphs. This allows us to significantly speed up the inference of such graphs and to avoid problems related to multiple testing. Consequently, we are able to consider higher order graphs, thereby increasing the accuracy of the inferred graphs.<p><p>Another important challenge in bioinformatics is the prediction of gene function. An example of such a prediction task is the identification of genes that are targets of the nitrogen catabolite repression (NCR) selection mechanism in the yeast Saccharomyces cerevisiae. The study of model organisms such as Saccharomyces cerevisiae is indispensable for the understanding of more complex organisms. Our third contribution consists in extending the standard two-class classification approach by enriching the set of variables and comparing several feature selection techniques and classification algorithms.<p><p>Finally, our fourth contribution formulates the prediction of NCR target genes as a network inference task. We use GGM selection to infer multivariate dependencies between genes, and, starting from a set of genes known to be sensitive to NCR, we classify the remaining genes. We hence avoid problems related to the choice of a negative training set and take advantage of the robustness of GGM selection techniques in the ``small n, large p' data setting. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Informatique générale Sciences exactes et naturelles Bioinformatics DNA microarrays Genetic regulation -- Data processing Bio-informatique Puces à ADN Régulation génétique -- Informatique machine learning bioinformatics large p' small n Gaussian graphical model (GGM)

Search results