Global ETD Search

1	Modélisation et score de complexes protéine-ARN / Modelling and scoring of protein-RNA complexes Guilhot-Gaudeffroy, Adrien 29 September 2014 (has links) Cette thèse présente des résultats dans le domaine de la prédiction d’interactions protéine-ARN. C’est un domaine de recherche très actif, pour lequel la communauté internationale organise régulièrement des compétitions pour évaluer différentes techniques de prédictions in silico d’interactions protéine-protéine et protéine-ARN sur des données benchmarks (CAPRI, Critical Assessment of PRedictedInteractions), par prédiction en aveugle et en temps limité. Dans ce cadre, de nombreuses approches reposant sur des techniques d’apprentissage supervisé ont récemment obtenus de très bons résultats.Nos travaux s’inscrivent dans cette démarche.Nous avons travaillé sur des jeux de données de 120 complexes protéine-ARN extraits de la PRIDB non redondante (Protein-RNA Interface DataBase, banque de données de référence pour les interactions protéine-ARN). La méthodologie de prédiction d'interactions protéine-ARN a aussi été testée sur 40 complexes issus de benchmarks de l'état de l'art et indépendants des complexes de la PRIDB non redondante. Le faible nombre de structures natives et la difficulté de générer in silico des structures identiques à la solution in vivo nous a conduit à mettre en place une stratégie de génération de candidats par perturbation de l’ARN partenaire d’un complexe protéine-ARN natif. Les candidats ainsi obtenus sont considérés comme des conformations presque-natives si elles sont suffisamment proches du natif. Les autres candidats sont des leurres. L’objectif est de pouvoir identifier les presque natifs parmi l’ensemble des candidats potentiels, par apprentissage supervisé d'une fonction de score.Nous avons conçu pour l'évaluation des fonctions de score une méthodologie de validation croisée originale appelée le leave-"one-pdb"-out, où il existe autant de strates que de complexes protéine-ARN et où chaque strate est constituée des candidats générés à partir d'un complexe. L’une des approches présentant les meilleures performances à CAPRI est l’approche RosettaDock, optimisée pour la prédiction d’interactions protéine-protéine. Nous avons étendu la fonction de score native de RosettaDock pour résoudre la problématique protéine-ARN. Pour l'apprentissage de cette fonction de score, nous avons adapté l'algorithme évolutionnaire ROGER (ROC-based Genetic LearnER) à l'apprentissage d'une fonction logistique. Le gain obtenu par rapport à la fonction native est significatif.Nous avons aussi mis au point d'autres modèles basés sur des approches de classifieurs et de métaclassifieurs, qui montrent que des améliorations sont encore possibles.Dans un second temps, nous avons introduit et mis en oeuvre une nouvelle stratégie pour l’évaluation des candidats qui repose sur la notion de prédiction multi-échelle. Un candidat est représenté à la fois au niveau atomique, c'est-à-dire le niveau de représentation le plus détaillé, et au niveau dit “gros-grain”où nous utilisons une représentation géométrique basée sur des diagrammes de Voronoï pour regrouper ensemble plusieurs composants de la protéine ou de l’ARN. L'état de l'art montre que les diagrammes de Voronoï ont déjà permis d'obtenir de bons résultats pour la prédiction d'interactions protéine-protéine. Nous en évaluons donc les performances après avoir adapté le modèle à la prédiction d'interactions protéine-ARN. L’objectif est de pouvoir rapidement identifier la zone d’interaction (épitope) entre la protéine et l’ARN avant d’utiliser l’approche atomique, plus précise,mais plus coûteuse en temps de calcul. L’une des difficultés est alors de pouvoir générer des candidats suffisamment diversifiés. Les résultats obtenus sont prometteurs et ouvrent desperspectives intéressantes. Une réduction du nombre de paramètres impliqués de même qu'une adaptation du modèle de solvant explicite pourraient en améliorer les résultats. / My thesis shows results for the prediction of protein-RNA interactions with machine learning. An international community named CAPRI (Critical Assessment of PRedicted Interactions) regularly assesses in silico methods for the prediction of the interactions between macromolecules. Using blindpredictions within time constraints, protein-protein interactions and more recently protein-RNA interaction prediction techniques are assessed.In a first stage, we worked on curated protein-RNA benchmarks, including 120 3D structures extracted from the non redundant PRIDB (Protein-RNA Interface DataBase). We also tested the protein-RNA prediction method we designed using 40 protein-RNA complexes that were extracted from state-ofthe-art benchmarks and independent from the non redundant PRIDB complexes. Generating candidates identical to the in vivo solution with only a few 3D structures is an issue we tackled by modelling a candidate generation strategy using RNA structure perturbation in the protein-RNAcomplex. Such candidates are either near-native candidates – if they are close enough to the solution– or decoys – if they are too far away. We want to discriminate the near-native candidates from thedecoys. For the evaluation, we performed an original cross-validation process we called leave-”onepdb”-out, where there is one fold per protein-RNA complex and each fold contains the candidates generated using one complex. One of the gold standard approaches participating in the CAPRI experiment as to date is RosettaDock. RosettaDock is originally optimized for protein-proteincomplexes. For the learning step of our scoring function, we adapted and used an evolutionary algorithm called ROGER (ROC-based Genetic LearnER) to learn a logistic function. The results show that our scoring function performs much better than the original RosettaDock scoring function. Thus,we extend RosettaDock to the prediction of protein-RNA interactions. We also evaluated classifier based and metaclassifier-based approaches, which can lead to new improvements with further investigation.In a second stage, we introduced a new way to evaluate candidates using a multi-scale protocol. A candidate is geometrically represented on an atomic level – the most detailed scale – as well as on a coarse-grained level. The coarse-grained level is based on the construction of a Voronoi diagram over the coarse-grained atoms of the 3D structure. Voronoi diagrams already successfully modelled coarsegrained interactions for protein-protein complexes in the past. The idea behind the multi-scale protocolis to first find the interaction patch (epitope) between the protein and the RNA before using the time consuming and yet more precise atomic level. We modelled new scoring terms, as well as new scoring functions to evaluate generated candidates. Results are promising. Reducing the number of parameters involved and optimizing the explicit solvent model may improve the coarse-grained level predictions. Structures 3D Multi-échelle Amarrage 3D structures Multi-scale Docking
2	Développement et applications de méthodes bioinformatiques pour l'identification des répétitions en tandem dans les structures des protéines / Development and application of bioinformatics tools to identify tandem repeats in protein structure Do Viet, Phuong 17 March 2016 (has links) Les structures protéiques peuvent être divisées en répétitives et apériodiques, les structures apériodiques correspondant pour la plupart à des protéines globulaires. Les protéines répétitives (PRs) contiennent des unités de répétitions adjacentes, appelées séquences répétées en tandem (TRs). Les PRs sont abondantes et ont une importance fonctionnelle fondamentale. De plus de nombreuses études ont démontré l'implication des TRs dans les pathologies humaines. Ainsi, la découverte des PRs et la compréhension de leur relation séquence-structure-fonction, offrent des perspectives de recherche prometteuses.Le développement d’initiatives en génomique structurale, combiné à une meilleure adaptation des techniques de cristallographie et de RMN à l’étude des protéines non globulaires, a permis d’élucider la structure d’un nombre croissant de PRs, d’où la nécessité de mettre en place un système de classification. Les structures répétitives ont été réparties en cinq classes, principalement fondées sur la longueur des TRs: Classe I - agrégats cristallins; Classe II - structures fibreuses; Classe III - structures allongées, dont la stabilité dépend des interactions qui s’établissent entre les motifs répétés. Classe IV - structures répétitives fermées ; Classe V - structures en collier de perles. Les efforts de ces dernières années ont abouti au développement d’outils bioinformatiques utiles à la détection et l'analyse d'éléments répétitifs présents au sein des structures protéiques (3D TRs). En fonction des caractéristiques des répétitions, certaines méthodes fonctionnent mieux que d'autres, mais, jusqu’à présent, aucune ne permettait de couvrir toute la gamme des répétitions. Ce constat nous a incités à développer une nouvelle méthode, appelée détecteur de protéines en tandem (TAPO). TAPO exploite les périodicités des coordonnées atomiques ainsi que d'autres types de représentation structurale, comprenant les chaînes générées par un alphabet conformationnel, les cartes de contact entre résidus, et les arrangements en vecteurs d'éléments de structure secondaire. Actuellement, sept scores, issus des caractéristiques analysées par TAPO, sont combinés à l’aide d’une Machine à Vecteur Support pour produire un score final permettant de différencier les protéines renfermant ou non des 3D TRs. En atteignant 94% de sensibilité et 97% de spécificité pour la référence actuelle, TAPO présente des performances améliorées par rapport aux autres méthodes de pointe. Le développement de TAPO offre de nouvelles opportunités pour l’analyse à grande échelle des protéines renfermant des 3D TRs. Ainsi, notre analyse de la base de données PDB, à l’aide de TAPO, a montré que 19% des protéines contiennent des 3D TRs. L'analyse à grande échelle des structures 3D TRs dans PDB nous a également permis de découvrir plusieurs nouveaux types de structures répétitives, absents de la classification existante et dont certains sont décrits ici.Nous avons entrepris une analyse complète des 3D TRs constitutifs du Rossmann Fold (RF). Notre intérêt pour les RFs a été suscité par le fait que de nombreuses protéines RFs représentent un cas ambigüe vis à vis des structures répétitives et non répétitives. A priori, les unités hélice α - feuillet β des RFs devraient avoir une forte tendance à s’empiler et donc, à former des structures répétitives. Afin de déterminer la fréquence à laquelle les RFs forment de longues unités de répétition empilées, nous avons sélectionné, à l’aide de TAPO, des structures contenant des RFs et les avons classées. Notre analyse montre que les RFs typiques ne peuvent pas être clairement définis comme des structures répétitives mais plutôt comme des unités de structures globulaires, comptant au plus trois répétitions α-β. Des éléments de discussion seront proposés pour tenter d’expliquer cette observation surprenante. / In general, protein structures can be divided into: repetitive and aperiodic structures. Most of the aperiodic structures are globular proteins. The repetitive proteins contain arrays of repeats that are adjacent to each other, called Tandem Repeats (TRs). Proteins containing TRs are abundant and have fundamental functional importance. Numerous studies demonstrated the involvement of such TR-containing proteins in human diseases. Furthermore, genetic instability of these regions can lead to emerging infection threats. Additionally, TR-containing structures have generated significant interest with respect to protein design as they can make excellent scaffolds for specific recognition of target molecules. Therefore, the discovery of these domains, understanding of their sequence–structure–function relationship promises to be a fertile direction for research.The growth of structural genomics initiatives, in combination with improvements in crystallographic and NMR techniques aimed at non-globular proteins, has resulted in an increase in structurally elucidated TR proteins. This has necessitated the development of classification schemes. Structural repeats were broadly divided into five classes mainly based on repeat length; Class I – crystalline aggregates; Class II – fibrous structures such as collagen; Class III – elongated structures where the repetitive units require each other for structural stability such as solenoid proteins; Class IV – closed repetitive structures, such as TIM-barrels and Class V – bead on a string structures such as tandems of Ig-fold domains. Despite this progress, the majority of bioinformatics approaches have focused on non-repetitive globular proteins.In recent years, efforts have been made to develop bioinformatics tools for the detection and analysis of repetitive elements in protein structures (3D TRs). Depending on the size and character of the repeats, some methods perform better than others, but currently no best approach exists to cover the whole range of repeats. This served as a motivation for the development of our method called the TAndem PrOtein detector (TAPO). TAPO exploits, periodicities of atomic coordinates and other types of structural representation, including strings generated by conformational alphabets, residue contact maps, and arrangements of vectors of secondary structure elements. Currently, seven feature based scores produced by TAPO are combined using a Support Vector Machine, producing a score to enable the differentiation between proteins with and without 3D TRs. TAPO shows an improved performance over other cutting edge methods, achieving 94% sensitivity and 97% specificity on the current benchmark. The development of TAPO provided new opportunities for large scale analysis of proteins with 3D TRs. In accordance with our analysis of PDB using TAPO, 19% of proteins contain 3D TRs. The large scale analysis of the 3D TR structures in PDB also allows us to discover several new types of TR structures that were absent in the existing classification. Some of them are described in the thesis manuscript. This suggests that TAPO can be used to regularly update the collection and classification of existing repetitive structures. In particular, a comprehensive analysis of 3D TRs related to Rossmann Fold (RF) was undertaken. Our special interest in RFs was based on the observation that many proteins with RFs represent borderline cases between repetitive and non-repetitive structures. In principle, α-helix-β-strand units of RFs should have a strong potential to stack one over the other, forming repetitive structures. To probe the question of how frequently RFs form long arrays of stacked repeats, we selected by using TAPO known RF-containing structures and classified them. Our analysis shows that typical RFs cannot be clearly defined as repetitive, rather they are part of globular structures with up to 3 αβ-repeats. We provide some explanations for this surprising observation. Bioinformatique Répétitions en tandem Structures 3D Protéome Computer programming Algorithme Bioinformatics Tandem repeats 3D structures Proteome Computer programming Algorithms
3	Génération de plaquettes in vitro à partir de cellules souches hématopoïétiques / In vitro platelet generation from hematopoietic stem cells Pietrzyk-Nivau, Audrey 15 December 2014 (has links) La mégacaryopoïèse représente le processus de différenciation des cellules souches hématopoïétiques (CSH) en mégacaryocytes (MK). Ce processus précède la thrombopoïèse qui aboutira à la formation des plaquettes sanguines. Ces processus complexes ont lieu 1) au sein de la structure tridimensionnelle (3D) de la moelle osseuse, 2) dans les vaisseaux sinusoïdes de la moelle et 3) dans la circulation sanguine. Le but général de ce travail a été de comprendre le mécanisme de chaque étape. Le premier objectif a été d’étudier les effets d’une structure poreuse 3D mimant celle de la moelle osseuse, sur la différenciation mégacaryocytaire et la production plaquettaire in vitro. Cette étude a permis de démontrer que la synergie entre l’organisation spatiale et les signaux du microenvironnement améliore la production en MK et en plaquettes. Par la suite, nous avons souhaité caractériser in vitro et in vivo les plaquettes produites en conditions de flux. Nous avons notamment mis en évidence la capacité des plaquettes produites in vitro dans un système de microfluidique, à s’incorporer et à participer à la formation d’un thrombus in vitro et in vivo contrairement aux plaquettes obtenues en statique. Ces travaux prouvent donc l’intérêt d’une part, de mimer le microenvironnement de la moelle osseuse et d’autre part, de reproduire les forces de cisaillement du sang afin d’améliorer et d’augmenter la production de plaquettes in vitro pour de futures applications en thérapeutique. / Megakaryopoiesis is a process allowing hematopoietic stem cell (HSC) to proliferate and differentiate into megakaryocytes (MK). It is followed by thrombopoiesis allowing blood platelet production. These processes occur 1) in the bone marrow three-dimensional (3D) structure, 2) in the bone marrow sinusoid vessels and 3) in the blood flow. Our general aim was to decipher the mechanism associated to each process. The first objective was to study the effects of porous 3D structure on MK differentiation and platelet production. This study demonstrated that the synergy between spatial organization and biological cues improved MK and platelet production. We also characterized platelets produced from mature MK in flow conditions, with respect to their in vitro and in vivo properties. We highlighted the capacity of flow-derived platelets to incorporate in a thrombus in vitro and in vivo, compared to static-derived platelets. These works represent some new developments for mimicking the bone marrow structure and to reproduce blood shear forces in order to improve and increase in vitro platelet production for therapeutic use. CSH MK Plaquettes Moelle osseuse Structures 3D Flux Forces de cisaillement HSC MK Platelets Bone marrow 3D structures Flow High shear rates 573.155

1

Page generated in 0.0364 seconds