Global ETD Search

1	Recherche de nouveaux antipaludiques par bioinformatique structurale et chémoinformatique : application à deux cibles : PfAMA1 et PfCCT / Identification of new antimalarial molecules by structural bioinformatics and cheminformatics : application to two targets : PfAMA1 and PfCCT Pihan, Émilie 02 July 2013 (has links) Le paludisme est causé par cinq espèces du genre Plasmodium, P. falciparum étant le plus mortel. Des résistances de certaines souches du parasite ont été rapportées pour tous les médicaments mis sur le marché. Les moustiques vecteurs du parasite sont résistants aux insecticides et aucun vaccin n'est disponible. Cette maladie est un problème économique et de santé publique pour les pays en voie de développement. Mes travaux de thèses visent à identifier de nouveaux traitements contre le paludisme, en ciblant deux nouvelles protéines. Les Apicomplexes ont développé un mécanisme unique d'invasion, impliquant une interaction forte entre la cellule hôte et la surface du parasite, appelée jonction mobile. La caractérisation structurale et fonctionnelle du complexe AMA1-RON2 a ouvert la voie à la découverte de petites molécules capables d'empêcher l'interaction AMA1-RON2 et de ce fait, l'invasion. Le parasite a aussi besoin de phospholipides pour construire sa membrane durant le cycle érythrocytaire. Il y a six fois plus de phospholipides dans les érythrocytes infectés que dans les érythrocytes sains. Notre stratégie est d'inhiber la voie de synthèse de novo Kennedy et plus précisément, son étape limitante catalysée par la PfCCT. Des filtres basés sur le ligand (LBVS) et sur la structure (SBVS) ont été utilisés pour tester virtuellement les chimiothèques commerciales que j'ai préparées. Pour chaque projet, des molécules ont été sélectionnées pour leurs scores de docking et les interactions qu'elles établissent avec les résidus clés de la protéine. En combinant la bioinformatique structurale et la chémoinformatique, nous avons identifié des inhibiteurs potentiels des deux cibles protéiques. / Human malaria is caused by five parasitic species of the genus Plasmodium, P. falciparum being the most deadly. Drug resistance of some parasite strains has been reported for commercial drugs. Vector mosquitoes are resistant to perythroid insecticides and no successful vaccine is available. This disease is a public and economic health issue for developing countries. My PhD projects investigate new treatments for malaria, by targeting two new proteins. Apicomplexa parasites have developed a unique invasion mechanism involving a tight interaction formed between the host cell and the parasite surfaces called Moving Junction. The structural and functional characterization of the AMA1-RON2 complex pave the way for the design of low molecular weight compounds capable of disrupting the AMA1-RON2 assembly and thereby invasion. The parasite also needs phospholipids to build its membrane during the erythrocytic cycle. There are six times more phospholipids in infected erythrocytes compared to healthy ones. Our strategy is to inhibit the de novo Kennedy pathway and more precisely its rate-limiting step catalysed by the enzyme PfCCT. Filters were used for ligand-based (LBVS) and structure-based virtual screening (SBVS) of commercial chemical databases that I have prepared. For each project, molecules were selected in terms of their docking scores and their interactions with key active site residues. By combining structural bioinformatics and cheminformatics, we identified potential inhibitors of the two protein targets. Paludisme Criblage virtuel AMA1 CCT Chémoinformatique Bioinformatique structurale Malaria Virtual screening AMA1 CCT Cheminformatics Structural bioinformatics
2	Computational approaches toward protein design / Approches computationnelles pour le design de protéines Traore, Seydou 23 October 2014 (has links) Le Design computationnel de protéines, en anglais « Computational Protein Design » (CPD), est un champ derecherche récent qui vise à fournir des outils de prédiction pour compléter l'ingénierie des protéines. En effet,outre la compréhension théorique des propriétés physico-chimiques fondamentales et fonctionnelles desprotéines, l’ingénierie des protéines a d’importantes applications dans un large éventail de domaines, y comprisdans la biomédecine, la biotechnologie, la nanobiotechnologie et la conception de composés respectueux del’environnement. Le CPD cherche ainsi à accélérer le design de protéines dotées des propriétés désirées enpermettant le traitement d’espaces de séquences de large taille tout en limitant les coûts financier et humain auniveau expérimental.Pour atteindre cet objectif, le CPD requière trois ingrédients conçus de manière appropriée: 1) une modélisationréaliste du système à remodeler; 2) une définition précise des fonctions objectives permettant de caractériser lafonction biochimique ou la propriété physico-chimique cible; 3) et enfin des méthodes d'optimisation efficacespour gérer de grandes tailles de combinatoire.Dans cette thèse, nous avons abordé le CPD avec une attention particulière portée sur l’optimisationcombinatoire. Dans une première série d'études, nous avons appliqué pour la première fois les méthodesd'optimisation de réseaux de fonctions de coût à la résolution de problèmes de CPD. Nous avons constaté qu’encomparaison des autres méthodes existantes, nos approches apportent une accélération du temps de calcul parplusieurs ordres de grandeur sur un large éventail de cas réels de CPD comprenant le design de la stabilité deprotéines ainsi que de complexes protéine-protéine et protéine-ligand. Un critère pour définir l'espace demutations des résidus a également été introduit afin de biaiser les séquences vers celles attendues par uneévolution naturelle en prenant en compte des propriétés structurales des acides aminés. Les méthodesdéveloppées ont été intégrées dans un logiciel dédié au CPD afin de les rendre plus facilement accessibles à lacommunauté scientifique. / Computational Protein Design (CPD) is a very young research field which aims at providing predictive tools to complementprotein engineering. Indeed, in addition to the theoretical understanding of fundamental properties and function of proteins,protein engineering has important applications in a broad range of fields, including biomedical applications, biotechnology,nanobiotechnology and the design of green reagents. CPD seeks at accelerating the design of proteins with wanted propertiesby enabling the exploration of larger sequence space while limiting the financial and human costs at experimental level.To succeed this endeavor, CPD requires three ingredients to be appropriately conceived: 1) a realistic modeling of the designsystem; 2) an accurate definition of objective functions for the target biochemical function or physico-chemical property; 3)and finally an efficient optimization framework to handle large combinatorial sizes.In this thesis, we addressed CPD problems with a special focus on combinatorial optimization. In a first series of studies, weapplied for the first time the Cost Function Network optimization framework to solve CPD problems and found that incomparison to other existing methods, it brings several orders of magnitude speedup on a wide range of real CPD instancesthat include the stability design of proteins, protein-protein and protein-ligand complexes. A tailored criterion to define themutation space of residues was also introduced in order to constrain output sequences to those expected by natural evolutionthrough the integration of some structural properties of amino acids in the protein environment. The developed methods werefinally integrated into a CPD-dedicated software in order to facilitate its accessibility to the scientific community. Bioinformatique structurale Optimisation Combinatoire Computational Protein Design Structural Bioinformatics Combinatorial Optimization 660.6 519
3	Modélisation de l'assemblage de protéines multi-domaines avec des contraintes expérimentales de microscopie à force atomique. / Assembly of multi-domain proteins with experimental constraints from atomic force microscopy Trinh, Minh Hieu 22 October 2010 (has links) Un des principaux défis du domaine de la biologie structurale est l'obtention d'informations à haute résolution sur les grandes macromolécules biologiques. En raison de leurs tailles et de leurs flexibilités, les techniques traditionnelles de biologie structurales sont souvent impuissantes. Une des techniques prometteuses est la microscopie à force atomique (AFM). Contrairement à la microscopie optique, l'AFM utilise une sonde mécanique de très faible taille (<10 nm) pour obtenir des informations topographiques sur du matériel biologique isolé et déposé sur des surfaces ultras plates. L'objectif du travail de thèse est de développer les outils informatiques pour permettre la modélisation de grandes macromolécules au niveau atomique tout en intégrant des contraintes topologiques obtenues par l'imagerie AFM. À partir d'images AFM de hauteur, à haute résolution, un protocole d'assemblage de domaines protéiques a été mis au point. Il utilise une recherche exhaustive dans l'espace tridimensionnel réel de toutes les orientations possibles des domaines de la macromolécule à modéliser qui respectent les contours imposés par l'image AFM. Un jeu de contraintes de distance entre chacun des domaines permet un premier tri des modèles candidats. Un classement final est attribué à chaque modèle selon un score appelé EFactor, estimateur de la ressemblance entre la surface topographique expérimentale et celle du modèle. Le protocole a été validé sur le système modèle que sont les anticorps. Il a été également utilisé pour reconstruire une particule virale (virus de la mosaïque du tabac) et assembler la structure tétramérique de la protéine membranaire l'aquaporine Z. / A major challenge in the field of structural biology is to obtain high-resolution information on the major biological macromolecules. Because of their size and their flexibility, the traditional techniques of structural biology are often powerless. One of the promising techniques is atomic force microscopy (AFM). Unlike optical microscopy, AFM uses a mechanical probe of very small size (<10 nm) to obtain topographical information on isolated biological material deposited on ultra flat surfaces. The aim of the thesis was to develop tools to enable the modeling of large macromolecules at the atomic level while incorporating topological constraints obtained by AFM imaging. Using high resolution AFM height images, a protocol for assembling protein domains has been developed. It uses an exhaustive search in real three-dimensional space of all possible orientations of the macromolecule's domains respecting the boundaries imposed by the AFM topographical image. A set of distance constraints between each of the domains allows an initial screening of candidate models. A final ranking is assigned to each model according to a score called EFactor, estimator of the similarity between the experimental topography and the model. The protocol was validated on model systems that are antibodies. It was also used to reconstruct a virus particle (tobacco mosaic virus) and assemble the tetrameric structure of the membrane protein aquaporin Z. Microscopie à force atomique (AFM) Docking Bioinformatique structurale Modélisation Structures tridimensionnelles Atomic force microscopy (AFM) Docking Structural biology Modelling Three-dimensional structures
4	Computational geometry for the determination of biomolecular structures / Géométrie computationnelle pour la détermination de structures biomoléculaires Machat, Mohamed 27 April 2017 (has links) En bioinformatique structurale, une partie des méthodes computationnelles qui calculent les structures de protéines à l'aide de données expérimentales, effectuent une optimisation de la position des atomes sous les contraintes expérimentales mesurées sur le système étudié, ainsi que sous des contraintes provenant de la connaissance générique de la stéréochimie organique. Ces méthodes d'optimisation présentent l'inconvénient de ne pas garantir la détermination de la meilleure solution. De plus, la validation de l'optimisation se fait en comparant les résultats obtenus pour des calculs répétés, et le résultat d'un calcul est accepté dans la mesure où le même résultat est obtenu plusieurs fois. Par cette approche, on rend plus difficile la détection de conformations alternatives de protéines, qui sont pourtant le sujet d'un vif intérêt dans la littérature. En effet, le développement de la sensibilité des techniques de résonance magnétique nucléaire (RMN) a permis de mettre en évidence plusieurs cas d'échange conformationnel reliés à la fonction des protéines. Dans ce projet de thèse, nous avons étudié une nouvelle approche pour le calcul de structures des protéines et l'exploration de leurs espaces conformationnels, basée sur la résolution du problème de Géométrie de Distance associé aux contraintes de distances dans une protéine par l'algorithme "interval Branch and Prune". Le logiciel implémentant cette méthode est appelée iBPprot, il incarne l'une des premières tentatives d'échantillonnage exhaustive des espaces conformationnels des protéines. Dans un premier temps, on s'est intéressé à l'application de la méthode en utilisant exclusivement des constraintes de distances exactes. Les résultats ont démontré que iBPprot était capable de reconstruire des structures références en s'appuyant seulement sur quelques contraintes à courte portée. De plus, la reconstruction a été d'une précision telle que la conformation générée présentait un RMSD de 1 Angstrom maximum avec la structure référence. L'exploration exhaustive de l'espace conformationnel a été possible pour une bonne partie des protéines cibles. Les temps de calcul pour l'exploration des espaces conformationnels ont été très variables allant de quelques secondes pour quelques protéines jusqu'à des semaines pour d'autres. L'évaluation de la qualité des structures obtenues a démontré qu'au moins 68% des valeurs de phi et psi sont localisées dans la zone 'core' du diagramme de Ramachandran. Cependant, des clash stériques ont été détectées dans plusieurs conformations mettant en jeu jusqu'à 7% d'atomes dans quelques unes de ces conformations. Dans un deuxième temps, on s'est intéressé à l'application de la méthode en incluant des intervalles de distances comme contraintes dans les calculs. Dans ce cas de figure, la méthode a réussi a reconstruire des structures références avec un RMSD inférieur à 5 Angstrom pour plus de la moitié des protéines cibles. En contre partie, le parcours complet de l'espace conformationnel n'a été possible que pour la plus petite protéine de l'ensemble des protéines étudiées. Pour la moitié des autres protéines, plus de 70% des atomes ont vu leurs positions échantillonnées. La qualité des structures obtenues a regressé en comparaison avec les simulations faites avec des distances exactes. En effet, seulement 53% des valeurs de phi et psi étaient localisées dans la zone 'core' du diagramme de Ramachandran, et le pourcentage d'atomes impliqués dans un clash stérique s'élevait jusqu'à 22% pour quelques protéines. Concernant le temps de calcul, le taux de génération de conformations a été déterminé pour chaque protéine cible, et il s'est avéré que globalement sa valeur etait compétitive par rapport aux valeurs des taux observables dans la littérature... / Structural biology has allowed us expand our knowledge of living organisms. It is defined as the investigation of the structure and function of biological systems at the molecular level. Studying a biomolecule's structure offers insight into its geometry, as angles and distances between the biomolecule's atoms are measured in order to determine the biomolecular structure. The values of these geometrical parameters may be obtained from biophysical techniques, such as X-ray crystallography or nuclear magnetic resonance (NMR) spectroscopy. One of the most used methods to calculate protein structures from geometric restraints is simulated annealing. This method does not guarantee an exhaustive sampling of protein conformational space, which is a shortcoming as one protein may adopt multiple functional conformations, and it is important to determine them exhaustively. In this PhD project, the efficiency of a new method - derived from operations research and computational geometry - is studied in order to answer this question: How does this method explore the conformational spaces of small proteins? This method - implemented within the iBPprot software framework - treats protein structure determination as a distance geometry problem, which the interval branch-and-prune algorithm tries to solve by the full exploration of its solutions space. The results obtained by iBPprot on a set of test proteins, with sizes ranging from 24 to 120 residues and with known structures, are analyzed here. Using short-range exact distance restraints, it was possible to rebuild the structure of all protein targets, and for many of them it was possible to exhaustively explore their conformational spaces. In practice, it is not always possible to obtain exact distance restraints from experiments. Therefore, this method was then tested with interval data restraints. In these cases, iBPprot permitted the sampling of the positions of more than 70% of the atoms constituting the protein backbone for most of the targets. Furthermore, conformations whose r.m.s. deviations closer than 6 Angstrom to the target ones were obtained during the conformational space exploration. The quality of the generated structures was satisfactory with respect to Ramachandran plots, but needs improvement because of the presence of steric clashes in some conformers. The runtime for most performed calculations was competitive with existing structure determination method... Bioinformatique structurale Géométrie de distance Interval Branch-and-Prune Résonance magnétique nucléaire Espace conformationnel des protéines Structure des protéines Optimisation globale Échantillonnage exhaustif Distance geometry Interval Branch-and-Prune Protein structure calculation 570.15
5	New computational approaches for investigating the impact of mutations on the transglucosylation activity of sucrose phosphorylase enzyme / Nouvelles approches bioinformatiques pour étudier l'impact des mutations sur l'activité de transglucosylation d'une sucrose phosphorylase Velusamy, Mahesh 18 December 2018 (has links) Comprendre comment les mutations impactent l’activité d’une protéine reste un défi dans le domaine des sciences protéiques. Les méthodes biochimiques traditionnellement utilisées pour résoudre ce type de questionnement sont très puissantes mais sont laborieuses à mettre en œuvre. Des approches bioinformatiques ont été développées à cet égard pour surmonter ces contraintes. Dans cette thèse, nous explorons l'utilisation d'approches bioinformatiques pour comprendre le lien entre mutations et changements d'activité. Notre modèle d'étude est une enzyme bactérienne, la sucrose phosphorylase de Bifidobacterium adolescentis (BaSP). Cette glycosyl-hydrolase de la famille 13 (GH13) suscite l’intérêt de l'industrie en raison de sa capacité à synthétiser des disaccharides et des glycoconjugués originaux. Son activité consiste à transférer un glucose d'un donneur, le saccharose, à un accepteur qui peut être un monosaccharide ou un aglycone hydroxylé. La réaction enzymatique se déroule selon un mécanisme dit « double déplacement avec rétention de configuration », ce qui nécessite la formation d'un intermédiaire covalent dit glucosyl-enzyme. Cependant, la possibilité de contrôler la régiosélectivité de ce transfert pour qu'il soit applicable au niveau industriel est un enjeumajeur. Cette thèse vise d’une part, à fournir une explication rationnelle quant aux modifications de la régiosélectivité de BaSP apportées par des mutations et d’autre part à proposer un canevas pour le contrôle de la régiosélectivité de couplage en vue de la synthèse de disaccharides pré-biotiques rares comme le kojibiose et le nigerose. Dans notre approche, nous avons émis l'hypothèse que les orientations préférées de l'accepteur dans le site catalytique après formation du glycosyl-enzyme déterminent la régiosélectivité de l'enzyme. Nous avons utilisé des approches computationnelles pour étudier l'impact des mutations sur la liaison de l'accepteur à l'intermédiaire covalent, le glucosylenzyme. À cette fin, nous avons construit des modèles à l’échelle atomique du glucosyl-enzyme pour un ensemble de variants de la BaSP pour lesquels des données expérimentales étaient disponibles. Pour y parvenir, nous avons paramétré le glucosyl-aspartyle en tant que nouveau résidu et les avons intégré dans des outils de modélisation tels que Modeller et Gromacs. Nous avons évalué la pertinence de ces paramètres et les avons ensuite appliqués à la vérification de notre hypothèse de travail par le biais d’expériences d'ancrage moléculaire. La méthodologie utilisée dans ce travail ouvre la perspective de l'utilisation d'approches bioinformatiques pour l'ingénierie de la régiosélectivité de la sucrose phosphorylase et plus généralement des glycosylhydrolases possédant un mécanisme similaire. À cet égard, un pipeline de modélisation moléculaire et d'amarrage de molécules accepteurs sur des intermédiaires covalents des enzymes de cette famille (ENZO pour Optimisation d’ENZyme) a été développé au cours de cette thèse. Son application à l’ingénierie d’autres variants de BaSP est en cours. / In this thesis, we explore the usage of computational approaches for understanding the link between mutations and changes in protein activity. Our study model is a bacterial sucrose phosphorylase enzyme from Bifidobacterium adolescentis (BaSP). This glycosyl hydrolase from family 13 (GH13) has been a focus in the industry due to its ability to synthesize original disaccharides and glycoconjugates. In fact, its activity is to transfer a glucose moiety from a donor sucrose to an acceptor which can be a monosaccharide or a hydroxylated aglycone. The enzymatic reaction proceeds by a double displacement with retention of configuration mechanism whereby a covalent glucosyl-enzyme intermediate is formed. However, it is at stake to control the regioselectivity of this transfer for it to be applicable at industrial level. This thesis aimed at providing a rational explanation for the observed impact of mutations on the regioselectivity of BaSP in view of controlling the synthesis of rare pre-biotic disaccharides like kojibiose and nigerose. We hypothesized that the preferred orientations of the acceptor determines the regioselectivity of the enzyme. In that respect, we used computational approaches to investigate the impact of mutations on the binding of the acceptor to the glucosyl-enzyme intermediate. The methodology used in this work opens the perspective of using computational approaches for engineering the regioselectivity of of glycosyl hydrolases with similar mechanism. Bioinformatique structurale Glycoenzymologie Sucrose phosphorylase Synthèse de pré-Biotiques Ingénierie enzymatique Glycosyl hydrolase Structural bioinformatics Glycoenzymology Sucrose phosphorylase Pre-Biotics synthesis Enzyme engineering Glycosyl hydrolase 004
6	Extraction de Connaissances pour la Modelisation tri-dimensionnelle de l'Interactome Structural Ghoorah, Anisah 22 November 2012 (has links) (PDF) L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK. Le système KBDOCK couvre plus de 2,700 hetero DDIs non-redondantes correspondant à 1,439 DFBSs localisés sur 947 domaines Pfam distincts. KBDOCK a permis de réaliser plusieurs études étendues. Par exemple, KBDOCK a été utilisé pour montrer que: (1) après de 70% de familles de domaines protéiques n'ont qu'un seul DFBS et les autres familles en ont un petit nombre seulement, ce qui suggère que les DDIs re-utilisent souvent les mêmes sites de liaison; (2) plus de 80% de DFBSs interagissent avec une seule famille de domaines protéiques et les autres DFBSs interagissent avec un petit nombre de familles, ce qui indique que la plupart des DFBSs sont principalement monogames dans leur interactions avec les autres domaines protéiques; (3) les DFBSs impliqués dans des interactions présentent des régularités en terme de structure secondaire, ce qui pourrait servir comme un descripteur complémentaire dans la prédiction d'interaction; (4) lorsque les domaines re-utilisent leur DFBS, le docking orienté vient améliorer les prédictions. Ainsi, KBDOCK constitue une ressource unifiée qui permet d'enrichir les connaissances sur l'interactome structural. fouille de données classification base de données relationnelle programmation logique bioinformatique structurale interaction protéine-protéine protein docking KBDOCK
7	Extraction de connaissances pour la modélisation tri-dimensionnelle de l'interactome structural / Knowledge-based approaches for modelling the 3D structural interactome Ghoorah, Anisah W. 22 November 2012 (has links) L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCK / Understanding how the protein interactome works at a structural level could provide useful insights into the mechanisms of diseases. Comparative homology modelling and ab initio protein docking are two computational methods for modelling the three-dimensional (3D) structures of protein-protein interactions (PPIs). Previous studies have shown that both methods give significantly better predictions when they incorporate experimental PPI information. However, in general, PPI information is often not available in an easily accessible way, and cannot be re-used by 3D PPI modelling algorithms. Hence, there is currently a need to develop a reliable framework to facilitate the reuse of PPI data. This thesis presents a systematic knowledge-based approach for representing, describing and manipulating 3D interactions to study PPIs on a large scale and to facilitate knowledge-based modelling of protein-protein complexes. The main contributions of this thesis are: (1) it describes an integrated database of non-redundant 3D hetero domain interactions; (2) it presents a novel method of describing and clustering DDIs according to the spatial orientations of the binding partners, thus introducing the notion of "domain family-level binding sites" (DFBS); (3) it proposes a structural classification of DFBSs similar to the CATH classification of protein folds, and it presents a study of secondary structure propensities of DFBSs and interaction preferences; (4) it introduces a systematic case-base reasoning approach to model on a large scale the 3D structures of protein complexes from existing structural DDIs. All these contributions have been made publicly available through a web server (http://kbdock.loria.fr) Fouille de données Classification Base de données relationnelle Programmation logique Bioinformatique structurale Interaction protéine-protéine Protein docking KBDOCK Knowledge discovery in databases (KDD) Data mining Classification Relational database Logic programming Structural bioinformatics Protein-protein interactions Protein docking KBDOCK 005.756 005.74

1

Page generated in 0.1162 seconds