• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 150
  • 72
  • 48
  • Tagged with
  • 285
  • 285
  • 232
  • 190
  • 135
  • 131
  • 123
  • 90
  • 83
  • 82
  • 71
  • 71
  • 67
  • 66
  • 66
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

Identification de gènes impliqués dans les ataxies épisodiques par combinaison de séquençages génomique et transcriptomique

Audet, Sébastien 12 1900 (has links)
Cette étude pilote vise à développer une méthode d'analyse intégrative qui permet d'augmenter le taux de réussite du diagnostic clinique des mutations génétiques rares. De plus, l'identification de nouveaux gènes associés à l'ataxie épisodique (EA) et l'évaluation de nouveaux algorithmes de prédiction, pour un examen de variants plus robuste, découleront de l'enquête. Caractérisé par une perte sporadique de la coordination des mouvements volontaires, l'EA se manifeste généralement tardivement, avec une hétérogénéité clinique et génétique élevée, compliquant largement l’obtention d’un diagnostic précis. Alors que quatre gènes ont été liés aux huit sous-types d'EA, de nombreux patients demeurent sans diagnostic moléculaire dû aux limites des méthodes de séquençage d’ADN. Ces lacunes accentuent l’intérêt d’implanter le séquençage de l’ARN en milieu clinique, afin d’obtenir l’information fonctionnelle offerte par l’approche. Des patients atteints d’EA, sans diagnostic moléculaire malgré un examen approfondi, ont été recrutés à Montréal. Le séquençage du génome entier (WGS) et de l'ARN a été effectué sur des échantillons de sang pour identifier les variants nucléotidiques, l'expression différentielle, les événements d'épissage ainsi que les expansions de microsatellites. Plusieurs algorithmes de prédiction de la pathogénicité récents ont été choisis pour être testés parallèlement aux algorithmes standard. Des données WGS provenant d’un trio familial atteint de pathologies neurologiques ont également été soumises au pipeline génomique développé pour la cohorte EA. Des variants candidats ont été identifiés pour chaque patient en fonction des scores de pathogénicité, de la rareté des événements génétiques et des informations fonctionnelles et cliniques connues pour un gène altéré donné. Parmi les découvertes figurent des mutations non-sens, des faux-sens, de l'épissage alternatif ainsi que des expansions nucléotidiques dans des gènes associés aux ataxies spinocérébelleuses ou aux paraplégies spastiques. En plus d'être présents dans les ensembles de données de séquençage disponibles pour chaque patient, les événements génomiques ont été vérifiés par séquençage Sanger de l'ADN et de l'ARN lorsque possible. Les effets fonctionnels potentiels, prédits principalement à partir du RNA-seq et suggérant une expression anormale de l'ARNm, ont également été évalués par amplification PCR et qPCR traditionnelle. À ce jour, quatre des dix patients ont reçu ou sont en voie de recevoir un diagnostic clinique, et quatre autres présentent d’excellents candidats moléculaires pour expliquer une pathologie ataxique. Ce projet devrait permettre un diagnostic mieux défini, conduisant à une meilleure qualité de vie, une meilleure évaluation du pronostic et une meilleure prise en charge des patients. L’identification de modulateurs génétiques chez certains d’entre eux devrait également permettre une meilleure caractérisation clinique des conditions rapportées, bénéficiant les évaluations symptomatiques futures. De plus, la méta-analyse des données RNA-seq offre le potentiel de découvrir des régulateurs de pathogenèse communs à l’EA. Il favorisera également l'approche intégrative pour un plus large éventail de troubles et pourrait éventuellement conduire à de nouvelles stratégies thérapeutiques. / This pilot study aims to develop an integrative analysis method that allows for an increased diagnosis success rate of rare genetic mutations. Moreover, identification of novel genes associated with Episodic Ataxia (EA) and evaluation of new AI-generated prediction algorithms, for a more robust variant examination, will ensue from the investigation. Characterized by sporadic loss of voluntary movement coordination, EA typically manifest with a late onset as well as high-clinical and genetic heterogeneity, setting additional hurdles to diagnosis. While four genes have been linked to the eight subtypes of EA, many patients are left without molecular diagnosis due to the limitations of individual DNA-sequencing methods, which can be mitigated by the functional overview that RNA sequencing (RNA-seq) offers. EA patients, lacking molecular diagnosis despite in-depth examination, were recruited in Montreal. Whole-Genome sequencing (WGS) and RNA-seq were performed on blood samples to identify single nucleotide variants, differential expression, splicing events, structural variants and repeat expansions. Multiple recent pathogenicity prediction algorithms were chosen for testing concurrently to standard ones, in order to evaluate their performance and potential for clinical pipelines integration. WGS data of a family trio from France, in which the father and the daughter present neurologic pathologies, were also processed through the genomic pipeline that was developed for the EA cohort in order to identify the cause of their disorder. Candidate variants were identified for each patient according to pathogenicity scores, rarity of genetic events, and known functional as well as clinical information for a given altered gene. Among the findings are truncations, missenses, alternative splicing, and repeat expansions in genes already associated to either spinocerebellar ataxia or spastic paraplegia. In addition to being present in both datasets when available, validation of these interesting genomic events has been performed through Sanger Sequencing of both DNA and RNA when feasible. For strong candidates where the available functional information from RNA-seq suggests abnormal mRNA expression, validation includes PCR amplification as well as a traditional qPCR to support effects on transcripts. To this day, four out of ten patients have received or are on the verge of receiving a diagnosis, and four others are carrying excellent molecular candidates requiring further validation to explain their ataxic pathologies. This project should provide more defined diagnosis, leading to better quality of life, better evaluation of prognosis and better management of care for patients. Identification of genetic modifier in some of them should also allow for a better clinical characterization of the reported conditions, benefiting future patient examinations. A meta-analysis of our patients’ transcriptomic profiles could also uncover commonly affected pathways in EA development. It will also promote the integrative approach for a larger spectrum of disorders and might eventually lead to new therapeutic strategies.
202

Fouille de Sous-graphes Basée sur la Topologie et la Connaissance du Domaine: Application sur les Structures 3D de Protéines

Dhifli, Wajdi 11 December 2013 (has links) (PDF)
Cette thèse est à l'intersection de deux domaines de recherche en plein expansion, à savoir la fouille de données et la bio-informatique. Avec l'émergence des bases de graphes au cours des dernières années, de nombreux efforts ont été consacrés à la fouille des sous-graphes fréquents. Mais le nombre de sous-graphes fréquents découverts est exponentiel, cela est due principalement à la nature combinatoire des graphes. Beaucoup de sous-graphes fréquents ne sont pas pertinents parce qu'ils sont redondants ou tout simplement inutiles pour l'utilisateur. En outre, leur nombre élevé peut nuire ou même rendre parfois irréalisable toute utilisation ultérieure. La redondance dans les sous-graphes fréquents est principalement due à la similarité structurelle et / ou sémantique, puisque la plupart des sous-graphes découverts diffèrent légèrement dans leur structures et peuvent exprimer des significations similaires ou même identiques. Dans cette thèse, nous proposons deux approches de sélection des sous-graphes représentatifs parmi les fréquents a n d'éliminer la redondance. Chacune des approches proposées s'intéresse à un type spécifique de redondance. La première approche s'adresse à la redondance sémantique où la similarité entre les sous-graphes est mesurée en fonction de la similarité entre les étiquettes de leurs nœuds, en utilisant les connaissances de domaine. La deuxième approche s'adresse à la redondance structurelle où les sous-graphes sont représentés par des descripteurs topologiques définis par l'utilisateur, et la similarité entre les sous-graphes est mesurée en fonction de la distance entre leurs descriptions topologiques respectives. Les principales données d'application de cette thèse sont les structures 3D des protéines. Ce choix repose sur des raisons biologiques et informatiques. D'un point de vue biologique, les protéines jouent un rôle crucial dans presque tous les processus biologiques. Ils sont responsables d'une variété de fonctions physiologiques. D'un point de vue informatique, nous sommes intéressés à la fouille de données complexes. Les protéines sont un exemple parfait de ces données car elles sont faites de structures complexes composées d'acides aminés interconnectés qui sont eux-mêmes composées d'atomes interconnectés. Des grandes quantités de structures protéiques sont actuellement disponibles dans les bases de données en ligne. Les structures 3D des protéines peuvent être transformées en graphes où les acides aminés représentent les nœuds du graphe et leurs connexions représentent les arêtes. Cela permet d'utiliser des techniques de fouille de graphes pour les étudier. L'importance biologique des protéines et leur complexité ont fait d'elles des données d'application appropriées pour cette thèse.
203

Exploration de la reconnaissance de la courbure membranaire par le motif ALPS

Vamparys, Lydie 13 November 2013 (has links) (PDF)
Certains processus biologiques tels que le transport vésiculaire sont régulés par des motifs qui guident les protéines vers les membranes courbées. L'un d'entre eux est le motif ALPS (Amphipathic Lipid Packing Sensor) qui reconnaît les défauts de packing provoqués par la courbure convexe de la membrane. Dans ce travail, nous combinons des simulations de dynamique moléculaire (DM) et des expériences de dichroïsme circulaire (CD) pour comprendre ce phénomène à l'échelle moléculaire. Les simulations de DM nous ont permis de caractériser et de quantifier les défauts de packing entre les lipides. Nous montrons que les défauts de packing provoqués par la courbure membranaire sont similaires à ceux provoqués par l'introduction de lipides coniques dans une bicouche plate composée de lipides cylindriques. En examinant l'interaction du motif ALPS avec une membrane contenant de tels défauts, nous montrons que l'insertion précoce de ce motif à la membrane est guidée par l'insertion de ses gros résidus hydrophobes dans des défauts pré-existants. Les expériences de CD et les simulations de DM avec échanges de répliques indiquent que les défauts facilitent le repliement du motif ALPS en une hélice alpha partielle. Enfin, les expériences de CD nous ont permis d'explorer la thermodynamique d'insertion du motif ALPS en fonction de la composition lipidique. Notre travail suggère que la composition de séquence particulière du motif ALPS ainsi que son faible taux d'hélicité jouent un rôle dans la reconnaissance des défauts de packing, donc de la courbure.
204

Études de réseaux d’expression génique : utilité pour l’élucidation des déterminants génétiques des traits complexes

Scott-Boyer, Marie Pier 04 1900 (has links)
Les traits quantitatifs complexes sont des caractéristiques mesurables d’organismes vivants qui résultent de l’interaction entre plusieurs gènes et facteurs environnementaux. Les locus génétiques liés à un caractère complexe sont appelés «locus de traits quantitatifs » (QTL). Récemment, en considérant les niveaux d’expression tissulaire de milliers de gènes comme des traits quantitatifs, il est devenu possible de détecter des «QTLs d’expression» (eQTL). Alors que ces derniers ont été considérés comme des phénotypes intermédiaires permettant de mieux comprendre l’architecture biologique des traits complexes, la majorité des études visent encore à identifier une mutation causale dans un seul gène. Cette approche ne peut remporter du succès que dans les situations où le gène incriminé a un effet majeur sur le trait complexe, et ne permet donc pas d’élucider les situations où les traits complexes résultent d’interactions entre divers gènes. Cette thèse propose une approche plus globale pour : 1) tenir compte des multiples interactions possibles entre gènes pour la détection de eQTLs et 2) considérer comment des polymorphismes affectant l’expression de plusieurs gènes au sein de groupes de co-expression pourraient contribuer à des caractères quantitatifs complexes. Nos contributions sont les suivantes : Nous avons développé un outil informatique utilisant des méthodes d’analyse multivariées pour détecter des eQTLs et avons montré que cet outil augmente la sensibilité de détection d’une classe particulière de eQTLs. Sur la base d’analyses de données d’expression de gènes dans des tissus de souris recombinantes consanguines, nous avons montré que certains polymorphismes peuvent affecter l’expression de plusieurs gènes au sein de domaines géniques de co-expression. En combinant des études de détection de eQTLs avec des techniques d’analyse de réseaux de co-expression de gènes dans des souches de souris recombinantes consanguines, nous avons montré qu’un locus génétique pouvait être lié à la fois à l’expression de plusieurs gènes au niveau d’un domaine génique de co-expression et à un trait complexe particulier (c.-à-d. la masse du ventricule cardiaque gauche). Au total, nos études nous ont permis de détecter plusieurs mécanismes par lesquels des polymorphismes génétiques peuvent être liés à l’expression de plusieurs gènes, ces derniers pouvant eux-mêmes être liés à des traits quantitatifs complexes. / Complex quantitative traits are measurable characteristics of living organisms resulting from the interaction between multiple genes and environmental factors. Genetic loci associated with complex trait are called "quantitative trait loci" (QTL). Recently, considering the expression levels of thousands of genes as quantitative traits, it has become possible to detect "expression QTLs " (eQTL). These eQTL are considered intermediate phenotypes and are used to better understand the biological architecture of complex traits. However the majority of studies still try to identify a causal mutation in a single gene. This approach can only meet success in situations where the gene incriminate as a major effect on the complex trait, and therefore can not elucidate the situations where complex traits result from interactions between various genes. This thesis proposes a more comprehensive approach to: 1) take into account the possible interactions between multiple genes for the detection of eQTLs and 2) consider how polymorphisms affecting the expression of several genes in a module of co-expression may contribute to quantitative complex traits. Our contributions are as follows: We have developed a tool using multivariate analysis techniques to detect eQTLs, and have shown that this tool increases the sensitivity of detection of a particular class of eQTLs. Based on the data analysis of gene expression in recombinant inbred strains mice tissues, we have shown that some polymorphisms may affect the expression of several genes in domain of co-expression. Combining eQTLs detection studies with network of co-expression genes analysis in recombinant inbred strains mice, we showed that a genetic locus could be linked to both the expression of multiple genes at a domain of gene co-expression and a specific complex trait (i.e. left ventricular mass). Our studies have detected several mechanisms by which genetic polymorphisms may be associated with the expression of several genes, and may themselves be linked to quantitative complex traits.
205

Algorithmes bio-informatiques pour l'analyse de données de séquençage à haut débit

Kopylova, Evguenia 11 December 2013 (has links) (PDF)
Nucleotide sequence alignment is a method used to identify regions of similarity between organisms at the genomic level. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies against a reference database. Particularly, we direct our attention toward the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions and error rates vary between 1-15%. Second, metagenomic samples can contain thousands of unknown organisms and the only means of identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data.
206

Designing scientific workflows following a structure and provenance-aware strategy

Chen, Jiuqiang 11 October 2013 (has links) (PDF)
Les systèmes de workflows disposent de modules de gestion de provenance qui collectent les informations relatives aux exécutions (données consommées et produites) permettant d'assurer la reproductibilité d'une expérience. Pour plusieurs raisons, la complexité de la structure du workflow et de ses d'exécutions est en augmentation, rendant la réutilisation de workflows plus difficile. L'objectif global de cette thèse est d'améliorer la réutilisation des workflows en fournissant des stratégies pour réduire la complexité des structures de workflow tout en préservant la provenance. Deux stratégies sont introduites. Tout d'abord, nous introduisons SPFlow un algorithme de réécriture de workflow scientifique préservant la provenance et transformant tout graphe acyclique orienté (DAG) en une structure plus simple, série-parallèle (SP). Ces structures permettent la conception d'algorithmes polynomiaux pour effectuer des opérations complexes sur les workflows (par exemple, leur comparaison) alors que ces mêmes opérations sont associées à des problèmes NP-difficile pour des structures générales de DAG. Deuxièmement, nous proposons une technique capable de réduire la redondance présente dans les workflow en détectant et supprimant des motifs responsables de cette redondance, nommés "anti-patterns". Nous avons conçu l'algorithme DistillFlow capable de transformer un workflow en un workflow sémantiquement équivalent "distillé", possédant une structure plus concise et dans laquelle on retire autant que possible les anti-patterns. Nos solutions (SPFlow et DistillFlow) ont été testées systématiquement sur de grandes collections de workflows réels, en particulier avec le système Taverna. Nos outils sont disponibles à l'adresse: https://www.lri.fr/~chenj/.
207

Application des méthodes à noyaux sur graphes pour la prédiction des propriétés des molécules.

Gaüzère, Benoit 29 November 2013 (has links) (PDF)
Cette thèse s'intéresse à l'application des méthodes à noyaux sur graphes pour la prédiction de propriétés moléculaires. Dans ce manuscrit, nous présentons un état de l'art des méthodes à noyaux sur graphes définies dans le cadre de la chémoinformatique et plus particulièrement les noyaux sur graphes basés sur les sacs de motifs. Dans ce cadre, nous proposons un nouveau noyau sur graphes basé sur un ensemble explicite de sous-arbres, appelés treelets, permettant d'encoder une grande partie de l'information structurelle acyclique des graphes moléculaires. Nous proposons également de combiner ce noyau avec des méthodes d'apprentissage à noyaux multiples afin d'extraire un ensemble de motifs pertinents. Cette contribution est ensuite étendue en incluant l'information cyclique encodée par deux représentations moléculaires définies par le graphe de cycles pertinents et l'hypergraphe de cycles pertinents. Le graphe des cycles pertinents permet d'encoder le système cyclique d'une molécule. L'hypergraphe de cycles pertinents correspond à une nouvelle représentation moléculaire permettant d'encoder à la fois le système cyclique d'une molécule ainsi que les relations d'adjacence entre les cycles et les parties acycliques. Nous proposons également deux noyaux sur graphes utilisant ces représentations. Enfin, la dernière partie vise à définir des noyaux sur graphes pour la chémoinformatique basés sur la distance d'édition. Un premier noyau est basé sur un opérateur de régularisation utilisant la distance d'édition entre graphes moléculaires. Le second noyau introduit la comparaison de treelets dissimilaires basée sur un algorithme de calcul de la distance d'édition entre treelets.
208

Études de réseaux d’expression génique : utilité pour l’élucidation des déterminants génétiques des traits complexes

Scott-Boyer, Marie Pier 04 1900 (has links)
Les traits quantitatifs complexes sont des caractéristiques mesurables d’organismes vivants qui résultent de l’interaction entre plusieurs gènes et facteurs environnementaux. Les locus génétiques liés à un caractère complexe sont appelés «locus de traits quantitatifs » (QTL). Récemment, en considérant les niveaux d’expression tissulaire de milliers de gènes comme des traits quantitatifs, il est devenu possible de détecter des «QTLs d’expression» (eQTL). Alors que ces derniers ont été considérés comme des phénotypes intermédiaires permettant de mieux comprendre l’architecture biologique des traits complexes, la majorité des études visent encore à identifier une mutation causale dans un seul gène. Cette approche ne peut remporter du succès que dans les situations où le gène incriminé a un effet majeur sur le trait complexe, et ne permet donc pas d’élucider les situations où les traits complexes résultent d’interactions entre divers gènes. Cette thèse propose une approche plus globale pour : 1) tenir compte des multiples interactions possibles entre gènes pour la détection de eQTLs et 2) considérer comment des polymorphismes affectant l’expression de plusieurs gènes au sein de groupes de co-expression pourraient contribuer à des caractères quantitatifs complexes. Nos contributions sont les suivantes : Nous avons développé un outil informatique utilisant des méthodes d’analyse multivariées pour détecter des eQTLs et avons montré que cet outil augmente la sensibilité de détection d’une classe particulière de eQTLs. Sur la base d’analyses de données d’expression de gènes dans des tissus de souris recombinantes consanguines, nous avons montré que certains polymorphismes peuvent affecter l’expression de plusieurs gènes au sein de domaines géniques de co-expression. En combinant des études de détection de eQTLs avec des techniques d’analyse de réseaux de co-expression de gènes dans des souches de souris recombinantes consanguines, nous avons montré qu’un locus génétique pouvait être lié à la fois à l’expression de plusieurs gènes au niveau d’un domaine génique de co-expression et à un trait complexe particulier (c.-à-d. la masse du ventricule cardiaque gauche). Au total, nos études nous ont permis de détecter plusieurs mécanismes par lesquels des polymorphismes génétiques peuvent être liés à l’expression de plusieurs gènes, ces derniers pouvant eux-mêmes être liés à des traits quantitatifs complexes. / Complex quantitative traits are measurable characteristics of living organisms resulting from the interaction between multiple genes and environmental factors. Genetic loci associated with complex trait are called "quantitative trait loci" (QTL). Recently, considering the expression levels of thousands of genes as quantitative traits, it has become possible to detect "expression QTLs " (eQTL). These eQTL are considered intermediate phenotypes and are used to better understand the biological architecture of complex traits. However the majority of studies still try to identify a causal mutation in a single gene. This approach can only meet success in situations where the gene incriminate as a major effect on the complex trait, and therefore can not elucidate the situations where complex traits result from interactions between various genes. This thesis proposes a more comprehensive approach to: 1) take into account the possible interactions between multiple genes for the detection of eQTLs and 2) consider how polymorphisms affecting the expression of several genes in a module of co-expression may contribute to quantitative complex traits. Our contributions are as follows: We have developed a tool using multivariate analysis techniques to detect eQTLs, and have shown that this tool increases the sensitivity of detection of a particular class of eQTLs. Based on the data analysis of gene expression in recombinant inbred strains mice tissues, we have shown that some polymorphisms may affect the expression of several genes in domain of co-expression. Combining eQTLs detection studies with network of co-expression genes analysis in recombinant inbred strains mice, we showed that a genetic locus could be linked to both the expression of multiple genes at a domain of gene co-expression and a specific complex trait (i.e. left ventricular mass). Our studies have detected several mechanisms by which genetic polymorphisms may be associated with the expression of several genes, and may themselves be linked to quantitative complex traits.
209

Couplage de modèles population et individu-centrés pour la simulation parallélisée des systèmes biologiques : application à la coagulation du sang

Crépin, Laurent 28 October 2013 (has links) (PDF)
Plusieurs types d'expérimentation existent pour étudier et comprendre les systèmes biologiques. Dans ces travaux, nous nous intéressons à la simulation in silico, c'est-à-dire à la simulation numérique de modèles sur un ordinateur. Les systèmes biologiques sont composés d'entités, à la fois nombreuses et variées, en interaction les unes avec les autres. Ainsi, ils peuvent être modélisés par l'intermédiaire de deux approches complémentaires : l'approche population-centrée et l'approche individu-centrée. Face à la multitude et à la variété des phénomènes composant les systèmes biologiques, il nous semble pertinent de coupler ces deux approches pour obtenir une modélisation mixte. En outre, en raison de la quantité conséquente d'informations que représente l'ensemble des entités et des interactions à modéliser, la simulation numérique des systèmes biologiques est particulièrement coûteuse en temps de calcul informatique. Ainsi, dans ce mémoire, nous proposons des solutions techniques de parallélisation permettant d'exploiter au mieux les performances offertes par les architectures multicoeur et multiprocesseur et les architectures graphiques pour la simulation de systèmes biologiques à base de modélisations mixtes. Nous appliquons nos travaux au domaine de la coagulation du sang et plus particulièrement à l'étude de la cinétique biochimique à l'échelle microscopique ainsi qu'à la simulation d'un vaisseau sanguin virtuel. Ces deux applications nous permettent d'évaluer les performances offertes par les solutions techniques de parallélisation que nous proposons, ainsi que leur pertinence dans le cadre de la simulation des systèmes biologiques.
210

Utilisation de la tessellation de Voronoï pour l'étude des complexes protéine-protéine

Bernauer, Julie 07 April 2006 (has links) (PDF)
La fonction d'une protéine est souvent subordonnée à l'interaction avec un certain nombre de partenaires. L'étude de la structure tridimensionnelle de ces complexes, qui ne peut souvent se faire expérimentalement, permettrait la compréhension de nombreux processus cellulaires. Le travail présenté ici se compose de deux parties. La première traite de la mise en place d'une fonction de score pour l'amarrage protéine-protéine et la deuxième de l'étude cristallographique d'une protéine tétramérique qui est une cible antibiotique potentielle : la thymidylate synthase X de Paramecium bursaria Chlorella virus. La modélisation des complexes protéine-protéine ou docking comporte deux étapes successives : d'abord, un grand nombre de conformations sont générées, puis une fonction de score est utilisée pour les classer. Cette fonction de score doit prendre en compte à la fois la complémentarité géométrique des deux molécules et les propriétés physico-chimiques des surfaces en interaction. Nous nous sommes intéressés à la seconde étape à travers le développement d'une fonction de score rapide et fiable. Ceci est possible grâce à la tessellation de Voronoï de la structure tridimensionnelle des protéines. En effet, les tessellations de Voronoï ou de Laguerre se sont avérées être de bons modèles mathématiques de la structure des protéines. En particulier, cette formalisation permet de faire une bonne description de l'empilement et des propriétés structurales des résidus. Cette modélisation rend compte l'empilement des résidus à l'interface entre deux protéines. Ainsi, il est possible de mesurer un ensemble de paramètres sur des complexes protéine-protéine dont la structure est connue expérimentalement et sur des complexes leurres générés artificiel- lement. Ces paramètres, sont la fréquence d'apparition des résidus ou des paires de résidus, les volumes des cellules de Voronoï, les distances entre les résidus en contact à l'interface, la surface de l'interface et le nombre de résidus à l'interface. Ils ont été utilisés en entrée de procédures d'apprentissage statistique. Grâce à ces procédures (apprentissage logistique, séparateurs à vaste marge (SVM) et algorithmes génétiques), on peut obtenir des fonctions de score efficaces, ca- pables de séparer les leurres des structures réelles. Dans un deuxième temps, j'ai déterminé expérimentalement la structure de la thymidylate synthase X, cible antibiotique de choix. La thymidylate synthase X est une flavoprotéine qui a été découverte récemment. Elle intervient dans la synthèse du dTMP chez la plupart des procaryotes mais n'existe pas chez les eucaryotes supérieurs. Cette protéine catalyse le transfert de methyle du tétrahydrofolate vers le dUMP grâce à son cofacteur le FAD et au NADPH qui intervient comme substrat. La structure tridimensionnelle de l'homotétramère de la thymidylate synthase X en présence de son cofacteur, le FAD, a été résolue à 2.4 Å par remplacement moléculaire. Comme pour les structures de thymidylate synthase X de Thermotoga maritima et de Mycobacterium tuberculosis précédemment résolues, le monomère se compose d'un coeur de feuillets β et de deux hélices α à son extrémité. Le site actif se trouve à l'interface de trois monomères, la partie isoalloxazine du FAD étant accessible au solvant et proche d'une longue boucle flexible. La fixation du FAD dans cette structure est légèrement différente de celles déjà observées par la conformation de la partie adénine. Cette structure, associée aux études de mutagénèse dirigée de nos collaborateurs, a permis de mettre évidence des résidus jouant un rôle majeur lors de la catalyse.

Page generated in 0.0985 seconds