Spelling suggestions: "subject:"́bioinformatics"" "subject:"́bioinformatic""
181 |
Conséquences du contexte haplotypique sur la fonctionnalité des protéines : application à la mucoviscidose / Consequences of the haplotype context on protein function : application to cystic fibrosisCuppens, Tania 07 May 2019 (has links)
Notre génome contient des centaines de milliers de variants génétiques, qui pour la plupart, n’ont aucun impact sur notre santé. Après séquençage, il faut les filtrer pour ne conserver que ceux qui sont potentiellement impliquées dans une maladie. On utilise des annotateurs qui prédisent l’impact des variants. Ces prédictions sont faites sans tenir compte des variants en cis dans le même gène. Pourtant, des variants neutres peuvent, lorsqu’ils sont réunis chez un individu, devenir délétères. J’ai donc développé l’outil bioinformatique GEMPROT qui permet de visualiser l’effet des variants génétiques sur la séquence protéique et de mettre en évidence les combinaisons de variants touchant un même domaine fonctionnel.J’ai ensuite étudié l’impact de deux variants associés à la p.Phe508del (508del) sur la protéine CFTR.Le variant p.Val470M est présent sur tous les haplotypes portant la délétion mais pas sur la séquence de référence, qui est généralement utilisée pour la construction de plasmides. Nous avons montré des différences de fonction de la protéine CFTR selon l’acide aminé en position 470. La fonction est augmentée avec une Valine et il convient donc de s’assurer, lors de la construction de plasmides, que le contexte haplotypique des variants étudiés est bien respecté. Le variant p.Ile1027Thr conduit à une dégradation de la fonction de la protéine 508del.Ce variant n’est présent que sur une partie des haplotypes 508del et pourrait donc avoir un effet modificateur de l’expression de la délétion. En conclusion, nous montrons l’importance de la prise en compte des contextes haplotypiques dans l’étude des maladies et proposons un outil bioinformatique pour le faire. / We all carry hundreds of thousands genetic variations in our genome that, for the most of them, have no impact on our health. After sequencing, they must be filtered to only retain those potentially involved in a disease. We use annotators that predict the impact of variants.These predictions are done for each variant taken independently without considering cis variants in the same gene. However, neutral variants can become deleterious when associated together. I have developed the bioinformatics tool GEMPROT, which makes it possible to visualize the effect of genetic variants on the protein sequence and to highlight combinations of variants affecting the same functional domain.I then studied the impact of two variants associated with p.Phe508del (508del) on CFTR protein function.The variant p.Val470M is present on all carrying deletion haplotypes but not on the reference sequence, which is generally used for the construction of plasmids. We have shown differences in the function of the mutated CFTR protein 508del according to the amino acid at position 470. The function is increased with a Valine and it is therefore necessary to ensure, when constructing plasmids, that the haplotype context of the studied variants is well respected.The variant p.Ile1027Thr leads to a degradation of the function of the 508del protein. This variant is present only on a portion of the 508del haplotypes and could therefore have a modifying effect on deletion expression. In conclusion, we show the importance of considering haplotype contexts in the diseases studies and propose a bioinformatics tool to do so.
|
182 |
Etude des interactions protéine-protéine et protéine-ligand par bio- et chimie-informatique structurale : Identification de petites molécules bio-activesDouguet, Dominique 19 November 2007 (has links) (PDF)
Mes recherches ont eu pour objectif de concilier deux aspects complémentaires de la bioinformatique structurale : la modélisation de la structure 3D des protéines et la modélisation des petites molécules modulatrices des premières. La connaissance de la structure tridimensionnelle des protéines est un élément déterminant pour la compréhension fine de leur mécanisme d'action et indispensable pour le développement d'approches thérapeutiques rationnelles. Ainsi, l'identification et l'analyse structurale des sites de fixation de leurs ligands (protéine ou petite molécule) permettent d'envisager la modulation de leur fonction biologique. Les interactions protéine-protéine ou protéine-ligand peuvent être prédites, par exemple, par des programmes d'amarrage (ou ‘docking').<br /> La modélisation par homologie permet d'obtenir un modèle tridimensionnel d'une protéine lorsque sa structure n'a pas été déterminée expérimentalement. Ma contribution dans ce domaine fut la réalisation du serveur @TOME avec le soutien de la GENOPOLE Languedoc-Roussillon (accessible à l'adresse http://bioserver.cbs.cnrs.fr). Ce serveur était le premier de ce type à avoir été développé en France. Le serveur @TOME rassemble et traite d'une manière automatique toutes les étapes nécessaires à la construction d'un modèle 3D d'une protéine. Cela inclut la reconnaissance du repliement, la construction des modèles protéiques et leur évaluation. Les résultats du CASP5 en 2005 (session internationale d'évaluation des méthodes de prédiction de la structure des protéines ; http://predictioncenter.llnl.gov/) ont montré que notre serveur utilisé en mode automatique propose des modèles très proches de la structure expérimentale lorsque l'identité de séquence avec la structure support est supérieure à 30%. Le serveur a été classé 26ième sur 187 groupes inscrits.<br /> Dans un second temps, mes recherches m'ont permis de réaliser une base de données de complexes protéiques co-cristallisés, base fondatrice du projet DOCKGROUND. Ce projet de grande envergure, soutenu par le NIH depuis 2005, vise à établir un système intégré et dynamique de bases de données dédié à l'étude et à la prédiction des interactions entre protéines et permettre ainsi d'améliorer nos connaissances des interactions et de développer des outils de prédiction plus fiables. Ce travail a été effectué au sein de l'équipe du Pr. Ilya Vakser à l'Université de Stony Brook, NY, USA. Dans la réalisation de cette première base de données, un ensemble de programmes collectent, classent et annotent les complexes protéiques qui ont été co-cristallisés (données sur la séquence, la fonction, le repliement 3D, les particularités telles qu'une fixation à de l'ADN, ...). Ensuite, j'ai mis en œuvre une sélection dynamique des représentants des complexes contenus dans cette base. Les représentants sont essentiels pour éviter une surreprésentation de certaines familles de protéines. Cette base de donnée est accessible par Internet et est régulièrement mise à jour (http://dockground.bioinformatics.ku.edu). Le projet DOCKGROUND va être poursuivi par la réalisation de 3 autres bases de données qui s'ancreront sur la présente appelée ‘Bound-Bound'.<br /> L'objectif principal de mes travaux est d'identifier de nouveaux composés bio-actifs afin de comprendre le fonctionnement de leur cible dans un contexte biologique. Les méthodes que j'utilise se basent sur la chémoinformatique, le criblage virtuel et le de novo ‘drug design'. Dans le cadre de ce dernier, j'ai mis au point un programme propriétaire LEA3D (‘Ligand by Evolutionary Algorithm' 3D). Le programme génère des petites molécules à partir de la combinaison de fragments moléculaires issus de drogues et de molécules ‘bio' (substrats ou produits de réactions enzymatiques). Le criblage virtuel basé sur la structure protéique et le de novo ‘drug design' par LEA3D, ont été appliqués avec succès à la thymidine monophosphate kinase (TMPK) de Mycobacterium tuberculosis dans le cadre d'une collaboration avec une équipe de chimistes et de biologistes de l'Institut Pasteur. De nouvelles familles d'inhibiteurs ont été identifiées dont un inhibiteur synthétique trois fois plus affin que le substrat naturel. Plusieurs publications et une demande de brevet couvrent les résultats de ces recherches. Dans la continuité de ces travaux, je m'intéresse maintenant, plus particulièrement, à développer des stratégies de criblages de fragments (molécules de petit poids moléculaire). Il a été montré que de petites chimiothèques contenant des petites molécules polaires sont plus efficaces pour identifier des touches. Ce travail doit être réalisé conjointement avec des criblages structuraux expérimentaux comme la RMN ou la diffraction des rayons X. Ces derniers se posent comme une alternative aux tests in vitro avec pour avantage de donner une information détaillée, au niveau atomique, des interactions entre le ligand et sa cible. S'ensuit une étape d'optimisation/maturation des touches en ligands plus élaborés et plus affins par l'utilisation d'outils de chémoinformatique.
|
183 |
Contribution à l'étude de la régulation transcriptionnelle lors du cylce érythrocytaire de Plasmodium falciparum par l'analyse bioinformatique des acteurs de cette régulationBoschet, Charlotte 26 June 2006 (has links) (PDF)
Le développement érythrocytaire du parasite Plasmodium falciparum est composé de deux phases successives : une prolifération intense responsable de la maladie et une différenciation en gamétocytes responsable de la dissémination du parasite. Ce changement de statut de la cellule serait en partie dû à une expression différentielle des gènes, notamment à une régulation transcriptionnelle. Cette régulation nécessite l'interaction de deux acteurs dont la caractérisation devrait aboutir à une meilleure connaissance du développement du parasite et permettre de trouver de nouvelles voies pour combattre la maladie.<br />Après identification des promoteurs de gènes, des éléments connus chez les autres eucaryotes ainsi que des éléments dits spécifiques de Plasmodium ont été recherchés à l'aide de différents programmes bioinformatiques, puis regroupés en modules. Les différentes familles de gènes dont l'expression est cordonnée ou altérée par l'expression diminuée d'un facteur de transcription, devraient partager dans leurs promoteurs des éléments de régulation leur permettant d'être exprimées à un moment précis du développement.<br />Des facteurs se liant à l'ADN et impliqués dans la régulation transcriptionnelle ont été recherchés dans le génome du parasite. Des phases ouvertes de lecture codant des facteurs appartenant aux familles de protéines à domaine Myb, à doigt de zinc ou encore avec une architecture beta ont été identifiées et les protéines correspondantes modélisées. Le clonage et la caractérisation biochimique de trois de ces facteurs ont confirmé la pertinence de la mise en évidence informatique de ces protéines.
|
184 |
Identification des signatures génétiques de la sélection chez le chienVaysse, Amaury 16 December 2011 (has links) (PDF)
L'espèce canine est la plus ancienne espèce domestiquée, il y a environ 15.000 ans, et se compose aujourd'hui de plus de 350 races issues d'une sélection artificielle drastique et de croisements consanguins pratiqués durant les derniers siècles. Mon travail de thèse a pour objectif l'étude de la période dominée par la sélection naturelle au cours de l'évolution des canidés et la période récente de la création des races par une sélection artificielle intense. Nous avons identifié le catalogue des gènes sous sélection positive dans 10 espèces (chien, Homme, ouistiti, macaque, orang-outan, chimpanzé, souris, rat, cheval et vache) à partir de 10.730 gènes en relation d'orthologie de type 1:1. L'espèce canine présente plus de gènes sous sélection positive en commun avec les Laurasatheria et les rongeurs qu'à l'attendu. Nous avons ensuite identifié le catalogue des régions de différenciation alléliques entre races de chien à partir de données de génotypage de 170.000 SNPs de 456 chiens de 30 races, en collaboration avec l'équipe du Dr Matthew Webster (Université d'Uppsala en Suède) dans le cadre du consortium européen de génétique du chien LUPA. Ces régions sont candidates pour être les cibles de la sélection artificielle. Ce projet se poursuit actuellement afin de comparer les sélections naturelles et artificielles et de déterminer s'il existe des régions du génome qui sont constamment affectés par la sélection ; et de déterminer si l'espèce canine peut-elle être considérée comme une simulation réduite, mais accélérée de la radiation des mammifères.
|
185 |
Searching for Compact Hierarchical Structures in DNA by means of the Smallest Grammar ProblemGallé, Matthias 15 February 2011 (has links) (PDF)
Motivé par la découverte automatique de la structure hiérarchique de séquences d'ADN, nous nous intéressons au probléme classique de la recherche de la plus petite grammaire algébrique générant exactement une séquence donnée. Ce probléme NP-dur a été largement étudié pour des applications comme la compression de données, la découverte de structure et la théorie algorithmique de l'information. Nous proposons de décomposer ce probléme en deux problémes d'optimisation complémentaires. Le premier consiste á choisir les chaînes de la séquence qui seront les constituants de la grammaire finale alors que le second, que nous appelons ''analyse grammaticale minimale'', consiste á trouver une grammaire de taille minimale permettant l'analyse syntaxique de ces constituants. Nous donnons une solution polynomiale au probléme d' ''analyse grammaticale minimale'' et montrons que cette décomposition permet de définir un espace de recherche complet pour le probléme de la plus petite grammaire algébrique. Nous nous intéressons aux algorithmes praticables permettant de retourner une approximation du probléme en un temps suffisamment raisonnable pour être appliqués á de grandes séquences telles que les séquences génomiques. Nous analysons l'impact de l'utilisation de classes différentes de maximalité de répétitions pour le choix des constituants et le compromis entre l'efficacité et la taille de la grammaire finale. Nous présentons des avancées algorithmiques pour une meilleure efficacité des algorithmes hors-ligne existants, dont notamment la mise á jour incrémentale de tableaux de suffixes en cours de recodage. Enfin, la nouvelle décomposition du probléme nous permet de proposer de nouveaux algorithmes génériques permettant de trouver des grammaires 10\% plus petites que l'état de l'art. Enfin, nous nous intéressons á l'impact de ces idées sur les applications. En ce qui concerne la découverte de structures, nous étudions le nombre de grammaires minimales et montrons que ce nombre peut être exponentiel dans le pire cas. Nos expérimentations sur des jeux de séquences permettent cependant de montrer une certaine stabilité de structure au sein des grammaires minimales obtenues á partir d'un ensemble de constituants. En ce qui concerne la compression des données, nous contribuons dans chacune des trois étapes de la compression á base de grammaires. Nous définissons alors un nouvel algorithme qui optimise la taille de la chaine de bits finale au lieu de la taille de la grammaire. En l'appliquant sur les séquences d'ADN, nos expérimentations montrent que cet algorithme surpasse tout autre compresseur spécifique d'ADN á base de grammaire. Nous améliorons ce résultat en utilisant des répétitions inexactes et arrivons á améliorer les taux de compression de 25\% par rapport aux meilleurs compresseurs d'ADN á base de grammaire. Outre l'obtention de taux de compression plus performants, cette approche permet également envisager des généralisations intéressantes de ces grammaires.
|
186 |
Analysis of Large-Scale Biological Networks with Constraint-Based Approaches over Static ModelsGuziolowski, Carito 08 January 2010 (has links) (PDF)
Il existe plusieurs approches qui modélisent des réseaux de régulation génétiques a
|
187 |
L'alignement de graphes : applications en bioinformatique et vision par ordinateurZaslavskiy, Mikhail 11 January 2010 (has links) (PDF)
Le problème d'alignement de graphes, qui joue un rôle central dans différents domaines de la reconnaissance de formes, est l'un des plus grands défis dans le traitement de graphes. Nous proposons une méthode approximative pour l'alignement de graphes étiquetés et pondérés, basée sur la programmation convexe concave. Une application importante du problème d'alignement de graphes est l'alignement de réseaux d'interactions de protéines, qui joue un rôle central pour la recherche de voies de signalisation conservées dans l'évolution, de complexes protéiques conservés entre les espèces, et pour l'identification d'orthologues fonctionnels. Nous reformulons le problème d'alignement de réseaux d'interactions comme un problème d'alignement de graphes, et étudions comment les algorithmes existants d'alignement de graphes peuvent être utilisés pour le résoudre. Dans la formulation classique de problème d'alignement de graphes, seules les correspondances bijectives entre les noeuds de deux graphes sont considérées. Dans beaucoup d'applications, cependant, il est plus intéressant de considérer les correspondances entre des ensembles de nœuds. Nous proposons une nouvelle formulation de ce problème comme un problème d'optimisation discret, ainsi qu'un algorithme approximatif basé sur une relaxation continue. Nous présentons également deux résultats indépendants dans les domaines de la traduction automatique statistique et de la bio-informatique. Nous montrons d'une part comment le problème de la traduction statistique basé sur les phrases peut être reformulé comme un problème du voyageur de commerce. Nous proposons d'autre part une nouvelle mesure de similarité entre les sites de fixation de protéines, basée sur la comparaison 3D de nuages atomiques.
|
188 |
Phylogénie, éléments transposables et évolution de la taille des génomes chez les lupinsMahé, Frédéric 17 December 2009 (has links) (PDF)
dans lesquelles les rétrotransposons jouent un rôle moteur. Dans ce cadre, nous nous sommes fixé trois objectifs de travail : 1) améliorer notre connaissance des relations phylogénétiques au sein du genre Lupinus (Fabaceae) par l'utilisation de nouveaux marqueurs nucléaires (ARNr-ETS et SymRK), 2) évaluer par amplification et par hybridation in situ la diversité, l'abondance et le rôle des rétrotransposons Ty1/copia et Ty3/gypsy dans les variations de taille de génome des lupins, et 3) séquencer, annoter et comparer une première région génomique disponible pour un lupin avec les régions homologues d'autres fabacées. La phylogénie obtenu améliore notre compréhension de l'histoire évolutive des lupins, etmet en évidence des schémas de variation de taille de génome différents d'une lignée à l'autre. Les analyses de rétrotransposons révèlent que les éléments copia et gypsy contribuent de façon plus significative aux différences de taille de génome chez les lupins méditerranéens que chez les lupins africains et suggèrent différents modes et mécanismes d'évolution de la taille des génomes au sein du genre. À l'échelle locale (région du gène SymRK), nous confirmons la forte implication de ces éléments qui représentent 25% de la région analysée chez Lupinus angustifolius.
|
189 |
De nouvelles méthodes pour l'alignement des séquences biologiquesGîrdea, Marta 10 December 2010 (has links) (PDF)
L'alignement de séquences biologiques est une technique fondamentale en bioinformatique, et consiste à identifier des séries de caractères similaires (conservés) qui apparaissent dans le même ordre dans les deux séquences, et à inférer un ensemble de modifications (substitutions, insertions et suppressions) impliquées dans la transformation d'une séquence en l'autre. Cette technique permet de déduire, sur la base de la similarité de séquence, si deux ou plusieurs séquences biologiques sont potentiellement homologues, donc si elles partagent un ancêtre commun, permettant ainsi de mieux comprendre l'évolution des séquences. Cette thèse aborde les problèmes de comparaison de séquences dans deux cadres différents: la détection d'homologies et le séquençage à haut débit. L'objectif de ce travail est de développer des méthodes d'alignement qui peuvent apporter des solutions aux deux problèmes suivants: i) la détection d'homologies cachées entre des protéines par comparaison de séquences protéiques, lorsque la source de leur divergence sont les mutations qui changent le cadre de lecture, et ii) le mapping de reads SOLiD (séquences de di-nucléotides chevauchantes codés par des couleurs) sur un génome de référence. Dans les deux cas, la même idée générale est appliquée: comparer implicitement les séquences d'ADN pour la détection de changements qui se produisent à ce niveau, en manipulant, en pratique, d'autres représentations (séquences de protéines, séquences de codes di-nucléotides) qui fournissent des informations supplémentaires et qui aident à améliorer la recherche de similarités. Le but est de concevoir et d'appliquer des méthodes exactes et heuristiques d'alignement, ainsi que des systemes de scores, adaptés à ces scénarios.
|
190 |
Interaction et ProgrammationLetondal, Catherine 27 September 2001 (has links) (PDF)
Cette thèse a pour objet l'amélioration des possibilités de contrôle et d'adaptation des outils informatiques par des biologistes à travers une réflexion sur la flexibilité logicielle, la programmation par l'utilisateur et les démarches de conception participative. Le manque de flexibilité des outils disponibles limite souvent leur utilité. La solution la plus connue à ce problème est la programmation. Mais comment donner accès à cette discipline complexe à ceux des biologistes qui n'ont pas le temps d'apprendre ? Nous précisons d'abord la problématique programmation et interaction. Nous réfléchissons ensuite à la question de la flexibilité logicielle et complétons l'idée de programmation par l'utilisateur par celle de participation à la conception, deux manières de donner un contrôle sur le logiciel. Parallèlement à cette réflexion, nous avons mené des études de terrains et organisé des ateliers de conception avec des biologistes permettant à l'utilisateur de participer activement à la conception d'un logiciel. Nous avons observé que ce n'est pas tant l'écriture de code, que la construction de tout un logiciel qui pose problème. L'idée d'application programmable permet à l'utilisateur d'effectuer son travail sans avoir à programmer, tout en fournissant un accès guidé mais total au code. Pour les biologistes désirant apprendre la programmation, un tel environnement constitue un support d'apprentissage adapté comportant des exemples centrés sur leur domaine. Un prototype, biok, a été réalisé comportant des composants pour l'analyse de séquences comme un éditeur d'alignement ou un outil d'affichage de courbes. L'éditeur d'alignement fonctionne comme un tableur, et dispose d'un mécanisme programmable d'étiquettage graphique pour visualiser des propriétés biologiques. L'architecture de cet environnement repose sur la notion d'objet graphique, permettant la composition d'objets biologiques par des formules, l'accès structuré au code de l'application.
|
Page generated in 0.0755 seconds