Spelling suggestions: "subject:"́bioinformatics"" "subject:"́bioinformatic""
241 |
Using the systematic nature of errors in NGS data to efficiently detect mutations : computational methods and application to early cancer detection / Utiliser la nature systématique des erreurs dans les données NGS pour détecter efficacement les mutations : méthodes de calcul et application à la détection précoce du cancerDelhomme, Tiffany 01 July 2019 (has links)
La caractérisation exaustive des variations de l'ADN peut aider à progresser dans de nombreux champs liés à la génomique du cancer. Le séquençage nouvelle génération (NGS en anglais pour Next Generation Sequencing) est actuellement la technique la plus efficace pour déterminer une séquence ADN, du aux faibles coûts et durées des expériences comparé à la méthode de séquençage traditionnelle de Sanger. Cependant, la détection de mutations à partir de données NGS reste encore un problème difficile, en particulier pour les mutations somatiques présentes en très faible abondance comme lorsque l'on essaye d'identifier des mutations sous-clonales d'une tumeur, des mutations dérivées de la tumeur dans l'ADN circulant libre, ou des mutations somatiques dans des tissus normaux. La difficulté principale est de précisement distinguer les vraies mutations des artefacts de séquençage du au fait qu'ils atteignent des niveaux similaires. Dans cette thèse nous avons étudié la nature systématique des erreurs dans les données NGS afin de proposer des méthodologies efficaces capables d'identifier des mutations potentiellement en faible abondance. Dans un premier chapitre, nous decrivons needlestack, un nouvel outil d'appel de variants basé sur la modélisation des erreurs systématiques sur plusieurs échantillons pour extraire des mutations candidates. Dans un deuxième chapitre, nous proposons deux méthodes de filtrage des variants basées sur des résumés statistiques et sur de l'apprentissage automatique, dans le but de d'améliorer la précision de la détection des mutations par l'identification des erreurs non-systématiques. Finalement, dans un dernier chapitre nous appliquons ces approches pour développer des biomarqueurs de détection précoce du cancer en utilisant l'ADN circulant tumoral / Comprehensive characterization of DNA variations can help to progress in multiple cancer genomics fields. Next Generation Sequencing (NGS) is currently the most efficient technique to determine a DNA sequence, due to low experiment cost and time compared to the traditional Sanger sequencing. Nevertheless, detection of mutations from NGS data is still a difficult problem, in particular for somatic mutations present in very low abundance like when trying to identify tumor subclonal mutations, tumor-derived mutations in cell free DNA, or somatic mutations from histological normal tissue. The main difficulty is to precisely distinguish between true mutations from sequencing artifacts as they reach similar levels. In this thesis we have studied the systematic nature of errors in NGS data to propose efficient methodologies in order to accurately identify mutations potentially in low proportion. In a first chapter, we describe needlestack, a new variant caller based on the modelling of systematic errors across multiple samples to extract candidate mutations. In a second chapter, we propose two post-calling variant filtering methods based on new summary statistics and on machine learning, with the aim of boosting the precision of mutation detection through the identification of non-systematic errors. Finally, in a last chapter we apply these approaches to develop cancer early detection biomarkers using circulating tumor DNA
|
242 |
Origine et évolution des récepteurs nucléaires et étude structurale du premier stéroïdien, ERR / Origin and evolution of nuclear receptors and structural study of the first steroid, ERRBeinsteiner, Brice 16 October 2018 (has links)
Les récepteurs nucléaires (RNs) sont des facteurs de transcriptions se liant à des séquences spécifiques d'ADN et activant la transcription de gènes en réponse à la fixation de ligands spécifiques. Parmi tous les RNs impliquées dans l'étiologie des cancers, les récepteurs liés aux œstrogènes ERR jouent un rôle important dans les cancers du sein, de l'ovaire, du colon, de l’endomètre et la prostate. Ce RN est dit orphelin car il ne possède pas de ligand naturel connu à ce jour. Par une approche de biologie structurale intégrative combinant cryo-microscopie électronique, bioinformatique et évolution, mon travail de thèse s'est focalisé sur l'étude structurale de ERR et sur l'origine et l'évolution des RNs. Dans ce contexte, 3 outils informatiques ont été développés. Les résultats obtenus ont permis d'une part la révision des connaissances fondamentales sur l'origine des récepteurs nucléaires et leur évolution. D'autre part, l'étude structurale de ERR a permis d'acquérir de nouvelles données sur la topologie des récepteurs nucléaires stéroidiens fixés sur un élément de réponse ERRE/ERE ainsi que sur le mécanisme allostérique de la liaison du coactivateur PGC-1α sur le dimère de ERR. La résolution du complexe à l'échelle atomique par cryo-microscopie électronique permettra d'ouvrir la voie vers la conception de nouvelles molécules thérapeutiques. / Nuclear receptors (NRs) are transcription factors which bind to specific DNA sequences and activate gene transcription in response to the binding of specific ligands. Among all of the RNs involved in the etiology of cancers, ERR estrogen receptors play an important role in breast, ovarian, colon, endometrial and prostate cancers. This NR is said to be orphan because it does not have a natural ligand known to date. Using an integrative structural biology approach combining cryo-electron microscopy, bioinformatics and evolution, my PhD work focused on the structural study of ERR and the origin and evolution of RNs. In this context, three informatic tools have been developed. The results obtained allowed, on the one hand, the revision of fundamental knowledge on the origin of nuclear receptors and their evolution. On the other hand, structural study of ERR allow us to acquire new data on topology of steroid nuclear receptors fixed on an element of ERRE / ERE response as well as on the allosteric mechanism of the binding of the coactivator PGC-1α on the dimer of ERR. The resolution of the complex at the atomic scale by cryo-electron microscopy will open the way towards the design of new therapeutic molecules.
|
243 |
Phylogenomic Structure of Oenococcus oeni and its Adaptation to Different Products Unveiled by Comparative Genomics and Metabolomics. / Structure phylogénomique d’Oenococcus oeni et son adaptation à différents produits dévoilés par génomique comparative et métabolomiqueCampbell-Sills, Hugo 18 December 2015 (has links)
Oenococcus oeni est la principale bactérie lactique retrouvée dans les fermentations malolactiques (FML) spontanées du vin. Pendant la FML, l’acide malique est converti en acide lactique, modulant l’acidité du vin et améliorant son goût. L’activité métabolique d’O. oeni produit aussi des changements dans la composition du vin, modifiant son profil aromatique. Des études précédentes ont suggéré que l’espèce est divisée en deux principaux groupes génétiques, désignés A et B. Nous avons examiné les souches d’O. oeni sous des approches de génomique comparative à l’aide d’outils bioinformatiques développés sur place, dévoilant l’existence de nouveaux de groupes et sous-groupes de souches. En outre, nos résultats suggèrent que certains groupes contiennent des souches qui sont adaptées à des produits spécifiques tels que le vin rouge, vin blanc, champagne et cidre. Ce phénomène est visible à différents niveaux des génomes des souches : l’identité de séquence, les signatures génomiques, et les caractéristiques génomiques spécifiques de groupes telles que la présence/absence de gènes et les mutations uniques. Afin de comprendre l’impact des caractéristiques génomiques dans l’adaptation de l’espèce à différents produits, nous avons sélectionné une collection de souches isolées de la même région, mais appartenant à deux groupes génétiques différents et adaptées soit au vin rouge, soit au vin blanc. Une analyse de données génomiques et métabolomiques intégrées révèle que les caractéristiques génomiques des souches de chaque groupe ont un impact sur l’adaptation des bactéries à leurs niches respectives et sur la composition de la fraction volatile du vin. / Oenococcus oeni is the main lactic acid bacteria found in spontaneous malolactic fermentation (MLF) of wine. During MLF, malic acid is converted into lactic acid, modulating wine’s acidity and improving its taste. The metabolic activity of O. oeni also produces changes in the composition of wine, modifying its aromatic profile. Previous studies have suggested that the species is divided in two major phylogenetic groups, namely A and B. We have examined O. oeni under comparative genomics approaches by the aid of bioinformatics tools developed in-place, unveiling the existence of more phylogenetic groups of O. oeni than previously thought. Moreover, our results suggest that certain groups are domesticated to specific products such as red wine, white wine, champagne and cider. This phenomenon is visible at different levels of the strains’ genomes: sequence identity, genomic signatures, and group-specific features such as presence/absence of genes and unique mutations. With the aim of understanding the impact of group-specific genomic features on the species adaptation to different products, we have selected a set of strains isolated from the same region, but belonging to two different genetic groups and adapted either to red wine, either to white wine. An integrated analysis of genomic and metabolomic data reveals that the genomic features of each genetic group have an impact on the strains adaptation to their respective niches, affecting the composition of the volatile fraction of wine.
|
244 |
Etude structure-fonction d'une fucosyltransférase (FucTA) de Arabidopsis thaliana.Both, Peter 29 October 2009 (has links) (PDF)
Ce travail cherche à apporter un éclairage sur les relations séquence-structure-fonction des alpha1,3/4-fucosyltransférases, avec un accent particulier sur les core alpha1,3-fucosyltransférases des plantes. La fucosylation de type Core alpha1,3 est une caractéristique des oligosaccharides N-liés des plantes et invertébrés, avec une fonction biologique qui n'est pas encore élucidée. L'activité Core alpha1,3-fucosyltransférase est responsable d'allergies alimentaires, au pollen, et aux insectes chez l'homme. Dans le cadre de ce travail sont présentés des résultats de caractérisation biochimique (effet de cations divalents sur l'activité, Km de substrat donneur), des expériences de troncation des différents domaines (ex: suppression du domaine C-terminal spécifique aux core alpha1,3-fucosyltransférases des plantes), et de mutagenèse dirigée, en utilisant comme protéine modèle, la core 1,3-fucosyltransferase A (FucTA) d'Arabidopsis thaliana qui a été exprimée sous forme recombinante chez Pichia pastoris. Ces expériences ont été dictées sur la base de nos résultats d'analyses bioinformatiques des séquences de alpha1,3/4-fucosyltransférases et de la modélisation par homologie du domaine de liaison au nucléotide-sucre de l'enzyme FucTA. La mutagenèse des résidus clé identifiés par cette approche a permis de confirmer l'importance de certains acides aminés dans le mécanisme catalytique. Enfin la protéine FucTA étant elle-même glycosylée quand elle est produite chez P. pastoris, nous avons étudié l'impact de cette glycosylation sur la production et l'activité de la protéine, par des expériences de mutagenèse, de Western blotting et de spectrométrie de masse.
|
245 |
Analyse des génomes à la recherche de répétitions en tandem polymorphes : outils d?épidémiologie bactérienne et locus hypermutables humainsDenoeud, France 01 December 2003 (has links) (PDF)
Les répétitions en tandem sont constituées de successions de motifs d'ADN. Ces structures sont présentes dans tous les organismes, procaryotes comme eucaryotes et, même si leur rôle biologique est encore peu compris, elles ont des applications dans de nombreux domaines. Tout d'abord, chez les bactéries, les répétitions en tandem polymorphes, dont le nombre d'unités varie, se révèlent un outil puissant pour l'identification de souches à des fins épidémiologiques. Par ailleurs, certaines répétitions en tandem humaines ont la propriété de muter à des fréquences élevées : les minisatellites hypermutables sont les éléments les plus instables du génome humain. Ils peuvent être utilisés comme biomarqueurs d'exposition à des agents potentiellement mutagènes tels que les radiations ionisantes. D'un point de vue plus fondamental, ils sont également un modèle d'étude des mécanismes d'instabilité des génomes. Dans cette thèse, nous mettons à profit les données issues du séquençage afin d'identifier des répétitions en tandem polymorphes. Nous avons tout d'abord élaboré une base de données des répétitions en tandem accessible sur le web (http://minisatellites.u-psud.fr), qui fournit un accès aux répétitions en tandem de génomes entiers. Ensuite, dans le but de sélectionner les répétitions en tandem polymorphes, plusieurs stratégies ont été mises en oeuvre. D'une part, chez les bactéries pour lesquelles les séquences de plusieurs souches étaient disponibles, nous avons créé un utilitaire de comparaison de souches, afin d'identifier des marqueurs polymorphes utilisables en épidémiologie. D'autre part, une étude menée sur les minisatellites humains a permis de définir des critères prédictifs du polymorphisme à partir de la séquence d'un seul allèle de minisatellite, et a en outre mis en évidence un nouveau minisatellite hypermutable situé dans une séquence codante putative. Les critères prédictifs ont également été appliqués à l'identification de minisatellites codants potentiellement polymorphes dans le génome humain.
|
246 |
Apprentissage d'automates modélisant des familles de séquences protéiquesKerbellec, Goulven 19 June 2008 (has links) (PDF)
Cette thèse propose une nouvelle approche de découverte de signatures de familles de protéines. Etant donné un échantillon (non-aligné) de séquences appartenant à une famille structurelle ou fonctionnelle de protéines, cette approche infère des automates fini s non déterministes (NFA) caractérisant la famille.<br>Un nouveau type d'alignement multiple nommé PLMA est introduit afin de mettre en valeur les similarités partielles et locales significativement similaires. A partir de ces informations, les modèles de type NFA sont produits par un procédé relevant du domaine de l'inférence grammaticale. Les modèles NFA, présentés ici sous le nom de Protomates, sont des modèles graphiques discrets de forte expressivité, ce qui les distingue des modèles statistiques de type profils HMM ou des motifs de type Prosite.<br>Les expériences menées sur différentes familles biologiques dont les MIP et les TNF, montrent un succès sur des données réelles.
|
247 |
Inférence fonctionnelle et prédiction de voies métaboliques.<br />Application à la bactérie fixatrice d'azote <br />Sinorhizobium meliloti.Claudel, Clotilde 19 December 2003 (has links) (PDF)
Des génomes entiers de bactéries sont séquencés en nombre croissant. Parallèlement sont mis en place des programmes d'analyse systématique de l'expression des gènes et des protéines dans différentes conditions. La compréhension du fonctionnement d'un organisme nécessite une annotation des fonctions des gènes et l'intégration de ces données dans des schémas fonctionnels. Les voies métaboliques constituent une classe de fonctions permettant d'aborder ce problème d'intégration, elles sont bien répertoriées chez de nombreux organismes et sont accessibles à l'expérimentation.<br />Dans un premier temps, nous avons développé une méthode automatique de prédiction de fonction spécifique des enzymes. Cette méthode nommée PRIAM (PRofils pour l'Identification Automatique du Métabolisme) repose sur la nomenclature des enzymes et sur la construction automatique d'un jeu de profils spécifiques des fonctions enzymatiques. Puis, cette méthode permet d'identifier les enzymes dans un génome complet et de visualiser les résultats obtenus sur les graphes des voies métaboliques de la base de données KEGG. <br />Dans un second temps, cette méthode a été appliquée sur le génome de la bactérie fixatrice d'azote Sinorhizobium meliloti et nous a permis l'analyse des voies métaboliques spécifiques de cet organisme symbiote.
|
248 |
Analyse et déploiement de solutions algorithmiques et logicielles pour des applications bioinformatiques à grande échelle sur la grilleBolze, Raphaël 31 October 2008 (has links) (PDF)
Cette thèse présente un ensemble d'objectifs dont le fil conducteur est le programme Décrypthon (projet tripartite entre l'AFM, le CNRS et IBM) où les applications et les besoins ont évolué au fur et à mesure de l'avancée de nos travaux. Dans un premier temps nous montrerons le rôle d'architecte que nous avons endossé pour la conception de la grille Décrypthon. Les ressources de cette grille sont supportées par les cinq universités partenaires (Bordeaux I, Lille I, ENS-Lyon, Pierre et Marie Curie Paris VI et Orsay), ainsi que le réseau RENATER (Réseau National de Télécommunications pour l'Enseignement et la Recherche), sur lequel est connecté l'ensemble des machines. Le Centre de ressources informatiques de Haute Normandie (CRIHAN) participe également au programme, il héberge les données volumineuses des projets scientifiques. Nous présenterons ensuite les expériences que nous avons effectuées sur l'intergiciel DIET afin de tester ses propriétés de façon à explorer sa stabilité dans un environnement à grande échelle comme Grid'5000. Nous nous sommes intéressés, en outre, au projet "Help Cure Muscular Dystrophy", un des projets sélectionnés par le programme Décrypthon. Nous avons conduit des expériences dans le but de préparer la première phase de calcul sur la grille de volontaires "World Community Grid". Nous dévoilerons l'ensemble des étapes qui ont précédées et suivies la première phase calculatoire qui a demandé quelques 80 siècles de temps processeur. Pour terminer, nous avons développé une fonctionnalité à l'intergiciel DIET, le rendant capable de gérer l'exécution de tâches ayant des dépendances. Nous nous sommes intéressés à développer des algorithmes prenant en compte plusieurs applications qui demandent l'accès aux mêmes ressources de manière concurrente. Nous avons validé cette fonctionnalité avec des applications issues des projets du programme Décrython. Ces travaux ont nécessité un développement logiciel important, d'une part sur les applications du Décrypthon elles-mêmes et sur leur portage afin de rendre transparente leur utilisation sur la grille Décrypthon, mais aussi au niveau de l'intergiciel DIET et son écosystème : DIET_Webboard, VizDIET, GoDIET, LogService, MA_DAG, etc. Les résultats présentés ont été obtenus sur trois grilles mises à notre disposition: la grille universitaire du Décrypthon, la grille d'internautes (World Community Grid) et la grille expérimentale Grid'5000.
|
249 |
Développement d'approches de chémogénomique pour la prédiction des interactions protéine - ligandHoffmann, Brice 16 December 2011 (has links) (PDF)
Cette thèse porte sur le développement de méthodes bioinformatiques permettant la prédiction des interactions protéine - ligand. L'approche employée est d'utiliser le partage entre protéines, des informations connues, à la fois sur les protéines et sur les ligands, afin d'améliorer la prédiction de ces interactions. Les méthodes proposées appartiennent aux méthodes dites de chémogénomique. La première contribution de cette thèse est le développement d'une méthode d'apprentissage statistique pour la prédiction des interactions protéines - ligands par famille. Elle est illustrée dans le cas des GPCRs. Cette méthode comprend la proposition de noyaux pour les protéines qui permettent de prendre en compte la similarité globale des GPCRs par l'utilisation de la hiérarchie issue de l'alignement des séquences de cette famille, et la similarité locale au niveau des sites de fixation des ligands de ces GPCRs grâce à l'utilisation des structures 3D connues des membres de cette famille. Pour cela un jeu de données a été créé afin d'évaluer la capacité de cette méthode à prédire correctement les interactions connues. La deuxième contribution est le développement d'une mesure de similarité entre deux sites de fixation de ligands provenant de deux protéines différentes représentés par des nuages d'atomes en 3D. Cette mesure implique la superposition des poches par rotation et la translation, avec pour but la recherche du meilleur alignement possible en maximisant le regroupement d'atomes ayant des propriétés similaires dans des régions proches de l'espace. Les performances de cette méthodes ont été mesurées à l'aide d'un premier jeu de donnés provenant de la littérature et de deux autres qui ont été créé à cet effet. L'ensemble des résultats de cette thèse montre que les approches de chémogénomique présentent de meilleures performances de prédiction que les approches classique par protéine.
|
250 |
Prédictions bioinformatiques des propriétés des domaines de reconnaissance peptidique.Becker, Emmanuelle 26 September 2007 (has links) (PDF)
Les protéines impliquées dans les voies de signalisation sont souvent activées et inactivées par des interactions de faible affinité. En particulier, les domaines protéiques liant spécifiquement de courts fragments protéiques permettent une régulation intra- et inter-moléculaire efficace des domaines catalytiques auxquels ils sont associés. Citons par exemple les domaines FHA ou des tandems BRCT fréquemment impliqués dans les réponses aux dommages de l'ADN. Etant donnée leur importance dans les réseaux d'interactions et dans la signalisation cellulaire, la prédiction par bioinformatique des propriétés de liaison de ces petits domaines constitue un enjeu majeur. Toutefois, les stratégies bioinformatiques sont jusqu'à présent limitées par des difficultés méthodologiques associées aux caractéristiques intrinsèques de ces domaines. Leurs séquences sont souvent très divergentes et les affinités pour leurs cibles physiologiques sont généralement faibles malgré une excellente spécificité. Le travail présenté dans cette thèse a donc pour objectif de dépasser les limites actuelles des outils de prédictions pour développer de nouvelles méthodologies bioinformatiques performantes. Trois points ont été plus particulièrement abordés : (i) la prédiction de la structure tridimensionnelle de ces domaines ; (ii) la prédiction des sites reconnus par ces domaines lorsque les partenaires sont connus ; (iii) la prédiction des motifs spécifiquement reconnus par ces domaines sur la base de leur structure tridimensionnelle.
|
Page generated in 0.0875 seconds