Global ETD Search

121	Aspects algorithmiques de la prédiction des structures secondaires d'ARN Vialette, Stéphane 11 December 2001 (has links) (PDF) Cette thèse traite deux types de problèmes algorithmiques : des problèmes de triangularisation de matrices booléennes par permutation des lignes et des colonnes et des problèmes de découverte de structures secondaires d'ARN. Nous étudions des problèmes de triangularisation de matrices booléennes par permutation des lignes et des colonnes. Ce problème apparaît, par exemple, lorsque l'on souhaite calculer "en place" un système d'équations. Une façon naturelle d'aborder ce problème est de se placer dans le cadre général de la théorie des graphes et des graphes bipartis en particulier. Nous présentons de nombreux résultats de complexité - essentiellement de NP-complétude - liés à ce problème et introduisons quelques extensions dont nous précisons toujours la complexité. Certaines familles d'ARN sont très précisément définies par des motifs de séquence, et des contraintes structurelles secondaires et tertiaires. La plupart des outils ne sont pas adaptés puisqu'ils n'intègrent pas toutes les connaissances sur la molécule lors de l'exploration des banques de séquences. D'où l'intérêt d'algorithmes de recherche assurant une recherche en séquence et structure par le biais d'un descripteur défini par l'utilisateur intégrant l'ensemble des connaissances caractérisant l'ARN à détecter. Une nouvelle façon d'aborder ce problème consiste en l'étude de problèmes algorithmiques sur les graphes d'intersection d'un ensemble de 2-intervalles. Cette notion de 2-intervalles se trouve dans la lignée des études actuelles en matière d'algorithmique de graphes où l'on étudie de plus en plus les structures des graphes issues de modèles géométriques. Nous présentons plusieurs résultats de complexité et montrons en particulier que la recherche de motifs dans un ensemble de 2-intervalles est un problème NP-complet. Nous nous intéressons, plus particulièrement, à appliquer ces travaux pour la prédiction de motifs biologiques structurés. Plus spécifiquement, nous avons mis au point l'algorithme ORANGE pour la prédiction des introns auto-catalytiques de groupe 1 dans de grandes séquences génomiques. Cet algorithme est une amélioration de l'algorithme CITRON mis au point par F. Lisacek et F. Michel du point de vue de la rapidité d'exécution. De plus, une mise-en-œuvre de l'algorithme ORANGE est accessible en ligne sur Internet. [INFO] Computer Science [INFO] Informatique algorithmique bioinformatique théorie des graphes 2-intervalles
122	Comparaison de séquences répétées en tandem et application à la génétique Bérard, Sèverine 05 December 2003 (has links) (PDF) Les séquences répétées en tandem sont constituées de motifs adjacents. Elles constituent une classe de séquences génétiques dont font partie microsatellites et minisatellites. Dans cette thèse, nous traitons le problème de la comparaison de séquences répétées en tandem sous un modèle évolutif particulier. Plus précisément, nous nous intéressons au problème de leur alignement dans lequel, en plus des trois opérations classiques, mutation, insertion et délétion, nous considérons l'amplification en tandem et la contraction en tandem. L'amplification copie un facteur de la séquence, c'est-à-dire un ou plusieurs caractère(s), et met le ou les exemplaire(s) du facteur copié à côté du facteur original, la contraction est l'événement inverse. L'amplification (resp. la contraction) est dite « n-aire d'ordre m », si elle copie (resp. retire) m motif(s) n fois. Nous proposons une méthode donnant un score d'alignement, qui est une métrique, entre deux séquences répétées en tandem, sous un modèle comprenant les cinq opérations précédemment citées où l'amplification et la contraction sont unaires d'ordre 1. Le problème est difficile car les opérations ne sont pas commutatives. Notre solution fait appel à de l'algorithmique de graphe. Nous avons réalisé un programme nommé MS_Align qui implémente cette méthode. Il s'agit du premier programme capable d'aligner des cartes de minisatellites. À l'aide de ce programme, nous avons étudié des données biologiques provenant du minisatellite humain MSY1. Comme nous le montrons, notre modèle évolutif s'applique bien à ce type de séquences d'ADN. Nous avons construit à partir de nos résultats des arbres phylogénétiques semblables à ceux obtenus grâce à d'autres marqueurs du chromosome Y indépendants de MSY1, nos arbres offrent une meilleure résolution. Une partie de cette thèse est consacrée au problème général où nous relaxons les contraintes sur les amplifications et contractions. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Alignement Bioinformatique Graphe de Chevauchement Minisatellite Séquence Répétée en Tandem
123	Diversité, évolution et écologie virale : des communautés aux génotypes. Analyse bioinformatique de métagénomes viraux Roux, Simon 03 October 2013 (has links) (PDF) Les virus sont omniprésents dans la biosphère et infectent vraisemblablement l'ensemble des êtres vivants. Au sein des écosystèmes, ils ont ainsi un impact sur la diversité des populations microbiennes, l'évolution des génomes de ces populations, et directement ou indirectement sur les cycles biogéochimiques majeurs. Leur caractère protéiforme et l'absence de marqueur unique (tant génétique que physique) font toutefois de l'exploration de la diversité virale une tâche complexe, de telle sorte que nos connaissances sur ces communautés virales environnementales sont encore très limitées. La métagénomique, ou séquençage massif et aléatoire de fragments nucléotidiques extraits d'un prélèvement, offre un point de vue unique sur les génomes viraux. Ce type d'approche, récemment développé, a ainsi mis en évidence la richesse extraordinaire des populations virales environnementales, tant du point de vue des gènes que des génotypes. C'est dans ce cadre de l'étude des communautés virales de l'environnement par métagénomique que se sont inscrits les travaux de cette thèse, organisée autour de quatre axes principaux : * Le développement de nouvelles méthodes d'analyses adaptées aux spécificités des génomes et métagénomes viraux par la mise en place du serveur web Metavir, premier serveur dédié à l'analyse des viromes. Proposant aujourd'hui un ensemble cohérent d'outils pour différents types de viromes, Metavir compte plus de 300 utilisateurs pour plus de 2000 viromes analysés. * Le potentiel fonctionnel des génomes viraux a pu être approché par l'étude conjointe d'un ensemble de viromes. Après une analyse rigoureuse des contaminations potentielles, nous avons pu confirmer que les génomes viraux comprenaient un ensemble limité mais non négligeable de gènes associés au métabolisme cellulaire. La plupart des virus agissent ainsi certainement directement sur le métabolisme de la cellule hôte durant l'infection. * La prépondérance des paramètres environnementaux, et particulièrement de la salinité, en tant que facteurs structurant les communautés virales aquatiques a également pu être mise en avant. La distance géographique entre prélèvements semble n'avoir qu'une influence secondaire, confirmant la capacité importante de dispersion des capsides virales. Une adaptation locale semble toutefois exister dans certains cas, notamment en cas de compétition importante entre les résistances développées par les hôtes et les capacités d'infection des virus. * Enfin, différentes familles de petits virus à ADN simple brin ont pu être caractérisées par une méta-analyse de viromes. Leur apparente simplicité a ainsi révélé des mécanismes d'évolution plus complexes que prévus, impliquant différents cycles et capacités de transfert de gènes jusqu'ici plutôt considérés comme l'apanage des virus à ADN double brin, et remettant en cause les séparations admises entre les différents groupes de virus sur la base de la nature de leur génome. En permettant une étude depuis l'échelle de la communauté jusqu'à des génotypes spécifiques, les viromes constituent des outils de choix pour caractériser la diversité virale, appréhender les différents facteurs régulant ces communautés, et ainsi mieux comprendre la place des virus dans la biosphère. De plus, ces études ont confirmé l'existence d'interactions étroites entre virus et organismes cellulaires, ces interactions semblant nombreuses, multiples dans leurs natures et conséquences, et présentes tout au long de l'histoire du vivant. Ces nouvelles connaissances apportées par l'analyse de viromes permettent donc d'aborder certaines questions fondamentales concernant l'origine des grandes innovations évolutives ou le fonctionnement global des écosystèmes. Virus Métagénomique Bioinformatique Écologie Génomique Évolution
124	Extraction de connaissances dans les bases de donn'ees comportant des valeurs manquantes ou un grand nombre d'attributs Rioult, François 24 November 2005 (has links) (PDF) L'extraction de connaissances dans les bases de données est une discipline récente visant à la découverte de nouvelles connaissances. L'extraction de motifs y est une tâche centrale et cette thèse traite de deux cas présentant un caractère générique et particulièrement utile dans de nombreuses applications : celui des bases de données entachées de valeurs manquantes ou comportant un grand nombre d'attributs. Le premier cas est un problème ancien concernant les données issues du monde réel. Sans traitement particulier, les valeurs manquantes sont sources de graves dommages dans les connaissances extraites. Pour faire face à ce problème, nous proposons un mécanisme de désactivation temporaire des objets incomplets. Il permet d'effectuer des calculs dans une base incomplète, qui mettent en évidence des propriétés des données qui sont compatibles avec les propriétés de la base complète. Nous montrons un résultat de consistance des motifs k-libres extraits dans la base avec des valeurs manquantes. Ces propriétés sont exploitées avec celles issues de la base opposée pour proposer une méthode originale de construction de règles d'association informatives généralisées. Un outil logiciel a été développé pour l'extraction des motifs k-libres en présence de données incomplètes. Le deuxième cas concerne les bases de données aux dimensions inhabituelles, comportant nettement plus d'attributs que d'objets, configuration rendant difficile voire impossible l'application des algorithmes classiques. De nombreuses applications sont caractérisées par des données de ce type. Par exemple le domaine scientifique émergent de l'analyse du génome produit des données sur des dizaines de milliers de gènes, mais les expériences biologiques qui déterminent la séquence de gènes sont coûteuses et donc peu nombreuses. Nous avons développé un cadre formel pour l'extraction de motifs contraints dans ces données, en utilisant un principe de transposition et les propriétés de la connexion de Galois. Ce cadre permet de choisir l'orientation de la base de données qui est la plus favorable pour les algorithmes d'extraction. Les contraintes de recherche sont également transposables, et permettent d'obtenir les motifs contraints en menant les extractions dans le contexte transposée. Enfin, à partir des contributions précédentes, l'utilisation de règles d'association généralisées à des fins d'apprentissage supervisé et de motifs émergents forts complète ces travaux dans le cadre d'applications concernant des données médicales et génomiques. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Exploration de données Bioinformatique Correspondances de Galois
125	Facettes de glycobioinformatique : applications à l'étude des interactions protéines-sucres Sarkar, Anita 26 September 2012 (has links) (PDF) Le travail décrit dans ce manuscrit rassemble les résultats obtenus au cours de ma thèse de doctorat. Ils s'inscrivent dans le domaine de la glycobioinformatique. Ils ont impliqué des développements de bases de données structurales et des applications en modélisation moléculaire des interactions protéines-sucres. Les méthodes de modélisation moléculaire ont été utilisées dans la reconstruction et dans la prédiction des structures tridimensionnelles de polysaccharides et d'oligosaccharides, ces dernières étant également établies par une approche de type "haut-débit" par application d'un algorithme génétique à des fins de minimisation énergétique. Les données ainsi générées ont été organisées sous la forme de bases de données relationnelles, proprement annotées (PolySca3DB et BiOligo) qui sont en libre accès pour consultation sur internet. Ces méthodes de modélisation moléculaire ont été appliquées à la caractérisation, par RMN en solution, des conformations de basse énergie d'une souche pathogène d'un polysaccharide de la bactérie E. coli. D'autres bactéries pathogènes de type gram négatif, interagissent avec des oligosaccharides par l'intermédiaire de protéines secrétées, telles que des lectines. Nous avons testé, au travers de l'utilisation de méthodes d'amarrage moléculaire, la possibilité d'identifier de manière automatique, la nature de ces interactions, en prenant comme cibles des épitopes oligosaccharidiques fucosylés. Les résultats de ces recherches ont été comparés, de manière critique, à ceux issus de l'application de bio-puces à sucres et de calorimétrie isotherme de titration. Les conclusions et perspectives de ces travaux sont présentées dans un article de revue consacré à l'application des méthodes de chimie computationnelle dans l'étude des interactions protéines-glucides qui viennent compléter l'arsenal des outils dédiés au champs de recherche couvert par la glycobiologie structurale et moléculaire. Interactions Protéines Sucres Bioinformatique Puces a sucres
126	On building and comparing trees <br />Application to supertrees in phylogenetics Berry, Vincent 08 December 2008 (has links) (PDF) The research work presented in this manuscript is of algorithmic kind: it is mainly composed of polynomial, fixed parameter and approximation algorithms, while hardness results are also mentioned.<br /> <br />This work is about building and comparing labelled trees. These objects find application in different areas, but notoriously in phylogenetics, where they represent evolutionary relationships of organisms or sequences.<br /><br />Most of this work can be considered as investigating solutions to so-called \emph{supertree} problems. Supertrees are large trees built by a dynamic programming approach from smaller trees. For instance, the latter are gene trees from which a comprehensive tree on many living species is to be built, such as the \emph{Tree of Life}. <br /><br />First definitions are introduced, then a part of the manuscript is dedicated to quartet tree building methods. The next part details tree comparison methods, mainly variants of the maximum agreement subtree method. Next follows a part on supertree problems in all generality. <br />The manuscript ends with a report of the research plan for the next few years. <br /><br />Several journal papers illustrating the material described in this manuscript are adjoined in appendix. [INFO] Computer Science [INFO] Informatique algorithmes formalismes combinatoires arbres bioinformatique phylogénie preuves
127	Dévelopement d'une méthode bio-informatique pour la prédiction des régions amyloidogéniques dans les protéines. Ahmed, Abdullah 02 July 2013 (has links) (PDF) La formation d'agrégats protéiques insolubles et fibreux, appelés fibrilles amyloïdes, est impliquée dans une large variété de maladies humaines. Parmi elles, figurent entre autres, le diabète de type II, l'arthrite rhumatoïde et, notamment, les atteintes neurodégénératives débilitantes, telles que les maladies d'Alzheimer, de Parkinson ou encore de Huntington. Actuellement, il n'existe ni traitement, ni diagnostic précoce pour aucune de ces maladies.De nombreuses études ont montré que la capacité à former des fibrilles amyloïdes est une propriété inhérente à la chaîne polypeptidique. Ce constat a conduit au développement d'un certain nombre d'approches computationnelles permettant de prédire les propriétés amyloïdogéniques à partir de séquences d'amino-acides. Si ces méthodes s'avèrent très performantes vis à vis de courts peptides (~ 6 résidus), leur application à des séquences plus longues correspondant aux peptides et protéines en lien avec les maladies, engendre un nombre trop élevé de faux positifs. Le principal objectif de cette thèse consiste à développer une meilleure approche bioinformatique, capable de prédire les régions amyloïdogéniques à partir d'une séquence protéique. Récemment, l'utilisation de nouvelles techniques expérimentales a permis de mieux appréhender la structure des amyloïdes. Il est ainsi apparu que l'élément caractéristique de la majorité des fibrilles amyloïdes impliquées dans les maladies, était constitué d'une structure étagée (β-arcade), résultant de l'empilement de motifs " feuillet β - coude - feuillet b " appelés " β-arches ". Nous avons mis à profit cette particularité structurale pour créer une approche bioinformatique permettant de prédire les régions amyloïdogéniques d'une protéine à partir de l'information contenue dans sa séquence. Les résultats provenant de l'analyse des structures de type β-arcade, connues et modélisées, ont été compilés et traités à l'aide d'un algorithme écrit en langage Java, afin de créer le programme ArchCandy.L'application de ce programme à une sélection de séquences protéiques et peptidiques, connues pour leur lien avec les maladies, a permis de démontrer qu'il était en mesure de prédire correctement la majorité de ces séquences, de même que les séquences mutées impliquées dans les maladies familiales. Outre la prédiction de régions à haut potentiel amyloïde, ce programme suggère la conformation structurale adoptée par les fibrilles amyloïdes. Le séquençage de génomes entiers devenant toujours plus abordable, notre méthode offre une perspective de détermination individuelle des profils à risque, vis à vis de maladies neurodégénératives, liées à l'âge ou autres. Elle s'inscrit ainsi pleinement dans l'ère de la médecine personnalisée. Bioinformatique Amyloid Maladie neurodégénérative
128	Recherche de nouveaux antipaludiques par bioinformatique structurale et chémoinformatique : application à deux cibles : PfAMA1 et PfCCT / Identification of new antimalarial molecules by structural bioinformatics and cheminformatics : application to two targets : PfAMA1 and PfCCT Pihan, Émilie 02 July 2013 (has links) Le paludisme est causé par cinq espèces du genre Plasmodium, P. falciparum étant le plus mortel. Des résistances de certaines souches du parasite ont été rapportées pour tous les médicaments mis sur le marché. Les moustiques vecteurs du parasite sont résistants aux insecticides et aucun vaccin n'est disponible. Cette maladie est un problème économique et de santé publique pour les pays en voie de développement. Mes travaux de thèses visent à identifier de nouveaux traitements contre le paludisme, en ciblant deux nouvelles protéines. Les Apicomplexes ont développé un mécanisme unique d'invasion, impliquant une interaction forte entre la cellule hôte et la surface du parasite, appelée jonction mobile. La caractérisation structurale et fonctionnelle du complexe AMA1-RON2 a ouvert la voie à la découverte de petites molécules capables d'empêcher l'interaction AMA1-RON2 et de ce fait, l'invasion. Le parasite a aussi besoin de phospholipides pour construire sa membrane durant le cycle érythrocytaire. Il y a six fois plus de phospholipides dans les érythrocytes infectés que dans les érythrocytes sains. Notre stratégie est d'inhiber la voie de synthèse de novo Kennedy et plus précisément, son étape limitante catalysée par la PfCCT. Des filtres basés sur le ligand (LBVS) et sur la structure (SBVS) ont été utilisés pour tester virtuellement les chimiothèques commerciales que j'ai préparées. Pour chaque projet, des molécules ont été sélectionnées pour leurs scores de docking et les interactions qu'elles établissent avec les résidus clés de la protéine. En combinant la bioinformatique structurale et la chémoinformatique, nous avons identifié des inhibiteurs potentiels des deux cibles protéiques. / Human malaria is caused by five parasitic species of the genus Plasmodium, P. falciparum being the most deadly. Drug resistance of some parasite strains has been reported for commercial drugs. Vector mosquitoes are resistant to perythroid insecticides and no successful vaccine is available. This disease is a public and economic health issue for developing countries. My PhD projects investigate new treatments for malaria, by targeting two new proteins. Apicomplexa parasites have developed a unique invasion mechanism involving a tight interaction formed between the host cell and the parasite surfaces called Moving Junction. The structural and functional characterization of the AMA1-RON2 complex pave the way for the design of low molecular weight compounds capable of disrupting the AMA1-RON2 assembly and thereby invasion. The parasite also needs phospholipids to build its membrane during the erythrocytic cycle. There are six times more phospholipids in infected erythrocytes compared to healthy ones. Our strategy is to inhibit the de novo Kennedy pathway and more precisely its rate-limiting step catalysed by the enzyme PfCCT. Filters were used for ligand-based (LBVS) and structure-based virtual screening (SBVS) of commercial chemical databases that I have prepared. For each project, molecules were selected in terms of their docking scores and their interactions with key active site residues. By combining structural bioinformatics and cheminformatics, we identified potential inhibitors of the two protein targets. Paludisme Criblage virtuel AMA1 CCT Chémoinformatique Bioinformatique structurale Malaria Virtual screening AMA1 CCT Cheminformatics Structural bioinformatics
129	Développements méthodologiques autour de l'analyse des données de metabarcoding ADN / Methodological developments surrounding the analysis of DNA metabarcoding data. Mercier, Celine 31 March 2015 (has links) Cette thèse s'inscrit dans le cadre du traitement des données issues de séquençage haut débit, et en particulier des données produites en metabarcoding ADN. Le metabarcoding ADN consiste à identifier des taxons ou des groupes taxinomiques à partir de l'ADN présent dans des échantillons environnementaux (eau, sol, fèces...). Après extraction de l'ADN, de courtes séquences utilisées comme marqueurs taxinomiques sont amplifiées par PCR puis séquencées en utilisant les nouvelles techniques de séquençage haut débit. De très importants volumes de données sont ainsi générés, le plus souvent, de plusieurs milliers à plusieurs centaines de milliers de séquences par échantillon. L'objectif principal de cette thèse était le développement de méthodes d'analyse de ces séquences. Les méthodes de classification permettent de traiter de nombreuses problématiques en metabarcoding ADN. La classification supervisée est utilisée pour assigner les séquences à des taxons en les comparant aux séquences de bases de données de référence. Les méthodes de classification non supervisée permettent de créer des groupes taxinomiques (MOTU) à partir des séquences, afin de faire des estimations de biodiversité. Ces méthodes sont aussi employées pour identifier les séquences erronées produites par la PCR et le séquençage notamment, où les séquences erronées dérivent souvent des vraies séquences et leur sont très similaires. Les méthodes de classification demandent une méthode de comparaison des séquences qui soit idéalement à la fois très rapide et exacte. Une telle méthode a été développée, en utilisant un algorithme d'alignement global de type Needleman-Wunsch calculant la longueur de la plus longue sous-séquence commune entre les séquences à aligner, associé à un filtre sans perte permettant d'éviter l'alignement de certaines paires de séquences n'ayant aucune chance de présenter une similarité supérieure à un seuil choisi. L'utilisation d'instructions Single Instruction, Multiple Data, de même que le multithreading optionnel des calculs, permettent d'associer rapidité et exactitude. Cette méthode de comparaison est implantée dans SUMATRA, un programme calculant toutes les similarités deux à deux d'un jeu de données ou entre deux jeux de données, avec possibilité de fixer un seuil de similarité en dessous duquel les similarités ne sont pas rapportées. Elle est aussi utilisée dans SUMACLUST. SUMACLUST est un programme regroupant les séquences en utilisant un algorithme de clustering en étoile, où chaque groupe possède une séquence représentative. Il peut être utilisé pour créer des MOTU, ou pour détecter les séquences erronées dérivant de vraies séquences. Plus spécialisé, le programme SUMACLEAN a été développé pour détecter les séquences contenant des erreurs ponctuelles de PCR. Pour cela, des graphes orientés acycliques sont générés, dont la topologie correspond parfaitement aux cascades d'erreurs générées par les erreurs ponctuelles de PCR. Par ailleurs, une réflexion a été menée pour le développement d'une nouvelle approche de classification supervisée pour l'assignation taxinomique des séquences. Aujourd'hui, la plupart des approches d'assignation utilisent des méthodes mal adaptées au polymorphisme important des marqueurs, et ne considèrent pas suffisamment l'incomplétude et les erreurs inhérentes aux bases de données de référence. Une nouvelle approche a été testée, basée sur l'idée d'un départ depuis la racine de l'arbre taxinomique, suivi d'une descente jusqu'à un arrêt possible lorsque descendre à un niveau taxinomique plus précis semble irraisonnable. Cela permettrait en théorie de mieux gérer les problèmes inhérents aux bases de données de référence, mais pose le problème de la représentation des séquences aux différents niveaux de l'arbre, et du modèle de choix du chemin à prendre, pour lesquels aucune solution complètement satisfaisante n'a été trouvée à ce jour. / This thesis positions itself in the context of the processing of high-throughput sequencing data, and specifically DNA metabarcoding data. DNA metabarcoding consists of the identification of taxa or taxonomic groups from DNA extracted from environmental samples (water, soil, animal feces). After extraction of the DNA, short sequences used as taxonomic markers are amplified by PCR, then sequenced using high-throughput sequencing technologies. Important volumes of data are produced that way, usually from several thousands to several hundreds of thousands sequences per sample. This thesis aimed for the development of methods for the analysis of these sequences. Classification methods allow the treatment of numerous problems in DNA metabarcoding. Supervised classification is used for the taxonomic assignment of sequences to taxa, by comparing them to the sequences of a reference database. Unsupervised classification methods are used to create taxonomic groups (MOTUs) from the sequences, in order to estimate biodiversity. They are also used to identify the erroneous sequences generated during the PCR and sequencing steps in particular, where erroneous sequences often derive from true sequences and remain very close to them. Classification approaches used in the context of DNA metabarcoding necessitate a sequence comparison method that should be both fast and exact. Such a method was developed, using a Needleman-Wunsch type global alignment algorithm computing the length of the longest common subsequence between the two sequences being aligned, associated with a lossless filter allowing to avoid the alignment of some pairs of sequences that have no chance to present a similarity superior to a chosen threshold. The use of Single Instruction, Multiple Data instructions, as well as the availability of multithreading speed up the calculations. This comparison method is implanted in SUMATRA, a program computing all the pairwise similarities of a dataset or between two datasets, with the possibility to set a threshold under which similarities are ignored. It is also used in SUMACLUST, a program grouping sequences using a star clustering algorithm, where each cluster possesses a representative sequence. This algorithm can be used to generate MOTUs, or to identify erroneous sequences deriving from true sequences, by using the fact that true sequences tend to end up as the representative sequences of their cluster. More specialized, the SUMACLEAN program was developed to identify sequences containing ponctual PCR errors. To that end, directed acyclic graphs are created, whose topology matches perfectly the successions of errors generated by ponctual errors during PCR. A new approach for the taxonomic assignment of sequences with a supervised classification method was also studied. Nowadays, most taxononomic assignment approaches use methods that are badly suited for the important polymorphism of markers, and don't take in account enough the incompleteness and errors inherent to reference databases. A new approach was tested, based on the idea of a start from the root of the taxonomic tree, and a descent in it with a possible stop before reaching a leaf, if descending to a more precise taxonomic level seems unreasonable. This approach would theoretically allow for a better handling of the problems inherent to reference databases, but poses a few issues, such as the representation of sequences at intermediate tree levels, and the model used to make choices regarding the path to take in the tree, for which no satisfying solutions have been found yet. Barcoding ADN Metabarcoding ADN Écologie Bioinformatique DNA barcoding DNA metabarcoding Ecology Bioinformatics 570
130	Étude génomique de l'interférence entre la réplication et la transcription comme source du stress réplicatif. / Genome-wide study of the interference between DNA replication and transcription as a source of replication stress Padioleau, Ismaël 24 November 2017 (has links) L’activation d’oncogènes entraine une prolifération aberrante des cellules, un stress réplicatif et des cassures de l’ADN. Un lien a été établi entre l’instabilité génomique résultant des cassures et l’inhibition de checkpoints entrainant l’accumulation de mutations et finalement le cancer (Halazonetis et al. 2008). Cependant, les mécanismes liant ces différents évènements n’ont pas encore été caractérisés. Notre hypothèse est que la prolifération incontrôlée des cellules augmente les incidents dus aux conflits entre les polymérases responsables de la réplication et celles responsables de la transcription. Lors de la rencontre des deux polymérases, l’accumulation de surenroulements positifs de l’ADN induit un blocage des fourches de réplication. Ceci crée des zones de fragilité, notamment dues à l’exposition d’ADN simple brin, et pourrait être à l’origine des cassures observées chez les cellules tumorales. Pour valider cette hypothèse, les biologistes de l'équipe ont étudié plusieurs lignées de cellules HeLa dans lesquelles les conflits réplication-transcription sont augmentés et j'ai réalisé l'analyse bioinformatique des approches génomiques suivantes :-DRIP-seq pour la détection des R-loops, une structure double brin hybride ADN/ARN qui se forme lors de la transcription, exposant ainsi un brin d’ADN simple brin.- ChIP-seq de γ-H2AX, une marque d’histone indiquant les cassures de l’ADN.-ChIP-seq de phospho-RPA (S33), un substrat de la kinase ATR au niveau des fourches bloquées. Pour chaque expérience, nous avons utilisé une lignée contrôle et deux lignées dans lesquelles TOP1 et ASF/SF2 sont appauvries avec un shRNA inductible (shTOP1 et shASF). La Topoisomérase I (TOP1) est une enzyme qui relaxe les surenroulements de l’ADN. Le complexe ASF/SF2 est un facteur d’épissage responsable entre autres de l’assemblage des mRNP (ribonucleoprotein particles) au moment de la transcription, qui limitent la formation des R-loops. L’analyse bioinformatique de ces données, ainsi que d'autres données de la littérature, m'a permis d'identifier des régions à risque du génome, localisées en aval de gènes fortement transcrits et répliqués précocement en phase S par des fourches progressant en sens opposé à la transcription. J’ai également observé que les gènes impliqués dans le cancer sont surreprésentés dans ces régions à risque. / Oncogenes activation promotes aberrant cell proliferation, increasing replication stress and DNA damage. It has been proposed that genomic instability leads to checkpoints inhibition and promotes cancer development (Halazonetis et al. 2008). However, the link between aberrant proliferation, replication stress and DNA breaks is still unclear. We hypothesized that aberrant proliferation leads to more incident due to DNA and RNA polymerases encounter and stalling. When the two polymerases encounter, the accumulation of positive-supercoiled DNA between two polymerases induces fork stalling, resulting in the formation of fragile structures such as single-stranded DNA (ssDNA). These ssDNAs formed at stalled forks could be a source for DNA breaks, promoting the development of cancer cells. To validate this hypothesis, biologists from our team have worked on HeLa cell lines with increased replication-transcription conflicts. I perform the bioinformatics analysis of the following genomic data:- DRIP-seq: R-Loops positioning on genome using immunoprecipitation on DNA/RNA hybrids.-γ-H2AX ChIP-Seq: Gamma-H2AX is an histone mark found at DNA breaks.-pRPA ChIP-Seq : Positioning of stalled forks using the substrate of ATR kinase, phospho-RPA (S33) as a marker.Each data was produced on control cells and two cell lines where TOP1 and ASF/SF2 were depleted by as inducible shRNA (shTOP1 and shASF). Topoisomerase 1 is a topological enzyme that unwinds DNA when supercoiling accumulates. ASF/SF2 is part of the splicing complexes that processes mRNP (messenger ribonucleoprotein particles) to prevent the accumulation of R-loops during transcription. Using these data and others from literature, I determined that regions having higher risk to induce replication stress are located downstream of highly transcribed and early replicated genes, and preferentially with head-on collision between DNA and RNA polymerases. I also revealed that cancer-related genes are enriched in these regions of the genome. Séquençage haut débit Réplication Transcription Bioinformatique High throughput sequencing Replication Transcription Bioinformatics

Search results