• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 207
  • 104
  • 32
  • Tagged with
  • 317
  • 153
  • 62
  • 60
  • 59
  • 58
  • 47
  • 39
  • 37
  • 35
  • 29
  • 25
  • 23
  • 21
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Mots interdits minimaux et applications

Fici, Gabriele 13 February 2006 (has links) (PDF)
Dans cette thèse nous traitons des mots interdits minimaux, qui sont les plus petits mots qui n'apparaissent pas comme facteur d'un mot donné, et de leurs applications. Dans la première partie de la thèse nous exposons les propriétés des mots interdits minimaux, et nous considérons quelques cas particuliers, comme celui d'un mot fini, d'un ensemble fini de mots finis, et d'un langage factoriel régulier. Nous présentons aussi les procédures pour le calcul des objets considérés. Ensuite, nous généralisons les mots interdits minimaux au cas de l'existence d'une période, qui détermine les positions des occurrences des facteurs modulo un entier fixé. Ceux-ci sont appelés mots interdits minimaux périodiques. Nous étudions leurs propriétés principales et avec des algorithmes de test de ces propriétés. Dans la deuxième partie de la thèse nous montrons deux applications des mots interdits minimaux. La première est reliée aux systèmes contraints. Nous donnons une construction en temps polynomial de l'ensemble des séquences qui satisfont la contrainte définie par une liste finie de blocs interdits, avec un ensemble spécifié de positions de bit sans contrainte. Nous donnons aussi une construction en temps linéaire d'une présentation à états finis d'un système contraint défini par une liste périodique de blocs interdits. La deuxième application est relative à un problème de biologie : la reconstruction d'une séquence génomique à partir d'un ensemble de ses fragments. Nous donnons une formalisation théorique de ce problème qui le rend résoluble en temps linéaire en utilisant les mots interdits minimaux. Nous prouvons aussi que notre algorithme résout un cas particulier du "problème de la plus petite sur-séquence" (Shortest Superstring Problem).
52

Méthodologie semi-formelle pour l’étude de systèmes biologiques : application à l'homéostasie du fer / Semi-formal methodology for biological systems study : application to iron homeostasis

Mobilia, Nicolas 29 September 2015 (has links)
Les travaux de cette thèse portent principalement sur le développement d'une méthodologie pour la modélisation de systèmes biologiques. Cette méthodologie, basée sur une modélisation en équations différentielles, intègre aussi bien des méthodes formelles (solveur sur intervalles, solveur de formules STL), qu'analytiques (calcul de stabilité d'état stationnaire) ou numériques (algorithme d'optimisation, analyses statistiques). Elle permet l'intégration de différents types de données, telles la réponse comportementale à une perturbation ou des données quantitatives (demie-vie, concentrations). En collaboration avec une équipe de biologistes, cette méthodologie est appliquée, avec succès, au système de l'homéostasie du fer : nous étudions la réponse intracellulaire du système, via des protéines régulatrices spécifiques (protéines IRP), face à une situation de carence en fer. Un résultat majeur de cette étude est l'amélioration des connaissances sur la concentration de fer intracellulaire nécessaire à la prolifération des cellules : cette concentration est mise en avant par l'étude du modèle, puis est confirmée expérimentalement.Le deuxième volet de ces travaux portent sur le développement d'un outil pour la modélisation de réseaux de gènes avec le formalisme des réseaux de Thomas. Cet outil, développé en ASP (Answer Set Programming), permet l'intégration de différents types de données telles des données sur des mutants ou l'existence de différents états stationnaires. Cet outil permet d'éviter automatiquement l'incohérence en cas de contradiction entre différentes hypothèses sur le système. Il permet également l'inférence de propriétés biologiques telles que l'ordre entre paramètres cinétiques. / The major part of this PhD consists in the creation of a methodology to model biological systems. This methodology considers models based on differential equations, and uses formal methods (interval solver, verification of STL formula), analytical methods (study of stability) and numerical methods (optimization algorithm, statistical analysis). Moreover, many kind of data, like behavioral response to perturbation, or quantitative data (metabolite half-life and concentration) can be incorporated. In collaboration with a biologist team, this methodology is successfully applied to the iron homeostasis network : we study the response of the system to an iron depletion, at the intracellular level, based on specific regulatory proteins (IRP proteins). A major output of this study is insight into the level of iron cells need to proliferate : this concentration is pointed out by the study of the model, and is experimentally validated.The second part of the PhD is the creation of a tool to model genetic regulatory networks, using Thomas' formalism. This tool, developed using ASP (Answer Set Programming) programming language, can integrate many kind of data, like mutation data, or the existence of many steady states. It automatically avoids inconsistency in case of contradiction between different hypotheses. It also infers biological properties such as relationships between kinetic parameters.
53

Étude bioinformatique des génomes de Porphyromonas / Bioinformatic study of Porphyromonas genomes

Acuña Amador, Luis Alberto 20 December 2017 (has links)
Les bactéries du phylum Bacteroidetes, classe Bacteroidia, sont parmi les plus importantes dans microbiotes gastrointestinaux des humains et d'autres mammifères. La bouche, entrée du tube digestif, est un environnement avec des sites anatomiques variés, auxquels s'associent des microbiotes de composition différente. L'union de la gencive et des dents, le sillon gingivo-dentaire ou sulcus, est un site de dépôt d'un biofilm complexe appelé plaque dentaire. Une bactérie de ce phylum, Porphyromonas gingivalis, est capable de perturber le système immunitaire humain et de produire un déséquilibre du biofilm oral également nommée dysbiose. Ceci déclenche la formation de la poche parodontale, un creusement pathologique du sulcus, et l'apparition de la parodontite. D’autres espèces du genre Porphyromonas sont également associées à la parodontite notamment chez les canidés. Les populations de P. gingivalis sont panmictiques et la plasticité de leurs génomes importante. La bioinformatique peut aider à identifier les causes de la mosaïcité des génomes de cette bactérie, à étudier les facteurs de virulence au niveau du genre bactérien pour expliquer l'existence d'espèces pathogènes et d'autres commensales et à décrire la dysbiose liée à la parodontite. La génomique comparative de P. gingivalis a démontré une corrélation entre le nombre de contigs dans les génomes draft de cette espèce et les répétitions génomiques, notamment des séquences d'insertion. Nous avons re-séquencé, re-assemblé et re-annoté trois souches de référence de cette bactérie qui avaient des génomes complets, en utilisant un séquençage en long-read. Nous avons mis en évidence des erreurs d'assemblage sur les trois génomes publiés, que nous avons corrigé. Une étude du pangénome de ces trois souches montre un génome core important. La plasticité de l'espèce serait donc plus dans l'organisation du génome que dans les différentes capacités de codage. Une sous partie du génome core, dont les gènes ont un pourcentage d'identité nucléotidique plus faible que la plupart (génome core variant) est intéressante pour expliquer les différences phénotypiques de ces bactéries. Nous avons étudié la répartition d'un facteur de virulence, les fimbriae, structures d'adhésion, au sein du genre Porphyromonas et lié les loci à la phylogénie et au caractère pathogène des espèces. Finalement, une description de la dysbiose qui a lieu lors d'une parodontite est faite par une analyse du microbiote de patients atteints de parodontite et d'individus sains. Les genres prépondérants lors des deux états sont mis en évidence. Au cours de ces travaux, nous montrons l'importance de la biocuration et sa valeur ajoutée dans les travaux de génomique et bioinformatique en général. Seulement en faisant ce travail lent et lourd de biocuration, les réponses apportées aux questions biologiques seront pertinentes. / Bacteria of Bacteroidetes phylum, Bacteroidia class, are amongst the more important in gastrointestimal microbiota, either human or from other mammals. The mouth, digestive tube entry, is an environment with varied anatomic sites, each having a particular microbiota with different composition. The union between gingiva and teeth, the gingival sulcus, is a site for biofilm (dental plaque) formation and accumulation. Porphyromonas gingivalis, a bacterium from this phylum, can modulate the inmune system and produce an oral biofilm desequilibrium called dysbiosis. This triggers the formation of a periodontal pocket, a pathological deepening of the gingival sulcus, and the emergence of periodontitis. Other Porphyromonas species are also associated to periodontitis, mainly in canids. P. gingivalis populations are panmictic and their genomes are highly plastic. Bioinformatics can help to identify the causes of this genomic mosaicity, to study Porphyromonas virulence factors in order to explain why some species are pathogens and other are commensal, and to describe the dysbiosis linked to periodontitis. P. gingivalis comparative genomics showed a correlation between the number of contigs in draft genomes and genomic repeats, mainly insertion sequences. We resequenced, reassembled and reannotated three reference strains of this bacterium that already had complete published genomes, using long-read sequencing. We showed that misassemblies were present in the three published genomes, and we corrected them. A pangenome study of the three strains showed that the core genome is preponderant. The species plasticity might be related more to the genome organization than to different coding capacities. A subpart of th core genome, with genes having a nucleotidic identity percentage lower than the majority (variable core genome), is interesting for explaining the phenotypic differences of bacteria. We analysed the repertoire of a virulence factor, fimbriae, adhesion structures, in the Porphyromonas genus to link the loci to phylogeny and pathogenicity of its species. Finally, we described the dysbiosis occuring with periodontitis, analysing gingival microbiota of patients having the illness and healthy individuals. Preponderant genera in both states are highlighted. With this work, we demonstrate the importance of biocuration and its added value for genomic and bioinformatic studies in general. Only with this slow and arduous work, the answers to biological questions will be relevant.
54

Structure de réseaux biologiques : rôle des noeufs internes vis à vis de la production de composés / Structure of biological networks : role of internal nodes in the production of compounds

Laniau, Julie 23 October 2017 (has links)
Durant cette thèse nous nous sommes intéressés aux réseaux métaboliques et notamment leur modélisation sous forme d'un graphe bipartite dirigé pondéré. Ce dernier permet d'étudier la production d'éléments cibles métaboliques regroupés dans une biomasse à partir de composants provenant du milieu de croissance de l'organisme. Nous nous sommes plus particulièrement penchés sur le rôle des métabolites internes au réseau et la notion d'essentialité de ces derniers pour la production d'une biomasse dont nous avons raffiné la définition dans le cas d'une étude de flux (métabolite essentiel du point de vue de la productibilité du réseau et métabolite essentiel du point de vue de l'efficacité du réseau) puis étendu cette dernière dans le cas d'une étude topologique (métabolite essentiel du point du vue de la persistance du réseau). Nous nous sommes pour cela reposés sur le formalisme d'un part de Flux Balance Analysis et ses dérivés, et d'autre part d'expansion de réseau, afin de définir un métabolite essentiel (ou carrefour), nous permettant de mettre au point un package python (Conquests) cherchant les carrefours dans un réseau métabolite. Nous avons appliqué ce dernier à six réseaux métaboliques dont quatre provenant d'espèces modèles (iJO1360, iAF1260et iJR904 d'E. coli et Synecchocystis) et les deux autres d'espèces plus spécifiques (A. ferrooxidans et T. lutea). Nous avons aussi défini le concept de cluster de métabolites essentiels du point du vue de la persistance du réseau lié aux composants de la biomasse auxquels ils sont nécessaires et que nous avons appliqué sur les six réseaux métaboliques précédents et sur 3600 réseaux dégradés du réseau iJR904de E. coli puis reconstruits selon trois méthodes de gapfilling (Gapfill, Fastgapfill et Meneco) afin de comparer ces dernières. Ces études nous ont permis de mette en avant l'importance de métabolites internes dans la production de composés cibles. / In this thesis we are interested in metabolic networks and, in particular, their modelling with a weighted directed bipartite graph. This representation makes it possible to study the production of target metabolic elements, constituting a biomass, from components coming from the growth medium of the organism. We focused on the role of metabolites inside the network and the notion of essentiality for this elements for the production of a biomass whose definition we have refined in the case of a flow study (metabolite essential for biomass producibility and metabolite essential for biomass efficiency) and extended this notion in the case of a topological study (metabolite essential for biomass sustainability). We rely on the formalism of Flux Balance Analysis and its derivatives, and of network expansion, in order to define an essential metabolite (ME or crossroad), allowing us to develop a python package (Conquests) looking for crossroads in a metabolic network. We applied our concept to six metabolic networks, four of which came from model species (iJO1360, iAF1260 and iJR904 of E. coli and Synecchocystis) and the other two from more specific species (A. ferrooxidans and T. lutea). We have also defined the concept of cluster of ME-sustainability, related to the biomass components to which they are required and which we have applied over the six previous metabolic networks and over 3600 degraded networks of iJR904 of E. coli and reconstructed according to three methods of gapfilling (Gapfill, Fastgapfill and Meneco) to compare the results. These studies have allowed us to highlight the importance of internal metabolites in the production of target compounds.
55

Métagénomique comparative de novo à grande échelle / Large scale de novo comparative metagenomics

Benoit, Gaëtan 29 November 2017 (has links)
La métagénomique comparative est dite de novo lorsque les échantillons sont comparés sans connaissances a priori. La similarité est alors estimée en comptant le nombre de séquences d’ADN similaires entre les jeux de données. Un projet métagénomique génère typiquement des centaines de jeux de données. Chaque jeu contient des dizaines de millions de courtes séquences d’ADN de 100 à 200 nucléotides (appelées lectures). Dans le contexte du début de cette thèse, il aurait fallu des années pour comparer une telle masse de données avec les méthodes usuelles. Cette thèse présente des approches de novo pour calculer très rapidement la similarité entre de nombreux jeux de données. Les travaux que nous proposons se basent sur le k-mer (mot de taille k) comme unité de comparaison des métagénomes. La méthode principale développée pendant cette thèse, nommée Simka, calcule de nombreuses mesures de similarité en remplacement les comptages d’espèces classiquement utilisés par des comptages de grands k-mers (k > 21). Simka passe à l’échelle sur les projets métagénomiques actuels grâce à un nouvelle stratégie pour compter les k-mers de nombreux jeux de données en parallèle. Les expériences sur les données du projet Human Microbiome Projet et Tara Oceans montrent que les similarités calculées par Simka sont bien corrélées avec les similarités basées sur des comptages d’espèces ou d’OTUs. Simka a traité ces projets (plus de 30 milliards de lectures réparties dans des centaines de jeux) en quelques heures. C’est actuellement le seul outil à passer à l’échelle sur une telle quantité de données, tout en étant complet du point de vue des résultats de comparaisons. / Metagenomics studies the genomic content of a sample extracted from a natural environment. Among available analyses, comparative metagenomics aims at estimating the similarity between two or more environmental samples at the genomic level. The traditional approach compares the samples based on their content in known identified species. However, this method is biased by the incompleteness of reference databases. By contrast, de novo comparative metagenomics does not rely on a priori knowledge. Sample similarity is estimated by counting the number of similar DNA sequences between datasets. A metagenomic project typically generates hundreds of datasets. Each dataset contains tens of millions of short DNA sequences ranging from 100 to 150 base pairs (called reads). In the context of this thesis, it would require years to compare such an amount of data with usual methods. This thesis presents novel de novo approaches to quickly compute the similarity between numerous datasets. The main idea underlying our work is to use the k-mer (word of size k) as a comparison unit of the metagenomes. The main method developed during this thesis, called Simka, computes several similarity measures by replacing species counts by k-mer counts (k > 21). Simka scales-up today’s metagenomic projects thanks to a new parallel k-mer counting strategy on multiple datasets. Experiments on data from the Human Microbiome Project and Tara Oceans show that the similarities computed by Simka are well correlated with reference-based and OTU-based similarities. Simka processed these projects (more than 30 billions of reads distributed in hundreds of datasets) in few hours. It is currently the only tool able to scale-up such projects, while providing precise and extensive comparison results.
56

Integrative analyses of genome-wide transcriptomic and genomic thyroid cancer profiles

Tarabichi, Maxime 25 January 2016 (has links)
Cette thèse en bioinformatique a été réalisée entre 2010 et 2015 dans le groupe du Pr. Vincent Detours à l’Institut de Recherche Interdisciplinaire en Biologie Humaine et Moléculaire. Nous avons analysé des données génomiques et transcriptomiques provenant de carcinomes papillaires de la thyroïde (CPTs) et leurs tissus non-cancéreux adjacents. La première partie étudiait les différences transcriptomiques entre CPTs post-Tchernobyl et CPTs sporadiques, et leur tissus non-cancéreux adjacents. Dans notre cohorte, les cas sporadiques étaient en moyenne et significativement un an plus jeunes. Après un ajustement des données transcriptionnelles pour l'âge, près de 400 gènes étaient plus exprimés dans les tissus adjacents des patients exposés aux radiations. Cependant, nous n’avons pu détecter aucune surreprésentation de groupe de gènes participant à des fonctions biologiques connues. Il était possible de distinguer les cas sporadiques des cas post-Tchernobyl sur base des transcriptomes de leurs tissus adjacents, avec une précision de ~70%. Cette surexpression de gènes dans les tissus non-cancéreux adjacents pourrait être liée à une radiosensibilité accrue dans le groupe des patients exposés aux radiations de Tchernobyl. Dans la deuxième étude, nous avons intégré des données provenant des patients de la première partie, incluant les nombres de copies d'ADN des CPTs, le génotype de plus de 400.000 SNPs dans le sang et les données transcriptionnelles des CPTs et leurs tissus non-cancéreux adjacents. En reproduisant les résultats d'une étude précédente, nous avons retrouvé la région 7q11.23 dupliquée exclusivement dans un tiers des patients exposés aux radiations. Dans une étude indépendante, un autre groupe a montré que la duplication de cette région était plus fréquente dans une population de lignées cellulaires radiosensibles que dans la population humaine normale. Cependant, en analysant les transcriptomes des patients présentant cette duplication, nous n'avons pas détecté de différence d’expression des gènes codés dans cette région génomique. En outre, aucun génotype de SNP n'était significativement lié à l'exposition aux radiations. En conclusion, les résultats confirment qu'un tiers des CPTs post-Tchernobyl ont des traces d'un dégât radio-sensibilsant dans leur ADN. Dans une troisième étude, nous avons étudié les différences transcriptionnelles entre CPTs et leurs métastases ganglionnaires (MGs) associées, ainsi qu'entre des CPTs développant des MGs (N+) et des CPTs ne développant pas de MGs (N0). Des études précédentes comparant les MGs et leurs tumeurs associées impliquant d’autres organes ont montré une surexpression de gènes dans les MGs, liés aux cellules immunitaires. Ce signal provient du tissu contaminant environnant les MGs. Pour se défaire de ce signal contaminant, d’autres études ont microdisséqué au laser les parties tumorales des MGs. Cependant, la microdissection retire aussi le stroma associé à la tumeur, alors que celui-ci est justement impliqué dans la progression tumorale. Grâce à une méthode originale, nous avons corrigé nos données d’expression des MGs pour leur contenu en contaminant ganglionnaire non-cancéreux. Après cette correction, l’expression de gènes liés au stroma était plus élevée dans les MGs que dans leurs CPTs. Les différences d’expression entre N0 et N+ n’étaient pas reproductibles entre 4 jeux de données indépendants de CPTs. Ceci démontre l’absence d’un signal transcriptionnelle lié au statut nodal dans ces données. Cependant, en utilisant des données publiques comprenant des centaines de tumeurs, il est possible de prédire le statut nodal (N0 ou N+) des CPTs ainsi que des cancers du sein et du colon à partir de leurs transcriptomes. Des études précédentes montraient des taux de prédiction presque parfaits (>90%) du statut nodal à partir des données transcriptomiques. Nous avons décelés dans ces études le même biais technique de sélection des gènes, qui peut expliquer ces taux artificiellement élevés. Dans notre étude, ce biais n’était pas présent et la précision de nos prédictions était limitée (<70%), questionnant l’intérêt clinique de telles prédictions. La présence d’un signal permettant de prédire le statut nodal et l’irreproductibilité de ce signal dans des jeux de données indépendants peuvent s'expliquer par l’association entre le statut nodal et des caractéristiques d'agressivité des tumeurs, qui pourraient, elles, avoir une influence reproductible sur les transcriptomes. Dans notre dernière étude, nous avons analysé les différences entre CPTs, liées à la présence de BRAFV600E, une mutation commune à 60% des CPTs. En utilisant un jeu de données public, nous avons montré que les CPTs présentant la mutation étaient plus dédifférenciés, et plus infiltrés en stroma, probablement en lymphocytes et fibroblastes; et que ces CPTs présentaient plus de fibrose et proliféraient sans doute plus. Tout ceci suggère que les CPTs mutés pour BRAF constituent un groupe de CPTs plus agressif. Des caractéristiques d’agressivité pourraient être détectées au front invasif, c’est-à-dire la périphérie de la tumeur définissant son contact avec le stroma, notamment la présence de regroupement de cellules isolées du reste de la tumeur. Dans les CPTs, ces îlots cellulaires isolés sont observés sur des lames histologiques 2D et pourraient être expliqués soit par un détachement cellulaire, signe d’agressivité lié au processus métastatique, soit une conformation complexe compatible avec une tumeur connexe en 3D. Dans un CPT, nous avons analysé la conformation 3D du front invasif d'un CPT muté. Nous avons reconstruit son volume 3D grâce à une méthode originale. Les groupes de cellules cancéreuses qui semblaient isolées sur les images 2D d’histopathologie, étaient en fait connectés en 3D. L’hypothèse de la présence de détachement cellulaire suite à la transition épithélio-mésenchymateuse n’est donc pas requise pour expliquer la présence de ces îlots cellulaires en 2D. La forme 3D du front invasif impliquait une surface de contact entre tumeur et stroma bien plus importante qu'impliquée par la forme ellipsoïde habituellement décrite. Les fibroblastes participaient autant à la création de la masse tumorale que les cellules cancéreuses, puisque ces deux groupes de cellules proliféraient à la même vitesse. A l'avenir, le séquençage du matériel génétique de cellules individuelles facilitera notre interprétation des signaux génomiques et transcriptomiques, qui jusqu’alors provenaient de tissu complet, i.e. un mélange de populations de cellules tumorales, stromales et de contaminant. Une signature de radiation pourrait être extraite des profils mutationnels de cellules individuelles exposées aux radiations et à l’H2O2 in vitro et comparée à la signature des CTPs post-Tchernobyl. Les cellules tumorales et stromales individuelles des MGs pourraient être comparées aux cellules tumorales et stromales invividuelles des CPTs. De même les cellules individuelles mutées pour BRAFV600E pourraient être comparées aux cellules non mutées. / Doctorat en Sciences biomédicales et pharmaceutiques (Médecine) / info:eu-repo/semantics/nonPublished
57

Étude de l'évolution combinatoire des gènes par l'analyse de réseaux de similarité de séquence / Using sequence similarity networks to study combinatorial evolution of genes

Jachiet, Pierre-Alain 02 July 2014 (has links)
L’accumulation récente de données de séquences génomiques a montré que l’évolution des gènes n’est pas strictement arborescente. De nombreux processus évolutifs, comme l’exon shuffling, la fusion de gènes ou la recombinaison illégitime remodèlent les gènes, créant des structures composites, formées de parties dont les histoires évolutives sont différentes. Le développement de réseaux de similarité de séquences fournit un cadre analytique permettant d’étudier l’impact de ces processus sur l’évolution moléculaire, en structurant les relations de ressemblance entre séquences et en formalisant en termes de graphes la détection de gènes (triplets intransitifs) et de familles de gènes (cliques minimales séparatrices) composites. La taille des jeux de données actuels, de l’ordre de plusieurs millions de séquences, a également requis le développement de nouveaux outils et méthodes : parallélisation des comparaisons de séquences, visualisation de très grands réseaux par simplification en communautés de Louvain et identification de grands cycles. Appliquées à des jeux de données de génomes eucaryotes et viraux, ces méthodes ont démontré la présence de gènes composites dans tout le vivant et les éléments génétiques mobiles. En proportion, les gènes composites sont plus nombreux dans les génomes eucaryotes ; en nombre absolu, ils sont plus nombreux à être portés par des virus. Chez ces derniers, la distribution fonctionnelle des gènes composites est biaisée (enrichissement dans les familles essentielles pour la perpétuation du cycle viral), et les éléments des gènes composites trouvent même parfois leurs origines dans le matériel génétique de classes virales différentes. Plus généralement, l’étendue des processus combinatoires, en révélant des liens évolutionnaires autres que les liens d’homologie au sens fort, justifie une étude pluraliste des relations de similarité entre séquences. / The recent accumulation of genomic sequence data has shown that gene evolution is not strictly tree-Like. Many evolutionary processes, like exon shuffling, gene fusion or nonhomologous recombination remodel genes by creating composite structures that are made from parts with different evolutionary histories. The development of sequence similarity networks provides an analytical framework to study the impact of these processes on molecular evolution, by structuring the resemblance relationships between sequences and by formalizing, in terms of graph theory, the detection of composite genes (intransitive triplets) and gene families (clique minimal separators). The size of current data sets, typically several million sequences, has also required the development of new tools and methods: sequence comparison parallelization, large networks visualization with Louvain communities and large cycles identification. When applied to eukaryotic and viral genome data sets, these methods have shown that composite genes are found throughout cellular organisms and mobile genetic elements. Proportionally, composite genes are more numerous in eukaryotic genomes; in absolute number, they are more numerous in viruses. In the latter, composite genes functional distribution is biased (enrichment of genes families that are essential for the perpetuation of the viral cycle), and the various parts of composite genes sometimes even originate from the genetic material of different viral classes. More generally, the extent of combinatorial processes, by unravelling other evolutionary bonds than homology bonds in the strictest sense, legitimates a pluralistic study of similarity relationships between sequences.
58

Contribution à l’étude de l’évolution des génomes de champignons ectomycorhiziens du genre Tuber (Pézizomycètes) par génomique comparative / Study of ectomycorrhizal fungi genomes evolution in the genus Tuber (Pezizomycetes) using comparative genomics

Payen, Thibaut 04 May 2015 (has links)
Les truffes sont des champignons ectomycorhiziens du genre Tuber, au sein des Pézizomycètes, vivant en symbiose avec de nombreux arbres et arbustes. Parmi les Pézizomycètes se retrouvent des espèces saprotrophes, pathogènes et symbiotiques ainsi que des champignons très connus comme les truffes et les morilles. Malgré leur intérêt, la structure et l'évolution des génomes des champignons de la classe des Pézizomycètes est encore mal connue. Les objectifs de ma thèse étaient de caractériser la structure et l'évolution des génomes de Truffes et d'autres Pézizomycètes. Une analyse de génomique comparative entre huit génomes de Pézizomycètes, dont trois de truffes, a montré que l'expansion de la taille des génomes des truffes, due principalement aux rétrotransposons gypsy, a probablement eu lieu chez l'ancêtre commun des Tuberaceae il y a environ 150 millions d'années. Ensuite, une réduction de leur contenu en gènes, et principalement en enzymes dégradant la paroi végétale, a eu lieu chez l'ancêtre des Tuber il y a environ 100 millions d'années. Des convergences et des divergences évolutives ont été mise en évidence entre les champignons ectomycorhiziens basidiomycètes et les truffes. Une analyse de génomique comparative au sein de l'espèce T. melanosporum a quant à elle permis de caractériser une ressource de plus de 400000 polymorphismes et de mettre en évidence des traces de sélection. Enfin une analyse plus détaillée des rétrotransposons gypsy présents dans le génome de T. melanosporum a montré que leur colonisation du génome est ancienne. Certains éléments semblent toutefois avoir transposé récemment suggérant que les rétrotransposons gypsy peuvent continuer de jouer un rôle dans l'évolution du génome de T. melanosporum / Truffles are ectomycorrhizal (ECM) fungi, belonging to Tuber genus in the Pezizomycete Class, that form symbiotic associations with numerous trees and shrubs. The Pezizomycetes constitute an early diverging lineage of Ascomycota composed of saprophytic, mycorrhizal and pathogenic species. Some Pezizomycetes, such as truffles and morels, are widely recognized by scientist and lay-person alike. Despite their importance, the genomic structure and evolution within the Pezizomycetes is largely unknown. The aims of my thesis were to characterize the structure and the evolution of the truffle and other Pezizomycete genomes. A comparative analysis performed using eight Pezizomycete fungi, among them three truffles, showed that the genome of truffles has evolved by a size expansion, mainly due to gypsy retrotransposons, in the common ancestor of Tuberaceae about 150 Mya. Then, a loss of the number of gene models, such as plant cell wall degrading enzymes occurred in the common ancestor of Tuber spp about 100 Mya. This study provides new insights into the evolution of the truffles, and ECM symbiosis in general, and highlights cases of divergence and convergence between Basidiomycota and truffle symbiotic species. A comparative analysis in T. melanosporum allowed characterizing a resource of more than 400,000 single nucleotide polymorphisms. This population genomic analysis allowed identifying candidate genomic regions with trace of selection. Finally, a more detailed characterization of T. melanosporum gypsy retrotransposons showed that the major invasive waves are old, but that more recently some elements have moved suggesting that retrotransposons continue to play an important role in the evolution of the truffle genome
59

Approches in silico et in vivo pour l'étude de la régulation transcriptionnelle : application à la cardiogenèse chez D. melanogaster

Potier, Delphine 12 July 2011 (has links)
Au cours de ma thèse, je me suis intéressée au développement du système cardio-vasculaire chez la drosophile afin de mieux comprendre la logique de régulation de ce processus. Au cours de l'embryogenèse, la cardiogenèse est réalisée grâce à un réseau de régulation génique (GRN) qui conduit à la formation d'un simple tube cardiaque linéaire. Ensuite, lors de la métamorphose, le tube cardiaque larvaire est remodelé pour former l'organe adulte.J'ai d'abord participé à l'évaluation et à l'amélioration d'une nouvelle méthode, cisTargetX, qui permet prédire des modules cis-régulateurs (CRM) présentant des caractéristiques communes à un groupe de gènes co-exprimés.En utilisant cette méthode, j'ai analysé le transcriptome du remodelage du cœur afin de prédire des motifs pouvant être liés par des TF impliqués dans le contrôle temporel de l'expression des gènes, ainsi que les CRM associés. Grâce aux validations in-vivo des CRM prédits, j'ai démontré qu'ils étaient capables de reproduire le patron d'expression temporel attendu. J'ai également démontré que la mutation du motif en question au sein de deux des CRM testés permet de supprimer son patron d'expression sauvage. Ce motif est reconnu par des facteurs de transcription (TF) de la famille des récepteurs nucléaires (NR). Dhr3, un NR fortement exprimé au début de l'induction des gènes analysés, est montré comme étant essentiel au patron d'expression temporel. Nos résultats suggèrent une architecture du GRN, dans lequel les régulations temporelle et spatiale sont distinctes.Par la suite, j'ai participé à la caractérisation du GRN impliqué dans la cardiogenèse. En combinant un transcriptome issu de la différenciation des cellules cardiaques avec des expériences ChIP-on-Chip sur le TF MEF2, j'ai prédit que certains TF appartenant aux familles bZIP et REL sont susceptibles de participer au GRN responsable de la différenciation cardiaque. La validation in-vivo de ces prédictions est en cours. / During my thesis, I focused on the development of the cardiovascular system in Drosophila in order to investigate the regulatory logic of this process. During embryogenesis, cardiogenesis is mediated by a gene regulatory network which includes conserved signaling pathways and transcription factors, and leads to the formation of a linear cardiac tube. Then, during metamorphosis, the larval cardiac tube is remodeled to form the adult organ.I first participated in the evaluation and the improvement of a new method, cisTargetX, that uses a comprehensive library of motifs, combined with phylogenetic conservation, to identify potential cis-regulatory modules (CRM) presenting common features in a cluster of co-expressed genes.Using this method among other tools, I analysed cardiac remodeling during metamorphosis to predict motifs for transcription factors (TF) involved in the temporal control of gene expression, and also their associated CRM. I performed in-vivo validations of predicted CRM, and demonstrated that they reproduce the expected temporal expression pattern. In addition, I demonstrated that motifs mutation within selected CRM abrogate this expression pattern. This motif is predicted to be recognized by a TF that belong to the nuclear receptor (NR) family. Dhr3, a NR highly expressed at the onset of the induction of the analysed gene set, is demonstrated to be essential for CRM temporal pattern. Our results suggest a modular architecture of the regulatory machinery, in which the temporal and spatial regulations are distinct.Next, I participated in the characterization of the Gene Regulatory Network (GRN) involved in cardiac differentiation during embryogenesis. Combining transcriptome profiling of differentiating cardiac cells with Mef2 Chip-on-Chip experiments allowed me to predict that TF belonging to bZIP and REL family are likely to participate in the GRN driving cardiac differentiation. In-vivo validation of these predictions is in progress.
60

Développement et application de méthodes bioinformatiques pour l'analyse des protéines contenant des répétitions en tandem / Development and application of bioinformatics methods for the identification and characterisation of tandem repeat in protein sequences

Richard, François D. 21 October 2016 (has links)
De nos jours, l’augmentation du volume des données de séquençage est bien plus forte que celle de notre capacité à analyser ces données. En lien avec ce déluge de données et le besoin urgent de nouveaux outils bioinformatiques pour les analyser, notre travail consiste à développer de nouveaux algorithmes pour mieux comprendre les relations entre séquence, structure, et fonction des protéines. Les protéines contiennent de larges portions de séquences périodiques, qui forment des motifs d’acides aminés répétés les uns à la suite des autres que l’on appelle des répétitions en tandem. Elles se retrouvent dans 14% des protéines. De nombreuses études ont montré leur importance fonctionnelle ainsi que leur implication dans de nombreuses maladies humaines, notamment le cancer. Ici, nous montrons l’importance d’adopter une approche incluant plusieurs outils de détection de répétition en tandem afin de s’assurer d’obtenir le jeu de données le plus complet. Nous avons ainsi réalisé un pipeline approprié, et développé deux outils spécifiques : un filtre, pour gagner en rapidité, et un score, pour sélectionner les répétitions les plus pertinentes dans les régions structurées des protéines. Enfin, nous avons utilisé ce pipeline sur une sélection de 94 protéomes. Cette analyse a permis de mettre à jour le précédent recensement des répétitions, montrant que 64% des protéines contenaient des répétitions en tandem. Elle a également permis de mieux comprendre les répétions en tandem dans leurs caractéristiques, leurs compositions et leurs implications dans les maladies humaines. / Today, the growth of protein sequencing data significantly exceeds the growth of capacities to analyze these data. In line with this data deluge and urgent needs in new bioinformatics tools our work deals with the development of new algorithms to better understand the sequence-structure-function relationship. Proteins contain a large portion of periodic sequences representing arrays of repeats that are directly adjacent to each other, so called tandem repeats (TRs). TRs occur at least in 14% of all proteins. Highly divergent, they range from a single amino acid repetition to domains of 100 or more repeated residues. Numerous studies demonstrated the fundamental functional importance of such TRs and their involvement in human diseases, especially cancers. Here we show the importance of integrating several TR detectors to get the most complete set of TRs in proteomes. We designed an appropriate pipeline and developed a filter to speed the process as well as a new scoring module to select relevant structured TRs. In addition, we undertook a large scale analysis of TRs in 94 proteomes. This large scale analysis allowed us to update previous census of TR showing that TRs occurs in 64% of all proteins and leads to a better understanding of TR in terms of their characteristics, composition and implication in human disease.

Page generated in 0.1612 seconds