Spelling suggestions: "subject:"́bioinformatics"" "subject:"́bioinformatic""
151 |
Conception d'un web service pour la fouille de données de génomique : application à la caractérisation de la myogenèse et de l'adipogenèse / Proteome data mining using ProteINSIDE online toolKaspric, Nicolas 24 February 2016 (has links)
La qualité des carcasses et des viandes bovines dépend de l’équilibre entre les masses musculaires et adipeuses qui conditionnent le poids de carcasse et son rendement (composition en muscle et en gras), mais aussi la qualité sensorielle de la viande (tendreté, jutosité et flaveur). Comprendre comment contrôler le rapport des masses de muscle relativement à celles des tissus adipeux (TA) représente donc un enjeu majeur pour les filières de viande bovine. Ce rapport dépend du nombre et du volume des cellules musculaires et adipeuses. Ces propriétés sont sous le contrôle d’événements cellulaires se mettant en place précocement chez le bovin puisque le nombre de cellules musculaires est fixé dès l’âge 180 jours post-conception (jpc) chez le fœtus. Des analyses de l’évolution des protéomes de ces deux tissus, au cours de la vie fœtale ont produit des données originales mais insuffisantes. En outre, il n’est pas toujours aisé d’extraire ou de générer une information biologique pertinente à partir d’expérimentations de génomique. Ceci est particulièrement vrai chez les ruminants, car ils sont peu annotés dans les bases de données et peu de ressources bioinformatiques leur sont dédiées. Dans ce contexte, notre objectif était de concevoir un serveur web « tout en un » permettant une fouille des données de génomique chez le bovin afin d’améliorer les connaissances sur les mécanismes associés à la croissance par hyperplasie et par hypertrophie des tissus musculaire et adipeux. Aussi, nous avons organisé notre travail de thèse en deux axes. Un outil d’analyse de données de génomique, dédié aux ruminants (bovin, ovin et caprin) nommé ProteINSIDE (www.proteinside.org) a été développé. En une seule requête, il synthétise l'information biologique stockée dans les bases de données publiques ou fournie par les annotations fonctionnelles issues de l’ontologie des gènes. Il prédit aussi les protéines qui sont sécrétées (sécrétome des tissus) et qui interviennent dans la signalisation entre les cellules ou tissus. Il lie les protéines selon leurs interactions moléculaires afin d’identifier et de visualiser celles qui contribuent à un même processus biologique et celles qui sont centrales à un processus biologique. ProteINSIDE a été testé avec des jeux de données de 1000 protéines par espèce et a été comparé avec succès à DAVID, BioMyn et AgBase, conçus pour la recherche d'information et l'annotation, ainsi qu'à PrediSi et Phobius qui prédisent les protéines sécrétées. ProteINSIDE a été appliqué à l’analyse des protéomes des tissus musculaires et adipeux. Une première analyse des données relatives à l’ontogenèse des tissus, a révélé des liens entre des protéines présentes dans les deux tissus fœtaux et des protéines impliquées dans les processus d’autophagie. Dans une seconde étude, nous avons décrit les protéomes des deux tissus à 140 jpc. Nous avons identifié 514 protéines musculaires et 752 protéines adipeuses, dont 346 communes. Ces protéines interviennent par exemple dans la régulation négative de l’apoptose, dans les processus d’autophagie, dans la régulation de la prolifération cellulaire et dans la voie de signalisation Wnt. Nous avons identifié 47 et 93 protéines potentiellement sécrétées par le muscle et le TA, dont 24 communes. L’intégration des connaissances sur les protéines sécrétées avec celles disponibles pour le « surfaceome » a suggéré des protéines qui participeraient au dialogue muscle-TA. Nous avons donc produit un serveur web pour la fouille de données de génomique non seulement chez le bovin, l’ovin, le caprin, mais aussi chez l’homme, le rat et la souris. Ce type de serveur devrait être particulièrement utile à la communauté scientifique. Son application a conduit à la production de connaissances nouvelles et d’hypothèses de travail pour la compréhension des mécanismes de régulation de la croissance fœtale du muscle squelettique et du tissu adipeux. / The quality of carcasses and meats depends on the balance between muscle and adipose tissue (AT) masses that determine carcass weight and performance (muscle and fat composition), but also the sensory quality of the meat (tenderness, juiciness and flavor). Understanding how to control the ratio of muscle mass relative to AT mass represents a major challenge for beef producers. The balance between these masses depends on the number and volume of muscle and AT cells. These cellular events are taking place at the early steps of fetal period in cattle, as the total number of muscle cells is fixed at 180 days post-conception (dpc) in the fetus. The analysis of the evolution of these two proteome tissues during fetal life produced original but insufficient data. In addition, it is not always easy to extract or generate relevant biological information from genomic experiments. This is particularly true in ruminant species because they are not annotated in databases and few bioinformatic resources are dedicated to them. In this context, our objective was to design an “all in one” web service to analyze genomic data in cattle in order to improve knowledge of the mechanisms involved in fetal muscle and AT growth. Thus, we have organized our thesis in two axes. We developed a genomic data analysis tool, dedicated to ruminant species (cattle, sheep and goat) and named ProteINSIDE (www.proteinside.org). In a single query, this tool synthesizes the biological information stored in public databases or provided by functional annotations from gene ontology. It also predicts proteins that are secreted (tissue secretome) and which are involved in signaling between cells or tissues. It links proteins according to their molecular interactions to identify and visualize those that contribute to the same biological processes and those that are central to a biological process. ProteINSIDE was tested with data sets of 1000 proteins by species and has been successfully compared with DAVID, BioMyn, and AgBase (designed for information retrieval and annotation), as well as PrediSi and Phobius (that predict proteins secreted). We applied ProteINSIDE to the proteome analysis of muscle and AT. A first analysis of data on the ontogenesis of the tissue revealed links between proteins of both fetal tissues and proteins involved in autophagy processes. In a second study, we constructed and described the bovine proteomes of both tissues at 140 dpc. We identified 514 muscle protein and 752 AT proteins, including 346 commons proteins. As an example, these proteins are involved in the negative regulation of apoptosis, in autophagy processes, in the regulation of cell proliferation, and in the Wnt signaling pathway. We identified 47 and 93 potentially secreted proteins by muscle and TA, including 24 commons proteins. The integration of knowledges about the secreted proteins with those available for the “surfaceome” suggested proteins which could participate in the cross-talk between muscle and AT. Thus, we produced a web server to mine genomic data from bovine, sheep, and goat species, but also from human, rat and mice species. This type of server should be particularly useful to the scientific community. Its implementation has led to the production of new knowledge and working hypotheses for the understanding of the mechanisms which regulate fetal growth of muscle and AT.
|
152 |
Inférence des interactions entre processus évolutifs / Inference of the interactions between evolutionary processesBehdenna, Abdelkader 14 March 2016 (has links)
Au cours de cette thèse, nous avons développé un outil pour détecter la coévolution, c'est à dire l'évolution conjointe de différentes entités biologiques (nucléotides, acides aminés, fonctions biologiques), à différentes échelles (moléculaire, organe). Cet outil s'applique sur des arbres phylogénétiques sur lesquels des évènements évolutifs (mutations, gains/pertes de fonctions biologiques) sont placés. Nous nous plaçons dans un cadre abstrait dans le but de travailler sur les processus conduisant à l'apparition d'évènements évolutifs au sens large le long des lignées d'un arbre phylogénétique. Cet outil est constitué de deux parties distinctes, chacune ayant ses propres spécificités.D'une part, nous avons produit une première méthode simple, très efficace, permettant de détecter parmi un très grand nombre de tels processus, quelles paires d'évènements semblent apparaître de manière conjointe dans l'arbre. Grâce à un formalisme mathématique utilisant les propriétés de l'algèbre bilinéaire, des calculs exacts d'espérance, de variance et même de distributions de probabilités sont possibles et permettent d'associer à ces paires détectées des p-values exactes, rendant cette méthode très précise.D'autre part, nous avons développé un modèle de coévolution entre de tels processus évolutifs. Ce modèle mathématique limite considérablement le nombre de paramètres utilisés et nous a permis de calculer et d'optimiser une fonction de vraisemblance. Cette optimisation revient à rechercher les paramètres du modèles expliquant au mieux les données contemporaines observées, et nous permet ainsi, toujours selon notre modèle, d'établir le scénario le plus probable ayant mené aux données observées.Cette seconde méthode est plus gourmande en temps de calcul, ce qui invite à associer les deux méthodes dans un pipeline nous permettant de traiter efficacement un grand nombre de paires avant d'aller plus loin dans notre étude et tester les paires les plus encourageantes à l'aide de notre modèle mathématique, dans le but de décrire un scénario interprétable dans un contexte biologique. Nous avons testé cet outil à l'aide de simulations, avant de l'appliquer à deux exemples biologiques très différents : le lien entre intracellularité et perte de flagelle chez Escherichia coli, et l'étude de toutes les paires de nucléotides dans des séquences d'ARNr 16S d’un échantillon de gamma-entérobactéries. / In this thesis, we have developed a tool to detect co-evolution, ie the joined evolution of different biological entities (nucleotides, amino acids, organic functions), on different scales (molecular, organ). This tool is applied to phylogenetic trees on which evolutionary events (mutations, gain / loss of biological functions) are placed. We consider an abstract framework in order to work on the processes leading to the emergence of evolutionary events along the lineages of a phylogenetic tree. This tool consists of two separate parts, each with its own specificities.On the one hand, we have produced a first simple, highly effective method to detect from a very large number of such processes, which pairs events seem to appear jointly in the tree. Using a mathematical formalism using the properties of the bilinear algebra, exact calculations of expectancy, variance and even probability distributions are possible and allow to associate exact p-values to these pairs, making this method very precise.On the other hand, we have developed a model of coevolution between such evolutionary processes. This mathematical model severely limits the number of parameters used and allows us to calculate and maximize a likelihood function. This optimization is similar to searching the parameters of a model explaining the best the observed contemporary data, and allows us as well, according to our model, to determine the most likely scenario that led to the observed data.This second method requires more computing time, which invites to combine the two methods in a pipeline allowing us to efficiently process a large number of pairs before proceeding further in our study and test the most promising pairs using our mathematical model in order to describe a scenario interpreted in a biological context. We have tested this tool by using simulations, before applying it to two very different biological examples: the link between intracellularity and loss of flagellum in Escherichia coli, and the study of all the pairs of nucleotides in sequences 16S rRNA of a sample of gamma-Enterobacteria.
|
153 |
Genetic and epigenetic factors associated with human male infertility / Facteurs génétiques et épigénétiques associés à l'infertilité masculineDumargne, Marie-Charlotte 19 February 2016 (has links)
La spermatogenèse est un processus complexe qui dépend de la coopération de nombreux gènes. Son produit final le spermatozoïde, est un sujet d’étude idéal car il renferme à la fois des indices d’événements passés ainsi que des informations qui seront transmises à l'ovocyte lors de la fécondation. L'identification de nouveaux acteurs de la spermatogenèse, des modifications spécifiques de l'ADN du sperme ou la présence de transcrits spécifiques pourraient servir comme biomarqueurs dans le diagnostic de l’infertilité. Cette thèse avait pour but d’analyser le génome, le transcriptome et l’épigénome de spermatozoïdes dans le contexte de l'infertilité masculine. Nous avons identifié de nouvelles causes génétiques et confirmé la présence d'anomalies de méthylation dans le sperme d'hommes infertiles. Nous avons découvert 20 mutations dans le gène SOX8, chez des patients atteints de trouble du développement sexuel ou d'infertilité masculine ou féminine, qui apparaît comme un régulateur du développement et de la fonction gonadique. Par séquençage d’exome, une mutation dans le gène ATAD2 modeleur de la chromatine spécifique de la lignée germinale mâle fut également identifiée. Par RNA-seq et MeDIP-chIP du sperme d’hommes fertiles et infertiles, nous avons caractérisé la signature transcriptionnelle du sperme. La majorité des ARNs spermatiques humain est remarquablement conservée chez les mammifères placentaires suggérant des fonctions ancestrales importantes. Enfin, nos données transcriptomiques et épigénétiques tendent à indiquer qu’une expression et une régulation adéquates des gènes impliqués dans le remodelage de la chromatine constituent un facteur clé pour la fertilité masculine. / Spermatogenesis is a complex process which depends on the cooperation of many genes. The end-product, the spermatozoon, is an ideal subject for study since it carries both clues of the past events and information which will be transmitted to the oocyte at fertilization. The identification of main actors of spermatogenesis, specific modifications of sperm DNAs or sperm specific isoforms could improve our understanding of a such complex mechanism and could serve as a determination of biomarkers or diagnostic tools for fertility. The aim of the project was to go further three omes: genome, epigenome and transcriptome of mature human sperm in the context of male infertility. We identified new genetic causes of male infertility and confirmed the presence of methylation abnormalities in sperm cells of infertile men. Firstly, SOX8 gene was found mutated in a cohort of 20 patients with disorder of sex development and male or female infertility. Similarly, to NR5A1, SOX8 appears to be a novel regulator of gonadal development and function. Then by exome-sequencing, we identified a homozygous nonsense mutation in the male germline-specific chromatin modeler ATAD2. Furthermore, RNA-seq and MeDIP-chIP of sperm from fertile and infertile men along with bioinformatics analyzes of the generated data, enabled us to characterize more deeply the normal sperm transcriptional signature. We also found that the majority of human sperm RNAs are remarkably preserved in placental mammals suggesting crucial ancestral functions. Finally, proper expression and regulation of chromatin remodelers seem to be critical for male fertility, as revealed by both the transcriptomic and the epigenetic data.
|
154 |
Hétérogénéité génétique et allélique des dystonies, recherche de gènes candidats et validation fonctionnelle / Genetic and allelic heterogeneity of dystonia, gene hunting and functional validationMiltgen, Morgane 13 December 2016 (has links)
La dystonie est une pathologie du contrôle du mouvement caractérisée par des contractions musculaires involontaires. Les causes génétiques de cette pathologie sont multiples. J’ai créé des bases de données locus spécifiques colligeant l’ensemble des diversités alléliques disponible pour 16 gènes de dystonie. L’objectif de ce travail est d’aider au diagnostic de cette pathologie et, à plus long terme et lorsque les données le permettent, d’établir des corrélations génotypes-phénotypes. Cela a été le cas pour le gène THAP1 (définissant la forme DYT6) pour lequel nous avons décrits plusieurs corrélations. J'ai recherché la mutation causale dans plusieurs familles par séquençage d'exome. Cela a permis d’identifier une famille porteuse d’une mutation prédite pathogène dans le gène ANO3 (DYT23). Une autre famille est porteuse d’une mutation dans un site d’épissage du gène ATP1A3 (DYT12) entrainant la rétention totale de l'intron 17. Pour une autres famille, un gène candidat a été identifié : ADD2 qui code l'adducine beta. Plusieurs résultats expérimentaux ont été obtenus. Tout d’abord j'ai observé des différences au niveau du cytosquelette d’actine. En effet la surexpression de la protéine sauvage provoque un comportement anormal de l’actine au niveau des fibres de stress. Par ailleurs des études de d’apprentissage par association dans un modèle C. elegans KO ADD2 ont montré un défaut de mémorisation à long-terme. Mes travaux de thèse ont permis d'approfondir les connaissances quant à la contribution de chaque gène déjà connu dans les dystonies, ainsi que d'élargir l'hétérogénéité génétique caractéristique de cette pathologie par l'identification d'un nouveau gène candidat. / Dystonia is a movement control disorder characterized by involuntary muscle contractions. The genetic causes of this disease are multiple. I have created databases " loci-specific " collecting all allelic diversity available in the literature for 16 dystonia genes. The goal of this work is to to assist in the diagnosis of this disease and in the longer term, when there are sufficient data, to establish genotype-phenotype correlations. This was the case for the THAP1 gene (responsible for DYT6 dystonia) for which we have described several correlations.I searched for the disease gene in several families using exome sequencing. I identified a pathogenic mutation in the predicted gene ANO3 (DYT23) carried by one family. Another family carries a mutation in a splice site of ATP1A3 (DYT12) resulting in the total retention of intron 17. In another family a candidate gene was identified: ADD2 gene, coding beta adducin. Several functional results were obtained. First, overexpression of wild type and mutated ADD2 enabled to view differences in the actin cytoskeleton. Indeed the overexpression of the wild type protein causes abnormal behavior of actin at the level of stress fibers and at the plasma membrane. Besides, learning by association studies in a Caenorhabditis elegans model KO for ADD2 gene have shown a long-term default memory compared to the wild type. This confirms the involvement of the protein in neuronal plasticity. My thesis work led to further knowledge about the contribution of each gene already known in dystonia , as well as broaden the genetic heterogeneity characteristic of this disease by identifying a new candidate gene.
|
155 |
Computational approaches toward protein design / Approches computationnelles pour le design de protéinesTraore, Seydou 23 October 2014 (has links)
Le Design computationnel de protéines, en anglais « Computational Protein Design » (CPD), est un champ derecherche récent qui vise à fournir des outils de prédiction pour compléter l'ingénierie des protéines. En effet,outre la compréhension théorique des propriétés physico-chimiques fondamentales et fonctionnelles desprotéines, l’ingénierie des protéines a d’importantes applications dans un large éventail de domaines, y comprisdans la biomédecine, la biotechnologie, la nanobiotechnologie et la conception de composés respectueux del’environnement. Le CPD cherche ainsi à accélérer le design de protéines dotées des propriétés désirées enpermettant le traitement d’espaces de séquences de large taille tout en limitant les coûts financier et humain auniveau expérimental.Pour atteindre cet objectif, le CPD requière trois ingrédients conçus de manière appropriée: 1) une modélisationréaliste du système à remodeler; 2) une définition précise des fonctions objectives permettant de caractériser lafonction biochimique ou la propriété physico-chimique cible; 3) et enfin des méthodes d'optimisation efficacespour gérer de grandes tailles de combinatoire.Dans cette thèse, nous avons abordé le CPD avec une attention particulière portée sur l’optimisationcombinatoire. Dans une première série d'études, nous avons appliqué pour la première fois les méthodesd'optimisation de réseaux de fonctions de coût à la résolution de problèmes de CPD. Nous avons constaté qu’encomparaison des autres méthodes existantes, nos approches apportent une accélération du temps de calcul parplusieurs ordres de grandeur sur un large éventail de cas réels de CPD comprenant le design de la stabilité deprotéines ainsi que de complexes protéine-protéine et protéine-ligand. Un critère pour définir l'espace demutations des résidus a également été introduit afin de biaiser les séquences vers celles attendues par uneévolution naturelle en prenant en compte des propriétés structurales des acides aminés. Les méthodesdéveloppées ont été intégrées dans un logiciel dédié au CPD afin de les rendre plus facilement accessibles à lacommunauté scientifique. / Computational Protein Design (CPD) is a very young research field which aims at providing predictive tools to complementprotein engineering. Indeed, in addition to the theoretical understanding of fundamental properties and function of proteins,protein engineering has important applications in a broad range of fields, including biomedical applications, biotechnology,nanobiotechnology and the design of green reagents. CPD seeks at accelerating the design of proteins with wanted propertiesby enabling the exploration of larger sequence space while limiting the financial and human costs at experimental level.To succeed this endeavor, CPD requires three ingredients to be appropriately conceived: 1) a realistic modeling of the designsystem; 2) an accurate definition of objective functions for the target biochemical function or physico-chemical property; 3)and finally an efficient optimization framework to handle large combinatorial sizes.In this thesis, we addressed CPD problems with a special focus on combinatorial optimization. In a first series of studies, weapplied for the first time the Cost Function Network optimization framework to solve CPD problems and found that incomparison to other existing methods, it brings several orders of magnitude speedup on a wide range of real CPD instancesthat include the stability design of proteins, protein-protein and protein-ligand complexes. A tailored criterion to define themutation space of residues was also introduced in order to constrain output sequences to those expected by natural evolutionthrough the integration of some structural properties of amino acids in the protein environment. The developed methods werefinally integrated into a CPD-dedicated software in order to facilitate its accessibility to the scientific community.
|
156 |
Etude systématique des génomes bactériens / Systematic study of bacterial genomesRouli, Laetitia 31 October 2014 (has links)
Débutée en 2005, l'ère du pangénome a connu un important essor ces dernières années, notamment grâce aux progrès des techniques de séquençage haut débit. Le pangénome, qui est divisé en deux grandes parties, le core génome et le génome accessoire, offre un grand éventail d'utilisation. Au cours de ces trois dernières années, nous avons étudié cette gamme de possibilités en nous basant sur des pathogènes humains tel que Coxiella burnetii, Kingella kingae et Bacillus anthracis. Ainsi, outre la découverte d'une nouvelle espèce de Kingella et l'étude de quelques génomes spécifiques, nous nous sommes attardés sur le lien entre pangénome et pathogénicité, sur l'importance des SNPs (Single Nucleotide Polymorphism), ainsi que sur la corrélation entre pangénome et taxonomie et donc, par extension, nous avons étudié la notion d'espèce bactérienne. / The pangenome area began in 2005 and had known a huge increase thanks to the improvement of the Next Generation Sequencing methods. The pangenome, which is divided into two parts, the core and the accessory genome, offer a large panel of uses. During the last three years, we have studied all these possibilities. We based our work on human pathogens as Coxiella burnetii, Kingella kingae and Bacillus anthracis. Thus, in addition to the discovery of a new Kingella species and the study of some specific genomes, we studied in details the link between pangenome and pathogenicity, the importance of SNPs (Single Nucleotide Polymorphism) and the correlation between pangenome and taxonomy. Finally, we worked on the bacterial species definition.
|
157 |
Identification de motifs au sein des structures biologiques arborescentes / Pattern identification in biological tree structureGaillard, Anne-Laure 30 November 2011 (has links)
Avec l’explosion de la quantité de données biologiques disponible, développer de nouvelles méthodes de traitements efficaces est une problématique majeure en bioinformatique. De nombreuses structures biologiques sont modélisées par des structures arborescentes telles que les structures secondaires d’ARN et l’architecture des plantes. Ces structures contiennent des motifs répétés au sein même de leur structure mais également d’une structure à l’autre. Nous proposons d’exploiter cette propriété fondamentale afin d’améliorer le stockage et le traitement de tels objets.En nous inspirant du principe de filtres sur les séquences, nous définissons dans cette thèse une méthode de filtrage sur les arborescences ordonnées permettant de rechercher efficacement dans une base de données un ensemble d’arborescences ordonnées proches d’une arborescence requête. La méthode se base sur un découpage de l’arborescence en graines et sur une recherche de graines communes entre les structures. Nous définissons et résolvons le problème de chainage maximum sur des arborescences. Nous proposons dans le cas des structures secondaires d’ARN une définition de graines (l−d) centrées.Dans un second temps, en nous basant sur des techniques d’instanciations utilisées, par exemple, en infographie et sur la connaissance des propriétés de redondances au sein des structures biologiques, nous présentons une méthode de compression permettant de réduire l’espace mémoire nécessaire pour le stockage d’arborescences non-ordonnées. Après une détermination des redondances nous utilisons une structure de données plus compacte pour représenter notamment l’architecture de la plante, celle-ci pouvant contenir des informations topologiques mais également géométriques. / The explosion of available biological data urges the need for bioinformatics methods. Manybiological structures are modeled by tree structures such as RNA secondary structure and plantsarchitecture. These structures contain repeating units within their structure, but also betweendifferent structures. We propose to exploit this fundamental property to improve storage andtreatment of such objects.Following the principle of sequence filtering, we define a filtering method on ordered treesto efficiently retrieve in a database a set of ordered trees close from a query. The method isbased on a decomposition of the tree into seeds and the detection of shared seeds between thesestructures. We define and solve the maximum chaining problem on trees. We propose for RNAsecondary structure applications a definition of (l−d) centered seed.Based on instantiation techniques used for instance in computer graphics and the repetitivenessof biological structures, we present a compression method which reduces the memoryspace required for plant architecture storage. A more compact data structure is used in order torepresent plant architecture. The construction of this data structure require the identification ofinternal redundancies and taking into account both topological and geometrical informations.
|
158 |
Structuration et exploration d'informations génomiques et fonctionnelles des enzymes actives sur les glucides / Structuration and exploration of genomic information and functional enzymes acting on carbohydrate-active enzymesLombard, Vincent 12 May 2011 (has links)
Les glucides sont très rependus dans la nature et sont impliqués dans une multitude de phénomènes biologiques. Sous forme de saccharides et de glycoconjugués, ils constituent une partie substantielle de la biomasse produite sur terre et représentent une source potentielle d’énergie renouvelable de première importance. La diversité des glucides complexes est créée et contrôlée par un panel d’activités enzymatiques qui interviennent dans leur assemblage, dégradation et modification. L’étude structurale et fonctionnelle des enzymes actives sur les glucides (CAZymes) est à la base de multiples efforts de recherche appliquée en biotechnologie. L’industrie recherche actuellement des enzymes avec des activités et des spécificités encore plus performantes. L’activité de recherche de ces nouvelles enzymes est grandement facilitée par l’accumulation de séquences biologiques dans les bases de données, provenant notamment des études génomiques.Mon sujet de recherche s’inscrit dans un objectif de développement d’outils pour la classification et l’identification de nouvelles enzymes impliqués dans la conversion de la biomasse. Tous ces travaux sont en lien direct avec la mise en place d’une nouvelle infrastructure de la base de données CAZy et l’analyse de données génomiques, métagénomiques et biochimiques. La refonte complète de la structure de la base de données préexistantes et de son interface a été ainsi réalisée. Cet effort a été validé par l’analyse des familles de polysaccharide lyases et la création de sous-familles, dont l’homogénéité fonctionnelle a été révélée. De plus, la détection systématique de protéines modulaires portant des modules d’adhésion aux composants de la paroi végétale a permis l’identification de nouvelles protéines potentiellement impliquées dans la dégradation de la biomasse végétale. Enfin, j’ai implémenté des approches automatisées capables d’analyser de grands volumes de données (méta)génomiques pour en extraire le contenu en CAZymes. / Carbohydrates are widely distributed in nature, where they are involved in a multitude of important biological events. Saccharides and glycoconjugates constitute the main component of the biomass produced on earth, therefore they represent a plentiful source of renewable energy. The diversity of complex carbohydrates is created and controlled by a panel of enzyme activities involved in their assembly, degradation and modification. The structural and functional study of Carbohydrate Active enZymes on (CAZymes) has been the basis for many applied research efforts in biotechnology. For exemple, the biotechnology industry is currently searching enzymes with enhanced activities and specificities. The identification of new enzymes is potentially facilitated by the large-scale accumulation of gene sequences, particularly from current genomic studies.This thesis aimed at developing tools for the classification and identification of new enzymes involved in biomass degradation. To this end, a new structure of the CAZy database was developed and applied to mining genomic, metagenomic and biochemical data. A complete reorganisation of the structure of the existing database and its interface has been achieved. In this effort the analysis of all known families of polysaccharide lyases has been validated and subfamilies were created, which revealed functional homogeneity. In addition, the systematic identification of modular proteins containing plant cell wallbinding modules allowed the identification of new proteins potentially targeting plant biomass. Finally, I show that it is indeed possible to analyze large volumes of (meta)genomic data by automated methods in order to understand their CAZyme contents.
|
159 |
Modélisation d'un réseau de régulation d'ARN pour prédire des fonctions de gènes impliqués dans le mode de reproduction du puceron du pois / Modeling of a gene network between mRNAs and miRNAs to predict gene functions involved in phenotypic plasticity in the pea aphidWucher, Valentin 03 November 2014 (has links)
Cette thèse cherche à discriminer au niveau génomique entre le développement d'embryons vers un mode de reproduction sexué et le développement vers un mode asexué chez le puceron du pois, Acyrthosiphon pisum. Cette discrimination passe par la création du réseau de régulation post-transcriptionnelle des microARN et des ARNm qui possèdent des cinétiques d'expression différentes entre ces deux embryogenèses ainsi que par l'analyse des modules d'interactions de ce réseau par l'utilisation de l'analyse de concepts formels. Pour ce faire, une stratégie en plusieurs étapes a été mise en place : la création d'un réseau d'interactions entre les microARN et les ARNm du puceron du pois ; l'extraction et la réduction du réseau aux microARN et ARNm qui possèdent des cinétiques différentes entre les deux embryogenèses à partir des données d'expression tirées du séquençage haut-débit ; l'analyse du réseau d'interactions réduit aux éléments d’intérêt par l'analyse de concepts formels. L'analyse du réseau a permis l'identification de différentes fonctions potentiellement importantes comme l'ovogenèse, la régulation transcriptionnelle ou encore le système neuroendocrinien. En plus de l'analyse du réseau, l'analyse de concepts formels a été utilisée pour définir une méthode de réparation de graphe biparti basée sur une topologie en "concepts" ainsi qu'une méthode de visualisation de graphes bipartis par ses concepts. / This thesis aims to discriminate between embryos development towards either sexual or asexual reproduction types in pea aphids, Acyrthosiphon pisum, at the genomic level. This discrimination involves the creation of a post-transcriptional regulation network between microRNAs and mRNAs whose kinetic expressions change depending on the embryogenesis. It also involves a study of this network's interaction modules using formal concept analysis. To do so, a three-step strategy was set up. First the creation of an interaction network between the pea aphid's microRNAs and mRNAs. The network is then reduced by keeping only microRNAs and mRNAs which possess differential kinetics between the two embryogeneses, these are obtained using high-throughput sequencing data. Finally the remaining network is analysed using formal concept analysis. Analysing the network allowed for the identification of several functions of potential interest such as oogenesis, transcriptional regulation or even neuroendocrine system. In addition to network analysis, formal concept analysis was used to create a new method to repair a bipartite graph based on its topology and a method to visualise a bipartite graph using its formal concepts.
|
160 |
Mécanismes de régulation épigénétique chez l'insecte holocentrique ravageur de culture Spodoptera frugiperd, Lépidoptera, Noctuidae / Epigenetic regulation mecanisms in holocentric pest crop Spdoptera frugiperda, Lepidoptera, NoctuidaeNhim, Sandra 26 November 2018 (has links)
Chez les eucaryotes, l’ADN est empaqueté dans des complexes protéiques d’histones nommés nucléosomes qui assurent sa conformation. Cet arrangement est hétérogène à travers le génome et peut être dynamiquement modifié. La régulation de l’architecture chromatinienne joue un rôle essentiel dans la stabilité des génomes ainsi que la dynamique transcriptionnelle. Certaines régions qualifiées d’ ‘’heterochromatine constitutive’’ sont toutefois connues pour être maintenues à l’état condensé. Régionalisées aux extrémités et centres des chromosomes, l’hétérochromatine constitutive participe des fonctions télomériques et centromériques.Spodoptera frugiperda (S.fru, Lépidoptère, Noctuelle) est un ravageur de culture endémique du continent américain, récemment invasif dans le continent africain. Comme tous les Lépidoptères, S.fru est une espèce holocentrique dont le centromère est réparti le long des chromosomes et non restreint en un point unique. Cette disposition interroge sur l’établissement, la distribution ainsi que la fonction conservée de l’HC puisque cette dernière est principalement décrite pour être majoritairement localisée dans de larges régions péricentriques. Comprendre l’architecture chromatinienne chez S.fru peut avoir un intérêt en lutte biologique mais également permettre d’approfondir les connaissances en épigénétique chez un organisme non-modèle.Dans le cadre de la thèse, nous nous sommes demandés si la diméthylation de la lysine 9 de l’histone 3 (H3K9me2), marqueur de l’hétérochromatine constitutive, possédait un rôle conservé chez S.fru. Pour ce faire, nous avons comparé des données de ChIP-seq d’H3K9me2 sur cellules et larves entières après avoir annoté les gènes et l’ensemble des éléments répétés du génome, susceptibles d’être enrichis par cette marque. Parallèlement, des échantillons d’ARN-seq ont été étudiés afin de questionner le statut répressif de l’hétérochromatine constitutive. Nos résultats suggèrent un invariable maintien d’H3K9me2 dans les régions (sub)télomériques transcriptionnellement inactives ainsi qu’une forte association aux locus répétés d'ADN ribosomal (rDNA). Ces séquences ne constituent toutefois qu’une minorité des régions enrichies, le reste étant retrouvé dans des séquences répétées ainsi que dans le corps des gènes, indifféremment de leur état transcriptionnel. La persistante association d’H3K9me2 aux télomères et rDNA présagerait d’un maintien de la marque à proximité des centromères dont nous proposons un modèle d’établissement.La disposition de l’hétérochromatine constitutive questionne celle des régions euchromatiniennes, pauvres en nucléosomes, transcriptionnellement active et dynamiquement modifiées au cours du développement, du cycle cellulaire et des conditions environnementales. Afin de tester l’antagonisme de ces conformations, nous avons respectivement étudié la répartition des zones ouvertes et fermées du génome de la larve au stade L4 par approches de FAIRE-seq et de MAINE-seq. Ces structures ont été décrites dans la littérature pour être enrichies par de spécifiques modifications d’histones. Ainsi nous avons mis au point le protocole de native ChIP-seq d’H3K4me3 (marque active) et H3K9me2, H3K9me3, H3K27me3 (marques répressives). L’analyse en cours de l’ensemble de ces données de séquençages permettra d’avoir une vue intégrée de l’architecture chromatinienne au stade ravageur. / In eukaryotes, DNA is arranged in histones proteins complexes called nucleosomes that shape its conformation. This arrangement is heterogeneous across genomes and can be dynamically modified. Regulation of chromatin architecture plays an essential role in genome stability and transcription dynamics. Some regions named ‘’constitutive heterochromatin’’ are nonetheless known to remain highly condensed, regardless of conditions. Regionalized at extremities and chromosomes centers, constitutive heterochromatin contributes to telomeric and centromeric functions.Spodoptera frugiperda (S.fru, Lepidoptera, Noctuidae) is major crop pest in the Americas that recently invaded Africa. Like all Lepidopteran, S.fru is holocentric which means that its centromere is spread along chromosome and not restricted to a uniq point. This disposition question about establishment, distribution but also conserved function of constitutive heterochromatin since its usually and mainly localized in large pericentric regions.Deciphering chromatinian architecture in S.fru can be of interest in biological control but also allow to deepen epigenetic knowledge in a non-model organism.During my phD, we questionned the role of histone 3 lysine 9 demethylated (H3K9me2) in S.fru, a histone modification known in other yet described organisms to be a constitutive constitutive heterochromatinian hallmark.We compared H3K9me2 ChIP-seq data on cells and larvae after overall genomic functional annotation, potentially enriched for this mark. In parallel, RNA-seq samples were analyzed to question the putative repressive status of constitutive heterochromatin.Our results suggest an invariant retention of H3K9me2 in (sub)telomeric regions transcriptionally inactive but also a strong association of this mark in repeated ribosomal DNA locus (rDNA).These sequences constitutes nonetheless a minority of enriched regions since most of them regionalize in repeated sequences like transposons and tandem array but also gene bodies, independently of their transcriptional states.Persistent H3K9me2 association to telomeres and rDNA could predict of the conserved expression of this mark near centromeres. Based on literature and bioinformatics analysis, we proposed a model for S.fru holocentromeres.Constitutive heterochromatin questions euchromatin arrangement, described to be nucleosome poor, transcriptionally active and dynamically modified across development, cell cycle and environmental conditions. In order to test these structural antagonisms, we respectively studied open and closed genome conformations by FAIRE-seq and MAINE in larvae. These structures are reported to be associated to specific histones marks. We developed a native ChIP-seq protocol on H3K4me3 (active mark) and H3K9me2, H3K9me3, H3K27me3 (repressives marks). Overall analysis of these NGS data would help to picture an integrative view of chromatin architecture during larval pest stage.
|
Page generated in 0.0563 seconds