Global ETD Search

131	Pan-génome du riz africain cultivé Oryza glaberrima et son ancêtre sauvage Oryza barthii / Pan-genome of cultivated african rice Oryza glaberrima and his wild ancestor Oryza barthii Monat, Cécile 10 November 2016 (has links) La diversité d’une espèce est représentée par la somme de la diversité de chacun des individus qui la compose. Elle peut être observée à différentes échelles : individuelle, organique, tissulaire, cellulaire, génomique, génique, ou bien à l’échelle de la base nucléotidique. L’étude de la diversité d’une espèce est importante pour mieux la comprendre et nous permettre de retracer son histoire évolutive, de la comparer avec d’autres espèces notamment entre espèces sauvages et cultivées. Nous nous intéressons aux processus de domestication, et particulièrement à leurs impacts sur la structure du pan-génome. Le pan-génome est divisé en trois compartiments : (i) le core-génome qui contient tous les gènes présents chez tous les individus de l’espèce ; (ii) le génome dispensable qui contient l’ensemble des gènes qui sont absents chez au moins un individu ; (iii) et enfin le génome individu-spécifique qui contient les gènes présents uniquement chez un individu.L’objectif de ce travail de thèse était de mettre au point une nouvelle méthode d’analyse pan-génomique applicable sur un grand nombre d’individus. Pour cela, nous avons travaillé sur un jeu de données de reséquençage massif du riz Africain cultivé O. glaberrima et de son ancêtre sauvage O. barthii. Dans un premier temps nous avons vérifié l’existence d’une structure pan-génomique sur notre modèle. Pour cela nous avons travaillé à petite échelle avec trois accessions de l’espèce cultivée. Elles ont d’abord été séquencées, assemblées, annotées puis nous avons cherché à détecter des séquences spécifiques à chacune de ces accessions.Dans un second temps nous avons mis au point notre méthode en travaillant avec près de 200 génomes des deux espèces.Ces génomes ont été séquencés grâce aux technologies NGS puis directement mappés sur un génome de référence externe, celui du riz Asiatique. Nous avons alors appliqué notre méthode d’analyse pan-génomique basée sur la déviation de la profondeur deséquençage pour chaque gène. Nous avons ensuite comparé les enrichissement d’ontologies par compartiments et par espèce dans le but d’identifier des différences liées aux processus de domestication. Enfin, nous avons étudié plus précisément les appartenances pan-génomiques des membres de famille de gènes.Parce que le pan-génome de l’espèce cultivé est plus petit que le core-génome de l’espèce sauvage nous avons confirmé la perte de diversité en terme de présence/ absence de gènes chez le riz Africain au cours du processus de domestication. Curieusement nous avons aussi mis en avant l’augmentation du nombre de gènes dispensable chez l’espèce cultivée par rapport à son relatif sauvage.Ainsi, malgré une forte réduction du pan-génome de l’espèce cultivé lors de la « première » sélection, les 1000 générations de processus de domestication ont suffit à réintroduire une forme de diversité à travers l’augmentation du nombre de gènes dispensables.Afin d’automatiser une grande partie des manipulations d’analyses de données NGS nous avons aussi développé un outil de génération de pipelines d’analyses. De part sa généricité et sa robustesse il pourra être utilisé dans différents domaines, pour plu-sieurs types de données. Grâce aux nombreux logiciels qui y sont intégrés et de par le suivi que l’équipe de développement entend poursuivre, il pourra être utilisé dans la caractérisation de plus en plus de choses. Par exemple les variations structurales, les associations génotypes-phénotypes, l’épigénétique et pourquoi pas la métagénomique.Ce travail a permis la mise au point d’une nouvelle méthode d’analyse des données pan-génomiques rapide de par sa vision globale plutôt que via des comparaisons deux-à-deux. Cette méthode s’adresse aux génomes grands et complexes comme ceux des plantes, mais aussi aux jeux de données massifs. / Species diversity is represented by the sum of the diversity of each of the individuals composing it. It can be seen at differents cales: individual, organic, tissular, cellular, genomic, gene, and even nucleotic. The study of the diversity of species is important to better understand and allow tracking its evolutionary history, comparing it to other species, in particular wild to cultivated. We focused on the domestication, and particularly its impact on the pan-genome structure.The pan-genome is divided into three compartments: (i) the core-genome containing all the genes present in all individuals of the species; (ii) the dispensable genome containing all genes absent in at least one individual; (iii) and finally the individual-specific genome containing genes present only in one individual.The objective of this thesis was to develop a new method for pan-genomic analysis that can apply to a large number of indi-viduals. For this, we worked on a massive resequencing data set of cultivated African rice O. glaberrima and of its wild ancestor O. barthii. At first we checked the existence of a pan-genomic structure on our model. For this we worked on a small scale, with three accessions of cultivated species. They were sequenced, assembled, annotated then analyzed to detect specific sequences for each accession.Secondly we developed our approach working with nearly 200 genomes of both species. These genomes were sequenced using Illumina technology and mapped to the external reference genome, of the Asian rice. We applied our pan-genomic method analysis based on the deviation of the depth of sequencing for each gene. We then compared the ontology enrichment compartments and species in order to identify differences related to the domestication process. Finally, we looked specifically to pan-genomic genes belonging to gene family. Because the pan-genome of the cultivated species is smaller than the core-genome of the wild one, we confirmed the loss ofdiversity in terms of presence/ absence of genes in African rice during the domestication process. Curiously we have also high lighted the increase in the number of dispensable genes in the crop from its wild relative. Thus, despite a sharp reduction of the pan-genomeof the species cultivated in the “first” selection, the 1,000 generations of domestication process were enough to reintroduce a formof diversity through increasing the number of dispensable genes.To automate much of the data analysis of NGS manipulations we have also developed a tool to generate analysis pipelines.Due to its generic and robustness it can be used in different areas, for several types of data. With many softwares integrated and by monitoring that the development team will continue, it may be used in the characterization of more and more things. For example,structural variations, genotype-phenotype associations, epigenetics and metagenomics. This work enabled the development of a new analytical method for rapid genome-wide data through its global vision ratherthan through two by two comparisons. This method is for large and complex genomes such as those of plants, but also to massivedata sets. Pan-Génome Génomique Génomique comparative Bioinformatique Riz africain Pan-Genome Genomic Comparative genomic Bioinformatic African rice
132	Facettes de glycobioinformatique : applications à l'étude des interactions protéines-sucres / Facets of glycobioinformatics : Applications in the study of protein-carbohydrate interactions Sarkar, Anita 26 September 2012 (has links) Le travail décrit dans ce manuscrit rassemble les résultats obtenus au cours de ma thèse de doctorat. Ils s'inscrivent dans le domaine de la glycobioinformatique. Ils ont impliqué des développements de bases de données structurales et des applications en modélisation moléculaire des interactions protéines-sucres. Les méthodes de modélisation moléculaire ont été utilisées dans la reconstruction et dans la prédiction des structures tridimensionnelles de polysaccharides et d'oligosaccharides, ces dernières étant également établies par une approche de type “haut-débit” par application d'un algorithme génétique à des fins de minimisation énergétique. Les données ainsi générées ont été organisées sous la forme de bases de données relationnelles, proprement annotées (PolySca3DB et BiOligo) qui sont en libre accès pour consultation sur internet. Ces méthodes de modélisation moléculaire ont été appliquées à la caractérisation, par RMN en solution, des conformations de basse énergie d'une souche pathogène d'un polysaccharide de la bactérie E. coli. D'autres bactéries pathogènes de type gram négatif, interagissent avec des oligosaccharides par l'intermédiaire de protéines secrétées, telles que des lectines. Nous avons testé, au travers de l'utilisation de méthodes d'amarrage moléculaire, la possibilité d'identifier de manière automatique, la nature de ces interactions, en prenant comme cibles des épitopes oligosaccharidiques fucosylés. Les résultats de ces recherches ont été comparés, de manière critique, à ceux issus de l'application de bio-puces à sucres et de calorimétrie isotherme de titration. Les conclusions et perspectives de ces travaux sont présentées dans un article de revue consacré à l'application des méthodes de chimie computationnelle dans l'étude des interactions protéines-glucides qui viennent compléter l'arsenal des outils dédiés au champs de recherche couvert par la glycobiologie structurale et moléculaire. / This thesis presents an account of two important facets of glycobioinformatics, comprising database development and molecular modeling of 3D structures of carbohydrates alongside the simulation of protein-carbohydrate interactions. Classical molecular modeling techniques were used to reconstruct 3D polysaccharide structures from experimentally determined atomic coordinates, or known starting points about their structures were used as guidelines to model them. A genetic algorithm search was employed as a high-throughput technique to characterize low energy conformers of bioactive oligosaccharides. The data generated were organized into two open-access relational databases, namely, PolySac3DB and BiOligo, for use by the scientific community. The validation of the molecular techniques used were performed using solution phase NMR experiments on four entero aggregative pathogenic E. coli strains, and were found to be robust and realistic. Further, the impact of the presentation of human fucosylated oligosaccharide epitopes to lectins from opportunistic gram negative bacteria, was investigated in a screening study using molecular docking studies, which could help in evaluating the feasibility of using automated docking procedures in such instances as well as deciphering binding data from glycan array experiments and also correlated to isothermal calorimetry data. On comparison with high-resolution experimental crystal complexes, automated docking was found to delineate the present level of applicability, while emphasizing the need of constant monitoring and possible filtering of the results obtained. Finally, a review of the present status of the computational aspects of protein-carbohydrate interaction studies is discussed in the perspectives of using molecular modeling and simulation studies to probe this aspect of molecular and structural glycobiology. Interactions Protéines Sucres Bioinformatique Puces a sucres Interaction Carbohydrates Proteins Bioinformatics Glycan arrays
133	Isolement de fragments d'anticorps recombinants neutralisant des toxines à partir de primates non humains et localisation de l'épitope d'un anticorps. / Isolation of non-human primates recombinant antibody fragments neutralizing toxins and antibody epitope mapping Avril, Arnaud 16 September 2013 (has links) Les anticorps recombinants représentent une approche prometteuse pour améliorer le traitement et la prophylaxie des maladies causées par les armes biologiques. De tels anticorps peuvent être isolés à partir de primates non humains, dont l'immunisation est plus facile à concevoir et à réaliser que l'immunisation d'humains. Des chimpanzés (Pan troglodytes) et des macaques (Macaca mulatta et M. fascicularis) ont été utilisés pour de tels travaux, et notre analyse de séquences a démontré que l'utilisation de chimpanzés n'apporte pas d'avantage significatif malgré leur plus grande proximité phylogénétique avec l'Homme. La suite de ce travail a donc utilisé des macaques, plus facilement accessibles en France que les chimpanzés. Dans le cadre du projet européen AntiBotABE, des banques immunes exposées àla surface de phages ont été construites à partir de macaques (M. fascicularis) immunisés puis criblées, et des scFv neutralisant simultanément les toxines botuliques (BoNT) A1 et A2 en ciblant leurs chaines lourdes, et BoNT/E3 en ciblant sa chaine légère ont été isolés. D'autre part, un anticorps neutralisant de façon croisée la toxine létale et la toxine oedémateuse de Bacillus anthracis avait été précédemment isolé. Ses épitopes ont été localisés au cours de la présente thèse par une méthode tirant partie de cette réactivité croisée. Ils correspondent à la région [229-230]-[234-236] de la sous-unité LF (Lethal Factor) et à la région [229-230]-[234-236] de la sous-unité EF (Edema Factor). Le principe de cette localisation d'épitope pourrait être ré-employé pour localiser les épitopes des scFv neutralisant les BoNT. / Recombinant antibodies represent a promising approach to improve the treatment andprophylaxis of diseases caused by bioweapons. Such antibodies may be isolated from nonhumanprimates, whose immunization is much easier to conceive and realized thanimmunization of humans. Chimpanzees (Pan troglodytes) and macaques (Macaca mulattaand M. fascicularis, particularly) have been utilized for such purposes, and our sequenceanalysis has demonstrated that using chimpanzees does not bring a significant advantagedespite their closer phylogenetic proximity with humans. The rest of this thesis has thusutilized macaques, easier to access in France than chimpanzees. In the context of theEuropean AntiBotABE project, phage-displayed immune libraries have been constructed fromimmunized macaques (M. fascicularis) then screened, and scFv simultaneously neutralizingbotulinum toxins (BoNT) A1 and A2 by targeting their heavy chains, and BoNT/E3 bytargeting its light chain were isolated. On the other side, an antibody cross-neutralizing thelethal toxin and the edema toxin of Bacillus anthracis had been formerly isolated. Its epitopeshave been mapped in the course of the present thesis by a method taking advantage of itscross-reactivity. They correspond to the [229-230]-[234-236] region of LF (Lethal Factor)subunit and to the [229-230]-[234-236] region of EF (Edema Factor) subunit. The principle ofthis epitope mapping could be re-employed to map the epitopes of BoNT-neutralizing scFv. Anticorps Risque biologique Humanisation Bioterrorisme Bioinformatique Botulisme Antibodies Biohazard Humanization Bioterrorism Bio data processing Botulinum 570
134	Évolution génotypique et phénotypique d'une souche épidémique de Pseudomonas aeruginosa au cours des 11 ans de sa diffusion hospitalière / Genotypic and phenotypic evolution of a Pseudomonas aeruginosa ST395 strain during 11-year in hospital spread. Petitjean, Marie 31 October 2017 (has links) P. aeruginosa est une bactérie pathogène de l'homme, responsable d'infections nosocomiales chez les patients immunodéprimés. Bien que son évolution au sein d'un patient soit bien décrite, son évolution génomique globale au cours de sa propagation dans un hôpital est très mal connue. Le clone à haut-risque ST395 multirésistant aux antibiotiques a diffusé dans le Centre Hospitalier Regional Universitaire de Besançon entre 1997 et 2008 en infectant ou colonisant plus de 300 patients. Une approche WGS a été utilisée afin d'identifier l'origine de l'épidémie, les caractéristiques ayant aidé à son installation à l'hôpital ainsi que celles à l'origine de sa disparition. Les génomes de 54 isolats représentatifs de l'épidémie ont été séquencés. L’arbre phylogénétique a mis en évidence deux clusters distincts indiquant la présence de deux épidémies parallèles. La datation d'un ancêtre commun en 1979, date de début de la construction de l'hôpital, indiquerait une contamination précoce du réseau d'eau de l'hôpital. Cette hypothèse est soutenue par la présence d'un îlot génomique spécifique de ST395 portant les gènes codant 6 transporteurs du cuivre et associée à une résistance phénotypique à ce métal constituant les tuyaux du réseaux de distribution d'eau potable. Les isolats tardifs présentaient des signatures génomiques d'adaptation à l’infection chronique (altération du lipopolysaccharide et de la porine OprD – objectivées phénotypiquement, et extinction de la surproduction de la pompe d’efflux MexAB-OprM – contrôlée par RT-qPCR) suite à des mutations indépendantes. Certaines de ces mutations ont été associées à une perte de fitness bactérien. Nous émettons l’hypothèse que l’émergence indépendante d’isolats adaptés à l’infection chronique, et ainsi l’accumulation de culs-de-sac épidémiologiques, a participé à l’épuisement de l’épidémie hospitalière de P. aeruginosa ST395. / P. aeruginosa is an opportunistic pathogen responsible of hospital-acquired infections in immunocompromised patients. Although in-host evolution of P. aeruginosa is well documented, little is known about this pathogen evolution during its spread on a hospital scale. The high-risk multidrug resistant clone ST395 spread among more than 300 patients in the University Hospital of Besançon between 1997 and 2008. We used a WGS approach to identify the origin of the outbreak, the features that could have helped its implantation in our hospital and those associated with the end of the epidemics. The genomes of 54 representative isolates were fully sequenced. The phylogenetic tree indicated two distinct clusters corresponding to two parallel outbreaks. The ancestor of the ST395 clone possibly contaminated our hospital water network during its construction in 1979. This hypothesis is supported by the fact that the ST395 strain had a specific genomic island carrying 6 copper transporter genes implicated in copper resistance, correlated with the resistance to this metal which water supply network is made of. The late isolates displayed independent genomic signatures of chronic adaptation in patients (altered LPS and porin OprD, and extinction of MexAB-oprM efflux pump overproduction). Some of these mutations were associated with a decreased in vitro fitness. We hypothesize that the independent emergence of isolates adapted to chronic infection, and thus the accumulation of epidemiological dead-ends, participated to the end of the hospital outbreak of P. aeruginosa ST395. Epidémie Bactérie Bioinformatique Pseudomonas aeruginosa Gram negatif Spread Bacteria Bioinformatic Pseudomonas aeruginosa Gram negative 616.9
135	Développement et utilisation d'outils bioinformatiques appliqués à la métagénomique / Design and application of bioinformatic tools for metagenomics Verneau, Jonathan 24 November 2017 (has links) Les virus sont ubiquitaires et abondants dans l’environnement. Ils influent fondamentalement sur l’écologie de l’ensemble des écosystèmes et du microbiote humain. Dès 2002, avec la découverte de virus géants d’amibes, la virologie s’est complexifiée. Les Megavirales (nouvel ordre au sein des grands virus nucléocytoplasmiques) ont 10% de gènes homologues aux cellules eucaryotes, et ont la caractéristique singulière d’être infectés par des virophages.Avec l’avènement de la métagénomique, le nombre de métagénomes produits ne cesse de croître de manière exponentielle. C’est ainsi que la virologie a connu un nouvel essor et a pu mieux être étudiée en s’affranchissant des difficultés de culture et d’isolement des virus dans les conditions artificielles de laboratoire. La métagénomique permet d’étudier les communautés microbiennes mais également de découvrir de nouveaux microbes. La bioinformatique est devenue incontournable dans le domaine de la biologie et essentielle pour les biologistes afin de traiter les masses de données et en extraire toute la richesse de l’information biologique nécessaire. La première partie de cette thèse consiste en une revue de la littérature décrivant la bioinformatique au service de la métagénomique virale. La deuxième partie présente la création d’un nouvel outil « MG-Digger » dédié à l’analyse rapide et automatisée de séquences d’intérêts spécifiques dans les métagénomes. La dernière partie se concentre sur l’utilisation de cet outil sur des données issues de projets métagénomiques afin de répondre à des questions biologiques précises, notamment sur les données de l’expédition scientifique TARA à travers les océans. / Viruses are ubiquitous and abundant in the environment and can influence all ecosystems ecology and the human microbiota.Since 2002, with the discovery of giant viruses of amoeba, virology has become more complex and the definition of virus has been called into question, not only because of their phenotypic sizes similar to those of bacteria but also their genomic content exceeding thousand genes. Megavirales, also known as nucleocytoplasmic large DNA viruses, have 10% homologous genes to eukaryotic cells and interestingly can be infected by virophages. With the advent of metagenomic, the number of metagenomes produced is exponentially increasing as well as our understanding of virology which has been studied. Metagenomics studies showed an efficient way to study microbial communities and identify novel viruses without the difficulties of culture and isolation of viruses in artificial laboratory conditions.Metagenomic requires considerable computational and storage resources (Big data processing). Therefore, bioinformatics has become an integral part of research and development in the biomedical sciences by providing tools that handle complex datasets and finally giving the necessary biological information. The first part of this thesis consists of an exhaustive review of the literature describing bioinformatics and viral metagenomics. The second part presents a new "MG-Digger" tool dedicated to the rapid and automated analysis of specific interest sequences in metagenomes. The third part focuses on the use of this tool on metagenomic data to answer to specific biological questions, including data from the TARA scientific expedition across the oceans. Métagénomique Virus géants Megavirales Bioinformatique Ncldv Mimivirus Virophage Metagenomics Giant viruses Megavirales Bioinformatics Ncldv Mimivirus Virophage
136	Méthodes bioinformatiques pour l'analyse de données de séquençage dans le contexte du cancer / Bioinformatics methods for cancer sequencing data analysis Rudewicz, Justine 30 June 2017 (has links) Le cancer résulte de la prolifération excessive de cellules qui dérivent toutes de la même cellule initiatrice et suivent un processus Darwinien de diversification et de sélection. Ce processus est défini par l'accumulation d'altérations génétiques et épigénétiques dont la caractérisation est un élément majeur pour pouvoir proposer une thérapie ciblant spécifiquement les cellules tumorales. L'avènement des nouvelles technologies de séquençage haut débit permet cette caractérisation à un niveau moléculaire. Cette révolution technologique a entraîné le développement de nombreuses méthodes bioinformatiques. Dans cette thèse, nous nous intéressons particulièrement au développement de nouvelles méthodes computationnelles d'analyse de données de séquençage d'échantillons tumoraux permettant une identification précise d'altérations spécifiques aux tumeurs et une description fine des sous populations tumorales. Dans le premier chapitre, il s'agît d'étudier des méthodes d'identification d'altérations ponctuelles dans le cadre de séquençage ciblé, appliquées à une cohorte de patientes atteintes du cancer du sein. Nous décrivons deux nouvelles méthodes d'analyse, chacune adaptée à une technologie de séquençage, spécifiquement Roche 454 et Pacifique Biosciences.Dans le premier cas, nous avons adapté des approches existantes au cas particulier de séquences de transcrits. Dans le second cas, nous avons été confronté à un bruit de fond élevé entraînant un fort taux de faux positifs lors de l'utilisation d'approches classiques. Nous avons développé une nouvelle méthode, MICADo, basée sur les graphes de De Bruijn et permettant une distinction efficace entre les altérations spécifiques aux patients et les altérations communes à la cohorte, ce qui rend les résultats exploitables dans un contexte clinique. Le second chapitre aborde l'identification d'altérations de nombre de copies. Nous décrivons l'approche mise en place pour leur identification efficace à partir de données de très faible couverture. L'apport principal de ce travail consiste en l'élaboration d'une stratégie d'analyse statistique afin de mettre en évidence des changements locaux et globaux au niveau du génome survenus durant le traitement administré à des patientes atteintes de cancer du sein. Notre méthode repose sur la construction d'un modèle linéaire permettant d'établir des scores de différences entre les échantillons avant et après traitement. Dans le troisième chapitre, nous nous intéressons au problème de reconstruction clonale. Cette problématique récente est actuellement en plein essor, mais manque cependant d'un cadre formel bien établi. Nous proposons d'abord une formalisation du problème de reconstruction clonale. Ensuite nous utilisons ce formalisme afin de mettre en place une méthode basée sur les modèles de mélanges Gaussiens. Cette méthode utilise les altérations ponctuelles et de nombre de copies - comme celles abordées dans les deux chapitres précédents - afin de caractériser et quantifier les différentes populations clonales présentes dans un échantillon tumoral. / Cancer results from the excessive proliferation of cells decending from the same founder cell and following a Darwinian process of diversification and selection. This process is defined by the accumulation of genetic and epigenetic alterations whose characterization is a key element for establishing a therapy that would specifically target tumor cells. The advent of new high-throughput sequencing technologies enables this characterization at the molecular level. This technological revolution has led to the development of numerous bioinformatics methods. In this thesis, we are particularly interested in the development of new computational methods for the analysis of sequencing data of tumor samples allowing precise identification of tumor-specific alterations and an accurate description of tumor subpopulations. In the first chapter, we explore methods for identifying single nucleotide alterations in targeted sequencing data and apply them to a cohort of breast cancer patients. We introduce two new methods of analysis, each tailored to a particular sequencing technology, namely Roche 454 and Pacific Biosciences. In the first case, we adapted existing approaches to the particular case of transcript sequencing. In the second case, when using conventional approaches, we were confronted with a high background noise resulting in a high rate of false positives. We have developed a new method, MICADo, based on the De Bruijn graphs and making possible an effective distinction between patient-specific alterations and alterations common to the cohort, which makes the results usable in a clinical context. Second chapter deals with the identification of copy number alterations. We describe the approach put in place for their efficient identification from very low coverage data. The main contribution of this work is the development of a strategy for statistical analysis in order to emphasise local and global changes in the genome that occurred during the treatment administered to patients with breast cancer. Our method is based on the construction of a linear model to establish scores of differences between samples before and after treatment. In the third chapter, we focus on the problem of clonal reconstruction. This problem has recently gathered a lot of interest, but it still lacks a well-established formal framework. We first propose a formalization of the clonal reconstruction problem. Then we use this formalism to put in place a method based on Gaussian mixture models. Our method uses single nucleotide and copy number alterations - such as those discussed in the previous two chapters - to characterize and quantify different clonal populations present in a tumor sample. Cancer Bioinformatique NGS TGS Graphes de de Bruijn Modèles de mélanges Cancer Bioinformatics NGS TGS De Bruijn graphs Mixture models
137	Solutions d'amélioration des études de métagénomique ciblée / Solutions to improve targeted metagenomics studies Siegwald, Léa 23 March 2017 (has links) La métagénomique ciblée, étude de la composition et de la diversité des communautés microbiennes présentes dans différents échantillon biologiques sur la base d'un marqueur génomique, a connu un véritable essor lors de cette dernière décennie grâce à l'arrivée du séquençage haut-débit. Faisant appel à des outils de biologie moléculaire et de bioinformatique, elle a été à l’origine de substantiels progrès dans les domaines de l’évolution et de la diversité microbienne. Cependant, de nouvelles problématiques sont apparues avec le séquençage haut-débit : la génération exponentielle de données soulève des problèmes d'analyse bioinformatique, qui doit être adaptée aux plans d'expérience et aux questions biologiques associées. Cette thèse propose des solutions d'amélioration des études de métagénomique ciblée par le développement d'outils et de méthodes innovantes, apportant une meilleure compréhension des biais d'analyse inhérents à de telles études, et une meilleure conception des plans d'expérience. Tout d'abord, une expertise du pipeline d'analyse utilisé en production sur la plate-forme PEGASE-biosciences a été menée. Cette évaluation a révélé la nécessité de mettre en place une méthode d'évaluation formelle de pipelines d'analyses de données de métagénomique ciblée, qui a été développée sur la base de données simulées et réelles, et de métriques d'évaluation adaptées. Cette méthode a été utilisée sur plusieurs pipelines d'analyse couramment utilisés par la communauté, tout comme sur de nouvelles approches d'analyse jamais utilisées dans un tel contexte. Cette évaluation a permis de mieux comprendre les biais du plan d'expérience qui peuvent affecter les résultats et les conclusions biologiques associées. Un de ces biais majeurs est le choix des amorces d'amplification de la cible ; un logiciel de design d'amorces adaptées au plan d'expérience a été spécifiquement développé pour minimiser ce biais. Enfin, des recommandations de montage de plan d'expérience et d'analyse ont été émises afin d'améliorer la robustesse des études de métagénomique ciblée. / Targeted metagenomics is the study of the composition of microbial communities in diverse biological samples, based on the sequencing of a genomic locus. This application has boomed over the last decade thanks to the democratisation of high-throughput sequencing, and has allowed substantial progress in the study of microbial evolution and diversity. However, new problems have emerged with high-throughput sequencing : the exponential generation of data must be properly analyzed with bioinformatics tools fitted to the experimental designs and associated biological questions. This dissertation provides solutions to improve targeted metagenomics studies, by the development of new tools and methods allowing a better understanding of analytical biases, and a better design of experiments. Firstly, an expert assessment of the analytical pipeline used on the PEGASE-biosciences plateform has been performed. This assessment revealed the need of a formal evaluation method of analytical pipelines used for targeted metagenomics analyses. This method has been developed with simulated and real datasets, and adequate evaluation metrics. It has been used on several analytical pipelines commonly used by the scientific community, as well as on new analytical methods which have never been used in such a context before. This evaluation allowed to better understand experimental design biases, which can affect the results and biological conclusions. One of those major biases is the design of amplification primers to target the genomic locus of interest. A primer design software, adaptable to different experimental designs, has been specifically developed to minimize this bias. Finally, analytical guidelines and experimental design recommendations have been formulated to improve targeted metagenomics studies. Métagénomique Métagénétique Microbiote Séquençage haut-débit Amorces Bioinformatique Metagenomics Metagenetics Microbiota Hight-throughput sequencing Primers Bioinformatics
138	Analyses et prédictions bioinformatiques de réseaux d'interactions protéine-protéines contextualisés Souiai, Oussema 15 June 2011 (has links) Mes travaux de thèse ont pour objet l'analyse et les prédictions bioinformatiques de réseaux d'interactions protéines-protéines contextualisés. Au cours de la première partie de mes travaux nous, avons prédit des interactomes tissulaires sur la base de la co-expression des deux interacteurs composant l'interaction dans un tissu. Par la suite nous avons analysé les caractéristiques fonctionnelles et topologiques des interactomes prédits. Cette analyse a permis de mettre en évidence l'existence d'un noyau d'interactions centrales dédiées aux fonctions de ménages, des interactions spécifiques localisées au centre dédiées aux processus de régulation et des interactions spécifiques localisées à la périphérie et dédiées aux accomplissements des fonctions physiologiques. Au cours de la deuxième partie de mes travaux, nous nous sommes intéressés à la contextualisation d'un interactome de macrophage via l'intégration de méta-données et des données de génomique (données d'expressions, annotation de termes) décrivant les interactions. Les résultats de la comparaison entre les analyses de trascriptomes et d'interactomes de macrophage suite à l'infection par le Mycobacterium tuberculosis se sont avérés complémentaires. En effet, alors que les analyses de transcriptomes mettent en évidence des processus immunitaires déployés par l'hôte, l'analyse des interactomes fait émerger des fonctions tout aussi cruciales pour l'éradication du pathogène telles que l'apoptose et sa régulation. / This work aims at contextualizing and studying contextualized protein interaction networks. The first topic of my investigations is about predicting and analyzing tissular interactomes. Combined functional and topological analyses were performed. The combination of these features highlighted the existence of a functional core centrally located dedicated to housekeeping functions, central tissue-specific interactions involved in regulatory and developmental functions and peripheral tissue-specific interactions involved in organ physiological functions. This gradient of functions recapitulates the organization of organs, from cells to organs. The second topic of my thesis is the contextualization of macrophage interaction network. To infer the most likely macrophage interactome, we integrated the PPI dataset with other type of meta-data, statistically evaluated them and proposed a macrophage-contextualized interactome. The set of selected interactions is enriched in : experimentally verified interactions and immune related Biological Processes. The functional analysis of such networks brings valuable information on the cellular and molecular mechanisms sustaining the infection. Interactome Contextualisation Intégration de données Bioinformatique Biologie des systèmes Interactome Contextualization Data interation Computational biology Systems biology
139	Identification et classification de composés reprotoxiques par des approches de toxicogénomique prédictive / Identification, classification and prioritization of novel endocrine disruptors by integrating massive toxicogenomics datasets Darde, Thomas 03 October 2017 (has links) L’un des plus importants défis de la toxicologie est de pouvoir extrapoler les résultats issus des différentes phases de l’analyse du risque sanitaire à partir de systèmes expérimentaux vers les populations humaines. Dans ce contexte, les techniques globales dites "omiques" sont de plus en plus utilisées pour caractériser les différents états des systèmes biologiques. Ainsi, la toxicogénomique permet non seulement d’étudier les mécanismes d’action des composés, d’identifier des marqueurs d’exposition, mais aussi de générer des signatures moléculaires à potentiel prédictif. En effet, des composés ayant des signatures moléculaires semblables ont également de forts risques de présenter les mêmes effets toxicologiques. L’objectif de cette thèse est d’appliquer ce concept de manière systématique, en explorant les données publiées et disponibles dans les banques dédiées à la toxicogénomique via des modèles statistiques multivariés. Ces analyses ont pour objectif de permettre le regroupement et donc la classification des composés sur la base des gènes dont ils affectent l’expression. L’appartenance de produits toxiques bien caractérisés aux classes ainsi constituées permet alors d’émettre des hypothèses quant à la toxicité des autres composés. Un jeu de données quantitatives intégrant 18 études réalisées avec la même technologie de puce à ADN et chez une seule espèce a été assemblé. De ce jeu de données, 3022 signatures toxicogénomiques correspondant à 452 composés différents ont été obtenues. Des approches de classification non supervisées afin de définir des classes de traitements induisant des altérations transcriptionnelles proches ont été mises en place. 95 et 104 classes ont été obtenues en fonction des méthodes utilisées. Finalement, une attention toute particulière a été portée sur les potentiels nouveaux perturbateurs endocriniens et xénobiotiques reprotoxiques sur-représentés dans trois classes spécifiquement. 22 composés sont en cours de test sur une lignée cellulaire humaine exprimant les enzymes de la stéroïdogenèse (NCI-H295R) pour évaluer leur potentiel effet perturbateur endocrinien. L’ensemble de ce travail a ainsi permis de démontrer la pertinence de nos approches de toxicogénomique pour la prédiction des effets toxiques de composés testés dans d’autres organes et/ou chez d’autres espèces. Il se poursuit à l’heure actuelle par la mise en place d’une base de données, TOXsIgN, permettant l’hébergement et l’accès à l’ensemble de signatures de toxicogénomique générées dans ce projet. De même, mon travail a également permis la mise en place de plusieurs outils dédiés à la toxicologie prédictive et à la visualisation de données, tels que le navigateur de génomes comme le ReproGenomics Viewer (RGV). / The core aim of my thesis project is to develop predictive toxicology approaches based on the integration of massive toxicogenomics datasets using bioinformatics and biostatistics methodologies. Specific objectives include: (1) classification of chemicals based on toxicogenomics signatures, i.e. the set of genes whose expression is known to be positively or negatively altered after exposure to these compounds; (2) the association of the resulting classes with human disorders or deleterious phenotypes based on the well-known toxicants present in those classes; (3) the prediction of novel reprotoxicants and/or endocrine disruptors based on toxicogenomics signature similarities with known chemicals affecting testis development and function. The assembled toxicogenomics dataset contains 23,657 samples covering 7092 experimental conditions (one chemical, one dose, one exposure time, one tissue) for 541 chemicals in seven distinct tissues in the rat from 18 different studies. From this dataset, 3,022 experimental conditions corresponding to 452 distinct compounds are associated to a toxicogenomics signature containing more than ten genes showing an altered expression pattern after exposure. Using unsupervised classification methods, 95 chemical clusters were defined showing close toxicogenomics signatures. The phenotype association analysis using data extracted from de Comparative Toxicogenomics Database (CTD) allowed us to identify three clusters significantly enriched in known endocrine-disrupting chemicals. Currently, 22 compounds are being tested on a human cell line expressing the enzymes of steroidogenesis (NCI-H295R) to evaluate their potential endocrine disrupting effects. These researches allowed us to demonstrate the relevance of integrating massive toxicogenomics datasets to predict adverse effects of compounds tested in different organs. It is currently being pursued through the development of a novel repository, TOXsIgN. This resource provides a flexible environment to facilitate online submission, storage and retrieval of toxicogenomics signatures by the scientific community. Similarly, the current PhD project also yielded to the implementation of several tools dedicated to predictive toxicology and data visualization including the ReproGenomics Viewer (RGV). Toxicologie génétique Génomique Toxicologie de la reproduction Perturbateurs endocriniens Bioinformatique Toxicology Toxicogenomics Predictive toxicogenomics Endocrine disruptors Bioinformatics
140	Large Scale Parallel Inference of Protein and Protein Domain families / Inférence des familles de protéines et de domaines protéiques à grande échelle Rezvoy, Clément 28 September 2011 (has links) Les domaines protéiques sont des segments indépendants qui sont présents de façon récurrente dans plusieurs protéines. L'arrangement combinatoire de ces domaines est à l'origine de la diversité structurale et fonctionnelle des protéines. Plusieurs méthodes ont été développées pour permettre d'inférer la décomposition des protéines en domaines ainsi que la classification de ces domaines en familles. L'une de ces méthodes, MkDom2, permet l'inférence des familles de domaines de façon gloutonne. les familles sont inférées l'une après l'autre de façon a créer un découpage des protéines en arrangement de domaines et un classement de ces domaines en familles. MkDom2 est a l'origine de la base de données ProDom et est essentiel pour sa mise à jour. L'augmentation exponentielle du nombre de séquences analyser a rendue obsolète cette méthode qui nécessite désormais plusieurs années de calcul pour calculer ProDom. nous proposons un nouvel algorithme, MPI_MkDom2, permettant l'exploration simultanée de plusieurs familles de domaines sur une plate-forme de calcul distribué. MPI_MkDom2 est un algorithme distribué et asynchrone gérant l'équilibrage de charge pour une utilisation efficace de la plate-forme de calcul; il assure la création d'un découpage non-recouvrant de l'ensemble des protéines. Une mesure de proximité entre les classifications de domaines est définie afin d'évaluer l'effet du parallélisme sur le partitionnement produit. Nous proposons un second algorithme MPI_MkDom3. permettant le calcul simultanée d'une classification des domaines protéiques et des protéines en familles partageant le même arrangement en domaines. / Protein domains are recurring independent segment of proteins. The combinatorial arrangement of domains is at the root of the functional and structural diversity of proteins. Several methods have been developed to infer protein domain decomposition and domain family clustering from sequence information alone. MkDom2 is one of those methods. Mkdom2 infers domain families in a greedy fashion. Families are inferred one after the other in order to create a delineation of domains on proteins and a clustering of those domains in families. MkDom2 is instrumental in the building of the ProDom database. The exponential growth of the number of sequences to process as rendered MkDom2 obsolete, it would now take several years to compute a newrelease of ProDom. We present a nous algorithm, MPI_MkDom2, allowing computation of several families at once across a distributed computing platform. MPI_MkDom2 is an asynchronous distributed algorithm managing load balancing to ensure efficient platform usage; it ensures the creation of a non-overlapping partitioning of the whole protein set. A new proximity measure is defined to assess the effect of the parallel computation on the result. We also Propose a second algorithm, MPI_mkDom3, allowing the simultaneous computation of a clustering of protein domains as well as full protein sharing the same domain decomposition. Bioinformatique Protéine Domaine MPI Calcul distribué Bioinformatics Protein Domain MPI Distributed computing Clustering

Search results