Global ETD Search

201	Développement d'une infrastructure d'analyse multi-niveaux pour la découverte des relations entre génotype et phénotype dans les maladies génétiques humaines / Development of an infrastructure for multi-level analysis to explore the relationship between genotype in human genetic diseases Luu, Tien Dao 24 October 2012 (has links) Répondant au besoin de mieux comprendre les relations qui lient un génotype aux phénotypes moléculaires et cliniques associés, nous avons développé une nouvelle infrastructure bioinformatique qui unit, dans un même système, la collecte, la gestion, la maintenance et le traitement de multiples données ou informations. La première contribution de cette thèse est SM2PH Central et sa capacité de générer des instances. SM2PH Central constitue notre centre de référence en ligne pour toutes les protéines humaines intégrant des niveaux d’informations qui vont des aspects génomiques, structuraux, fonctionnels ou évolutifs aux aspects de transcriptomique, interactomique, protéomique ou métabolomique. La deuxième contribution est MSV3d, une ressource d’annotation multi-niveau (propriétés physico-chimiques, fonction, évolution, structure) des mutations humaines connues. MSV3d fournit l’ensemble des connaissances exploitées par la troisième contribution de cette thèse à savoir KD4v, notre base d’extraction de connaissances pour prédire l’impact phénotypique d’une mutation. La base de connaissances de KD4v induite par la Programmation Logique Inductive contient des règles exploitables par un humain ou un ordinateur et des facteurs prédictifs caractérisant les mutations neutres ou délétères. Enfin, l’ultime contribution de cette thèse est liée au développement de GEPeTTO, un prototype de priorisation de gènes. Une application biologique a été réalisée. Nous avons étudié la cécité nocturne en utilisant SM2PH Central, en combinaison avec le service d’annotation de MSV3d et la méthode de prédiction KD4v pour analyser le gène GPR179 et ses deux mutations nouvellement identifiées. / Responding to the need to better understand the relationships linking the genotype to the molecular and clinical phenotype, we have developed a new bioinformatics infrastructure that unites, in a single system, the collection, the management, the maintenance and the processing of multiple data or information. The first contribution of this thesis is SM2PH Central and its ability to generate instances. SM2PH Central is our online reference center for all human proteins including many levels of information such as genomics, structural, functional and evolutionary aspects of transcriptomics, interactomics, proteomics or metabolomics. The second contribution is MSV3d, a multi-level annotation resource (physico-chemical properties, function, evolution, structure) of known human mutations. MSV3d provides the knowledge used by the third contribution of this thesis namely KD4v, our knowledgebase extraction to predict the phenotypic effect of a mutation. The KD4v knowledgebase computed by Inductive Logic Programming contains the rules describing the information that can be either exploited by a human or a computer, and the predictors characterizing neutral or deleterious mutations. The last contribution of this thesis is related to the development of GEPeTTO, a prototype of the prioritization of genes. Finally, these tools (SM2PH Central, MSV3d, KD4v) allowed us in the context of patients data analysis to confirm the implication of GPR179 as a new gene responsible for congenital stationary night blindness. Infrastructure bioinformatique Relations génotype–phénotype SM2PH MSV3d KD4v Bioinformatics infrastructure Genotype-phenotype relationships SM2PH MSV3d KD4v 572.8
202	Etude des facteurs de transcription impliqués dans l'accumulation lipidique en condition de stress azoté chez la microalgue haptophyte Isochrysis affinis galbana / Study of transcription factors involved in lipid accumulation induced by nitrogen stress in the microalgae Isochrysis affinis galbana Thiriet-Rupert, Stanislas 10 January 2017 (has links) Chez tout organisme, l’évolution et l’acclimatation aux changements du milieu de vie sont orchestrés par de nombreux acteurs moléculaires. Parmi eux, les facteurs de transcription (FTs) jouent un rôle clé en régulant l’expression des gènes. Identifier les FTs impliqués dans la production de composés d’intérêt est donc une étape importante dans un contexte biotechnologique. Le laboratoire dispose d’une souche mutante de la microalgue haptophyte Tisochrysis lutea produisant deux fois plus de lipides de réserve que la souche sauvage en condition de privation azotée. Compte tenu du rôle clé des FTs dans l’établissement du phénotype, cette thèse vise à identifier les FTs impliqués dans la mise en place de ce phénotype mutant.Un pipeline bio-informatique d’identification et classification des FTs présents dans le génome de T. lutea a été élaboré. Le manque de donnée chez les haptophytes constituant un vide dans l’étude de l’histoire évolutive des microalgues, une étude comparative des FTs présents dans le génome d’algues de différentes lignées a été réalisée. Celle-ci révèle que l’étude des FTs aide à comprendre et illustrer l’histoire évolutive des microalgues par la mise en évidence de présences/absences de familles de FTs spécifiques de lignée.Afin de comprendre l’établissement du phénotype de la souche mutante de T. lutea, des données transcriptomiques ont permis la construction de réseaux de co-expression et de régulation des gènes chez les deux souches. Leur analyse croisée a identifié sept FTs candidats potentiellement liés au phénotype mutant. Une approche de p-RT-PCR a confirmé l’implication de deux FTs dans la remobilisation de l’'azote en condition de stress azoté. / In every organism, evolution and acclimation to environmental changes are orchestrated by numerous molecular players. Among them, transcription factors (TFs) play a crucial role by regulating gene expression. Therefore, identify TFs involved in the production of high value products is a significant step in a biotechnological context. The laboratory has at its disposal a mutant strain of the haptophyte microalga Tisochrysis lutea producing twice more storage lipids than the wild type strain when exposed to nitrogen deprivation. Given the key role of TFs in phenotype establishment, this PhD aim at identify the TFs involved in that of the mutant phenotype of T. lutea.A TFs identification and classification pipeline was elaborated and applied to T. lutea’s genome. Since the lack of data in haptophytes constitutes a limit in studies on microalgae evolutionary history, a comparative study of TFs identified in the genome of microalgae belonging to different lineages was carried out. This study reveals that TFs could be used to understand and illustrate microalgae evolutionary history through the highlight of lineage specific presence/absence of TF families.Aiming at understanding T. lutea’s mutant strain phenotype establishment, transcriptomic data were used to build gene co-expression networks and gene regulatory networks for both strains. Their comparative analysis identified seven TFs potentially liked to the mutant phenotype. A q-RT-PCR approach confirmed the involvement of two TFs in nitrogen recycling under nitrogen deprivation. Bioinformatique Biologie moléculaire Évolution Facteur de transcription Microalgue Réseau de gènes RNA-seq Bioinformatic Molecular biologie Transcription factor Microalgae Gene network 572.829
203	Le HRS-Seq : une nouvelle méthode d'analyse à haut-débit des séquences génomiques associées aux compartiments nucléaires / The HRS-seq : a new method for genome-wide profiling of nuclear compartment-associated sequences Baudement, Marie-Odile 26 June 2015 (has links) Chez les organismes complexes, comme les mammifères, les séquences de régulation génomique, dispersées sur les chromosomes, peuvent interagir à l'intérieur de l'espace nucléaire pour effectuer des actions coordonnées de régulations géniques. La méthylation de l'ADN et les modifications post-traductionnelles des histones, en combinaison avec des séquences de régulation, des facteurs protéiques et des ARNs non codants, conduisent à une organisation supérieure de la chromatine spécifique du type cellulaire. Cependant, l'organisation et la dynamique de la chromatine in vivo à l'échelle supérieure à celle du nucléosome reste encore largement méconnues. L'objectif général des travaux de notre équipe est d'élucider l'organisation de la chromatine à l'échelle supranucléosomale et sa dynamique in vivo, dans différents contextes physiologiques ou pathologiques, afin de comprendre leurs participations au contrôle et à la coordination de l'expression des gènes chez les mammifères. Notre hypothèse de travail est que certains compartiments nucléaires permettent un confinement de contacts chromatiniens spécifiques facilitant les régulations génomiques. L'objectif principal de mon travail de thèse était de développer une nouvelle méthode, simple et directe, permettant de cartographier et d'analyser les régions du génome murin qui sont associées aux compartiments nucléaires importants pour la régulation de l'expression des gènes (lamine nucléaire, les nucléoles, usines à transcription ou corps de Cajal). Le principe de notre méthode repose sur des traitements à haut sel de noyaux cellulaires transcriptionnellement actifs. Des séquençages à haut-débit permettent ensuite d'identifier les régions génomiques retenues dans les complexes nucléaires ainsi rendus d'insolubles. Elle a donc été appelée HRS-Seq : High-salt Recovered Sequences-sequencing (séquençage de séquences récupérées à haut-sel). Mon programme de travail s'est déroulé en 4 étapes distinctes : 1- la mise en œuvre et l'amélioration de la partie expérimentale (test HRS), 2- l'adaptation des techniques de séquençage à haut-débit à notre méthode (collaboration avec L. Journot, H. Parrinello, E. Dubois), 3 – l'application d'une analyse statistiques adéquate afin d'identifier les HRS (collaboration avec C. Reynes et R. Sabatier, statisticiens) et 4- l'analyse bio-informatique de ces régions destinée à les cartographier et à les caractériser (collaboration avec J. Mozziconacci et A. Cournac).Dans un premier temps, nous avons utilisé la méthode HRS-seq sur des noyaux de cellules de foie de souris. L'analyse bioinformatique des HRS nous a permis de réaliser la toute première cartographie de ces régions chez la souris et de découvrir leurs principales caractéristiques. Les régions HRS peuvent être classées en deux catégories distinctes : Les HRS riches en AT sont fortement associées à la lamine nucléaire, tandis que celles riches en GC sont associées aux régions géniques. La présence exceptionnelle, parmi cette dernière catégorie, des gènes codant pour les protéines d'histones, indique que le test HRS permet la rétention des Corps des Loci d'Histones (HLB – Histone Locus Body), un type spécifique de corps de Cajal. De plus, grâce à une analyse croisée avec des données de Hi-C disponibles dans la littérature, nous avons pu montrer que les HRS présentent entre-elles une haute probabilité de contact dans l'espace tridimensionnel du noyau, et qu'elles sont fortement enrichies en certaines séquences répétées (gènes des ARNt). L'ensemble de ces résultats nous permet de valider expérimentalement notre méthode. Dans un second temps, nous avons appliqué cette méthode à 3 autres types cellulaires : des cellules souches embryonnaires, des cellules progénitrices neurales et des neurones (collaboration avec T. Bouschet). Le but de ce travail est de déterminer comment les régions HRS évoluent au cours de la différentiation cellulaire. Les analyses statistiques et bioinformatiques sont en cours. / In complex organisms like mammals, regulatory sequences, dispersed on the chromosomes, can interact together within the nuclear space to tightly coordinate gene expression. DNA methylation and post-translational histone modifications combine with regulatory sequences, proteic factors and non-coding RNA, to provide cell-type specific patterns of higher-order chromatin organization. However, the in vivo organization of the mammalian chromatin beyond the simple nucleosomal array remains largely enigmatic. The general objective of our group is to elucidate the in vivo organization and dynamic of the chromatin at the supranucleosomal scale in diverse physiological and pathological contexts, in order to better understand how they are involved in the maintenance and coordination of gene expression in mammals. Our working hypothesis is that some nuclear compartments are confining specific chromatin contacts in order to facilitate genomic regulations. The principal objective of my thesis was to develop a novel straightforward method to map and to characterize genomic regions that are associated, in the mouse, with nuclear compartments that are important for gene regulation (nuclear lamina, nucleolus, transcription factories, Cajal bodies). The principle of our method is based on high-salt treatments of transcriptionally active cell nuclei. High-throughput sequencings then allow to identify the genomic regions that are retained in the resulting insoluble nuclear complexes. We thus named this method the HRS-seq (High-salt Recovered Sequences-sequencing). My working program was divided into 4 steps: 1- the improvement of the experimental procedure (HRS assay), 2- the adaptation of the NGS techniques to our method (collaboration with L. Journot, H. Parrinello, E. Dubois), 3- the use of an adequate statistical analysis in order to identify the HRS (Collaboration with C. Reynes and R. Sabatier, statisticians), 4- the bioinformatics analysis of these regions in order to map and to characterize them (collaboration with J. Mozziconacci and A. Cournac). We first used the HRS-seq method on mouse liver cells. The bioinformatics analysis allowed us to obtain the first global profiling of HRS in the mouse and to discover their essential characteristics. The HRS can be classified into two categories: the AT-rich HRS are linked to lamina associated domains, while GC-rich HRS are strongly associated to genes. The presence of histone genes amongst this latter category suggests that the Histone Locus Bodies (HLBs), a specific type of Cajal's body, is retained in the HRS assay. Furthermore, thanks to a cross-analysis with Hi-C data available in international databases, we have shown that the HRS display a high contact probability in the tri-dimensional space of the nucleus and that they are highly enriched in some specific repeat sequences (tRNA genes). Globally, these results allow us to validate the experimental approach used in the HRS-seq method. In a second time, we have applied this method to 3 other cell types: mouse embryonic stem cells, neural progenitor cells and neurons (collaboration with T. Bouschet). The aim of this work is to determine how the HRS regions are regulated during cell differentiation. Statistical and bio-informatics analyses are in progress. Compartiments nucléaires Organisation génomique Chromatine Mammifères Bioinformatique HRS-Seq Nuclear compartments Genomic organization Chromatin Mammals Bioinformatics HRS-Seq
204	Exploring optimal snoRNA profiling using Next Generation Sequencing methods / Exploration des méthodes de séquençage pour une identification optimale des snoRNAs Dupuis Sandoval, Fabien January 2018 (has links) Abstract: Recent advances in Next-Generation Sequencing protocols have opened a variety of ways to generate data. However, each newly developed methodology is most suited to represent a certain phenomenon or molecule. The object of this analysis is to identify the most appropriate way to generate and process data to study the snoRNAs, or small nucleolar RNA. Recently, snoRNAs have been revealed as taking part in a variety of unexpected alternative functions such as splicing, resistance to oxidative shock and chromatin unwinding. Finding a method to generate and treat a large quantity of data containing snoRNAs and their potential interactors could highlight some of their unexplored roles within the cell. To tackle the problem, a new protocol was put forward. This new pipeline relies on a reverse transcriptase isolated from a bacterial group II intron which boasts a better representation of structured small RNAs such as tRNAs and snoRNAs. Indeed, when compared to data created by using the standard small RNA preparation protocol, the sequencing data generated through the group II intron retrotranscriptase gives a much fairer representation. These improvements are also present in the bioinformatics pipeline. The workflow was changed to facilitate the detection of ncRNAs. These modifications rescue millions of reads, further increasing the power of the analysis. Ultimately, such corrections increase the predictive power of sequencing data. / Des avancées récentes dans le domaine du séquençage de prochaine génération ont ouvert une panoplie de façons de générer des données. Toutefois, chaque nouvelle méthode dévelopée est souvent appropriée à la caractérisation d’un seul type de phénomène ou de molécules. L’objectif de cette analyse est d’identifier la manière la plus appropriée de générer et traiter les données pour étudier les petits ARNs nucléolaires, snoRNAs. Récemment, ceux-ci ont été révélés comme des acteurs dans une variété de fonctions alternatives comme l’épissage alternatif, la résistance au choc oxidatif et l’état de la chromatine. Il est donc impératif de trouver une méthode qui puisse traiter une large quantité de données contenant les snoRNAs et leurs intéracteurs pour découvrir les rôles encore inexplorés des snoRNAs. Dans cette optique, un nouveau protocole a été élaboré. Cette nouvelle suite d’analyses s’appuie sur une reverse transcriptase isolée d’un intron de groupe II bactérien qui affiche une meilleure représentation des petits ARNs structurés comme les tRNAs et les snoRNAs. En effet, quand les données générées à travers la méthode de préparation des libraries pour petits ARNs standard est comparée à celle basée sur la reverse transcriptase bactérienne, cette dernière donne une meilleure représentation du compte des espèces. Ces avancées sont aussi présentes dans la méthode d’analyse informatique. La suite d’outils a été modifiée afin de permettre une meilleure détection des petits ARN non-codants. Ces modifications permettent de récupérer des millions de lectures par ensemble de données ce qui augmente le pouvoir prédictif de l’analyse. Petits ARNs nucléolaires Séquençage de prochaine génération Bioinformatique PCR quantitatif SnoRNA Next-Generation Sequencing Bioinformatics Library preparation qPCR
205	Caractérisation des différences de structures chromosomiques dans l'espèce Musa acuminata par re-séquençage NGS : le cas de l'accession "Pahan" / Characterization of differences in structure of chromosomes in Musa acuminata by re-sequencing NGS Martin, Guillaume Eric 18 December 2014 (has links) Les cultivars de bananiers sont dérivés d'hybridations entre sous-espèces de Musa acuminata (génome A) et pour certains avec l'espèce M. balbisiana (génome B). Ces hybrides présentent une fertilité réduite, des méioses perturbées et de fortes distorsions de ségrégation. Ces caractéristiques attribuées à des réarrangements chromosomiques entre espèces et sous-espèces compliquent les analyses génétiques et les programmes d'amélioration variétale. Au cours de cette thèse, nous avons mis en place et testé de nouvelles approches, basées sur la récente disponibilité d'une séquence de référence du bananier et des technologies de séquençage haut-débit, pour caractériser ces différences de structures chromosomiques et comprendre leur impact sur les ségrégations chromosomiques. Ces approches ont nécessité l'amélioration de la séquence de référence du bananier. Pour cela, des outils ont été développés. Ils sont applicables à d'autres génomes et modulables en fonction des données disponibles. Le nombre de scaffolds a été divisé par 5 et 90% de la séquence est maintenant ancré aux chromosomes. Les scaffolds correspondant au génome mitochondrial ont été identifiés et le génome chloroplastique a été assemblé et annoté. Des données de re-séquençage de l'accession ‘Pahang' et de génotypage dense de sa descendance ont été utilisées pour explorer l'origine des distorsions de ségrégation impliquant les chromosomes 1 et 4. L'ensemble des données (profils de distorsion et de recombinaison, appariements à la méiose, re-séquençage), nous orientent vers l'hypothèse d'une translocation réciproque en orientation inversée, entre régions distales des chromosomes 1 et 4. Le test de nos outils de recherche de variations structurales pour comparer les génomes A et B du bananier, dont les différences de structure sont connues, montre que nos outils détectent directement les signatures de certaines variations structurales mais que pour d'autres il ne détecte que des signatures partielles. Ces dernières peuvent néanmoins être informatives en complément d'autres types d'informations provenant de cartographie génétique et d'analyses cytogénétiques. / Banana cultivars are derived from hybridization between Musa acuminata subspecies (A genome) and, for some of them, with the species M. balbisiana (B genome). These hybrids have reduced fertility, disturbed meiosis and strong segregation distortions. These characteristics attributed to chromosomal rearrangements between species and subspecies complicate genetic analyses and breeding programs. In this thesis, we have developed and tested new approaches based on the recent availability of a banana reference genome sequence and high-throughput sequencing technologies, to characterize these differences in chromosomal structures and understand their impact on chromosomal segregation. These approaches needed improvement of the banana reference genome sequence. New bioinformatics tools were developed for this purpose. They are applicable to other genomes and are flexible according to available data. The scaffolds number was divided by 5 and 90% of the assembly is now anchored to the chromosomes. Scaffolds corresponding to the mitochondrial genome were identified and the chloroplast genome was assembled and annotated. Re-sequencing data from the 'Pahang' accession and dense genotyping of its progeny were used to explore the origin of segregation distortion involving chromosomes 1 and 4. Distortion and recombination profiles, chromosomal pairing at meiosis and re-sequencing data direct us to the hypothesis of a reciprocal translocation in inverted orientation between distal portions of chromosomes 1 and 4. We tested our structural variation research tools to compare the A and B genomes of banana, for which structural differences are known. The results showed that our tools detected complete signatures of some structural changes but for others, they only detected partial signatures. The latter can still be informative in addition to other informations derived from genetic mapping and cytogenetic studies. Bananier Variations structurales Distorsions de segregations Re-Séquençage Bioinformatique Banana tree Structural variations Segregation distortions Re-Sequencing Bioinformatics
206	Functional analysis of genomic variations associated with emerging artemisinin resistant P. falciparum parasite populations and human infecting piroplasmida B. microti / Analyse fonctionnelle des variations du génome au sein de populations de P. falciparum résistantes à l’artémisinine et chez le piroplasme responsable de la babésiose humaine B. microti Dwivedi, Ankit 28 September 2016 (has links) Le programme d’élimination du paludisme de l’OMS est menacé par l’émergence etla propagation potentielle de parasites de l’espèce Plasmodium falciparum résistants à l’artémisinine. Récemment il a été montré que (a) des SNPs dans une région du chromosome 13 subissaient une forte sélection positive récente au Cambodge,(b) plusieurs sous-populations de parasites de P. falciparum résistants et sensibles à l’artémisinine étaient présentes au Cambodge, (c) des mutations dans le domaine Kelch du gène k13 sont des déterminants majeurs de la résistance à l’artémisinine dans la population parasitaire cambodgien et (d) des parasites de sous-populations du nord du Cambodge près de la Thaïlande et du Laos sont résistants à la méfloquine et portent l’allèle R539T du gène de k13.Il est donc nécessaire d’identifier la base génétique de la résistance dans le but de surveiller et de contrôler la transmission de parasites résistants au reste du monde, pour comprendre le métabolisme des parasites et pour le développement de nouveaux médicaments. Ce travail a porté sur la caractérisation de la structure de la population de P. falciparum au Cambodge et la description des propriétés métaboliques des sous-populations présentes ainsi que des flux de gènes entre ces sous-populations. Le but est d’identifier les bases génétiques associées à la transmission et l’acquisition de résistance à l’artémisinine dans le pays.La première approche par code-barre a été développée pour identifier des sous-populations à l’aide d’un petit nombre de loci. Une approche moléculaire de PCR-LDR-FMA multiplexée et basée sur la technologie LUMINEX a été mise au point pour identifier les SNP dans 537 échantillons de sang (2010 - 2011) provenant de 16centres de santé au Cambodge. La présence de sous-populations le long des frontières du pays a été établie grâce à l’analyse de 282 échantillons. Les flux de gènes ont été décrits à partir des 11 loci du code-barre. Le code-barre permet d’identifier les sous-populations de parasites associées à la résistance à l’artémisinine et à la méfloquine qui ont émergé récemment.La seconde approche de caractérisation de la structure de la population de P.falciparum au Cambodge a été définie sur la base de l’analyse de 167 génomes de parasites (données NGS de 2008 à 2011) provenant de quatre localités au Cambodge et récupérés à partir de la base de données ENA. Huit sous-populations de parasites ont pu être décrites à partir d’un jeu de 21257 SNPs caractérisés dans cette étude. La présence de sous-populations mixtes de parasite apparait comme un risque majeur pour la transmission de la résistance à l’artémisinine. L’analyse fonctionnelle montre qu’il existe un fond génétique commun aux isolats dans les populations résistantes et a confirmé l’importance de la voie PI3K dans l’acquisition de la résistance en aidant le parasite à rester sous forme de stade anneau.Nos résultats remettent en question l’origine et la persistance des sous-populations de P. falciparum au Cambodge, fournissent des preuves de flux génétique entre les sous-populations et décrivent un modèle d’acquisition de résistance à l’artémisinine.Le processus d’identification des SNPs fiables a été ensuite appliqué au génome de Babesia microti. Ce parasite est responsable de la babésiose humain (un syndrome de type malaria) et est endémique dans le nord-est des Etats-Unis. L’objectif était de valider la position taxonomique de B. microti en tant que groupe externe aux piroplasmes et d’améliorer l’annotation fonctionnelle du génome en incluant la variabilité génétique, l’expression des gènes et la capacité antigénique des protéines. Nous avons ainsi identifié de nouvelles protéines impliquées dans les interactions hôte-parasite. / The undergoing WHO Malaria elimination program is threatened by the emergenceand potential spread of the Plasmodium falciparum artemisinin resistant parasite.Recent reports have shown (a) SNPs in region of chromosome 13 to be understrong recent positive selection in Cambodia, (b) presence of P. falciparum parasiteresistant and sensitive subpopulations in Cambodia, (c) the evidence that mutationsin the Kelch propeller domain of the k13 gene are major determinants ofartemisinin resistance in Cambodian parasite population and (d) parasite subpopulations in Northern Cambodia near Thailand and Laos with mefloquine drugresistance and carrying R539T allele of the k13 gene.Identifying the genetic basis of resistance is important to monitor and control thetransmission of resistant parasites and to understand parasite metabolism for the development of new drugs. This thesis focuses on analysis of P. falciparum population structure in Cambodia and description of metabolic properties of these subpopulations and gene flow among them. This could help in identifying the genetic evidence associated to transmission and acquisition of artemisinin resistance over the country.First, a barcode approach was used to identify parasite subpopulations using smallnumber of loci. A mid-throughput PCR-LDR-FMA approach based on LUMINEXtechnology was used to screen for SNPs in 537 blood samples (2010 - 2011) from 16health centres in Cambodia. Based on successful typing of 282 samples, subpopulations were characterized along the borders of the country. Gene flow was described based on the gradient of alleles at the 11 loci in the barcode. The barcode successfully identifies recently emerging parasite subpopulations associated to artemisinin and mefloquine resistance.In the second approach, the parasite population structure was defined based on167 parasite NGS genomes (2008 - 2011) originating from four locations in Cambodia,recovered from the ENA database. Based on calling of 21257 SNPs, eight parasite subpopulations were described. Presence of admixture parasite subpopulation couldbe supporting artemisinin resistance transmission. Functional analysis based on significant genes validated similar background for resistant isolates and revealed PI3K pathway in resistant populations supporting acquisition of resistance by assisting the parasite in ring stage form.Our findings question the origin and the persistence of the P. falciparum subpopulations in Cambodia, provide evidence of gene flow among subpopulations anddescribe a model of artemisinin resistance acquisition.The variant calling approach was also implemented on the Babesia microti genome.This is a malaria like syndrome, and is endemic in the North-Eastern USA. Theobjective was to validate the taxonomic position of B. microti as out-group amongpiroplasmida and improve the functional genome annotation based on genetic variation, gene expression and protein antigenicity. We identified new proteins involved in parasite host interactions. Bioinformatique Parasitologie Analyse fonctionnelle Données NGS Résistance aux médicaments Paludisme Bioinformatics Parasitology Functional Analyses NGS Data Drug Resistance Malaria
207	Practical and theoretical approaches for module analysis of protein-protein interaction networks / Approches pratiques et théoriques pour l'analyse de modules au sein de réseaux d'interaction protéine-protéine Hume, Thomas 10 October 2016 (has links) Un des principaux défis de la bioinformatique moderne est de saisir le sens des données biologiques en constante croissance. Il est prépondérant de trouver de bons modèles pour toutes ces données, modèles qui servent à la fois à expliquer les données et à produire des réponses aux questions biologiques sous-jacentes. Une des nombreuses difficultés d’une telle approche est la grande variété dans les types des données manipulées. La biologie computationnelle moderne propose des approches qui combinent ces types de données dans des techniques dites intégratives. Cette thèse contribue au problème de l’identification de module biologique en intégrant les informations de conservation dans les modèles modernes d’identification d’ensemble de protéines. Nous introduisons un modèle pour la détection de modules connexes actifs et conservés, c’est-à-dire des modules connexes dont une majorité d’éléments sont similaires entre deux espèces. Nous présentons une formulation de notre modèle sous forme de programmation linéaire en nombres entiers, et proposons un algorithme branch-and-cut qui résout le modèle à l’optimalité en temps raisonnable. Nous appliquons notre modèle sur des données de différentiation cellulaire, à savoir les cellules Th0 en Th17 pour l’humain et la sourie. Nous analysons également notre modèle du point du vue de la complexité algorithmique, et fournissons des résultats pour le cas général ainsi que des cas spéciaux. / One of the major challenge for modern bioinformatics is making sense of the ever increasing size of biological data. Finding good models for all this data, models that can both explain the data and provide insight into biological questions, is paramount. One of the many difficulties of such path is the variety in the types of data. Modern computational biology approaches combine these many data into integrative approaches, that combine the knowledge inside the data in the hope to extract higher level information. This thesis contribute to the biological module identification problem by integrating conservation information with modern models of modular detection of protein sets. We introduce a model for the detection of conserved active connected modules, that is connected modules that are conversed across two species. These active connected modules are similar in sequence composition between the two species. We present a mixed-integer linear programming formulation of our model, and propose a branch-and-cut algorithm to solve to provable optimality in reasonable run time. We apply our model to cell line differentiation data, namely Th0 into Th17 for both human and mouse. We also analyse the model from a complexity standpoint, and provide general as well as special cases complexity results. Bioinformatique Optimisation combinatoire Maximum-Weight Connected Subgraph Recherche de modules biologiques Bioinformatics Combinatorial optimization Maximum-Weight Connected Subgraph Biological module discovery
208	De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques / Interest of grammatical models for pattern matching in genomic sequences Antoine-Lorquin, Aymeric 01 December 2016 (has links) Cette thèse en bioinformatique étudie l'intérêt de rechercher des motifs dans des séquences génomiques à l'aide de grammaires. Depuis les années 80, à l'initiative notamment de David Searls, des travaux ont montré qu'en théorie, des grammaires de haut niveau offrent suffisamment d'expressivité pour permettre la description de motifs biologiques complexes, notamment par le biais d'une nouvelle classe de grammaire dédiée à la biologie : les grammaires à variables de chaîne (SVG, String Variable Grammar). Ce formalisme a donné lieu à Logol, qui est un langage grammatical et un outil d'analyse développé dans l'équipe Dyliss où a lieu cette thèse. Logol est un langage conçu pour être suffisamment flexible pour se plier à une large gamme de motifs qu'il est possible de rencontrer en biologie. Le fait que les grammaires restent inutilisée pour la reconnaissance de motifs pose question. Le formalisme grammatical est-il vraiment pertinent pour modéliser des motifs biologiques ? Cette thèse tente de répondre à cette question à travers une démarche exploratoire. Ainsi, nous étudions la pertinence d'utiliser les modèles grammaticaux, via Logol, sur six applications différentes de reconnaissance de motifs sur des génomes. Au travers de la résolution concrète de problématiques biologiques, nous avons mis en évidence certaines caractéristiques des modèles grammaticaux. Une de leurs limites est que leur utilisation présente un coût en termes de performance. Un de leurs atouts est que leur expressivité couvre un large spectre des motifs biologiques, contrairement aux méthodes alternatives, et d'ailleurs certains motifs modélisés par les grammaires n'ont pas d'autres alternatives existantes. Il s'avère en particulier que pour certains motifs complexes, tels que ceux alliant séquence et structure, l'approche grammaticale est la plus adaptée. Pour finir, l'une des conclusions de cette thèse est qu'il n'y a pas réellement de compétition entre les différentes approches, mais plutôt qu'il y a tout à gagner d'une coopération fructueuse. / This thesis studies the interest to look for patterns in genomic sequences using grammars. Since the 80s, work has shown that, in theory, high level grammars offer enough expressivity to allow the description of complex biological patterns. In particular David Searls has proposed a new grammar dedicated to biology: string variable grammar (SVG). This formalism has resulted in Logol, a grammatical language and an analysis tool developed by Dyliss team where this thesis is taking place. Logol is a language designed to be flexible enough to express a wide range of biological patterns. The fact that the grammars remain unknown to model biological patterns raises questions. Is the grammatical formalism really relevant to the recognition of biological patterns? This thesis attempts to answer this question through an exploratory approach. We study the relevance of using the grammatical patterns, by using Logol on six different applications of genomic pattern matching. Through the practical resolution of biological problems, we have highlighted some features of grammatical patterns. First, the use of grammatical models presents a cost in terms of performance. Second the expressiveness of grammatical models covers a broad spectrum of biological patterns, unlike the others alternatives, and some patterns modeled by grammars have no other alternative solutions. It also turns out that for some complex patterns, such as those combining sequence and structure, the grammatical approach is the most suitable. Finally, a thesis conclusion is that there was no real competition between different approaches, but rather everything to gain from successful cooperation. Bioinformatique Reconnaissance de motifs Grammaire SVG Modèle grammatical Séquence génomique Bioinformatics Pattern matching String variable grammar Grammatical patterns Genomic sequences
209	Ciblage Tissu-Spécifique des Cascades Enzymatiques de l’Angiotensinogène dans l’Athérome Humain / Targeting Tissue-Specific Enzymatic Cascades of Local Angiotensin System in Human Atheroma Nehme, Ali 25 November 2015 (has links) L'Athérosclérose est la principale cause de décès et d'invalidité dans le monde. L'implication du système rénine-angiotensine-aldostérone (RAAS) dans le développement de la maladie est expérimentalement et cliniquement bien documentée. Toutefois, en raison de la complexité du système, ces études ne donnent pas de vision claire sur l'association entre le système et la maladie. À cet égard, nous avons étudié l'organisation fonctionnelle d'un ensemble de 37 gènes codant pour les composants classiques et nouvellement découverts du RAAS, y compris les substrats, les enzymes et les récepteurs. Cet ensemble a été appelé RAAS étendu (extRAAS). En utilisant une analyse statistique des données du transcriptome de l'athérome carotidien humain, nous avons révélé des caractéristiques spéciales de l'expression de l'extRAAS associées au remodelage athéromateux. Une caractéristique importante de ce modèle est la coordination de 2 groupes de gènes qui sont connus pour favoriser la formation de l'athérome. Le premier groupe est constitué de gènes codant pour les peptidases de l'angiotensine, y compris ACE, CTSG, CTSD et RNPEP. Le deuxième groupe est constitué des gènes codant pour les récepteurs AGTR1, MR, GR et LNPEP / Atherosclerosis remains and continues to be the leading cause of death and disability in the world. The implication of Renin-angiotensin-aldosterone system (RAAS) in the development of the disease is well experimentally and clinically documented. However, due to the complexity of the system, these studies remain dispersed and give no clear global view of the association between the system and the disease. In this regard, we studied the functional organization of a set of 37 genes encoding classical and newly discovered RAAS participants, including substrate, enzymes and receptors. This set was called extended RAAS (extRAAS). Using statistical analysis of human carotid atheroma transcriptome involving gene clustering, we revealed special features of extRAAS expression associated with atheromatous remodeling. An important feature of this pattern was the coordination of 2 clusters of genes that are known to favor atheroma formation. The first cluster constitutes genes that encode for angiotensin peptidases, including ACE, CTSG, CTSD and RNPEP. Whereas the second encode for receptors (AGTR1, MR, GR and LNPEP). We hypothesized that the local pattern of extRAAS gene expression plays a key role in the development of atherosclerosis by orienting the metabolism of active peptides Artériosclérose Tissu Bioinformatique Transcriptome Protéomique Métabolomique Facteur de transcription Atherosclerosis Tissue Bioinformatics Transcriptomics Proteomics Metabolomics Transcription factor 572
210	Modélisation et analyse d’un interactome de la kinase humaine Aurora A / Modeling and analysis of the interactome of human Aurora A kinase Gavard, Olivia 09 December 2015 (has links) La kinase Aurora A est une protéine essentielle au cycle cellulaire et plus particulièrement lors de la mitose. En effet, Aurora A est nécessaire à l'entrée en mitose et joue un rôle dans la maturation des centrosomes. Elle participe à l'assemblage du fuseau mitotique et est nécessaire à la réussite de la cytodiérèse. Elle est également nécessaire à l'égale répartition des mitochondries dans les cellules filles et joue un rôle dans l'épissage alternatif des ARNm de facteurs apoptotiques. Au-delà de ses fonctions mitotiques, plusieurs études récentes indiquent qu'Aurora A présente des fonctions supplémentaires dans les cellules en interphase. Elle est notamment essentielle au désassemblage du cil primaire et joue un rôle dans la dynamique des microtubules et la migration cellulaire. Enfin, une dérégulation de son expression, de sa stabilité et/ou de son activité perturbe le déroulement du cycle cellulaire ce qui conduit à la transformation des cellules et favorise l'apparition de cancers. Ses fonctions normales ainsi que ses fonctions lors de la carcinogenèse sont conduites à travers les nombreux partenaires protéiques qui entrent en interaction avec elle. Ils modulent son activité, sa localisation et sa stabilité. En retour Aurora A phosphoryle un bon nombre d'entre eux régulant ainsi leur activité, localisation et stabilité. Cependant, l'analyse des interactions déjà connues d'Aurora A ne permet pas d'expliquer tous les phénotypes observés lors de sa dérégulation. Afin de mieux comprendre les fonctions d'Aurora A, les mécanismes qui la régulent et mettre en évidence ses multiples rôles au sein de la cellule, j'ai construit puis analysé un interactome d'Aurora A généré à partir d'une méthode de purification d'affinité couplée à la spectrométrie de masse en tandem. J'ai identifié 477 partenaires potentiels dont 180 présentant une forte probabilité d'être des partenaires directs de la kinase. L'analyse bioinformatique approfondie de cet interactome a permis de révéler les partenaires associés à des mécanismes liés à la mitochondrie et l'épissage des ARN messagers mettant en évidence une implication potentielle d'Aurora A dans ces mécanismes. Pour valider cet interactome, j'ai choisi d'étudier plus précisément deux partenaires identifiés dans cette étude : les protéines WDR62 et CEP97. J'ai montré que ces deux partenaires co-localisent avec Aurora A et sont phosphorylés par la kinase. Ainsi, ce travail de thèse a permis de mettre en évidence un nombre important de nouveaux partenaires d'Aurora A associés à de nouvelles fonctions. L'étude de ces nouvelles fonctions liées aux mitochondries et à l'épissage des ARN, constitue deux nouveaux projets actuellement menés par des collaborateurs au sein de notre institut. / The kinase Aurora A is an essential mitotic cell cycle protein. Aurora A is necessary for mitotic entry and for the maturation and separation of centrosomes. It participates in mitotic spindle assembly and chromosome biorientation, and it is essential for the completion of cytokinesis. Furthermore, Aurora A activity is necessary for the equal distribution of mitochondria to daughter cells and, through its role in the alternative splicing of mRNA of apoptotic factors, it provides a link between cell cycle control and apoptosis. Beyond its mitotic functions, several recent studies suggest that Aurora A is also important during interphase. Notably, it influences microtubule dynamics, promotes cell migration and polarity control and is essential for primary cilia disassembly. Reflecting the fact that Aurora A is found to be up-regulated in many cancers, deregulation of Aurora A activity can result in an aberrant cell cycle, ultimately leading to malignant transformation of cells. The crucial regulation of Aurora A’s numerous functions is achieved through its interaction with several protein partners, which modulate its activity, localisation and stability. Aurora A in turn phosporylates a number of them, thus regulating their activity, localisation and stability. However, the known interactions of Aurora A cannot explain all the phenotypes that have been described of its deregulation.To better understand the functions of Aurora A, the regulation mechanisms governing it, and to expose its multiple roles in the cell, I have built and analysed an Aurora A interactome using tandem affinity purification coupled with mass spectrometry. This resulted in the identification of 477 potential interacting partners, of which, 180 were determined to have a high probability of interacting directly with the kinase.In-depth bioinformatic analysis of this interactome has revealed the associated partners to be related to mitochondria and mRNA splicing, highlighting the potential involvement of Aurora A in these mechanisms. To validate the interactome, two of the proteins identified in this study, WDR62 and CEP97, were examined in detail. Here I show that these two proteins colocalise with Aurora A, and are phosphorylated by the kinase.WDR62 is implicated in microcephaly and is deregulated in certain cancers. I have shown that Aurora A phosphorylates WDR62 during mitosis, and that this phosphorylation is necessary for its localisation to the centrosomes. CEP97 is a poorly charactarised protein of the primary cilium, abnormalities of which are associated with ciliopathies. I have shown that Aurora A phosphorylates CEP97 in vitro, and that the inhibition of Aurora A activity in vivo perturbs the localisation of CEP97 to cilia and centrosomes.This study has identified a number of new Aurora A-interacting proteins, implicating the kinase with novel functions. These functions, related to mitochondria and mRNA splicing have opened up a new area for further investigation. Protéomique Bioinformatique Biologie Cellulaire Mitose Kinase Aurora A Fuseau Cil Interactome Proteomics Bioinformatics Cellular Biology Mitosis Kinase Aurora A Spindle Cilia Interactome

Search results