Global ETD Search

171	Assessment of supervised classification methods for the analysis of RNA-seq data / Développement, évaluation et application de méthodes statistiques pour l'analyse de données multidimensionnelles de comptage produites par les technologies de séquençage à haut débit ("Next Generation Sequencing") Abuelqumsan, Mustafa 20 December 2018 (has links) Les technologies « Next Generation Sequencing» (NGS), qui permettent de caractériser les séquences génomiques à un rythme sans précédent, sont utilisées pour caractériser la diversité génétique humaine et le transcriptome (partie du génome transcrite en acides ribonucléiques). Les variations du niveau d’expression des gènes selon les organes et circonstances, sous-tendent la différentiation cellulaire et la réponse aux changements d’environnement. Comme les maladies affectent souvent l’expression génique, les profils transcriptomiques peuvent servir des fins médicales (diagnostic, pronostic). Différentes méthodes d’apprentissage artificiel ont été proposées pour classer des individus sur base de données multidimensionnelles (par exemple, niveau d’expression de tous les gènes dans des d’échantillons). Pendant ma thèse, j’ai évalué des méthodes de « machine learning » afin d’optimiser la précision de la classification d’échantillons sur base de profils transcriptomiques de type RNA-seq. / Since a decade, “Next Generation Sequencing” (NGS) technologies enabled to characterize genomic sequences at an unprecedented pace. Many studies focused of human genetic diversity and on transcriptome (the part of genome transcribed into ribonucleic acid). Indeed, different tissues of our body express different genes at different moments, enabling cell differentiation and functional response to environmental changes. Since many diseases affect gene expression, transcriptome profiles can be used for medical purposes (diagnostic and prognostic). A wide variety of advanced statistical and machine learning methods have been proposed to address the general problem of classifying individuals according to multiple variables (e.g. transcription level of thousands of genes in hundreds of samples). During my thesis, I led a comparative assessment of machine learning methods and their parameters, to optimize the accuracy of sample classification based on RNA-seq transcriptome profiles. Bioinformatique Biostatistique Séquençage Massivement Parallèle RNA-Seq Classification supervisée Bioinformatics Biostatistics Séquençage Massivement Parallèle RNA-Seq Supervised classification 570
172	Phylodynamique des pathogènes viraux par calcul bayésien approché / Phylodynamics of viral pathogens by approximate Bayesian computation Saulnier, Emma 28 November 2017 (has links) Inférer des paramètres épidémiologiques à partir de phylogénies ou de données d'incidence est toujours un enjeu.D'une part, les approches basées sur les données d'incidence donnent souvent des estimations erronées du fait du biais d'échantillonnage important sur ce type de données.D'autre part, les approches utilisant les phylogénies reposent généralement sur des fonctions de vraisemblance exprimées à partir de modèles démographiques relativement simples et peu pertinents au regard des dynamiques épidémiologiques.A notre connaissance, il n'existe aucune méthode d'inférence utilisant les deux types de données, qui se base sur des modèles épidémiologiques.Ce travail de thèse a donc conduit au développement de méthodes de calcul bayésien approché qui ne nécessitent aucune fonction de vraisemblance.Ces approches sont basées sur des simulations à partir de modèles épidémiologiques, des techniques de régression et un grand nombre de statistiques de résumé qui permettent de capturer l'information épidémiologique des phylogénies et des données d'incidence.Nous avons comparé ces nouvelles méthodes de calcul bayésien approché à diverses approches existantes permettant d'inferer des paramètres épidémiologiques à partir de phylogénies ou de données d'incidence et obtenu des résultats tout au moins similaires.Ces approches nous ont ensuite permis d'étudier la dynamique de l'épidémie de virus Ebola de 2013-2016 en Sierra Leone et celle de l'épidémie de VIH-O au Cameroun.Ce travail est un premier pas vers l'application de méthodes sans-vraisemblance à des modèles complexes, de façon à aider les organismes de santé publique à établir des mesures de contrôle plus efficaces. / Inferring epidemiological parameters from phylogenies or incidence data is still challenging.In one hand, approaches based on incidence data give regularly erroneous estimates, because sampling bias is usually important on that type of data.In the other hand, approaches based on phylogenies generally rely on likelihood functions that are expressed from relatively simple demographic models.These demographic models are usually not appropriate to properly describe the epidemiological dynamics.To our knowledge, there is no inference method that uses both types of data and that is based on epidemiological models.This thesis work thus led to the development of approximate Bayesian computation methods, which do not require a likelihood function.These approaches rely on simulations from epidemiological models, regression techniques and a large number of summary statistics, which capture the epidemiological information from phylogenies and incidence data.We compared these new methods of approximate Bayesian computation to diverse existing approaches that infer epidemiological parameters from phylogenies or incidence data, and we obtained at least similar accuracies.These approaches enabled us to study the dynamics of the 2013-2016 Ebola epidemic in Sierra Leone and the dynamics of the HIV-O epidemic in Cameroon.This works is a first step towards the application of likelihood-free approaches to complex epidemiological models in order to help public health organisms to establish more efficient control measures. Épidémiologie Phylogénie Calcul bayésien approché Virus Statistiques Bioinformatique Epidemiology Phylogeny Approximate Bayesian Computation Virus Statistics Computational biology
173	Analyse en composantes indépendantes du transcriptome de cancers / Independent Component Analysis of Cancer Transcriptome Biton, Anne 28 June 2011 (has links) L'analyse de données d'expression montre qu'il est avantageux d'analyser les processus biologiques en termes de modules plutôt que simplement considérer les gènes un par un. Dans ce projet nous avons conduit une analyse non supervisée des données d'expression de gènes de plusieurs cohortes de tumeurs urothéliales en appliquant la méthode d'Analyse en Composantes Indépendantes. Plusieurs études ont démontré les meilleures performances de l'ACI par rapport à l'ACP et les méthodes de clustering, pour obtenir une décomposition plus réaliste des données d'expression en patterns d'expression pertinents et associés avec le phénotype d'intérêt.Les tumeurs urothéliales apparaissent et évoluent selon deux voies distinctes dont la probabilité de progression en cancer musculo-invasif diffère radicalement. Excepté la mutation de FGFR3 dans le groupe le moins agressif, les processus moléculaires sous-jacents n'ont pas été complètement identifiés. Le principal objectif de cette thèse était dédié aux interprétations biologiques des différentes composantes indépendantes pour aider à confirmer et étendre la liste des processus biologiques connus pour être impliqués dans le cancer de vessie.Chaque composante indépendante est caractérisée par une liste de projections de gènes et de contributions pondérées d'échantillons tumoraux . En combinant expertise biologique et comparaison des listes de gènes à des voies existantes et en étudiant conjointement l'association des composantes aux annotations cliniques et moléculaires, nous avons pu différencier les CIscausées par des facteurs techniques, tels que le prélèvement chirurgical de celles ayant des interprétations biologiques pertinentes. De plus, parmi les signaux pertinents biologiquement, cette analyse nous a permis de différencier les signaux provenant du stroma, comme la réponse immunitaire médiée par les lymphocytesB&T, de ceux produits par les tumeurs elles-mêmes, comme les signaux reliés à la prolifération ou à la différenciation. La classification des tumeurs selon leurs contributions à certaines CIs a pu être étroitement associée à des annotations anatomo-cliniques, et a mis en évidence de nouveaux sous-types de tumeur spotentiels, qui suggèrent l'existence de voies de progression supplémentaires dans le cancer de vessie. De façon similaire, l'étude des contributions de groupes de tumeurs basés sur des annotations cliniques ou moléculaires a montré différents niveaux de contamination par le stroma entre les tumeurs mutées et nonmutées pour FGFR3. La reproductibilité des composantes a été étudiée en utilisant des graphes de corrélation. La majeure partie des CIs interprétées a été validée sur trois jeux de données indépendants, et plusieurs d'entre elles ont aussi détectées dans un jeu de données de lignées cellulaires.Une deuxième étude sur le rétinoblastome a montré que nous pouvions tirer partie de l'ACI dans des contextes variés. Le rétinoblastome est initié par la perte des deux alléles du gène suppresseur de tumeur RB1. D'autres évènements génomiques non identifiés sont nécessaires à la progression de la maladie. Nous avons observé une association entre âge des patients et altérations génomiques. Les patients jeunes présentant moins d'altérations que les patients âgés, ces derniers présentant des gains du 1q et des pertes du 16q. Cette séparation des tumeurs selon l'âge est également observée sur les données d'expression, notamment en appliquant l'ACI dont l'une des composantes discrimine les patients selon leur âge. Ces résultats suggèrent l'existence de deux voies de progression dans le rétinoblastome. L'analyse des données à haut débit fournit de nombreuses listes de gènes. Afin de les interpréter, une possibilité est d'extraire les dernières publications groupées par sujets prédéfinis (fonction, localisation,...). / Practice of gene expression data analysis shows that it is advantageous to analyze biologicalprocesses in terms of modules rather than simply consider gene one by one. In this project, we conducted anunsupervised analysis of the gene expression data of several cohorts of urothelial tumors, applying theIndependent Component Analysis method. Several studies demonstrated the outperformance of ICA overPCA and clustering-based methods in obtaining a more realistic decomposition of the expression data intoconsistent patterns of coexpressed genes associated with the studied phenotypes[1, 2, 3, 4].Urothelial tumors arise and evolve through two distinct pathways which radically differ on their probabilityof progression to muscle invasion. Except the mutation of FGFR3 in the less aggressive group, theunderlying molecular processes have not been completely identified. The first and main objective of the PhDthesis was dedicated to the biological interpretation of the different independent components to help toconfirm and extend the list of biological processes known to be involved in bladder cancer.Each independent component (IC) is characterized by a list of gene projections on the one hand and weightedcontributions of tumor samples on the other hand. By combining biological expertise and comparison of theassociated list of genes to known pathways, and jointly studying the association of the components tomolecular and clinical annotations, we have been able to differentiate components that were caused bytechnical factors, such as surgical sampling, from those having consistent biological interpretationin terms of tumor biology. Moreover, among the biologically meaningful signals, this analysis allowed us todifferentiate the signals from stroma of the tumor, like immune response mediated by B- and T-lymphocytes,from the signals produced by the tumors themselves, like signals related to proliferation, or differentiation.The clustering of the tumor samples according to their contributions on some ICs can be closely associated toanatomo-clinical annotations, and highlighted new potential subtypes of tumors which suggest existence ofadditional pathways of bladder cancer progression. Similarly, the study of the contributions of preestablishedgroups of tumors based on clinical or molecular criteria showed different levels of stromacontamination between FGFR3 non-mutated and mutated tumors. The reproducibility of the components wasinvestigated using correlation graphs. The major part of the interpreted ICs was validated on threeindependent bladder cancer datasets, and several of them were also identified in an urothelial cancer celllines data set.A second study about retinoblastoma gave us the occasion to show that we can take advantage ofICA in various contexts. Retinoblastoma is initiated by the loss of both alleles of the RB1 tumor suppressorgene. Although necessary for initiation, other genomic events, that remain to be identified, are needed for theprogression of the disease [5]. We observed, as it was previously described [6], an association between age ofthe patients and levels of genomic aberrations, the younger patients having fewer alterations than the olderpatients, which generally present gain of 1q and loss of 16q. We showed that this tendency of the tumors tobe clustered into two groups of age can also be observed on the expression data by applying ICA whose oneof the component was highly correlated to the age of the patients. These results suggest the existence of twopathways of progression in retinoblastoma.The analysis of high throughput data provides many lists of genes. To interpret them, a possibility isto study the latest related publications grouped by pre-defined group of topics (function, cellular location...).To that aim, in a third study, we introduced a web-based Java application tool named GeneValorization whichgives a clear and handful overview of the bibliography corresponding to one particular gene list [7]. Analyse en Composantes Indépendantes, Transcriptome Cancer de la vessie Retinoblastome Bioinformatique Biostatistiques Independent Component Analysis, Transcriptome Bladder cancer Retinoblastoma Bioinformatics Biostatistics
174	Analyse bioinformatique du contrôle des éléments transposables par les siARN chez Arabidopsis thaliana / Bioinformatic analysis of siRNA control on transposable elements in Arabidopsis thaliana Sarazin, Alexis 23 October 2012 (has links) De nombreux mécanismes contrôlent et limitent la prolifération des éléments transposables (ET) dans les génomes dont ils menacent l'intégrité structurale et fonctionnelle. Chez les plantes l'interférence ARN (ARNi) joue un rôle important dans ces contrôles via des petits ARN d'environ 20nt qui guident la régulation de l'expression de séquences endogènes ou exogènes par deux types de mécanismes. Un premier mécanisme, partagé par de nombreux organismes eucaryotes, inhibe l'activité d'ARNm par un contrôle post-transcriptionnel. Un deuxième type de régulation, permet un contrôle transcriptionnel de l'activité des ET via un mécanisme appelé RNA directed DNA Methylation (RdDM) qui implique des siARN (« short-interfering RNA ») de 24nt qui guident la méthylation de l'ADN spécifiquement au niveau des séquences d'ET. Les siARN sont impliqués également dans la restauration progressive de la méthylation de l'ADN après une perte induite par la mutation du gène DDM1 (Decrease in DNA Methylation 1). L'objectif de cette thèse est de tirer avantage des technologies de séquençage à haut débit pour caractériser le contrôle des ET par les siARN chez la plante modèle Arabidopsis thaliana.Dans un premier temps, j'ai développé des méthodes et outils bioinformatiques afin de gérer efficacement les données de séquençage à haut débit de banques de petit ARN. Ces outils, regroupés en pipeline, visent à permettre l'étude de l'accumulation des siARN correspondant aux séquences d'ET ou de familles d'ET ainsi que leur visualisation de manière globale ou détaillée.Ces outils ont ensuite été appliqués pour caractériser, dans un contexte sauvage, l'association entre les siARN et les ET afin de déterminer des facteurs pouvant expliquer les différences d'abondance en siARN observées. Ces analyses, réalisées en tenant compte de l'état de méthylation de l'ADN et du contexte génomique des ET apportent une vue statique du contrôle des ET par les siARN et de leur impact sur les gènes situés à proximité.L'analyse de banques de petits ARN de mutants de la voie de l'ARNi a ensuite été réalisée afin mieux caractériser l'impact de la perte de méthylation de l'ADN sur les populations de siARN et notamment définir les mécanismes impliqués dans la production des siARN de 21nt induite dans le mutant ddm1. Ces analyses comparatives du contrôle des ET lors d'une perte de la méthylation de l'ADN ont permis de mettre en évidence une production de siARN de 24nt indépendante de la voie classique du RdDM et de proposer un modèle permettant d'expliquer la production de siARN de 21nt dans le mutant ddm1.Dans un dernier temps, j'ai cherché à mieux définir l'implication des siARN dans la restauration des états de méthylation de l'ADN. Les variations de méthylation de l'ADN induites par la mutation ddm1 ont été caractérisées ainsi que leur stabilité transgénérationnelle au sein d'une population d'epiRIL. La stabilité de l'hypométhylation de l'ADN a été étudiée, au regard de données de séquençage à haut débit de banques de petits ARN de lignées WT, ddm1 ainsi que pour 4 lignées epiRIL, afin d'apporter une notion temporelle à l'étude du contrôle des ET par les siARN.Les résultats soulignent le rôle majeur des petits ARN pour le contrôle des éléments transposables afin de préserver l'intégrité structurale et fonctionnelle du génome et ce, via des mécanismes variés en fonction des ET. Ce travail ouvre la voie vers une analyse du contrôle des ET par les siARN basée sur une approche regroupant les ET en réseaux en fonction des séquences de siARN qu'ils partagent. Cela permettrait d'étudier les « connections-siARN » entre ET afin de, par exemple, explorer l'action en trans des siARN pour la restauration de la méthylation de l'ADN. / Many mechanisms control and limit the proliferation of transposable elements (TEs) which could otherwise threaten the structural and functional integrity of the genome. In plants RNA interference (RNAi) plays an important role in this control through small RNAs that guide the expression regulation of endogenous or exogenous sequences by two types of mechanisms. The first such mechanism, shared by many eukaryotic organisms, acts at the post-transcriptionnal level to inhibit the activity of mRNA. A second type of regulation allows the transcriptional control of TEs activity through a mechanism called RNA directed DNA methylation (RdDM) which involves 24nt long siRNA ("short-interfering RNA") that guide DNA methylation specifically on TEs sequences. Furthermore, siRNAs are also involved in the progressive restoration of DNA methylation after a loss induced by mutation of the DDM1 gene (Decrease in DNA Methylation 1). The aim of this thesis is to take advantage of high-throughput sequencing technologies to characterize these TEs controls mechanisms by siRNA in the model plant Arabidopsis thaliana .At first, I developed methods and bioinformatics tools to effectively manage data produced by high-throughput sequencing of small RNA libraries. These tools, combined in a pipeline, are designed to allow the study the accumulation of siRNA corresponding to TE sequences or TE families as well as their global or detailed visualization.These tools were applied to characterize, in a wild type background, the association between siRNA and TEs in order to define factors that may explain the observed differences in siRNA abundance . These analyses were performed by taking into account both DNA methylation states and genomic context. It provides a static view of siRNA control of TEs and their impact on nearby genes. Then, analysis of small RNA libraries from mutants of the RNAi pathway was performed to better characterize the impact of DNA methylation loss on siRNA populations and to define the mechanisms involved in the production of 21nt siRNA induced in the ddm1 mutant. These comparative analyses of the TE control after loss of DNA methylation allow us to highlight the production of 24nt siRNA independently of the classical RdDM pathway and to propose a model explaining the production of 21nt siRNA in the ddm1 mutant. At last, I tried to clarify the involvement of siRNA in the restoration of DNA methylation. Changes in DNA methylation induced by ddm1 mutation were characterized as well as their transgenerational stability in an epiRIL population. The stability of DNA hypomethylation has been studied in relation to high-throughput sequencing of small RNAs data from WT, ddm1 and 4 epiRIL lines. It provides a temporal view of the TE control by siRNA. The results highlight the important role of small RNAs in the control of transposable elements in order to preserve structural and functional integrity of the genome through a variety of mechanisms depending on TE sequences. This work opens the way to the analysis of the siRNA control on TEs based on approaches that combine TEs in networks based on their shared siRNA sequences. It would allow to study "siRNA-connections" between TEs in order to explore, for example, the action in trans of siRNA in the restoration of DNA methylation defect. Bioinformatique Arabidopsis Éléments transposables SiARN Méthylation de l'ADN Séquençage à haut débit Bioinformatic Arabidopsis Transposable elements SiRNA DNA methylation High-throughput sequencing
175	Approches bioinformatiques pour identifier et caractériser les ARN régulateurs chez les procaryotes / Computational approaches to regulatory RNA identification and characterization in prokaryotes Ott, Alban 13 February 2014 (has links) L’objectif de cette thèse était de progresser dans la compréhension de la régulation génique ARN‑dépendante chez les procaryotes. Le développement de nouvelles approches bioinformatiques a permis de découvrir de nouveaux ARN régulateurs non-codant (ARNrnc), de les caractériser notamment évolutivement et d’identifier leurs cibles putatives. Les ARNrnc ont en commun de pouvoir modifier l’abondance de certaines protéines en interagissant avec l’ARN messager (ARNm) qui les code. Cet effet peut être obtenu selon divers modes d’action qui mènent à la distinction de trois classes d’ARNrnc, les petits ARN régulateurs (pARN), les ARN cis-régulateurs (ARNcis) et les ARN antisens (ARNa). Avec la généralisation des approches d‘identification expérimentale des ARN (transcriptomique), il devient plus facile d’obtenir la liste des pARN que d'identifier les ARNm qu’ils ciblent. Dans le cas des ARNcis, c’est l’inverse, les méthodes expérimentales ne permettent pas de les identifier, mais une fois connus leurs cibles sont évidentes.Pour répondre à ces problématiques, nous avons principalement développé deux nouvelles méthodes : la première permet de prédire des couples pARN/ARNm en se basant leurs profils d’expressions, les résultats nous ont permis de proposer un réseau de régulation pour lequel les pARN auraient un rôle central dans la sporulation bactérienne. La seconde permet d’identifier de nouveaux ARNcis dans les génomes sur la base d’un profilage phylogénétique. Nos résultats nous conduisent à penser que le nombre de pARN et d’ARNcis dans les génomes est actuellement sous estimé. Nous proposons aussi la présence de plusieurs ARNcis chez une Archée, dont un candidat capable de détecter des variations de températures.Les avancées réalisées lors de cette thèse ont permis de mieux appréhender l’importance des ARNrnc dans la régulation génique. Les ARNrnc sont présents dans plus d’organismes et en plus grand nombre que ce que nous le pensions jusqu’à présent. Ces résultats constituent des éléments supplémentaires en faveur d’un rôle plus central des pARN que ce qui était admis jusqu’alors. / The aim of this thesis was to improve our understanding of the RNA-dependent gene regulation in prokaryotes. Newly developed bioinformatics approaches revealed new non-coding regulatory RNAs and allowed us to identify putative targets.Regulatory RNAs can change the abundance of certain proteins by interacting with cognate messenger RNAs (mRNA). This effect is achieved through various modes of action that lead to the distinction of three RNA classes: small RNA (sRNA), cis-regulatory RNA (cisRNA) and antisense RNA (asRNA). With the generalization of experimental RNA identification (transcriptomics), it becomes easier to obtain the list of expressed RNA but most of their target mRNA remain unknown. Conversely, cisRNA cannot be easily identified through experimental procedures but their targets are obvious.To address these issues, we developed two new methods: the first predicts pairs of sRNA and mRNA targets based on the analysis of expression profiles and led us to propose a new regulatory network with sRNAs playing a central role in bacterial sporulation. The second identifies new RNAs in genomes based on the analysis of phylogenetic profiles. Our results suggest that the abundance of sRNAs and cisRNA were previously underestimated. We also suggest the presence of several cisRNAs in an Archaea, including a strong candidate of thermosensitive regulator.Progress made in this thesis contributed to a better understanding of RNA importance in bacterial cell regulation. Regulatory RNAs are abundant and present in more organisms than expected previously. These results are new evidences that the physiological roles of sRNAs are more central than was previously thought. ARN ARN régulateurs ARNcis ARNm Réseau Régulation Procaryotes Bioinformatique RNA Regulatory RNA CisRNA MRNA Network Regulation Prokaryotes Bioinformatics
176	A new scenario for the early evolution of Mycobacterium tuberculosis / Un nouveau scénario pour les premières étapes de l'évolution de Mycobacterium tuberculosis. Blouin, Yann 04 September 2014 (has links) Mycobacterium tuberculosis, la bactérie causant la tuberculose, est un pathogène d'importance majeure à l'échelle mondiale. Depuis sa découverte en 1882 par Robert Koch, de nombreuses études se sont penchées sur les caractéristiques de cette bactérie et des souches proches, connues sous le nom de complexe Mycobacterium tuberculosis (MTBC). Dans le cadre de ce travail nous avons commencé par nous intéresser à l'espèce proche "Mycobacterium canettii", qui avait été identifiée au milieu du XXème siècle comme étant également capable de causer des cas de tuberculose chez l'Homme, tout en possédant des caractéristiques phénotypiques propres. Par le biais de l'étude de certains marqueurs phylogénétiques, nous avons pu établir que cette bactérie n'appartenait pas au MTBC au sens strict et pouvait donc être utilisée comme point d'ancrage dans le cadre de l'étude de la phylogénie et de l'émergence de ce dernier. C'est pourquoi nous avons choisi d'étudier la diversité de la collection de souches de "Mycobacterium canettii", qui proviennent toutes d'une même région du globe, la Corne de l'Afrique. L'étude de cette collection, construite au fil des ans par le Service de Santé des Armées (SSA), a permis de mettre en évidence l'émergence d'un groupe particulier de souches au sein de cette espèce, ainsi que d'obtenir des éléments permettant de préciser le positionnement du dernier ancêtre commun (MRCA) du MTBC. Du fait de l'origine géographique exclusive de ce taxon, nous avons ensuite décidé d'évaluer la diversité génétique des souches de Mycobacterium tuberculosis provenant de cette même région du globe. Cette seconde partie de l'étude, menée sur une collection à nouveau constituée par le SSA, a conduit à l'identification d'une nouvelle lignée au sein du MTBC, jusqu'alors inconnue. Cette découverte a un impact important sur la compréhension de l'émergence de Mycobacterium tuberculosis, car elle permet d'envisager un nouveau modèle d'apparition en interprétant cette lignée comme le descendant contemporain de l'écotype fondateur du MTBC. L'évolution de Mycobacterium tuberculosis peut ainsi être comprise suivant une progression liant "Mycobacterium canettii", pathogène occasionnel supposé environnemental, et cette nouvelle lignée. Une fois ce nouveau modèle proposé, nous avons tenté de le dater en extrapolant le taux de mutations observé lors d'évènements épidémiques contemporains, ce qui nous a permis de dater le MRCA du MTBC à environ 10 000 ans. Enfin nous avons mis en parallèle ces éléments concrets avec les connaissances paléo-ethnographiques actuelles concernant la Corne de l'Afrique pour proposer un modèle historiquement argumenté permettant d'expliquer la structuration phylogénétique actuelle du MTBC. / Mycobacterium tuberculosis, the causative agent of tuberculosis, is a pathogen of world-wide impact. Since its discovery in 1882 by Robert Koch many studies have been focusing on the characteristics of this bacterium and of the most closely related strains known as the Mycobacterium tuberculosis complex (MTBC). In this work we started by studying the closest neighbor to the MTBC, the "Mycobacterium canettii" taxon, which is only found in one particular region of the world, the Horn of Africa. It t has been first identified in the middle of the XXth century as being able to cause tuberculosis in humans, but having at the same time peculiar phenotypic characteristics. Through the study of some phylogenetic markers we have been able to establish that this bacterium does not belong to the MTBC sensu stricto and can therefore be used as an outgroup in order to root the phylogeny to study the emergence of the MTBC. The next step was to study the genetic diversity of a collection of strains of "M. canettii",using the “next generation sequencing” (NGS) approach.. The analysis of this collection, built along the years by the French Army Health Service (SSA), has permitted to show the rapid emergence of a particular clone, as well as to get information enabling to precise the position of the most recent common ancestor (MRCA) of the MTBC. Because of the restricted geographic location of this species, it was also decided to assess the genetic diversity of strains of M. tuberculosis coming from the same part of the globe. This second part of the study, performed on a collection of strains also gathered by the SSA, has lead to the identification of a new, previously unknown, lineage of the MTBC. This discovery has a profound impact on the comprehension of the emergence of M. tuberculosis, as it permits to develop a new model of appearance by interpreting this lineage as the founder ecotype of the MTBC. The evolution of M. tuberculosis can therefore by understood along a path linking "M. canettii", opportunistic pathogen supposedly environmental, and this new lineage. After this proposal of a new model, we tried to date it by extrapolating Microbiologie Génomique Mycobacterium tuberculosis Phylogénie Mycobacterium canettii Séquençage Bioinformatique MRCA Microbiology Genomics Mycobacterium tuberculosis Phylogeny Mycobacterium canettii Sequencing NGS MRCA
177	Le modèle algue brune pour l'analyse fonctionnelle et évolutive du déterminisme sexuel / The brown alga model for functional and evolutionary analysis of sex determination Cormier, Alexandre 16 November 2015 (has links) Les mécanismes de détermination génétique du sexe, qui requièrent la présence de régions chromosomiques non recombinantes ou bien de chromosomes sexuels, ont émergé de manière indépendante et répétée au sein de plusieurs lignées d'eucaryotes. La plupart des connaissances acquises dans ce domaine portent sur un nombre limité de groupes d'eucaryotes. La disponibilité d'une espèce modèle pour le groupe des algues brunes, Ectocarpus siliculosus, dont le génome a été séquencé, permet de disposer des outils nécessaires pour étudier ces mécanismes au sein d'une lignée phylogénétiquement éloignée des modèles classiquement étudiés. L'un des premiers défis a été d'identifier les chromosomes sexuels dans le génome d'E. siliculosus et de réaliser l'analyse comparative de ces structures. Par la suite, l'analyse de l'expression des gènes entre individus mâles et femelles à différents stades du cycle de vie a permis d'identifier les gènes différentiellement exprimés, de caractériser leurs fonctions et d'analyser leur évolution moléculaire. Les nombreuses données générées afin de réaliser ces différentes analyses ont permis de proposer une nouvelle version de l'assemblage du génome et de l'annotation structurale et fonctionnelle de l'ensemble des gènes codants et non-codants d'E. siliculosus. Ces différents travaux ont permis d'apporter une importante contribution sur les connaissances dans le domaine de l'analyse fonctionnelle et évolutive du déterminisme sexuel chez les algues brunes ainsi qu'une importante actualisation des ressources génomiques du modèle Ectocarpus. / Genetically determined sex determination mechanisms, which are controlled by non-recombinant chromosome regions or sex chromosomes, have emerged independently and repeatedly across several eukaryotic lineages. Most of the knowledge acquired in this area has been obtained for a limited number of eukaryotic groups. The availability of a model organism for the brown algae, Ectocarpus, whose genome has been sequenced, allows the development of tools to study these mechanisms in a lineage that is phylogenetically distant from classically studied models. One of the first challenges was to identify the sex chromosomes in Ectocarpus and to carry out a comparative analysis of these genomic structures. Analysis of gene expression in males and females at different stages of the life cycle then allowed the identification of differentially expressed genes. The functions and molecular evolution of these sex-biased genes was then studied. The large amount of data generated during the course of these analyses allowed the establishment of a new version of the genome assembly and refined structural and functional annotation of both coding and non-coding genes in Ectocarpus. This work helped made a significant contribution to knowledge in the field of functional and evolutionary analysis of sex determination in brown algae and a significantly updated the genomic resources available for the model organism Ectocarpus. Modèle génétique Algues brunes Détermination du sexe Chromosomes sexuels Ré-annotation Bioinformatique Sex determination Brown algea Sex chromosomes 579.8
178	Exploration du rôle de l'épissage mineur dans le développement embryonnaire : modèle du syndrome de Taybi-Linder) (TALS) / Exploration of minor splicing function during embryonic development with the Taybi-Linder Syndrome (TALS) model Cologne, Audric 10 October 2019 (has links) Le Syndrome de Taybi-Linder (TALS) est une maladie génétique rare affectant le développement embryonnaire, caractérisée par un nanisme microcéphalique sévère et un décès précoce des patients. Le gène muté dans ce syndrome est RNU4ATAC, qui encode un petit ARN nucléaire (snRNA) non-codant : U4atac. Ce snRNA est l’une des briques composant le spliceosome mineur, une machinerie nucléaire dédiée à l’épissage des introns U12, un groupe d’introns peu étudié car présent dans ~1 % des gènes seulement. Dans le TALS, ces introns sont fréquemment retenus dans les transcrits matures, l’épissage correct des introns U12 semble donc capital pour le développement embryonnaire. L’étude du profil transcriptomique des patients TALS permet ainsi d’établir les conséquences moléculaires d’un dysfonctionnement du spliceosome mineur, nous permettant d’en apprendre davantage sur les mécanismes d’épissage des introns U12 en condition physiologique ou pathologique, et sur le rôle de l’épissage mineur dans le développement embryonnaire. Cette thèse présente la première analyse approfondie du transcriptome de cellules provenant de patients TALS. Pour mener cette analyse, nous avons développé un pipeline bioinformatique qui, à partir de données RNA-seq de seconde génération, utilise différentes méthodes dédiées à l’étude différentielle de l’expression des gènes ou de la qualité d’épissage entre patients et contrôles. L’épissage étant particulièrement complexe à analyser à partir de reads courts, deux approches complémentaires ont été utilisées : l’une classique, basée sur l’alignement des reads, et l’autre plus originale, basée sur l’assemblage des reads et permettant de détecter plus d’événements d’épissage non-annotés (KisSplice). Une des conséquences attendue d’un dysfonctionnement du spliceosome mineur est une rétention massive des introns U12 dans les ARN matures. Cependant, la détection et la quantification de rétentions d’intron chez les mammifères constituent encore aujourd’hui un challenge bioinformatique. Nous avons donc utilisé une méthode récente dédiée à l’analyse des rétentions d’introns pour caractériser le plus précisément possible le profil transcriptomique des patients TALS. J’ai ainsi participé au développement de KisSplice et de notre outil d’analyse statistique des différentielles d’épissage, kissDE, et mis en évidence certaines caractéristiques de l’épissage mineur, que ce soit en condition physiologique ou pathologique / The Taybi-Linder Syndrome (TALS) is a rare genetic disorder of the embryonic development leading to a severe microcephaly, a primordial dwarfism and an early/unexpected death. The mutated gene in this syndrome is RNU4ATAC, which encode a non-coding small nuclear RNA (snRNA) named U4atac, involved in the minor spliceosome. This nuclear machinery is dedicated to the splicing of a small number of particular introns : the U12 introns. Because only about 1 % of the Human’s genes display at least one U12 intron, they have not been extensively study and little is known about their function. In TALS patients’ cells, most of the U12 introns are retained in mature transcripts ; hence, splicing of U12 introns seems important for the embryonic development. Studying TALS patients’ cells transcriptomes both in physiological and pathological conditions should enable us to precisely identify most of the molecular consequences of a minor splicing defect and could shed light on the mechanism linking minor splicing and embryonic development. This thesis is the first work to conduct an in depth analysis of TALS patients’ cells transcriptomes. In order to do a precise analysis, we developed a bioinformatic pipeline that uses multiple methods to detect differentially expressed or spliced genes between patients and controls and from second generation RNA-seq data. Splicing analysis is a very complex task complete with short reads ; hence, we used two complementary approaches. The first one is based on reads alignement to a reference genome, method conventionnally used to work on splicing, and the second one is based on reads assembly (KisSplice), a original method enabling to find more non-annotated splicing events. One of the expected consequences of a minor splicing malfunction is a global U12 introns retention in mature transcripts. However, intron retention detection and quantification in mammals is particulary difficult task in mammals, thus we used a new method dedicated to intron retentions analysis to study the transcriptomic profile of TALS patients. During my thesis, I was one of the developer of KisSplice and kissDE, our differential splicing analysis tool, and I identified important charcteristics of minor splicing either in physiological or pathological conditions TALS Épissage mineur Introns U12 RNU4ATAC Transcriptomique Bioinformatique TALS Minor splicing U12 introns RNU4ATAC Transcriptomic Bioinformatic 570
179	Génomique comparée et évolutive chez les graminées : Cas particulier des micro-ARN Abrouk, Michael 19 December 2012 (has links) Les Poaceae aussi appelées Graminées forment une importante famille botanique regroupant près de 12 000 espèces en plus de 700 genres dont les céréales. Cette famille présente un intérêt économique majeur car elle est importante dans la nutrition humaine et animale. De ce fait, cette famille a été très étudiée en génomique comparée depuis les années 1990 révélant une grande conservation de la structure de leur génome depuis leur divergence d’un ancêtre commun. Avec le séquençage de Brachypodium distachyon en 2009, nous avons réalisé l’analyse de son génome par l’identification de douze blocs de synténie avec les génomes séquencés du riz, du sorgho et du maïs ainsi que sept blocs de duplications partagées entre ces graminées. Ces données nous ont permis de suggérer que les cinq chromosomes modernes de Brachypodium sont issus de l’ancêtre commun des graminées constitué de douze chromosomes et ayant subi sept fusions au cours de l’évolution. Ces travaux nous ont permis de confirmer un possible génome ancêtre des graminées constitué de cinq chromosomes porteurs de près de 10 000 gènes et d’une taille minimale de près de 35Mb. Ensuite, sur la base des résultats de génomique comparée, nous nous sommes intéressés à l’évolution des différentes familles de micro-ARN (miARN). La comparaison de ces ARN non-codants réalisée pour le riz, le sorgho, le maïs et Brachypodium montre une conservation de cette famille chez les graminées avec 50% d’orthologues et 20% de paralogues. Sur la base des résultats de paléogénomique, nous avons proposé une modélisation de l’évolution des miARN qui corrobore l’hypothèse d’une origine très ancienne de ce mécanisme de « gene silencing ». Au-delà des nouvelles connaissances fondamentales générées au cours de ce travail de thèse sur l’évolution des génomes de graminées, les résultats que nous avons obtenus ont des applications potentielles dans le domaine de l’amélioration variétale, comme avec par exemple la possibilité de définir des marqueurs moléculaires de type COS (Conserved Orthologous Set). Ces marqueurs COS ont été mis en oeuvre pour l’étude de caractères agronomiques d’intérêt dans des espèces dont le génome n’est pas encore complètement séquencé comme le blé. / Poaceae also called Grasses are an important botanical family consisting in nearly 12,000 species in over 700 genres including cereals. This family is of major economic interest because it comprises cereals that are among the most important crops for human and animal nutrition. This family has been extensively studied in comparative genomics since the 1990s and showed a high degree of gene conservation among species since they diverged from a common ancestor. With the sequencing of Brachypodium distachyon in 2009, we performed an analysis of its genome by the identification of twelve synteny blocks with the sequenced genomes of rice, sorghum and maize and seven duplications blocks shared with these last grass species. These data allowed us to suggest the five chromosomes of Brachypodium are from the common ancestor composed of twelve chromosomes and having undergone seven fusions during the evolution. This work allowed us to confirm a possible grass ancestor with five chromosomes carrying almost 10,000 genes with a size of 35Mb. Then, based on these comparative genomics results, we studied more particularly the evolution of different families of microRNAs (miRNAs). The comparison of non-coding RNA from rice, sorghum, maize and Brachypodium showed conservation into this family for the grass species with 50% of orthologs and 20% of paralogs. Based on the paleogenomics results, we proposed an evolutionary scenario of miRNA genes, which supports the hypothesis of an ancient origin of this gene silencing mechanism in plants. Beyond the fundamental knowledge generated on the evolution of grass genomes during this PhD, these results have potential applications in breeding, for example with the possibility to identify COS (Conserved Orthologous Set) molecular markers. Such COS markers have been used for the study of agronomic traits in species not completely sequenced as wheat. Bioinformatique Génomique comparée Synténie Duplication Graminées Évolution des plantes MiARN Bioinformatics Comparative genomics Synteny Duplication Grass Plant evolution MiRNA
180	Conséquences du contexte haplotypique sur la fonctionnalité des protéines : application à la mucoviscidose / Consequences of the haplotype context on protein function : application to cystic fibrosis Cuppens, Tania 07 May 2019 (has links) Notre génome contient des centaines de milliers de variants génétiques, qui pour la plupart, n’ont aucun impact sur notre santé. Après séquençage, il faut les filtrer pour ne conserver que ceux qui sont potentiellement impliquées dans une maladie. On utilise des annotateurs qui prédisent l’impact des variants. Ces prédictions sont faites sans tenir compte des variants en cis dans le même gène. Pourtant, des variants neutres peuvent, lorsqu’ils sont réunis chez un individu, devenir délétères. J’ai donc développé l’outil bioinformatique GEMPROT qui permet de visualiser l’effet des variants génétiques sur la séquence protéique et de mettre en évidence les combinaisons de variants touchant un même domaine fonctionnel.J’ai ensuite étudié l’impact de deux variants associés à la p.Phe508del (508del) sur la protéine CFTR.Le variant p.Val470M est présent sur tous les haplotypes portant la délétion mais pas sur la séquence de référence, qui est généralement utilisée pour la construction de plasmides. Nous avons montré des différences de fonction de la protéine CFTR selon l’acide aminé en position 470. La fonction est augmentée avec une Valine et il convient donc de s’assurer, lors de la construction de plasmides, que le contexte haplotypique des variants étudiés est bien respecté. Le variant p.Ile1027Thr conduit à une dégradation de la fonction de la protéine 508del.Ce variant n’est présent que sur une partie des haplotypes 508del et pourrait donc avoir un effet modificateur de l’expression de la délétion. En conclusion, nous montrons l’importance de la prise en compte des contextes haplotypiques dans l’étude des maladies et proposons un outil bioinformatique pour le faire. / We all carry hundreds of thousands genetic variations in our genome that, for the most of them, have no impact on our health. After sequencing, they must be filtered to only retain those potentially involved in a disease. We use annotators that predict the impact of variants.These predictions are done for each variant taken independently without considering cis variants in the same gene. However, neutral variants can become deleterious when associated together. I have developed the bioinformatics tool GEMPROT, which makes it possible to visualize the effect of genetic variants on the protein sequence and to highlight combinations of variants affecting the same functional domain.I then studied the impact of two variants associated with p.Phe508del (508del) on CFTR protein function.The variant p.Val470M is present on all carrying deletion haplotypes but not on the reference sequence, which is generally used for the construction of plasmids. We have shown differences in the function of the mutated CFTR protein 508del according to the amino acid at position 470. The function is increased with a Valine and it is therefore necessary to ensure, when constructing plasmids, that the haplotype context of the studied variants is well respected.The variant p.Ile1027Thr leads to a degradation of the function of the 508del protein. This variant is present only on a portion of the 508del haplotypes and could therefore have a modifying effect on deletion expression. In conclusion, we show the importance of considering haplotype contexts in the diseases studies and propose a bioinformatics tool to do so. Outil bioinformatique Contexte haplotypique Visualisation Mucoviscidose Fonction protéique Bioinformatic tool Haplotype context Visualization Cystic fibrosis Protein function

Search results