Global ETD Search

31	MiRNA and co : methodologically exploring the world of small RNAs / MiARN et compagnie : une exploration méthodologique du monde des petits ARNs Higashi, Susan 26 November 2014 (has links) La principale contribution de cette thèse est le développement d'une méthode fiable, robuste, et rapide pour la prédiction des pré-miARNs. Deux objectifs avaient été assignés : efficacité et flexibilité. L'efficacité a été rendue possible au moyen d'un algorithme quadratique. La flexibilité repose sur deux aspects, la nature des données expérimentales et la position taxonomique de l'organisme (en particulier plantes ou animaux). Mirinho accepte en entrée des séquences de génomes complets mais aussi les très nombreuses séquences résultant d'un séquençage massif de type NGS de “RNAseq”. “L'universalité” taxonomique est obtenu par la possibilité de modifier les contraintes sur les tailles de la tige (double hélice) et de la boule terminale. Dans le cas de la prédiction des miARN de plantes la plus grande longueur de leur pré-miARN conduit à des méthodes d'extraction de la structure secondaire en tige-boule moins précises. Mirinho prend en compte ce problème lui permettant de fournir des structures secondaires de pré-miARN plus semblables à celles de miRBase que les autres méthodes disponibles. Mirinho a été utilisé dans le cadre de deux questions biologiques précises l'une concernant des RNAseq l'autre de l'ADN génomique. La première question a conduit au traitement et l'analyse des données RNAseq de Acyrthosiphon pisum, le puceron du pois. L'objectif était d'identifier les miARN qui sont différentiellement exprimés au cours des quatre stades de développement de cette espèce et sont donc des candidats à la régulation des gènes au cours du développement. Pour cette analyse, nous avons développé un pipeline, appelé MirinhoPipe. La deuxieme question a permis d'aborder les problèmes liés à la prévision et l'analyse des ARN non-codants (ARNnc) dans la bactérie Mycoplasma hyopneumoniae. Alvinho a été développé pour la prédiction de cibles des miRNA autour d'une segmentation d'une séquence numérique et de la détection de la conservation des séquences entre ncRNA utilisant un graphe k-partite. Nous avons finalement abordé un problème lié à la recherche de motifs conservés dans un ensemble de séquences et pouvant ainsi correspondre à des éléments fonctionnels / The main contribution of this thesis is the development of a reliable, robust, and much faster method for the prediction of pre-miRNAs. With this method, we aimed mainly at two goals: efficiency and flexibility. Efficiency was made possible by means of a quadratic algorithm. Flexibility relies on two aspects, the input type and the organism clade. Mirinho can receive as input both a genome sequence and small RNA sequencing (sRNA-seq) data of both animal and plant species. To change from one clade to another, it suffices to change the lengths of the stem-arms and of the terminal loop. Concerning the prediction of plant miRNAs, because their pre-miRNAs are longer, the methods for extracting the hairpin secondary structure are not as accurate as for shorter sequences. With Mirinho, we also addressed this problem, which enabled to provide pre-miRNA secondary structures more similar to the ones in miRBase than the other available methods. Mirinho served as the basis to two other issues we addressed. The first issue led to the treatment and analysis of sRNA-seq data of Acyrthosiphon pisum, the pea aphid. The goal was to identify the miRNAs that are expressed during the four developmental stages of this species, allowing further biological conclusions concerning the regulatory system of such an organism. For this analysis, we developed a whole pipeline, called MirinhoPipe, at the end of which Mirinho was aggregated. We then moved on to the second issue, that involved problems related to the prediction and analysis of non-coding RNAs (ncRNAs) in the bacterium Mycoplasma hyopneumoniae. A method, called Alvinho, was thus developed for the prediction of targets in this bacterium, together with a pipeline for the segmentation of a numerical sequence and detection of conservation among ncRNA sequences using a kpartite graph. We finally addressed a problem related to motifs, that is to patterns, that may be composed of one or more parts, that appear conserved in a set of sequences and may correspond to functional elements. Pré-microARN Programmation dynamique Modèle d'énergie du plus proche voisin Prédiction Séquençage des petit ARNs Puceron du pois Cibles de ARN non-codants Motifs Pre-microRNA Dynamic programming Nearest neighbor energy model Prediction Small RNA sequencing Pea aphid Non-coding RNA target Motifs 570.15
32	Réponse des agents non codants du génome – éléments transposables et petits ARN – à un événement d'allopolyploïdie : le génome du colza (Brassica napus) comme modèle d'étude / Response of non-coding components of the genome – transposable elements and small non-coding RNAs – to a new allopolyploidisation event : the genome of oilseed rape (Brassica napus) as a model of study Martinez Palacios, Paulina 28 March 2014 (has links) Le succès évolutif de la polyploïdie, notamment de l’allopolyploïdie (où la duplication de génome complet est associée à une hybridation entre génomes différenciés) est en partie lié au fait que cet événement s’accompagne de nombreux changements dans l'organisation du génome et la régulation de l'expression des gènes. On parle du « choc génomique » de l’hybridation interspécifique et de l’allopolyploïdie. Ces sources de diversité génétique, à la fois structurale et fonctionnelle, apparaissent utiles et nécessaires à l'adaptation et l’évolution des espèces. Alors que de nombreuses études portant sur la compréhension des mécanismes moléculaires à l’origine du succès des allopolyploïdes ont concerné les modifications de l’expression des gènes, mes travaux de thèse ont porté sur les agents non codants du génome que sont les éléments transposables et les petits ARN non codants. Le modèle d'étude est le colza (Brassica napus, AACC), espèce allotétraploïde issue de l'hybridation entre les espèces diploïdes navette (B. rapa, AA) et chou (B. oleracea, CC). Nous disposions de colzas néo-synthétisés, étudiés à différentes générations d’autofécondation, permettant de caractériser les changements génomiques accompagnant la formation puis l’évolution du génome néo-allopolyploïde. Une étude a tout d’abord été menée sur un élément transposable (ET) spécifique du génome C, Bot1, en vue d’identifier de nouvelles transpositions survenant chez les colzas néo-synthétisés par rapport aux parents diploïdes, par une approche SSAP. Quelques rares événements de transposition ont été identifiés. Ces résultats, confrontés à ceux obtenus sur deux autres ET, ont permis de mettre en évidence un impact modéré de l’allopolyploïdie sur la transposition de ces différents ET. Par contre, il est apparu que des changements de méthylation auraient accompagné cette allopolyploïdisation, sans doute à l’origine de la réactivation et la transposition de quelques copies de Bot1. Les petits ARN non codants ont été suggérés comme impliqués dans les différents événements génomiques accompagnant la formation d’un génome allopolyploïde. Pour étudier la dynamique d’expression des petits ARN chez des colzas néo-synthétisés pris à deux générations d’autofécondation (S1, S5) en comparaison de leurs parents diploïdes, j’ai exploité des données de séquençage haut débit obtenues pour 11 banques construites à partir des tiges de ces différents génotypes. J’ai ainsi démontré, qu’à une échelle globale, les petits ARN présentaient une réponse immédiate mais transitoire à l’événement d’allopolyploïdie. Les fractions particulièrement affectées par l’allopolyploïdie se sont révélées correspondre (1) à des petits ARN interférents dérivés d’éléments transposables avec une baisse de leur abondance en génération précoce S1, et (2) à des populations de petits ARN de 21 nucléotides exprimées uniquement de manière très précoce, de l’hybride F1 à la génération S1. Nous avons notamment identifié des transcrits de type viral correspondant à ces petits ARN de 21-nt, et présentant les mêmes profils d’expression (de l’hybride F1 à la génération S1), suggérant une réactivation d’éléments viraux endogènes (EVE) en réponse à l’hybridation et l’allopolyploïdie. L’ensemble de mon étude a démontré la mise en place d’une succession des voies de régulation par petits ARN où ET et EVE, réactivés au niveau transcriptionnel, sont immédiatement soumis à une répression post-transcriptionnelle (PTGS), renforcée ensuite par une répression de leur transcription (TGS). L’hypothèse d’une absence de cette régulation par petits ARN lors des phénomènes de nécrose et létalité hybride, amène à envisager ces populations de petits ARN comme les clés de la réussite de la formation d’un génome hybride, où la répression immédiate et efficace des ET et autres endovirus, réactivés suite au choc génomique, se révèle être une nécessité. / The evolutionary success of polyploid species is partly due to the dynamic changes in genome organization and gene expression patterns that occur at the onset of the polyploid formation. These changes are promoted by the merging of divergent genomes into a single nucleus (i.e. allopolyploidy) that causes a “genomic shock”; they are thought to provide a rich source of new genetic material upon which selection can act to promote adaptation and evolution. Many studies have thus aimed to uncover molecular mechanisms that are responsible for the evolutionary success of allopolyploid species, most of them focusing on gene expression changes. In the present PhD thesis, my interest has been concentrated on the non-coding components of the genome: transposable elements and small non-coding RNAs. My study involves oilseed rape (Brassica napus, AACC), a relatively young allopolyploid species that originated from hybridizations between B. rapa (AA) and B. oleracea (CC). Specifically, I have used resynthesized B. napus polyploids advanced by self-pollination of single plants for several generations; I have analyzed these plants at different generations for genomic changes accompanying polyploid formation and subsequent evolution. In a first part, sequence-specific amplification polymorphism (SSAP) targeting the C genome-specific transposable element Bot1, was used to evaluate transposition rate of Bot1 in resynthesized B. napus in comparison with the diploid parents. Only a few transposition events were identified. When combined with the results obtained for two other TEs, this work suggests that allopolyploidy has only a moderate impact on TE transposition and restructuring. The changes observed in SSAP profiles led us to hypothesize that some of them resulted from changes in DNA methylation, resulting in rare but highly specific TE activation and transposition. In a second part, I have concentrated on small non-coding RNAs (sRNAs), which are thought to mediate different aspects of the response to the “genomic shock” induced by allopolyploid formation. Comprehensive analyses of sRNA expression in resynthesized B. napus allopolyploids have been carried out by deep sequencing sRNAs from 11 libraries prepared from stems of three allotetraploids (surveyed at the two generations S1 and S5) and the two diploid parents. Characterization of sRNA distributions in these plants indicates that sRNAs show an immediate but transient response to allopolyploidy. The sRNAs derived from transposable elements (down-regulated in the S1) or targeting unknown sequences (no Blast hit against any available public database) were particularly affected. The use of B. napus mRNAseq data revealed that these latest unknown candidates, which are 21-nt long and over-expressed in the earliest generations (F1, S0, S1) were derived from endogenous viral elements (EVE). We confirmed that these EVEs showed the same expression patterns as the 21-nt long sRNAs that specifically target them (over-expression in the F1, S0 and S1). These results suggest that (at least) some EVEs might be reactivated as a response to the merging of divergent genomes (in interspecific hybrids and newly formed allopolyploids). Altogether, our results have demonstrated a succession of sRNA pathways that counteract the reactivation of some specific TEs and/or EVEs at the onset of polyploid formation; reactivated TEs and/or EVEs being immediately repressed at the post-transcriptional level (PTGS), and then fully repressed by transcriptional gene silencing (TGS) in the subsequent generations. Such data lead to hypothesize that sRNAs are essential to overcome interspecific hybrid incompatibilities due to the uncontrolled and deleterious reactivation of TEs / EVEs. Therefore, sRNAs should be considered as the guardians of genome integrity even in newly-formed allopolyploids. Allopolyploïdie Brassica Éléments transposables Éléments viraux endogènes (EVE) Micro ARN (miRNAs) Petits ARN interférents (siRNAs) Petits ARN non codants Séquençage haut débit (NGS) Allopolyploidy Brassica Transposable elements Endogenous viral elements (EVEs) Micro RNAs (miRNAs) Small interfering RNAs (siRNAs) Small non-coding RNAs Next generation sequencing (NGS)
33	Caractérisation systématique des motifs de régulation en cis à l’échelle transcriptomique et liens avec la localisation des ARN Benoit Bouvrette, Louis Philip 04 1900 (has links) La localisation subcellulaire de l’ARN permet un déploiement prompt et spatialement restreint autant des activités protéiques que des ARN noncodant. Le trafic d’ARN est dirigé par des éléments de séquences (sous-séquences primaires, structures secondaires), aussi appelés motifs de régulation, présents en cis à même la molécule d’ARN. Ces motifs sont reconnus par des protéines de liaisons aux ARN qui médient l’acheminement des transcrits vers des sites précis dans la cellule. Des études récentes, chez l’embryon de Drosophile, indiquent que la majorité des ARN ont une localisation subcellulaire asymétrique, suggérant l’existence d’un « code de localisation » complexe. Cependant, ceci peut représenter un exemple exceptionnel et la question demeurait, jusqu’ici, si une prévalence comparable de localisation d’ARN est observable chez des cellules standards développées en culture. De plus, des informations facilement disponibles à propos des caractéristiques de distribution topologique d’instances de motifs à travers des transcriptomes complets étaient jusqu’à présent manquantes. Afin d’avoir un aperçu de l’étendue et des propriétés impliquées dans la localisation des ARN, nous avons soumis des cellules de Drosophile (D17) et de l’humain (HepG2) à un fractionnement biochimique afin d’isoler les fractions nucléaire, cytosolique, membranaire et insoluble. Nous avons ensuite séquencé en profondeur l’ARN extrait et analysé par spectrométrie de masse les protéines extraites de ces fractions. Nous avons nommé cette méthode CeFra-Seq. Par des analyses bio-informatiques, j’ai ensuite cartographié l’enrichissement de divers biotypes d’ARN (p. ex. ARN messager, ARN long non codant, ARN circulaire) et protéines au sein des fractions subcellulaires. Ceci a révélé que la distribution d’un large éventail d’espèces d’ARN codants et non codants est asymétrique. Une analyse des gènes orthologues entre mouche et humain a aussi démontré de fortes similitudes, suggérant que le processus de localisation est évolutivement conservé. De plus, j’ai observé des attributs (p. ex. la taille des transcrits) distincts parmi les populations d’ARN messagers spécifiques à une fraction. Finalement, j’ai observé des corrélations et anti-corrélations spécifiques entre certains groupes d’ARN messagers et leurs protéines. Pour permettre l’étude de la topologie de motifs et de leurs conservations, j’ai créé oRNAment, une base de données d’instances présumée de sites de liaison de protéines chez des ARN codants et non codants. À partir de données de motifs de liaison protéique par RNAcompete et par RNA Bind-n-Seq, j’ai développé un algorithme permettant l’identification rapide d’instances potentielles de ces motifs dans un transcriptome complet. J’ai pu ainsi cataloguer les instances de 453 motifs provenant de 223 protéines liant l’ARN pour 525 718 transcrits chez cinq espèces. Les résultats obtenus ont été validés en les comparant à des données publiques de eCLIP. J’ai, par la suite, utilisé oRNAment pour analyser en détail les aspects topologiques des instances présumées de ces motifs et leurs conservations évolutives relatives. Ceci a permis de démontrer que la plupart des motifs sont distribués de façon similaire entre espèces. De plus, j’ai discerné des points communs entre les sous-groupes de protéines liant des biotypes distincts ou des régions d’ARN spécifiques. La présence de tels patrons, similaires ou non, entre espèces est susceptible de refléter l’importance de leurs fonctions. D’ailleurs, l’analyse plus détaillée du positionnement d’un motif entre régions transcriptomiques comparables chez les vertébrés suggère une conservation synténique de ceux-ci, à divers degrés, pour tous les biotypes d’ARN. La topologie régionale de certaines instances de motifs répétées apparaît aussi comme évolutivement conservée et peut être importante afin de permettre une liaison adéquate de la protéine. Finalement, les résultats compilés avec oRNAment ont permis de postuler sur un nouveau rôle potentiel pour l’ARN long non codant HELLPAR comme éponge de protéines liant l’ARN. La caractérisation systématique d’ARN localisés et de motifs de régulation en cis présentée dans cette thèse démontre comment l’intégration d’information à l’échelle transcriptomique permet d’évaluer la prévalence de l’asymétrie, les caractéristiques distinctes et la conservation évolutive de collections d’ARN. / The subcellular localization of RNA allows a rapid and spatially restricted deployment of protein and noncoding RNA activities. The trafficking of RNA is directed by sequence elements (primary subsequences, secondary structures), also called regulatory motifs, present in cis within the RNA molecule. These motifs are recognized by RNA-binding proteins that mediate the transport of transcripts to specific sites in the cell. Recent studies in the Drosophila embryo indicate that the majority of RNAs display an asymmetric subcellular localization, suggesting the existence of a complex "localization code". However, this may represent an exceptional example and the question remained, until now, whether a comparable prevalence of RNA localization is observable in standard cells grown in culture. In addition, readily available information about the topological distribution of pattern instances across full transcriptomes has been hitherto lacking. In order to have a broad overview of the extent and properties involved in RNA localization, we subjected Drosophila (D17) and human (HepG2) cells to biochemical fractionation to isolate the nuclear, cytosolic, membrane and insoluble fractions. We then performed deep sequencing on the extracted RNA and analyzed through mass spectrometry the proteins extracted from these fractions. We named this method CeFra-Seq. Through bioinformatics analyses, I then profiled the enrichment of various RNA biotypes (e.g. messenger RNA, long noncoding RNA, circular RNA) and proteins within the subcellular fractions. This revealed the high prevalence of asymmetric distribution of both coding and noncoding RNA species. An analysis of orthologous genes between fly and human has also shown strong similarities, suggesting that the localization process is evolutionarily conserved. In addition, I have observed distinct attributes (e.g. transcript size) among fraction-specific messenger RNA populations. Finally, I observed specific correlations and anti-correlations between defined groups of messenger RNAs and the proteins they encode. To study motifs topology and their conservation, I created oRNAment, a database of putative RNA-binding protein binding sites instances in coding and noncoding RNAs. Using data from protein binding motifs assessed by RNAcompete and by RNA Bind-n-Seq experiments, I have developed an algorithm allowing their rapid identification in a complete transcriptome. I was able to catalog the instances of 453 motifs from 223 RNA-binding proteins for 525,718 transcripts in five species. The results obtained were validated by comparing them with public data from eCLIP. I then used oRNAment to further analyze the topological aspects of these motifs’ instances and their relative evolutionary conservation. This showed that most motifs are distributed in a similar fashion between species. In addition, I have detected commonalities between the subgroups of proteins linking preferentially distinct biotypes or specific RNA regions. The presence or absence of such pattern between species is likely a reflection of the importance of their functions. Moreover, a more precise analysis of the position of a motif among comparable transcriptomic regions in vertebrates suggests a syntenic conservation, to varying degrees, in all RNA biotypes. The regional topology of certain motifs as repeated instances also appears to be evolutionarily conserved and may be important in order to allow adequate binding of the protein. Finally, the results compiled with oRNAment allowed to postulate on a potential new role for the long noncoding RNA HELLPAR as an RNA-binding protein sponge. The systematic characterization of RNA localization and cis regulatory motifs presented in this thesis demonstrates how the integration of information at a transcriptomic scale enables the assessment of the prevalence of asymmetry, the distinct characteristics and the evolutionary conservation of RNA clusters. Localisation de l’ARN Régulation post-transcriptionnelle Transcriptomique ARN messagers ARN non codants Protéine liant l’ARN Motifs de régulation en cis Fractionnement subcellulaire Séquençage en profondeur de l’ARN Conservation évolutive RNA localization Post-transcriptional regulation Transcriptomics Messenger RNA Noncoding RNA RNA binding protein Cis-regulatory motifs Subcellular fractionation RNA-sequencing Evolutionary conservation

Search results

MiRNA and co : methodologically exploring the world of small RNAs / MiARN et compagnie : une exploration méthodologique du monde des petits ARNs

Caractérisation systématique des motifs de régulation en cis à l’échelle transcriptomique et liens avec la localisation des ARN