Global ETD Search

1	Développement de méthodes et outils d'analyse transcriptomique par réseaux de co-expression de gènes pour la détection de gènes candidats dans le vieillissement de différents tissus humains Lemoine, Gwenaëlle 04 March 2022 (has links) L'analyse par réseau de co-expression de gènes est un outil entré il y a 15 ans dans l'ensemble des outils disponibles pour l'analyse transcriptomique. En étudiant la variation de synchronisation de l'expression des gènes, cet outil permet de révéler de nouveaux gènes impliqués dans des maladies ou phénotypes dont l'expression seule n'est pas significativement différente. Il est également capable de détecter des groupes de gènes, ou modules, interagissant préférentiellement et sur lesquels il est possible d'effectuer une exploration étendue. Il est ainsi possible d'utiliser des méthodes avec injection de connaissance préalable comme l'enrichissement de gènes ou l'association phénotypique, ou des méthodes guidées par les données comme l'analyse topologique ou la co-expression différentielle. Pourtant, ce type d'analyse reste sous exploitée actuellement par rapport à son potentiel, et notamment dans certaines maladies ou phénotypes où l'altération est une désorganisation du système comme le vieillissement. Afin de faciliter à tout chercheur l'emploi de cette méthode, un progiciel R disponible sur Bioconductor et nommé GWENA a été développé. Organisé comme un pipeline d'analyse simplifié et allant de la construction du réseau jusqu'à l'aide à l'interprétation des modules entre différentes conditions, c'est également le seul pipeline actuel à intégrer la co-expression différentielle. Pour assister l'utilisateur, il comprend de nombreux avertissements sur l'intégrité des données rentrées et sur la plausibilité des résultats. Afin d'éviter de devoir recourir à d'autres logiciels, il contient également un système de visualisation des réseaux. Enfin, GWENA est un outil dont l'architecture modulaire lui permettra d'évoluer avec le temps. L'efficacité de GWENA a été démontrée dans une première étude du vieillissement du muscle squelettique humain où un sous ensemble de gènes a été priorisé pour l'étude de la sarcopénie. Il a également permis de préciser une topologie du réseau spécifique du vieillissement et observée auparavant : la perte de connectivité du réseau, ou déconnexion. En effet, parallèlement à la déconnexion, il a été constaté grâce à GWENA une reconnexion locale située au niveau des gènes pivots. Pour étudier cette topologie à large échelle, l'analyse a été répétée sur un ensemble élargi de tissus humains. Par un recoupement des modules différentiellement exprimés, des phénomènes communs du vieillissement entre tissus sont apparus ainsi que des phénomènes spécifiques à certains tissus. L'analyse topologique, notamment de la déconnexion, des gènes inclus dans ces recoupements pour deux exemples, un phénomène commun et un phénomène spécifique, a à son tour permis la priorisation de gènes encore mal étudiés ou inconnus dans ces phénomènes. En finalité, les travaux présentés au cours de cette thèse auront amené à la création d'un outil utile à la communauté de biologistes comme bio-informaticiens pour faciliter l'accès à une analyse à a haut potentiel dans l'analyse du vieillissement et toute autre condition, notamment celles axées sur la dérégulation de l'expression systémique. / Gene co-expression network analysis is a tool that entered the transcriptomics analysis toolbox 15 years ago. By studying the variation in the synchronization of gene expression, this tool can reveal new genes involved in diseases or phenotypes whose expression alone is not significantly different. It is also able to detect groups of genes, or modules, that interact preferentially and on which it is possible to carry out an extended exploration. It is therefore possible to use knowledge-driven methods such as gene enrichment or phenotypic association, or data-driven methods such as topological analysis or differential co-expression. Nevertheless, this type of analysis is currently under-exploited compared to its potential, especially in certain diseases or phenotypes where the alteration is a disorganization of the system such as aging. In order to facilitate the use of this method by any researcher, an R software package available on Bioconductor and named GWENA has been developed. Organized as a simplified analysis pipeline from the construction of the network to the interpretation of the modules between different conditions, it is also the only current pipeline to integrate the differential co-expression. To assist the user, it includes numerous warnings about the integrity of the data entered and the plausibility of the results. In order to avoid having to use other software, it also contains a network visualization system. Finally, GWENA is a tool whose modular architecture allows it to evolve overtime. The effectiveness of GWENA has been demonstrated in a first study of human skeletal muscle aging, where a subset of genes was prioritized for the study of sarcopenia. It also allowed to clarify a network topology specific to aging and previously observed: the loss of network connectivity, or disconnection. Indeed, in parallel to the disconnection, a local reconnection located at the level of hub genes was observed thanks to GWENA. To study this topology on a large scale, the analysis was repeated on an extended set of human tissues. By cross-referencing differentially expressed modules, common aging phenomena between tissues were identified as well as tissue-specific phenomena. Topological analysis, including disconnection, of the genes included in these overlaps for two examples, a common and a specific phenomenon, in turn allowed the prioritization of genes still poorly studied or unknown in these phenomena. Overall, the work presented in this thesis will have led to the creation of a useful tool for the community of biologists as bioinformaticians to facilitate access to a high-potential analysis in the analysis of aging and any other condition, especially those focused on the deregulation of systemic expression. Transcriptomique. Tissus (Histologie) -- Vieillissement. Expression génique. R (Langage de programmation)
2	Développement de nouveaux outils pour l'intégration des données du ChIP-Seq et leurs applications pour l'étude du contrôle de la transcription Joly Beauparlant, Charles 24 April 2018 (has links) Les progrès fulgurants des technologies de séquençage permettent de développer des projets de recherche très complexes. De plus, les consortiums internationaux tels qu’ENCODE, Roadmap Epigenomics et Fantom offrent publiquement de vastes jeux de donnés à la communauté scientifique. Ainsi, mon projet de recherche au doctorat a pour but de développer de nouvelles approches bioinformatiques afin d’analyser efficacement les données génomiques de type ChIP-Seq pour cibler les changements dans les patrons d’interactions entre les protéines et l’ADN. De nouveaux outils R tels ENCODExplorer et FantomTSS ont donc été développés afin de faciliter l’intégration des données publiques. De plus, l’outil metagene, développé dans le cadre de mon doctorat, permet de comparer les patrons d’enrichissement des protéines interagissant avec l’ADN. Il extrait efficacement la couverture des régions génomiques, normalise le signal et d’utilise les contrôles pour retirer le bruit de fond. Il produit des graphiques pour comparer visuellement les facteurs et conditions et offre des outils statistiques pour cibler les profils significativement différents. Afin de valider mon approche expérimentale, j’ai analysé une centaine de jeux de données de ChIP-Seq de la lignée GM12878 pour étudier les profils d’enrichissement au niveau des amplificateurs et des promoteurs en fonction de leur activité transcriptionnelle. Cette étude a ciblé deux modes de recrutement distincts, soit l’effet gradient et l’effet seuil. Face à la complexité et la quantité de données disponibles, il est essentiel de développer de nouvelles approches méthodologiques et statistiques afin d’améliorer notre compréhension des mécanismes biologiques. ENCODExplorer et metagene sont disponibles sur Bioconductor. / Recent progress in sequencing technologies opened the possibility of performing very complex research experiments. Combined with the vast public datasets produced by intenational consortiums such as ENCODE, Roadmap Epigenomics and Fantoms, the amount of data to process can be daunting. The goal of my doctoral project is to develop new bioinformatic approaches to facilitate the integration of ChIP-Seq data for the study of the dynamic of the interactions between proteins and DNA. New tools such as ENCODExplorer and FantomTSS were developped in R to make the publicly available datasets easier to integrate. Futhermore, the metagene package allows the comparison of enrichment patterns of DNA-interacting proteins. This package efficiently extracts read coverage from genomic regions of interest, normalize the signal and uses controls to remove background noise. The main functionnality of the metagene package is to visually compare enrichment profiles from multiple groups of genomic regions and to offer statistical tools to caracterize and compare those profiles. To validate my experimental approach, I used over a hundred datasets from the GM12878 cell line produced by the ENCODE consortium to study the enrichment profiles of transcription factors and histones in enhnacer and promoter regions. I was able to define two distinct recruitment patterns: the gradient effect and the threshold effect. With the ever growing complexity of genomic datasets, it is essential to develop new methodotical approaches to allow a better understanding of the underlying biological processes. ENCODExplorer and metagene are both available on Bioconductor. Bio-informatique Génomique Protéines ADN R (Langage de programmation) Transcription génétique -- Régulation
3	Forecasting quantiles of cryptocurrency returns using MCMC algorithms Chaparro Sepulveda, Carlos Alberto 21 December 2021 (has links) Ce travail résume les étapes et les technologies nécessaires pour construire une application web dynamique permettant de faire l'analyse de données financières en temps réel à l'aide des langages de programmation R et C++. R est utilisé pour la collecte et traitement des données entrantes ainsi que pour générer tout output. C++ est utilisé pour accélérer les simulations Monte-Carlo. L'output de ce travail consiste en l'application web elle-même et les fonctions permettant d'estimer les paramètres des modèles de régression quantile de la famille CAViaR. Le code pour reproduire ce travail est organisé de la façon suivante : Un paquetage R pour l'application shiny, disponible à l'adresse https://gitlab.com/cacsfre/simulr. Un paquetage R pour estimer les paramètres des modèles de la famille CAViaR, disponible à l'adresse https://gitlab.com/cacsfre/caviarma. Le code R pour générer le présent document avec bookdown, disponible à l'adresse https://gitlab.com/cacsfre/msc. La famille de modèles CAViaR a été utilisée pour obtenir une estimation du quantile q[indice α] au niveau α. Ces modèles s'adressent directement au quantile d'intérêt au lieu de le calculer indirectement comme dans d'autres cas, par exemple les modèles de type GARCH où l'on s'intéresse plutôt à la volatilité σ² . Les résultats obtenus ici sont comparables à ceux se trouvant dans la littérature tel qu'illustré dans les chapitres 3 et 4. R (Langage de programmation) Sites Web dynamiques -- Conception. Régression quantile -- Informatique. C++ (Langage de programmation) Temps réel (Informatique)

1

Page generated in 0.153 seconds