251 |
Etude bioinformatique du réseau d'interactions entre protéines de transport ches les FungiBrohée, Sylvain 10 November 2008 (has links)
Les protéines associées aux membranes sont d'une importance cruciale pour la cellule. Cependant, en raison d'une plus grande difficulté de manipulation, les données biochimiques les concernant sont très lacunaires, notamment au point de vue de la formation de complexes entre ces protéines.<p><p>L'objectif global de notre travail consiste à combler ces lacunes et à préciser les interactions entre protéines membranaires chez la levure Saccharomyces cerevisiae et plus précisément, entre les transporteurs. Nous avons commencé notre travail par l'étude d'un jeu de données d'interactions à grande échelle entre toutes les perméases détectées par une méthode de double hybride spécialement adaptée aux protéines insolubles (split ubiquitin). Premièrement, la qualité des données a été estimée en étudiant le comportement global des données et des témoins négatifs et positifs. Les données ont ensuite été standardisées et filtrées de façon à ne conserver que les plus significatives. Ces interactions ont ensuite été étudiées en les modélisant dans un réseau d'interactions que nous avons étudié par des techniques issues de la théorie des graphes. Après une évaluation systématique de différentes méthodes de clustering, nous avons notamment recherché au sein du réseau des groupes de protéines densément interconnectées et de fonctions similaires qui correspondraient éventuellement à des complexes protéiques. Les résultats révélés par l'étude du réseau expérimental se sont révélés assez décevants. En effet, même si nous avons pu retrouver certaines interactions déjà décrites, un bon nombre des interactions filtrées semblait n'avoir aucune réalité biologique et nous n'avons pu retrouver que très peu de modules de protéines de fonction semblable hautement inter-connectées. Parmi ceux-ci, il est apparu que les transporteurs d'acides aminés semblaient interagir entre eux.<p><p>L'approche expérimentale n'ayant eu que peu de succès, nous l'avons contournée en utilisant des méthodes de génomique comparative d'inférence d'interactions fonctionnelles. Dans un premier temps, malgré une évaluation rigoureuse, l'étude des profils phylogénétiques (la prédiction d'interactions fonctionnelles en étudiant la corrééélation des profils de présence - absence des gènes dans un ensemble de génomes), n'a produit que des résultats mitigés car les perméases semblent très peu conservées dès lors que l'on considère d'autres organismes que les \ / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
252 |
Evolutionary study of the Hox gene family with matrix-based bioinformatics approachesThomas-Chollier, Morgane 27 June 2008 (has links)
Hox transcription factors are extensively investigated in diverse fields of molecular and evolutionary biology. Hox genes belong to the family of homeobox transcription factors characterised by a 60 amino acids region called homeodomain. These genes are evolutionary conserved and play crucial roles in the development of animals. In particular, they are involved in the specification of segmental identity, and in the tetrapod limb differentiation. In vertebrates, this family of genes can be divided into 14 groups of homology. Common methods to classify Hox proteins focus on the homeodomain. Classification is however hampered by the high conservation of this short domain. Since phylogenetic tree reconstruction is time-consuming, it is not suitable to classify the growing number of Hox sequences. The first goal of this thesis is therefore to design an automated approach to classify vertebrate Hox proteins in their groups of homology. This approach classifies Hox proteins on the basis of their scores for a combination of protein generalised profiles. The resulting program, HoxPred, combines predictive accuracy and time efficiency. We used this program to detect and classify Hox genes in several teleost fish genomes. In particular, it allowed us to clarify the evolutionary history of the HoxC1a genes in teleosts. Overall, HoxPred could efficiently contribute to the bioinformatics toolbox commonly used to annotate vertebrate Hox sequences. This program was then evaluated in non-vertebrate species. Although not intended for the classification of Hox proteins in distantly related species, HoxPred showed a high accuracy in bilaterians. It has also given insights into the evolutionary relationships between bilaterian posterior Hox genes, which are notoriously difficult to classify with phylogenetic trees.<p><p>As transcription factors, Hox proteins regulate target genes by specifically binding DNA on cis-regulatory elements. Only a few of these target genes have been identified so far. The second goal of this work was to evaluate whether it is possible to apply computational approaches to detect Hox cis-regulatory elements in genomic sequences. Regulatory Sequence Analysis Tools (RSAT) is a suite of bioinformatics tools dedicated to the detection of cis-regulatory elements in genomes. We participated to the development of matrix-based pattern matching approaches in RSAT. After having performed a statistical validation of the pattern-matching scores, we focused on a study case based on the vertebrate HoxB1 protein, which binds DNA with its cofactors Pbx and Meis. This study aimed at predicting combinations of cis-regulatory elements for these three transcription factors. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
253 |
Etude bioinformatique de l'évolution de la régulation transcriptionnelle chez les bactéries / Bioinformatic study of the evolution of the transcriptional regulation in bacteriaJanky, Rekin's 17 December 2007 (has links)
L'objet de cette thèse de bioinformatique est de mieux comprendre l’ensemble des systèmes de régulation génique chez les bactéries. La disponibilité de centaines de génomes complets chez les bactéries ouvre la voie aux approches de génomique comparative et donc à l’étude de l’évolution des réseaux transcriptionnels bactériens. Dans un premier temps, nous avons implémenté et validé plusieurs méthodes de prédiction d’opérons sur base des génomes bactériens séquencés. Suite à cette étude, nous avons décidé d’utiliser un algorithme qui se base simplement sur un seuil sur la distance intergénique, à savoir la distance en paires de bases entre deux gènes adjacents. Notre évaluation sur base d’opérons annotés chez Escherichia coli et Bacillus subtilis nous permet de définir un seuil optimal de 55pb pour lequel nous obtenons respectivement 78 et 79% de précision. Deuxièmement, l’identification des motifs de régulation transcriptionnelle, tels les sites de liaison des facteurs de transcription, donne des indications de l’organisation de la régulation. Nous avons développé une méthode de recherche d’empreintes phylogénétiques qui consiste à découvrir des paires de mots espacés (dyades) statistiquement sur-représentées en amont de gènes orthologues bactériens. Notre méthode est particulièrement adaptée à la recherche de motifs chez les bactéries puisqu’elle profite d’une part des centaines de génomes bactériens séquencés et d’autre part les facteurs de transcription bactériens présentent des domaines Hélice-Tour-Hélice qui reconnaissent spécifiquement des dyades. Une évaluation systématique sur 368 gènes de E.coli a permis d’évaluer les performances de notre méthode et de tester l’influence de plus de 40 combinaisons de paramètres concernant le niveau taxonomique, l’inférence d’opérons, le filtrage des dyades spécifiques de E.coli, le choix des modèles de fond pour le calcul du score de significativité, et enfin un seuil sur ce score. L’analyse détaillée pour un cas d’étude, l’autorégulation du facteur de transcription LexA, a montré que notre approche permet d’étudier l’évolution des sites d’auto-régulation dans plusieurs branches taxonomiques des bactéries. Nous avons ensuite appliqué la détection d’empreintes phylogénétiques à chaque gène de E.coli, et utilisé les motifs détectés comme significatifs afin de prédire les gènes co-régulés. Au centre de cette dernière stratégie, est définie une matrice de scores de significativité pour chaque mot détecté par gène chez l’organisme de référence. Plusieurs métriques ont été définies pour la comparaison de paires de profils de scores de sorte que des paires de gènes ayant des motifs détectés significativement en commun peuvent être regroupées. Ainsi, l’ensemble des nos méthodes nous permet de reconstruire des réseaux de co-régulation uniquement à partir de séquences génomiques, et nous ouvre la voie à l’étude de l’organisation et de l’évolution de la régulation transcriptionnelle pour des génomes dont on ne connaît rien.<p><p>The purpose of my thesis is to study the evolution of regulation within bacterial genomes by using a cross-genomic comparative approach. Nowadays, numerous genomes have been sequenced facilitating in silico analysis in order to detect groups of functionally related genes and to predict the mechanism of their relative regulation. In this project, we combined prediction of operons and regulons in order to reconstruct the transcriptional regulatory network for a bacterial genome. We have implemented three methods in order to predict operons from a bacterial genome and evaluated them on hundreds of annotated operons of Escherichia coli and Bacillus subtilis. It turns out that a simple distance-based threshold method gives good results with about 80% of accuracy. The principle of this method is to classify pairs of adjacent genes as “within operon” or “transcription unit border”, respectively, by using a threshold on their intergenic distance: two adjacent genes are predicted to be within an operon if their intergenic distance is smaller than 55bp. In the second part of my thesis, I evaluated the performances of a phylogenetic footprinting approach based on the detection of over-represented spaced motifs. This method is particularly suitable for (but not restricted to) Bacteria, since such motifs are typically bound by factors containing a Helix-Turn-Helix domain. We evaluated footprint discovery in 368 E.coli K12 genes with annotated sites, under 40 different combinations of parameters (taxonomical level, background model, organism-specific filtering, operon inference, significance threshold). Motifs are assessed both at the level of correctness and significance. The footprint discovery method proposed here shows excellent results with E. coli and can readily be extended to predict cis-acting regulatory signals and propose testable hypotheses in bacterial genomes for which nothing is known about regulation. Moreover, the predictive power of the strategy, and its capability to track the evolutionary divergence of cis-regulatory motifs was illustrated with the example of LexA auto-regulation, for which our predictions are remarkably consistent with the binding sites characterized in different taxonomical groups. A next challenge was to identify groups of co-regulated genes (regulons), by regrouping genes with similar motifs, in order to address the challenging domain of the evolution of transcriptional regulatory networks. We tested different metrics to detect putative pairs of co-regulated genes. The comparison between predicted and annotated co-regulation networks shows a high positive predictive value, since a good fraction of the predicted associations correspond to annotated co-regulations, and a low sensitivity, which may be due to the consequence of highly connected transcription factors (global regulator). A regulon-per-regulon analysis indeed shows that the sensitivity is very weak for these transcription factors, but can be quite good for specific transcription factors. The originality of this global strategy is to be able to infer a potential network from the sole analysis of genome sequences, and without any prior knowledge about the regulation in the considered organism. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
254 |
Étude de l’assemblage, de la mécanique et de la dynamique des complexes ADN-protéine impliquant le développement d’un modèle « gros grains » / Study assembly, mecanism and dynamic of protein-DNA complexes with coarse-grained modelÉthève, Loic 01 December 2016 (has links)
Les interactions ADN-protéine sont fondamentales dans de nombreux processus biologiques tels que la régulation des gènes et la réparation de l'ADN. Cette thèse est centrée sur l'analyse des propriétés physiques et dynamiques des interfaces ADN-protéine. À partir de l'étude de quatre complexes ADN-protéine, nous avons montré que l'interface ADN-protéine est dynamique et que les ponts salins et liaisons hydrogène se forment et se rompent dans une échelle de temps de l'ordre de la centaine de picosecondes. L'oscillation des chaînes latérales des résidus est dans certains cas capable de moduler la spécificité d'interaction. Nous avons ensuite développé un modèle de protéine gros grains dans le but de décomposer les interactions ADN-protéine en identifiant les facteurs qui modulent la stabilité et la conformation de l'ADN ainsi que les facteurs responsables de la spécificité de reconnaissance ADN-protéine. Notre modèle est adaptable, allant d'un simple volume mimant une protéine à une représentation plus complexe comportant des charges formelles sur les résidus polaires, ou des chaînes latérales à l'échelle atomique dans le cas de résidus clés ayant des comportements particuliers, tels que les cycles aromatiques qui s'intercalent entre les paires de base de l'acide nucléique / DNA-protein interactions are fundamental in many biological processes such as gene regulation and DNA repair. This thesis is focused on an analysis of the physical and dynamic properties of DNA-protein interfaces. In a study of four DNA-protein complexes, we have shown that DNA-protein interfaces are dynamic and that the salt bridges and hydrogen bonds break and reform over a time scale of hundreds of picoseconds. In certain cases, this oscillation of protein side chains is able to modulate interaction specificity. We have also developed a coarse-grain model of proteins in order to deconvolute the nature of protein-DNA interactions, identifying factors that modulate the stability and conformation of DNA and factors responsible for the protein-DNA recognition specificity. The design of our model can be changed from a simple volume mimicking the protein to a more complicated representation by the addition of formal charges on polar residues, or by adding atomic-scale side chains in the case of key residues with more precise behaviors, such as aromatic rings that intercalate between DNA base pairs
|
255 |
Edit distance metrics for measuring dissimilarity between labeled gene treesBriand, Samuel 08 1900 (has links)
Les arbres phylogénétiques sont des instruments de biologie évolutive offrant de formidables moyens d'étude pour la génomique comparative.
Ils fournissent des moyens de représenter des mécanismes permettant de modéliser les relations de parenté entre les espèces ou les membres de familles de gènes en fonction de la diversité taxonomique, ainsi que des observations et des renseignements sur l'histoire évolutive, la structure et la variation des processus biologiques.
Cependant, les méthodes traditionnelles d'inférence phylogénétique ont la réputation d'être sensibles aux erreurs.
Il est donc indispensable de comparer les arbres phylogénétiques et de les analyser pour obtenir la meilleure interprétation des données biologiques qu'ils peuvent fournir.
Nous commençons par aborder les travaux connexes existants pour déduire, comparer et analyser les arbres phylogénétiques, en évaluant leurs bonnes caractéristiques ainsi que leurs défauts, et discuter des pistes d'améliorations futures.
La deuxième partie de cette thèse se concentre sur le développement de mesures efficaces et précises pour analyser et comparer des paires d'arbres génétiques avec des nœuds internes étiquetés. Nous montrons que notre extension de la métrique bien connue de Robinson-Foulds donne lieu à une bonne métrique pour la comparaison d'arbres génétiques étiquetés sous divers modèles évolutifs, et qui peuvent impliquer divers événements évolutifs. / Phylogenetic trees are instruments of evolutionary biology offering great insight for comparative genomics.
They provide mechanisms to model the kinship relations between species or members of gene families as a function of taxonomic diversity. They also provide evidence and insights into the evolutionary history, structure, and variation of biological processes.
However, traditional phylogenetic inference methods have the reputation to be prone to errors.
Therefore, comparing and analysing phylogenetic trees is indispensable for obtaining the best interpretation of the biological information they can provide.
We start by assessing existing related work to infer, compare, and analyse phylogenetic trees, evaluating their advantageous traits and flaws, and discussing avenues for future improvements.
The second part of this thesis focuses on the development of efficient and accurate metrics to analyse and compare pairs of gene trees with labeled internal nodes. We show that our attempt in extending the popular Robinson-Foulds metric is useful for the preliminary analysis and comparison of labeled gene trees under various evolutionary models that may involve various evolutionary events.
|
256 |
Les défis du séquençage à haut débit dans l'exploration génétique des cancers du sein et de l'ovaire. / Challenges of Next Generation Sequencing in the exploration of genetic predispositions to breast and/or ovarian cancersMuller, Etienne 12 December 2017 (has links)
Les cancers du sein et de l’ovaire apparaissent dans 5 à 10% dans un contexte de prédisposition génétique, dont seule une faible part est expliquée par la présence d’un variant pathogène sur les gènes BRCA1, BRCA2 et PALB2. Le séquençage à haut-débit permet d’explorer cette hérédité manquante, mais représente un nouveau défi à la fois informatique, statistique et biologique. Trois approches utilisant cette nouvelle technologie ont été employées pour rechercher de nouveaux facteurs de prédisposition. En premier lieu, les risques associés à 34 gènes connus ou suspectés d’être impliqués dans les prédispositions ont été estimés à partir de l’analyse de 5 131 cas index et le développement d’une nouvelle approche statistique. Aussi la participation des néo-mutations en mosaïque dans le syndrome a été explorée à partir de 1 750 cas index issus de l’étude précédente, avec un logiciel de détection des variants faiblement représentés développé spécifiquement: outLyzer. Enfin, l’exploration par séquençage de l’hérédité manquante a été étendue à un panel de 201 gènes impliqués dans le cancer, à partir de 118 patientes sélectionnées pour la précocité d’apparition de leur maladie, élément fortement évocateur d’un facteur de prédisposition. Les résultats de ces travaux ont permis de valider la pertinence de l’étude de PALB2, RAD51C et RAD51D pour la prise en charge des patients, et suggèrent aussi une implication sous-estimée des variants en mosaïque. Cependant il reste encore très probablement d’autres facteurs génétiques fortement pénétrants à découvrir mais dont la modulation du risque répond à un modèle oligogénique. / Breast and ovarian cancers appear in 5 to 10% of cases in a context of genetic predisposition, of which only a small proportion is explained by the presence of a pathogenic variant on the BRCA1, BRCA2 and PALB2 genes. High throughput sequencing can explore this missing heredity, but represents a new challenge both in computing, statistics and biology. Three approaches using this new technology have been used to investigate new predisposition factors. First, the risks associated with 34 known or suspected genes involved in predispositions were estimated from the analysis of 5,131 index cases and the development of a new statistical approach. Also, the participation of mosaic neo-mutations in the syndrome was explored from 1,750 index cases from the previous study, with a software developed specifically for detecting poorly represented variants: outLyzer. Finally, the exploration by sequencing of the missing heredity was extended to a panel of 201 genes involved in cancer, from 118 patients selected for the early onset of their disease, a highly suggestive element of a predisposition factor. The results of this work validated the relevance of the PALB2, RAD51C and RAD51D study for patient management, and also suggested an underestimated involvement of mosaic variants. However, there are still very likely other highly penetrating genetic factors to be discovered, but whose risk modulation is based on an oligogenic model.
|
257 |
An analysis of translation heterogeneity in ribosome profiling datado Couto Bordignon, Pedro 12 1900 (has links)
Les protéines sont responsables de pratiquement toutes les fonctions performées au sein du corps cellulaire et de ses alentours. Le contrôle de l’expression génique détermine l’abondance, la localisation et le moment de la production de protéines dans la cellule. Il s’agit de l’un des processus centraux à la régulation de la physiologie et du fonctionnement cellulaire. La moindre perte de balance dans ce complexe système engendre des conséquences majeures sur l’intégrité cellulaire, menant au développement de plusieurs maladies parfois incurables. La traduction de l’ARN messager en produit protéique constitue la dernière étape de l’expression génique. Elle est régulée de plusieurs façons, intrinsèques et extrinsèques à la séquence. Il s’agit également du processus cellulaire le plus coûteux en termes d’énergie. Le profilage des ribosomes (Ribo-Seq) figure parmi les récentes et prometteuses technologies ayant permis une meilleure étude des mécanismes de régulation de la traduction. Ces résultats contiennent toutefois la présence de variabilité et de bruits de nature infondée. Ce travail présente la mise en place d’une stratégie permettant la dissociation de signaux d’origine biologique de ceux ayant une origine technique. Ceci est effectué au travers de la mise en place de profiles consensus de densité ribosomale extrait d’une analyse comparative de plusieurs expériences de Ribo-Seq chez la levure (Saccharomyces cerevisiae). Les signaux biologiques dérivés par les profils consensus correspondent avec les signatures de pauses ribosomales connues, telles que les scores de repliements de l’ARNm et la charge des acides aminés. Épatamment, notre stratégie a également permis l’identification de séquences différentiellement transcrites (DT). Ces dernières jouent un rôle sur la cinétique de la phase d’élongation de la traduction, elles comportent notamment une surreprésentation de codons associés aux modifications des ARNs de transfert (tRNAs). Elles se retrouvent d’ailleurs impliquées dans le maintien de l’homéostase cellulaire, ayant une présence marquée chez des gènes prenants part aux mécanismes de biosynthèse de la macromolécule ribosomale ainsi que chez les ARNms aux sublocalisations cellulaires précises, notamment chez les mitochondries et le réticulum endoplasmique (ER). En plus de démontrer les possibilités de découvertes offertes par la technique du Ribo-Seq, cette étude présente une évidence de la nature dynamique et hétérogène du processus de traduction chez la cellule eucaryote. Elle démontre également le rôle de l’information directement encodée dans la séquence dans l’optimisation générale de l’homéostasie cellulaire. / Proteins are responsible for virtually all functions performed within and in the surroundings of a cell. The control of gene expression, which determines the amount, localisation and timing of protein production in the cell, is the central processes in the regulation of cellular physiology and function. Any disturbance in this complex system can generate important consequences on cellular integrity, sometimes leading to incurable diseases. The translation of messenger RNA into a protein product is the last step of the gene expression mechanism. It can be regulated in manifold ways, both intrinsically and extrinsically to the transcript sequence. It is also the costliest cellular process in terms of energy. Ribosome profiling (Ribo-Seq) is one of the recent and promising technologies making it possible to better study the mechanisms of translation regulation. Its results have however been shown to display variability in reproducibility and to contain noise of uncharted sources. This work presents the implementation of a strategy for dissociating signals of biological origin from those of technical origin. This is performed by the computation of a consensus profile of ribosomal density derived from a comparative analysis of several Ribo-Seq experiments in yeast (Saccharomyces cerevisiae). The biological signals derived by the consensus profiles correspond with signatures of known ribosomal pauses, such as mRNA folding strength and amino acid charges. Amazingly, our strategy also enabled the identification of differentially transcribed (DT) sequences. The latter have shown an over-representation of codons associated with modifications of transfer RNAs (tRNAs). They are also involved in the control of cellular homeostasis, exhibiting a marked presence in genes involved in ribosome biosynthesis as well as in mRNAs with precise translation sub-localization, particularly in mitochondria and the endoplasmic reticulum (ER). In addition to demonstrating the possibilities of discovery offered by the Ribo-Seq technique, this study also presents evidence of the dynamic and heterogeneous nature of the translation process in the eukaryotic cell. It also showcases its diverse regulatory mechanisms and the role of information directly encoded in the sequence in the general optimization of cellular homeostasis.
|
258 |
Modélisation des biais mutationnels et rôle de la sélection sur l’usage des codonsLaurin-Lemay, Simon 10 1900 (has links)
L’acquisition de données génomiques ne cesse de croître, ainsi que l’appétit pour les interpréter. Mais déterminer les processus qui ont façonné l’évolution des séquences codantes (et leur importance relative) est un défi scientifique passant par le développement de modèles statistiques de l’évolution prenant en compte de plus en plus d’hétérogénéités au niveau des processus mutationnels et de sélection.
Identifier la sélection est une tâche qui nécessite typiquement de détecter un écart entre deux modèles : un modèle nulle ne permettant pas de régime évolutif adaptatif et un modèle alternatif qui lui en permet. Lorsqu’un test entre ces deux modèles rejette le modèle nulle, on considère avoir détecter la présence d’évolution adaptative. La tâche est d’autant plus difficile que le signal est faible et confondu avec diverses hétérogénéités négligées par les modèles.
La détection de la sélection sur l’usage des codons spécifiquement est controversée, particulièrement chez les Vertébrés. Plusieurs raisons peuvent expliquer cette controverse : (1) il y a un biais sociologique à voir la sélection comme moteur principal de l’évolution, à un tel point que les hétérogénéités relatives aux processus de mutation sont historiquement négligées ; (2) selon les principes de la génétique des populations, la petite taille efficace des populations des Vertébrés limite le pouvoir de la sélection sur les mutations synonymes conférant elles-mêmes un avantage minime ; (3) par contre, la sélection sur l’usage des codons pourrait être très localisée le long des séquences codantes, à des sites précis, relevant de contraintes de sélection relatives à des motifs utilisés par la machinerie d’épissage, par exemple.
Les modèles phylogénétiques de type mutation-sélection sont les outils de prédilection pour aborder ces questions, puisqu’ils modélisent explicitement les processus mutationnels ainsi que les contraintes de sélection. Toutes les hétérogénéités négligées par les modèles mutation-sélection de Yang and Nielsen [2008] peuvent engendrer de faux positifs allant de 20% (préférence site-spécifique en acides aminés) à 100% (hypermutabilité des transitions en contexte CpG) [Laurin-Lemay et al., 2018b]. En particulier, l’hypermutabilité des transitions du contexte CpG peut à elle seule expliquer la sélection détectée par Yang and Nielsen [2008] sur l’usage des codons.
Mais, modéliser des phénomènes qui prennent en compte des interdépendances dans les données (par exemple l’hypermutabilité du contexte CpG) augmente de beaucoup la complexité des fonctions de vraisemblance. D’autre part, aujourd’hui le niveau de sophistication des modèles fait en sorte que des vecteurs de paramètres de haute dimensionnalité sont nécessaires pour modéliser l’hétérogénéité des processus étudiés, dans notre cas de contraintes de sélection sur la protéine.
Le calcul bayésien approché (Approximate Bayesian Computation ou ABC) permet de contourner le calcul de la vraisemblance. Cette approche diffère de l’échantillonnage par Monte Carlo par chaîne de Markov (MCMC) communément utilisé pour faire l’approximation de la distribution a posteriori. Nous avons exploré l’idée de combiner ces approches pour une problématique spécifique impliquant des paramètres de haute dimensionnalité et de nouveaux paramètres prenant en compte des dépendances entre sites. Dans certaines conditions, lorsque les paramètres de haute dimensionnalité sont faiblement corrélés aux nouveaux paramètres d’intérêt, il est possible d’inférer ces mêmes paramètres de haute dimensionnalité avec la méthode MCMC, et puis les paramètres d’intérêt au moyen de l’ABC. Cette nouvelle approche se nomme CABC [Laurin-Lemay et al., 2018a], pour calcul bayésien approché conditionnel (Conditional Approximate Bayesian Computation : CABC).
Nous avons pu vérifier l’efficacité de la méthode CABC en étudiant un cas d’école, soit celui de l’hypermutabilité des transitions en contexte CpG chez les Eutheria [Laurin-Lemay et al., 2018a]. Nous trouvons que 100% des 137 gènes testés possèdent une hypermutabilité des transitions significative. Nous avons aussi montré que les modèles incorporant l’hypermutabilité des transitions en contexte CpG prédisent un usage des codons plus proche de celui des gènes étudiés. Ceci suggère qu’une partie importante de l’usage des codons peut être expliquée à elle seule par les processus mutationnels et non pas par la sélection.
Finalement nous explorons plusieurs pistes de recherche suivant nos développements méthodologiques : l’application de la détection de l’hypermutabilité des transitions en contexte CpG à l’échelle des Vertébrés ; l’expansion du modèle pour reconnaître des contextes autres que seul le CpG (e.g., hypermutabilité des transitions et transversions en contexte CpG et TpA) ; ainsi que des perspectives méthodologiques d’amélioration de la performance du CABC. / The acquisition of genomic data continues to grow, as does the appetite to interpret them. But determining the processes that shaped the evolution of coding sequences (and their relative importance) is a scientific challenge that requires the development of statistical models of evolution that increasingly take into account heterogeneities in mutation and selection processes.
Identifying selection is a task that typically requires comparing two models: a null model that does not allow for an adaptive evolutionary regime and an alternative model that allows it. When a test between these two models rejects the null, we consider to have detected the presence of adaptive evolution. The task is all the more difficult as the signal is weak and confounded with various heterogeneities neglected by the models.
The detection of selection on codon usage is controversial, particularly in Vertebrates. There are several reasons for this controversy: (1) there is a sociological bias in seeing selection as the main driver of evolution, to such an extent that heterogeneities relating to mutation processes are historically neglected; (2) according to the principles of population genetics, the small effective size of vertebrate populations limits the power of selection over synonymous mutations conferring a minimal advantage; (3) On the other hand, selection on the use of codons could be very localized along the coding sequences, at specific sites, subject to selective constraints related to DNA patterns used by the splicing machinery, for example.
Phylogenetic mutation-selection models are the preferred tools to address these issues, as they explicitly model mutation processes and selective constraints. All the heterogeneities neglected by the mutation-selection models of Yang and Nielsen [2008] can generate false positives, ranging from 20% (site-specific amino acid preference) to 100% (hypermutability of transitions in CpG context)[Laurin-Lemay et al., 2018b]. In particular, the hypermutability of transitions in the CpG context alone can explain the selection on codon usage detected by Yang and Nielsen [2008].
However, modelling phenomena that take into account data interdependencies (e.g., hypermutability of the CpG context) greatly increases the complexity of the likelihood function. On the other hand, today’s sophisticated models require high-dimensional parameter vectors to model the heterogeneity of the processes studied, in our case selective constraints on the protein.
Approximate Bayesian Computation (ABC) is used to bypass the calculation of the likelihood function. This approach differs from the Markov Chain Monte Carlo (MCMC) sampling commonly used to approximate the posterior distribution. We explored the idea of combining these approaches for a specific problem involving high-dimensional parameters and new parameters taking into account dependencies between sites. Under certain conditions, when the high dimensionality parameters are weakly correlated to the new parameters of interest, it is possible to infer the high dimensionality parameters with the MCMC method, and then the parameters of interest using the ABC. This new approach is called Conditional Approximate Bayesian Computation (CABC) [Laurin-Lemay et al., 2018a]. We were able to verify the effectiveness of the CABC method in a case study, namely the hypermutability of transitions in the CpG context within Eutheria [Laurin-Lemay et al.,2018a]. We find that 100% of the 137 genes tested have significant hypermutability of transitions. We have also shown that models incorporating hypermutability of transitions in CpG contexts predict a codon usage closer to that of the genes studied. This suggests that a significant part of codon usage can be explained by mutational processes alone.
Finally, we explore several avenues of research emanating from our methodological developments: the application of hypermutability detection of transitions in CpG contexts to the Vertebrate scale; the expansion of the model to recognize contexts other than only CpG (e.g., hypermutability of transitions and transversions in CpG and TpA context); and methodological perspectives to improve the performance of the CABC approach.
|
259 |
Le cœur métabolique : la métabolomique afin de mieux caractériser l’infarctus du myocardeSamman, Karla N. 12 1900 (has links)
Dans les syndromes coronariens aigus, le ticagrelor améliore la survie comparativement au clopidogrel. Les effets pléiotropiques de ce médicament ne sont pas entièrement compris. La métabolomique non ciblée, couplée avec des analyses computationnelles, a le potentiel d’élucider les changements pathophysiologiques du métabolisme cellulaire associés aux différentes maladies et aux traitements.
L’objectif de cette étude est de dévoiler une signature métabolomique discriminante entre le clopidogrel et le ticagrelor dans le traitement de l’infarctus du myocarde avec élévation du segment ST (STEMI).
La population de l’étude est formée de 175 participants de l’essai PLATO avec STEMI ayant subi une intervention percutanée (PCI), randomisés à recevoir le clopidogrel (n=88) ou le ticagrelor (n=87), appariés pour l’âge, le sexe, le statut de dyslipidémie et de diabète. Un profil métabolomique plasmatique non ciblé, obtenu par spectrométrie de masse (MS), est effectué pour chaque individu à l’état de base (BL; maladie aiguë) et au congé de l’hôpital après en moyenne 4 jours d’hospitalisation (DC; état post-traitement). L’étude des données a été effectuée par une analyse de quantification différentielle, une analyse de la variance, la construction d'un réseau de co-modulation et des techniques d'apprentissage automatique.
Huit (8) métabolites étaient modulés de façon différentielle entre les deux groupes de traitement au congé, dont six (6) appartenant aux voies de biosynthèse des acides gras polyinsaturés omega-3 (n3) et omega-6 (n6). Les participants traités avec ticagrelor présentent des niveaux plasmatiques significativement plus élevés des acides gras suivants : α et de γ-linolénate (n3 and n6), dihomo-linolénate (n6), stéaridonate (n3), docosahexaenoate (DHA; n3), eicosapentaenoate (EPA; n3) et arachidonate (AA; n6).
Chez les patients avec STEMI traités par PCI, des analyses de métabolomique non ciblées révèlent que les métabolites impliqués dans la biosynthèse des omega-3 et des omega-6 sont significativement plus élevé au congé dans le groupe traité par le ticagrelor, comparativement au clopidogrel, suggérant que le remodelage du réseau métabolique après un infarctus du myocarde pourrait interagir avec la réponse aux antiplaquettaires. / Background:
In acute coronary syndromes, ticagrelor improved survival compared to clopidogrel. Pleiotropic effects of this drug are not entirely elucidated. Untargeted metabolomics coupled with computational analyses has the potential to help understanding pathophysiological changes of cellular metabolism associated with different disease states and therapies.
Objectives:
The purpose of this study is to unveil a discriminant metabolomics signature comparing ST-elevation myocardial infarction (STEMI) patients treated with clopidogrel and ticagrelor.
Methods:
The study population consists of 175 participants with STEMI from the PLATO Trial who underwent percutaneous coronary intervention (PCI), randomized to receive clopidogrel (n=88) or ticagrelor (n=87), matched for age, sex, dyslipidemia and diabetes status. Untargeted mass spectrometry (MS)-based metabolomics profiling in plasma was performed at baseline (BL; acute disease state) and repeated at hospital discharge after an average of 4 days of hospitalization (DC; post-treatment state), for each individual. Data analysis was done through differential quantification analysis, analysis of variance, co-modulation network construction and machine learning techniques.
Results:
Eight (8) metabolites were differentially modulated by treatment between groups at DC, six (6) of which belong to the polyunsaturated fatty acids omega-3 (n3) and omega-6 (n6) biosynthesis pathways. Participants treated with ticagrelor harbor a significantly higher plasmatic level of α and γ linolenate (n3 and n6), dihomo-linolenate (n6), stearidonate (n3), docosahexaenoate (DHA; n3), eicosapentaenoate (EPA; n3) and arachidonate (AA; n6).
Conclusion:
In patients with STEMI undergoing PCI, untargeted metabolomics reveals that metabolites involved in omega-3 and omega-6 biosynthesis are significantly higher at discharge in the ticagrelor treatment group when compared to clopidogrel, suggesting that the remodeling of the metabolic network after myocardial infarction may interact with the response to antiplatelet drugs.
|
260 |
Cellular basis of flower and leaf primordium initiation in Arabidopsis thaliana : how to make an organ in three dimensionsEchevin, Eglantine Emilie Denise 10 1900 (has links)
Le développement d’un organisme multicellulaire requière la coordination de la croissance, détermination tissulaire et différenciation cellulaire. Cependant, alors que les bases de la génétique de la morphogenèse ont été rigoureusement étudiées, le processus permettant la conversion de l’activité génétique en des structures biologiques complexes est bien moins compris. Chez Arabidopsis thaliana, les feuilles et fleurs initiés à partir du Méristème Apical Primaire (MAP) ont une expression génétique casi similaire. Toutefois, leur forme est considérablement différente dès les premières étapes de leur développement. Une compréhension de ce paradoxe requière avant tout de précisément quantifier la croissance dans toutes les dimensions de ces organes. Dans cet article, je présente une méthode de quantification spatio-temporelle complète de la croissance et de la prolifération des feuilles et des fleurs chez A. thaliana. En analysant des séries d’images confocales, j’en ai conclu que la différence morphologique observée entre feuilles et fleurs émerge principalement d’une asymétrie de la distribution de la croissance entre leurs côtés abaxial et adaxial, tôt dans leur développement. Je montre que le tissue contribuant principalement au développement des primordia est la couche 2 (L2) chez les feuilles et la couche 3 (L3) chez les fleurs. Mes résultats préliminaires démontrent que les premiers signes de l’initiation d’organes est un changement de distribution de la croissance, et non de la prolifération. Dans le futur, en appliquant, par exemple, cette méthodologie à l’étude de gènes de développement, il sera possible de finalement réconcilier la morphogenèse et la génétique de l’initiation des plantes. / The development of a multicellular organism requires the proper coordination of growth, pattern determination and cell differentiation. Still, while the genetic basis of morphogenesis has been extensively studied, the process converting gene activity into intricate biological shapes is less understood. In Arabidopsis thaliana, flowers and leaves, both initiated from the shoot apical meristem (SAM), have a very similar genetic expression profile. Yet, their shape differs considerably from early developmental stages. A full comprehension of this paradox requires an accurate quantification of cellular growth in those organs. In this paper, I am presenting a methodology for the complete spatio-temporal quantitative analysis of growth and proliferation of initiating leaves and flowers in wild type Arabidopsis thaliana. By analyzing time series of leaf and flower confocal images, I conclude that the morphological differences observed between flowers and leaves mainly arises from asymmetrical distributions of growth between their adaxial and abaxial sides during their initiation. I show that the tissue that mainly contributes to the development of early primordium is the layer 2 (L2) in leaves, and the layer 3 (L3) in flowers. My preliminary results also demonstrate that the first signs of organ initiation are a change in growth distribution, not cell proliferation. In the future, by applying this methodology, for example, to study morphogen reporter lines, it could finally bridge the gap between the morphogenesis and the genetics of plant initiation.
|
Page generated in 0.1139 seconds