Global ETD Search

1	Analysis of optimal differential gene expression Liebermeister, Wolfram 30 March 2004 (has links) Diese Doktorarbeit behandelt die Beobachtung, daß Koregulationsmuster in Genexpressionsdaten häufig Funktionsstrukturen der Zelle widerspiegeln. Zunächst werden simulierte Genexpressionsdaten und Expressionsdaten aus Hefeexperimenten mit Hilfe von Independent Component Analysis (ICA) und verwandten Faktormodellen untersucht. In einem eher theoretischen Zugang werden anschließend Beziehungen zwischen den Expressionsmustern und der biologischen Funktion der Gene aus einem Optimalitätsprinzip hergeleitet. Lineare Faktormodelle, beispielsweise ICA, zerlegen Genexpressionsmatrizen in statistische Komponenten: die Koeffizienten bezüglich der Komponenten können als Profile von verborgenen Variablen ("Expressionsmoden") interpretiert werden, deren Werte zwischen den Proben variieren. Im Gegensatz zu Clustermethoden beschreiben solche Faktormodelle eine überlagerung biologischer Effekte und die individuellen Reaktionen der einzelnen Gene: jedes Genprofil besteht aus einer überlagerung der Expressionsmoden, die so die gemeinsamen Schwankungen vieler Gene erklären. Die linearen Komponenten werden blind, also ohne zusätzliches biologisches Wissen, aus den Daten geschätzt, und die meisten der hier betrachteten Methoden erlauben es, nahezu schwach besetzte Komponenten zu rekonstruieren. Beim Ausdünnen einer Komponente werden Gene sichtbar, die stark auf die entsprechende Mode reagieren, ganz in Analogie zu Genen, die differentielle Expression zwischen einzelnen Proben zeigen. Verschiedene Faktormodelle werden in dieser Arbeit auf simulierte und experimentelle Expressionsdaten angewendet. Bei der Simulation von Expressionsdaten wird angenommen, daß die Genexpression von einigen unbeobachteten Variablen ("biologischen Expressionsmoden") abhängt, die den Zellzustand beschreiben und deren Einfluss auf die Gene sich durch nichtlineare Funktionen, die sogenannten Genprogramme, beschreiben läßt. Besteht Hoffnung, solche Expressionsmoden durch blinde Datenanalyse wiederzufinden? Die Tests in dieser Arbeit zeigen, daß die Moden mit ICA recht zuverlässig gefunden werden, selbst wenn die Daten verrauscht oder leicht nichtlinear sind und die Anzahl der wahren und der geschätzten Komponenten nicht übereinstimmt. Regressionsmodelle werden an Profile einzelner Gene angepasst, um ihre Expression durch Expressionsmoden aus Faktormodellen oder durch die Expression einzelner Transkriptionsfaktoren zu erklären. Nichtlineare Genprogramme werden mit Hilfe von nichtlinearer ICA ermittelt: solche effektiven Genprogramme könnten zur Beschreibung von Genexpression in großen Zellmodellen Verwendung finden. ICA und verwandte Methoden werden auf Expressionsdaten aus Zellzyklusexperimenten angewendet: neben biologisch interpretierbaren Moden werden experimentelle Artefakte identifiziert, die vermutlich Hybridisierungseffekte oder eine Verunreinigung der Proben widerspiegeln. Für einzelne Komponenten wird gezeigt, daß die koregulierten Gene gemeinsame biologische Funktionen besitzen und daß die entsprechenden Enzyme bevorzugt in bestimmten Bereichen des Stoffwechselnetzes zu finden sind. Die Expressionmechanismen scheinen also - als Ergebnis der Evolution - Funktionsbeziehungen zwischen den Genen widerzuspiegeln: es wäre unter ökonomischen Gesichtspunkten vermutlich ineffizient, wenn kooperierende Gene nicht auch koreguliert würden. Um diese teleologische Vorstellung von Genexpression zu formalisieren, wird in dieser Arbeit ein mathematisches Modell zur Analyse der optimalen differentiellen Expression (ANODE) vorgeschlagen: das Modell beschreibt Regulatoren, also beispielsweise Gene oder Enzyme, und die von ihnen gesteuerten Variablen, zum Beispiel metabolische Flüsse. Das Systemverhalten wird durch eine Fitnessfunktion bewertet, die beispielsweise vom bestimmten Stoffwechselflüssen abhängt und die es zu optimieren gilt. Dieses Optimalitätsprinzip definiert eine optimale Reaktion der Regulatoren auf kleine äußeren Störungen. Zur Berechnung optimaler Regulationsmuster braucht das zu regulierende System nur teilweise bekannt zu sein: es genügt, sein mögliches Verhalten in der Nähe des optimalen Zustandes sowie die lokale Form der Fitnesslandschaft zu kennen. Die Methode wird auf zeitabhängige Störungen erweitert: um die Antwort von Stoffwechselsystemen auf kleine oszillatorische Störungen zu beschreiben, werden frequenzabhängige Kontrollkoeffizienten definiert und durch Summations- und Konnektivitätstheoreme charakterisiert. Um die vorhergesagte Beziehung zwischen Expression und Funktion zu prüfen, werden Kontrollkoeffizienten für ein großes Stoffwechselnetz simuliert, und ihre statistischen Eigenschaften werden untersucht: die Struktur der Kontrollkoeffizientenmatrix bildet die Netztopologie ab, das bedeutet, chemische Reaktionen haben gewöhnlich einen geringen Einfluss auf weit entfernte Teile des Netzes. Außerdem hängen die Kontrollkoeffizienten innerhalb eines Teilnetzes nur schwach von der Modellierung des umgebenden Netzes ab. Verschiedene plausible Annahmen über sinnvolle Expressionsmuster lassen sich formal aus dem Optimalitätsprinzip herleiten: das Hauptergebnis ist eine allgemeine Beziehung zwischen dem Verhalten und der biologischen Funktion von Regulatoren, aus der sich zum Beispiel die Koregulation von Enzymen in Komplexen oder Funktionsmodulen ergibt. Die Funktionen der Gene werden in diesem Zusammenhang durch ihre linearen Einflüsse (die sogenannten Responsekoeffizienten) auf fitnessrelevante Zellvariable beschrieben. Für Stoffwechselenzyme werden aus den Theoremen der metabolischen Kontrolltheorie Summenregeln hergeleitet, die die Expressionsmuster mit der Struktur des Stoffwechselnetzes verknüpfen. Weitere Vorhersagen betreffen eine symmetrische Kompensation von Gendeletionen und eine Beziehung zwischen Genexpression und dem Fitnessverlust aufgrund von Deletionen. Wenn die optimale Steuerung durch eine Rückkopplung zwischen Zellvariablen und den Regulatoren verwirklicht ist, dann spiegeln sich funktionale Beziehungen auch in den Rückkopplungskoeffizienten wider. Daher ist zu erwarten, daß Gene mit ähnlicher Funktion durch Eingangssignale aus denselben Signalwegen gesteuert werden. Das Modell der optimalen Steuerung sagt voraus, daß Expressionsprofile aus Linearkombinationen von Responsekoeffizientenprofilen bestehen: Tests mit experimentellen Expressionsdaten und simulierten Kontrollkoeffizienten stützen diese Hypothese, und die gemeinsamen Komponenten, die aus diesen beiden Arten von Daten geschätzt werden, liefern ein anschauliches Bild der Stochwechselvorgänge, die zur Anpassung an unterschiedliche Umgebungen notwendig sind. Alles in allem werden in dieser Arbeit empirische Beziehungen zwischen der Expression and der Funktion von Genen bestätigt. Darüber hinaus werden solche Beziehungen aus theorischen Gründen vorhergesagt. Ein Hauptziel ist es, teleologische Aussagen über Genexpression auf explizite Annahmen zurückzuführen und dadurch klarer zu formulieren, und so einen theoretischen Rahmen für die Integration von Expressionsdaten und Funktionsannotationen zu liefern. Während andere Autoren die Expression mit Funktionskategorien der Gene oder topologisch definierten Stoffwechselwegen verglichen haben, schlage ich vor, die Funktionen von Genen durch ihre Responsekoeffizienten auszudrücken. Als ein Hauptergebnis dieser Arbeit werden allgemeine Beziehungen zwischen der Funktion, der optimalen Expression und dem Programm eines Gens vorhergesagt. Soweit die Optimalitätsannahme gilt, rechtfertigt das Modell die Verwendung von Expressionsdaten zur Funktionsannotation und zur Rekonstruktion von Stoffwechselwegen und liefert außerdem eine funktionsbezogene Interpretation für die linearen Komponenten in Expressionsdaten. Die Methoden aus dieser Arbeit sind nicht auf Genexpressionsdaten beschränkt: die Faktormodelle lassen sich auch auf Protein- und Metabolitdaten anwenden, und das Optimalitätsprinzip könnte ebenfalls auf andere Steuerungsmechanismen angewendet werden, beispielsweise auf die allosterische Steuerung von Enzymen. / This thesis is concerned with the observation that coregulation patterns in gene expression data often reflect functional structures of the cell. First, simulated gene expression data and expression data from yeast experiments are studied with independent component analysis (ICA) and with related factor models. Then, in a more theoretical approach, relations between gene expression patterns and the biological function of the genes are derived from an optimality principle. Linear factor models such as ICA decompose gene expression matrices into statistical components. The coefficients with respect to the components can be interpreted as profiles of hidden variables (called "expression modes") that assume different values in the different samples. In contrast to clusterings, such factor models account for a superposition of effects and for individual responses of the different genes: each gene profile consists of a superposition of the expression modes, which thereby account for the common variation of many genes. The components are estimated blindly from the data, that is, without further biological knowledge, and most of the methods considered here can reconstruct almost sparse components. Thresholding a component reveals genes that respond strongly to the corresponding mode, in comparison to genes showing differential expression among individual samples. In this work, different factor models are applied to simulated and experimental expression data. To simulate expression data, it is assumed that gene expression depends on several unobserved variables ("biological expression modes") which characterise the cell state and that the genes respond to them according to nonlinear functions called "gene programs". Is there a chance to reconstruct such expression modes with a blind data analysis? The tests in this work show that the modes can be found with ICA even if the data are noisy or weakly nonlinear, or if the numbers of true and estimated components do not match. Regression models are fitted to the profiles of single genes to explain their expression by expression modes from factor models or by the expression of single transcription factors. Nonlinear gene programs are estimated by nonlinear ICA: such effective gene programs may be used for describing gene expression in large cell models. ICA and similar methods are applied to expression data from cell-cycle experiments: besides biologically interpretable modes, experimental artefacts, probably caused by hybridisation effects and contamination of the samples, are identified. It is shown for single components that the coregulated genes share biological functions and the corresponding enzymes are concentrated in particular regions of the metabolic network. Thus the expression machinery seems to portray - as an outcome of evolution - functional relationships between the genes: regarding the economy of resources, it would probably be inefficient if cooperating genes were not coregulated. To formalise this teleological view on gene expression, a mathematical model for the analysis of optimal differential expression (ANODE) is proposed in this work: the model describes regulators, such as genes or enzymes, and output variables, such as metabolic fluxes. The system´s behaviour is evaluated by a fitness function, which, for instance, rates some of the metabolic fluxes in the cell and which is supposed to be optimised. This optimality principle defines an optimal response of regulators to small external perturbations. For calculating the optimal regulation patterns, the system to be controlled needs to be known only partially: it suffices to predefine its possible behaviour around the optimal state and the local shape of the fitness function. The method is extended to time-dependent perturbations: to describe the response of metabolic systems to small oscillatory perturbations, frequency-dependent control coefficients are defined and characterised by summation and connectivity theorems. For testing the predicted relation between expression and function, control coefficients are simulated for a large-scale metabolic network and their statistical properties are studied: the structure of the control coefficients matrix portrays the network topology, that is, chemical reactions tend to have little control on distant parts of the network. Furthermore, control coefficients within subnetworks depend only weakly on the modelling of the surrounding network. Several plausible assumptions about appropriate expression patterns can be formally derived from the optimality principle: the main result is a general relation between the behaviour of regulators and their biological functions, which implies, for example, the coregulation of enzymes acting in complexes or functional modules. In this context, the functions of genes are quantified by their linear influences (called ``response coefficients'') on fitness-relevant cell variables. For enzymes controlling metabolism, the theorems of metabolic control theory lead to sum rules that relate the expression patterns to the structure of the metabolic network. Further predictions concern a symmetric compensation for gene deletions and a relation between gene expression and the fitness loss caused by gene deletions. If optimal regulation is realised by feedback signals between the cell variables and the regulators, then functional relations are also portrayed in the linear feedback coefficients, so genes of similar function may be expected to share inputs from the same signalling cascades. According to the model of optimal regulation, expression profiles are linear combinations of response coefficient profiles: tests with experimental expression profiles and simulated control coefficients support this hypothesis, and the common components which are estimated from both kinds of data provide a vivid picture of the metabolic adaptations that are required in different environments. To summarise, empirical relations between gene expression and function have been confirmed in this work. Furthermore, such relations have been predicted on theoretical grounds. A main aim is to clarify teleological assertions about gene expression by deriving them from explicit assumptions, and thus to provide a theoretical framework for the integration of expression data and functional annotations. While other authors have compared expression to functional gene categories or topologically defined metabolic pathways, I propose to relate it to the response coefficients. A main result of this work is that general relations are predicted between a gene's function, its optimal expression behaviour, and its regulatory program. Where the assumption of optimality is valid, the model justifies the use of expression data for functional annotation and pathway reconstruction, and it provides a function-related interpretation for the linear components behind expression data. The methods from this work are not limited to gene expression data: the factor models are applicable to protein and metabolite data as well, and the optimality principle may also apply to other regulatory mechanisms, such as the allosteric control of enzymes. Differentielle Expression Optimale Steuerung Metabolische Kontrolltheorie Genfunktion Differential expression optimal control metabolic control theory gene function 570 Biologie 32 Biologie WG 1750 ddc:570
2	A complex interplay of regulatory domains controls cell cycle dependent subnuclear localization of DNMT1 and is required for the maintenance of epigenetic information Easwaran, Hariharan P. 20 April 2004 (has links) DNA-Methylierung spielt eine wichtige Rolle bei der Kontrolle der Chromatinorganisation und Genregulation in höheren Eukaryoten und muss zusammen mit der genetischen Information in jedem Zellzyklus dupliziert werden. Bei Mammalia wird DNA durch die DNA-Methyltransferase 1 (DNMT1) methyliert, die dabei mit nuklearen Replikationsstellen (RF) assoziiert und so die Erhaltung des Methylierungsmusters mit der Duplikation der DNA verbindet. In dieser Arbeit wurden die Funktion der regulatorischen Sequenzen in der N-terminalen Domäne von DNMT1 bei der Kontrolle ihrer subnuklearen Lokalisierung während des Zellzyklus und die evolutionäre Konservierung dieser Sequenzen, sowie die Mechanismen die eine Assoziation von Proteinen mit RF vermitteln, untersucht. Es konnte gezeigt werden, dass DNMT1 eine dynamische Verteilung im Kern aufweist, die durch regulatorische Sequenzen zellzyklusabhängig gesteuert wird. Um die subnukleare Verteilung von DNMT1 während des Zellzyklus zu untersuchen, wurden RFP-Ligase Fusionsproteine hergestellt, die als Marker für die Identifikation von Zellzyklusstadien in lebenden Zellen dienen. Verschiedene, mit GFP fusionierte DNMT1 Mutanten wurden zusammen mit RFP-Ligase exprimiert und über einen ganzen Zellzyklus hinweg mit 4-dimensionaler Lebendzellmikroskopie verfolgt. Die PBD (PCNA-Bindungsdomäne) bewirkt die Lokalisierung von DNMT1 an RF während der S-Phase, und die TS (targeting sequence) vermittelt die Retention von DNMT1 an spät replizierendem Heterochromatin von der späten S- bis zur frühen G1-Phase. Im Gegensatz dazu scheint die PBHD (Polybromohomologiedomäne) für die Freisetzung von DNMT1 von perizentrischen Regionen während der G1-Phase notwendig zu sein. Eine Überexpression der TS zu Störung dieser Assoziation, senkt die Überlebensrate der Zellen und fördert die Bildung von Mikronuklei sowie die Verschmelzung von zentromerem Heterochromatin. Diese Ergebnisse zeigen eine neue Funktion für die TS bei der Assoziation von DNMT1 mit perizentrischem Heterochromatin von der später S- über die G2-Phase bis hin zur Mitose, die eine wichtige Voraussetzung für die Erhaltung der DNA-Methylierung und Heterochromatinstruktur und -funktion ist. Datenbankanalysen zeigten, dass es sich bei der TS um eine einzigartige Domäne innerhalb der DNMT1 Proteinfamilie handelt. Innerhalb der DNMT1 Familie besitzen nur die DNMT1 Proteine der Metazoen die PBD. Das lässt vermuten, dass die Verknüpfung von Beibehaltung der DNA Methylierung mit der DNA Replikation nur in Metazoen auftritt, während in Pflanzen und Pilzen alternative Mechanismen zur Aufrechterhaltung des Methylierungsmusters, wahrscheinlich vermittelt durch die TS, zur Anwendung kommen. Die evolutionäre Konservierung von Mechanismen, zur Assoziation von Proteine mit RF in Säugerzellen, wurde durch die Analyse der Säugerproteine PCNA, DNA Ligase I und DNMT1 in Drosophila-zellen direkt getestet. Von allen untersuchten Proteinen assoziiert nur PCNA mit RF, während die anderen nur eine diffuse Verteilung innerhalb des Kerns zeigten, obwohl sie eine funktionale PBD enthalten. Überraschenderweise assoziierte auch die Drosophila DNA Ligase I in Säugerzellen nicht aber in Drosophila-zellen mit RF. Diese Ergebnisse weisen auf Unterschiede in der Dynamik und dem Aufbau der Replikationsmaschinerie in diesen entfernt verwandten Organismen hin, was mit der Vergrösserung und höheren Komplexität des Säugergenoms korreliert. / DNA methylation constitutes an essential epigenetic mark controlling chromatin organization and gene regulation in higher eucaryotes, which has to be duplicated together with the genetic information at every cell division cycle. In mammals duplication of DNA methylation is mediated by DNA methyltransferase-1 (DNMT1). It associates with sites of nuclear DNA replication, called replication foci (RF), and thereby couples maintenance of DNA methylation to DNA duplication. In this work, we have analyzed the role of regulatory sequences in the N-terminal domain of DNMT1 in controlling its subnuclear localization throughout the cell cycle, and the evolutionary conservation of these sequences and of the mechanisms that mediate association of proteins with RF. We provide evidence that DNMT1 shows dynamic subnuclear distribution that is controlled by the regulatory sequences depending on the cell cycle stage. To determine the subnuclear distribution of DNMT1 throughout the cell cycle, an RFP-Ligase fusion protein was developed as a marker that allows identification of the cell cycle stage in live cells. Various DNMT1 mutants fused to GFP were coexpressed with RFP-Ligase and imaged by 4-dimensional live cell microscopy during an entire cell cycle. The PBD (PCNA binding domain) drives the localization of DNMT1 at RF throughout S phase and the TS (targeting sequence) mediates retention of DNMT1 only at the late replicating pericentric heterochromatin from late-S phase until early-G1. In contrast, the PBHD (polybromo homology domain) seems to be required for unloading DNMT1 from the pericentric regions in G1. Overexpression of the TS to interfere with this association lowers cell viability and induces the formation of micronuclei and coalescence of centromeric heterochromatin. These results bring forth a novel function of the TS in mediating association of DNMT1 with pericentric heterochromatin from late-S phase through G2 until mitosis, which is important for maintenance of DNA methylation, and heterochromatin structure and function. Database searches indicate that the TS is a domain unique to the DNMT1 family of proteins. Amongst the DNMT1 family, only the metazoan DNMT1 proteins have the PBD. This suggests that coupling of maintenance of DNA methylation with DNA replication occurs only in metazoans, while plants and fungi have alternative mechanisms that maintain DNA methylation patterns, probably mediated by the TS. The evolutionary conservation of the mechanisms by which proteins associate with RF in mammalian cells was directly tested by analyzing the ability of mammalian replication proteins PCNA and DNA Ligase I as well as DNMT1 to associate with RF in Drosophila cells. Of all the proteins tested, only PCNA associated with RF while the others showed diffused nuclear distribution although they contain a functional PBD. Surprisingly, Drosophila DNA Ligase I associates with RF in mammalian but not in Drosophila cells. These results suggest differences in the dynamics and organization of the replication machinery in these distantly related organisms, which correlates with the increased size and complexity of mammalian genomes. Evolution Zellzyklus Epigenetik DNMT1 DNA-Methyltransferase 1 DNA-Methylierung Replikationsstellen targeting to replication foci Drosophila DNA Ligase I PCNA evolution DNA methyltransferase cell cycle epigenetics DNA methylation DNMT1 replication foci Drosophila DNA Ligase I PCNA 570 Biologie 32 Biologie WG 1750 WD 5360 ddc:570

Search results

Analysis of optimal differential gene expression

A complex interplay of regulatory domains controls cell cycle dependent subnuclear localization of DNMT1 and is required for the maintenance of epigenetic information