Diese Doktorarbeit behandelt die Beobachtung, daß Koregulationsmuster in Genexpressionsdaten häufig Funktionsstrukturen der Zelle widerspiegeln. Zunächst werden simulierte Genexpressionsdaten und Expressionsdaten aus Hefeexperimenten mit Hilfe von Independent Component Analysis (ICA) und verwandten Faktormodellen untersucht. In einem eher theoretischen Zugang werden anschließend Beziehungen zwischen den Expressionsmustern und der biologischen Funktion der Gene aus einem Optimalitätsprinzip hergeleitet. Lineare Faktormodelle, beispielsweise ICA, zerlegen Genexpressionsmatrizen in statistische Komponenten: die Koeffizienten bezüglich der Komponenten können als Profile von verborgenen Variablen ("Expressionsmoden") interpretiert werden, deren Werte zwischen den Proben variieren. Im Gegensatz zu Clustermethoden beschreiben solche Faktormodelle eine überlagerung biologischer Effekte und die individuellen Reaktionen der einzelnen Gene: jedes Genprofil besteht aus einer überlagerung der Expressionsmoden, die so die gemeinsamen Schwankungen vieler Gene erklären. Die linearen Komponenten werden blind, also ohne zusätzliches biologisches Wissen, aus den Daten geschätzt, und die meisten der hier betrachteten Methoden erlauben es, nahezu schwach besetzte Komponenten zu rekonstruieren. Beim Ausdünnen einer Komponente werden Gene sichtbar, die stark auf die entsprechende Mode reagieren, ganz in Analogie zu Genen, die differentielle Expression zwischen einzelnen Proben zeigen. Verschiedene Faktormodelle werden in dieser Arbeit auf simulierte und experimentelle Expressionsdaten angewendet. Bei der Simulation von Expressionsdaten wird angenommen, daß die Genexpression von einigen unbeobachteten Variablen ("biologischen Expressionsmoden") abhängt, die den Zellzustand beschreiben und deren Einfluss auf die Gene sich durch nichtlineare Funktionen, die sogenannten Genprogramme, beschreiben läßt. Besteht Hoffnung, solche Expressionsmoden durch blinde Datenanalyse wiederzufinden? Die Tests in dieser Arbeit zeigen, daß die Moden mit ICA recht zuverlässig gefunden werden, selbst wenn die Daten verrauscht oder leicht nichtlinear sind und die Anzahl der wahren und der geschätzten Komponenten nicht übereinstimmt. Regressionsmodelle werden an Profile einzelner Gene angepasst, um ihre Expression durch Expressionsmoden aus Faktormodellen oder durch die Expression einzelner Transkriptionsfaktoren zu erklären. Nichtlineare Genprogramme werden mit Hilfe von nichtlinearer ICA ermittelt: solche effektiven Genprogramme könnten zur Beschreibung von Genexpression in großen Zellmodellen Verwendung finden. ICA und verwandte Methoden werden auf Expressionsdaten aus Zellzyklusexperimenten angewendet: neben biologisch interpretierbaren Moden werden experimentelle Artefakte identifiziert, die vermutlich Hybridisierungseffekte oder eine Verunreinigung der Proben widerspiegeln. Für einzelne Komponenten wird gezeigt, daß die koregulierten Gene gemeinsame biologische Funktionen besitzen und daß die entsprechenden Enzyme bevorzugt in bestimmten Bereichen des Stoffwechselnetzes zu finden sind. Die Expressionmechanismen scheinen also - als Ergebnis der Evolution - Funktionsbeziehungen zwischen den Genen widerzuspiegeln: es wäre unter ökonomischen Gesichtspunkten vermutlich ineffizient, wenn kooperierende Gene nicht auch koreguliert würden. Um diese teleologische Vorstellung von Genexpression zu formalisieren, wird in dieser Arbeit ein mathematisches Modell zur Analyse der optimalen differentiellen Expression (ANODE) vorgeschlagen: das Modell beschreibt Regulatoren, also beispielsweise Gene oder Enzyme, und die von ihnen gesteuerten Variablen, zum Beispiel metabolische Flüsse. Das Systemverhalten wird durch eine Fitnessfunktion bewertet, die beispielsweise vom bestimmten Stoffwechselflüssen abhängt und die es zu optimieren gilt. Dieses Optimalitätsprinzip definiert eine optimale Reaktion der Regulatoren auf kleine äußeren Störungen. Zur Berechnung optimaler Regulationsmuster braucht das zu regulierende System nur teilweise bekannt zu sein: es genügt, sein mögliches Verhalten in der Nähe des optimalen Zustandes sowie die lokale Form der Fitnesslandschaft zu kennen. Die Methode wird auf zeitabhängige Störungen erweitert: um die Antwort von Stoffwechselsystemen auf kleine oszillatorische Störungen zu beschreiben, werden frequenzabhängige Kontrollkoeffizienten definiert und durch Summations- und Konnektivitätstheoreme charakterisiert. Um die vorhergesagte Beziehung zwischen Expression und Funktion zu prüfen, werden Kontrollkoeffizienten für ein großes Stoffwechselnetz simuliert, und ihre statistischen Eigenschaften werden untersucht: die Struktur der Kontrollkoeffizientenmatrix bildet die Netztopologie ab, das bedeutet, chemische Reaktionen haben gewöhnlich einen geringen Einfluss auf weit entfernte Teile des Netzes. Außerdem hängen die Kontrollkoeffizienten innerhalb eines Teilnetzes nur schwach von der Modellierung des umgebenden Netzes ab. Verschiedene plausible Annahmen über sinnvolle Expressionsmuster lassen sich formal aus dem Optimalitätsprinzip herleiten: das Hauptergebnis ist eine allgemeine Beziehung zwischen dem Verhalten und der biologischen Funktion von Regulatoren, aus der sich zum Beispiel die Koregulation von Enzymen in Komplexen oder Funktionsmodulen ergibt. Die Funktionen der Gene werden in diesem Zusammenhang durch ihre linearen Einflüsse (die sogenannten Responsekoeffizienten) auf fitnessrelevante Zellvariable beschrieben. Für Stoffwechselenzyme werden aus den Theoremen der metabolischen Kontrolltheorie Summenregeln hergeleitet, die die Expressionsmuster mit der Struktur des Stoffwechselnetzes verknüpfen. Weitere Vorhersagen betreffen eine symmetrische Kompensation von Gendeletionen und eine Beziehung zwischen Genexpression und dem Fitnessverlust aufgrund von Deletionen. Wenn die optimale Steuerung durch eine Rückkopplung zwischen Zellvariablen und den Regulatoren verwirklicht ist, dann spiegeln sich funktionale Beziehungen auch in den Rückkopplungskoeffizienten wider. Daher ist zu erwarten, daß Gene mit ähnlicher Funktion durch Eingangssignale aus denselben Signalwegen gesteuert werden. Das Modell der optimalen Steuerung sagt voraus, daß Expressionsprofile aus Linearkombinationen von Responsekoeffizientenprofilen bestehen: Tests mit experimentellen Expressionsdaten und simulierten Kontrollkoeffizienten stützen diese Hypothese, und die gemeinsamen Komponenten, die aus diesen beiden Arten von Daten geschätzt werden, liefern ein anschauliches Bild der Stochwechselvorgänge, die zur Anpassung an unterschiedliche Umgebungen notwendig sind. Alles in allem werden in dieser Arbeit empirische Beziehungen zwischen der Expression and der Funktion von Genen bestätigt. Darüber hinaus werden solche Beziehungen aus theorischen Gründen vorhergesagt. Ein Hauptziel ist es, teleologische Aussagen über Genexpression auf explizite Annahmen zurückzuführen und dadurch klarer zu formulieren, und so einen theoretischen Rahmen für die Integration von Expressionsdaten und Funktionsannotationen zu liefern. Während andere Autoren die Expression mit Funktionskategorien der Gene oder topologisch definierten Stoffwechselwegen verglichen haben, schlage ich vor, die Funktionen von Genen durch ihre Responsekoeffizienten auszudrücken. Als ein Hauptergebnis dieser Arbeit werden allgemeine Beziehungen zwischen der Funktion, der optimalen Expression und dem Programm eines Gens vorhergesagt. Soweit die Optimalitätsannahme gilt, rechtfertigt das Modell die Verwendung von Expressionsdaten zur Funktionsannotation und zur Rekonstruktion von Stoffwechselwegen und liefert außerdem eine funktionsbezogene Interpretation für die linearen Komponenten in Expressionsdaten. Die Methoden aus dieser Arbeit sind nicht auf Genexpressionsdaten beschränkt: die Faktormodelle lassen sich auch auf Protein- und Metabolitdaten anwenden, und das Optimalitätsprinzip könnte ebenfalls auf andere Steuerungsmechanismen angewendet werden, beispielsweise auf die allosterische Steuerung von Enzymen. / This thesis is concerned with the observation that coregulation patterns in gene expression data often reflect functional structures of the cell. First, simulated gene expression data and expression data from yeast experiments are studied with independent component analysis (ICA) and with related factor models. Then, in a more theoretical approach, relations between gene expression patterns and the biological function of the genes are derived from an optimality principle. Linear factor models such as ICA decompose gene expression matrices into statistical components. The coefficients with respect to the components can be interpreted as profiles of hidden variables (called "expression modes") that assume different values in the different samples. In contrast to clusterings, such factor models account for a superposition of effects and for individual responses of the different genes: each gene profile consists of a superposition of the expression modes, which thereby account for the common variation of many genes. The components are estimated blindly from the data, that is, without further biological knowledge, and most of the methods considered here can reconstruct almost sparse components. Thresholding a component reveals genes that respond strongly to the corresponding mode, in comparison to genes showing differential expression among individual samples. In this work, different factor models are applied to simulated and experimental expression data. To simulate expression data, it is assumed that gene expression depends on several unobserved variables ("biological expression modes") which characterise the cell state and that the genes respond to them according to nonlinear functions called "gene programs". Is there a chance to reconstruct such expression modes with a blind data analysis? The tests in this work show that the modes can be found with ICA even if the data are noisy or weakly nonlinear, or if the numbers of true and estimated components do not match. Regression models are fitted to the profiles of single genes to explain their expression by expression modes from factor models or by the expression of single transcription factors. Nonlinear gene programs are estimated by nonlinear ICA: such effective gene programs may be used for describing gene expression in large cell models. ICA and similar methods are applied to expression data from cell-cycle experiments: besides biologically interpretable modes, experimental artefacts, probably caused by hybridisation effects and contamination of the samples, are identified. It is shown for single components that the coregulated genes share biological functions and the corresponding enzymes are concentrated in particular regions of the metabolic network. Thus the expression machinery seems to portray - as an outcome of evolution - functional relationships between the genes: regarding the economy of resources, it would probably be inefficient if cooperating genes were not coregulated. To formalise this teleological view on gene expression, a mathematical model for the analysis of optimal differential expression (ANODE) is proposed in this work: the model describes regulators, such as genes or enzymes, and output variables, such as metabolic fluxes. The system´s behaviour is evaluated by a fitness function, which, for instance, rates some of the metabolic fluxes in the cell and which is supposed to be optimised. This optimality principle defines an optimal response of regulators to small external perturbations. For calculating the optimal regulation patterns, the system to be controlled needs to be known only partially: it suffices to predefine its possible behaviour around the optimal state and the local shape of the fitness function. The method is extended to time-dependent perturbations: to describe the response of metabolic systems to small oscillatory perturbations, frequency-dependent control coefficients are defined and characterised by summation and connectivity theorems. For testing the predicted relation between expression and function, control coefficients are simulated for a large-scale metabolic network and their statistical properties are studied: the structure of the control coefficients matrix portrays the network topology, that is, chemical reactions tend to have little control on distant parts of the network. Furthermore, control coefficients within subnetworks depend only weakly on the modelling of the surrounding network. Several plausible assumptions about appropriate expression patterns can be formally derived from the optimality principle: the main result is a general relation between the behaviour of regulators and their biological functions, which implies, for example, the coregulation of enzymes acting in complexes or functional modules. In this context, the functions of genes are quantified by their linear influences (called ``response coefficients'') on fitness-relevant cell variables. For enzymes controlling metabolism, the theorems of metabolic control theory lead to sum rules that relate the expression patterns to the structure of the metabolic network. Further predictions concern a symmetric compensation for gene deletions and a relation between gene expression and the fitness loss caused by gene deletions. If optimal regulation is realised by feedback signals between the cell variables and the regulators, then functional relations are also portrayed in the linear feedback coefficients, so genes of similar function may be expected to share inputs from the same signalling cascades. According to the model of optimal regulation, expression profiles are linear combinations of response coefficient profiles: tests with experimental expression profiles and simulated control coefficients support this hypothesis, and the common components which are estimated from both kinds of data provide a vivid picture of the metabolic adaptations that are required in different environments. To summarise, empirical relations between gene expression and function have been confirmed in this work. Furthermore, such relations have been predicted on theoretical grounds. A main aim is to clarify teleological assertions about gene expression by deriving them from explicit assumptions, and thus to provide a theoretical framework for the integration of expression data and functional annotations. While other authors have compared expression to functional gene categories or topologically defined metabolic pathways, I propose to relate it to the response coefficients. A main result of this work is that general relations are predicted between a gene's function, its optimal expression behaviour, and its regulatory program. Where the assumption of optimality is valid, the model justifies the use of expression data for functional annotation and pathway reconstruction, and it provides a function-related interpretation for the linear components behind expression data. The methods from this work are not limited to gene expression data: the factor models are applicable to protein and metabolite data as well, and the optimality principle may also apply to other regulatory mechanisms, such as the allosteric control of enzymes.
Identifer | oai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/15680 |
Date | 30 March 2004 |
Creators | Liebermeister, Wolfram |
Contributors | Vingron, Martin, Heinrich, Reinhart, Höfer, Thomas |
Publisher | Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät I |
Source Sets | Humboldt University of Berlin |
Language | English |
Detected Language | German |
Type | doctoralThesis, doc-type:doctoralThesis |
Format | application/pdf |
Page generated in 0.0031 seconds