191 |
Aggregate-based Training Phase for ML-based Cardinality EstimationWoltmann, Lucas, Hartmann, Claudio, Lehner, Wolfgang, Habich, Dirk 22 April 2024 (has links)
Cardinality estimation is a fundamental task in database query processing and optimization. As shown in recent papers, machine learning (ML)-based approaches may deliver more accurate cardinality estimations than traditional approaches. However, a lot of training queries have to be executed during the model training phase to learn a data-dependent ML model making it very time-consuming. Many of those training or example queries use the same base data, have the same query structure, and only differ in their selective predicates. To speed up the model training phase, our core idea is to determine a predicate-independent pre-aggregation of the base data and to execute the example queries over this pre-aggregated data. Based on this idea, we present a specific aggregate-based training phase for ML-based cardinality estimation approaches in this paper. As we are going to show with different workloads in our evaluation, we are able to achieve an average speedup of 90 with our aggregate-based training phase and thus outperform indexes.
|
192 |
Advancing Electron Ptychography for High-Resolution Imaging in Electron MicroscopySchloz, Marcel 13 May 2024 (has links)
In dieser Arbeit werden Fortschritte in der Elektronenptychographie vorgestellt, die ihre Vielseitigkeit als Technik in der Elektronen-Phasenkontrastmikroskopie verbessern. Anstatt sich auf eine hochauflösende Elektronenoptik zu stützen, rekonstruiert die Ptychographie die Proben auf der Grundlage ihrer kohärenten Beugungssignale mit Hilfe von Berechnungsalgorithmen. Dieser Ansatz ermöglicht es, die Grenzen der konventionellen, auf Optik basierenden Elektronenmikroskopie zu überwinden und eine noch nie dagewesene sub-Angstrom Auflösung in den resultierenden Bildern zu erreichen. In dieser Arbeit werden zunächst die theoretischen, experimentellen und algorithmischen Grundlagen der Elektronenptychographie vorgestellt und in den Kontext der bestehenden rastergestützten Elektronenmikroskopietechniken gestellt. Darüber hinaus wird ein alternativer ptychographischer Phasengewinnungsalgorithmus entwickelt und seine Leistungsfähigkeit sowie die Qualität und räumliche Auflösung der Rekonstruktionen analysiert. Weiterhin befasst sich die Arbeit mit der Integration von Methoden des maschinellen Lernens in die Elektronenptychographie und schlägt einen spezifischen Ansatz zur Verbesserung der Rekonstruktionsqualität unter suboptimalen Versuchsbedingungen vor. Außerdem wird die Kombination von Ptychographie mit Defokusserienmessungen hervorgehoben, die eine verbesserte Tiefenauflösung bei ptychographischen Rekonstruktionen ermöglicht und uns somit dem ultimativen Ziel näher bringt, quantitative Rekonstruktionen von beliebig dicker Proben mit atomarer Auflösung in drei Dimensionen zu erzeugen. Der letzte Teil der Arbeit stellt einen Paradigmenwechsel bei den Scananforderungen für die Ptychographie vor und zeigt Anwendungen dieses neuen Ansatzes unter Bedingungen niedriger Dosis. / This thesis presents advancements in electron ptychography, enhancing its versatility as an electron phase-contrast microscopy technique. Rather than relying on high-resolution electron optics, ptychography reconstructs specimens based on their coherent diffraction signals using computational algorithms. This approach allows us to surpass the limitations of conventional optics-based electron microscopy, achieving an unprecedented sub-Angstrom resolution in the resulting images. The thesis initially introduces the theoretical, experimental, and algorithmic principles of electron ptychography, contextualizing them within the landscape of existing scanning-based electron microscopy techniques. Additionally, it develops an alternative ptychographic phase retrieval algorithm, analyzing its performance and also the quality and the spatial resolution of its reconstructions. Moreover, the thesis delves into the integration of machine learning methods into electron ptychography, proposing a specific approach to enhance reconstruction quality under suboptimal experimental conditions. Furthermore, it highlights the fusion of ptychography with defocus series measurements, offering improved depth resolution in ptychographic reconstructions, which therefore brings us closer to the ultimate goal of quantitative reconstructions of arbitrarily thick specimens at atomic resolution in three dimensions. The final part of the thesis introduces a paradigm shift in scanning requirements for ptychography and showcases applications of this novel approach under low-dose conditions.
|
193 |
Diabatization via Gaussian Process RegressionRabe, Stefan Benjamin 07 August 2024 (has links)
Moderne Methoden für maschinelles Lernen (ML) spielen heutzutage eine wichtige Rolle in der Wissenschaft und Industrie. Viele umfangreiche ML-Modelle basieren auf tiefen künstlichen neuronalen Netzen (KNN), welche großartige Erfolge erzielen, wenn große Datenmengen zur Verfügung stehen. In Fällen von spärlichen Datenmengen werden KNNe übertroffen von ML-Methoden, welche auf Gaußschen Prozessen (GP) basieren, aufgrund ihrer Interpretierbarkeit, Widerständigkeit gegenüber Überanpassung (Overfitting) und der Bereitstellung von verlässlichen Fehlermaßen. GPe wurden bereits erfolgreich angewandt für Mustererkennung und deren Extrapolation. Letztere ist kontrollierbar aufgrund der kleinen Anzahl von interpretierbaren Hyperparametern.
In der vorliegenden Arbeit entwickeln wir eine Methode basierend auf GPen für die Extraktion von diabatischen Mustern aus Energiespektren, welche sich adiabatisch unter der Variation eines Parameters des Hamiltonoperators verhalten. Die resultierenden diabatischen Mannigfaltigkeiten (oder Energieflächen) weisen Kreuzungen auf, wohingegen die originalen (adiabatischen) Energiespektren Kreuzungen vermeiden.
Im Bezug auf hoch angeregte, klassisch chaotische Dynamik demonstrieren wir, dass unsere Methode vollständige diabatische Spektren generiert anhand von zwei Beispielsystemen: zwei gekoppelte Morse-Oszillatoren und Wasserstoff im Magnetfeld. In beiden Fällen werden GPe trainiert anhand weniger klassischer Trajektorien, um deren Wirkungen zu interund extrapolieren über den gesamten Energie- und Parameterraum, und Punkte identifiziert, an denen die semiklassische Einstein-Brillouin-Keller (EBK)-Quantisierungsbedingung erfüllt ist. Obwohl die EBK-Methode auf reguläre klassische Dynamik beschränkt ist, erlaubt die Interpretierbarkeit von GPen eine kontrollierte Extrapolation zu Regionen, in denen keine Regularität mehr vorhanden ist. Dadurch können semiklassische diabatische Spektren ins chaotische Regime fortgesetzt werden, in welchem diese nicht mehr wohldefiniert sind.
Des Weiteren untersuchen wir den Ursprung resonanter Dynamik im System zweier gekoppelter Morse-Oszillatoren und deren Beitrag zu den semiklassischen Spektren, welche Energien entlang stark abgestoßener adiabatischer Flächen liefern. Im Fall von Wasserstoff im Magnetfeld zeigen wir, dass eine geeignete Skalierung der Koordinaten durch die Feldstärke die Generierung einer unendlichen Folge von semiklassischen Energien mit nur einer EBK-quantisierten Trajektorie erlaubt. Die Implementierung von Randbedingungen in GPen, sowie Skaliermethoden für höhere Dimensionen und deren Eigenschaften werden diskutiert. / Modern supervised machine learning (ML) techniques have taken a prominent role in academia and industry due to their powerful predictive capabilities. While many large-scale ML models utilize deep artificial neural networks (ANNs), which have shown great success if large amounts of data are provided, ML methods employing Gaussian processes (GPs) outperform ANNs in cases with sparse training data due to their interpretability, resilience to overfitting, and provision of reliable uncertainty measures. GPs have already been successfully applied to pattern discovery and extrapolation. The latter can be done in a controlled manner due to their small numbers of interpretable hyperparameters.
In this work we develop an approach based on GPs to extract diabatic patterns from energy spectra, adiabatic under variation of a parameter of the Hamiltonian. The emerging diabatic manifolds (or energy surfaces) exhibit crossings where the original (adiabatic) energy spectra avoid to cross.
In the context of highly excited, classically chaotic dynamics, we demonstrate that our GP regression approach can generate complete diabatic energy spectra with two exemplary systems: two coupled Morse oscillators and hydrogen in a magnetic field. For both we train GPs with few classical trajectories in order to inter- and extrapolate actions throughout the whole energy and parameter range to identify all points where the semiclassical Einstein-Brillouin-Keller (EBK) quantization condition is fulfilled. While the direct EBK method is restricted to regular classical dynamics, the interpretability of the GPs allow for controlled extrapolation into regions where no more regular trajectories exist due to irregular motion. Hence, semiclassical diabatic spectra can be continued into chaotic regions, where such manifolds are no longer well-defined.
Further, we investigate the origin of resonant motion in the coupled Morse oscillator system and their contributions to the semiclassical spectra, which provide energies along strongly repelled adiabatic surfaces. For the hydrogen atom in a magnetic field we show that a proper scaling of the coordinates by the magnetic field strength allows for the extraction of an infinite series of semiclassical energies with one single trajectory which fulfills the EBK condition. The implementation of boundary conditions into GPs, as well as scaling techniques to higher dimensions and their properties are discussed.
|
194 |
Der Einsatz unbemannter Flugsysteme zur Charakterisierung von gesprengtem HaufwerkTscharf, Alexander, Mostegel, Christian, Gaich, Andreas, Mayer, Gerhard, Fraundorfer, Friedrich, Bischof, Horst 28 September 2017 (has links)
Die erreichte Zerkleinerung und die Form des Haufwerks sind die beiden wichtigsten Ergebnisse einer Tagebausprengung. Schnelle Informationen über die Eigenschaften des gesprengten Haufwerks ermöglichen eine zielgerichtete und effiziente Produktionsplanung und Kenntnisse über die erreichte Zerkleinerung ermöglichen außerdem Anpassungen in der weiteren Zerkleinerungskette. Durch den Einsatz von UAVs (unmanned aerial vehicles) gemeinsam mit modernen Algorithmen aus dem Bereich Computer Vision und des maschinellen Lernens soll eine schnelle Erfassung und Interpretation der Daten bei gleichzeitiger Integration in die herkömmlichen betrieblichen Abläufe ermöglicht werden, und außerdem können Schwächen bodengebundener Systeme hinsichtlich Vollständigkeit
und Repräsentativität umgangen werden. Im vorliegenden Beitrag wird einerseits auf den relevanten Stand des Wissens und der Technik eingegangen und andererseits wird die verfolgte Stoßrichtung bei der Systementwicklung dargelegt sowie erste Arbeiten präsentiert. / The fragmentation and the shape of the muck pile are the two major outcomes of open pit mine and quarry blasts. Fast information about the muck pile properties will help to improve the production scheduling and furthermore this information could be used to optimize the blasting patterns of future production blasts. The combined use of unmanned aerial vehicles (UAVs) and modern machine learning and computer vision systems offers a new way of acquiring spatial data to determine on-site fragment size distribution, while at the same time enabling integration into common work flows and mitigating the weaknesses of ground-based systems with special regard to completeness and representativeness. In the present paper, we will discuss the relevant related work, present the planned path for system development and give examples of first work.
|
195 |
Time Dynamic Topic ModelsJähnichen, Patrick 30 March 2016 (has links) (PDF)
Information extraction from large corpora can be a useful tool for many applications in industry and academia. For instance, political communication science has just recently begun to use the opportunities that come with the availability of massive amounts of information available through the Internet and the computational tools that natural language processing can provide. We give a linguistically motivated interpretation of topic modeling, a state-of-the-art algorithm for extracting latent semantic sets of words from large text corpora, and extend this interpretation to cover issues and issue-cycles as theoretical constructs coming from political communication science. We build on a dynamic topic model, a model whose semantic sets of words are allowed to evolve over time governed by a Brownian motion stochastic process and apply a new form of analysis to its result. Generally this analysis is based on the notion of volatility as in the rate of change of stocks or derivatives known from econometrics. We claim that the rate of change of sets of semantically related words can be interpreted as issue-cycles, the word sets as describing the underlying issue. Generalizing over the existing work, we introduce dynamic topic models that are driven by general (Brownian motion is a special case of our model) Gaussian processes, a family of stochastic processes defined by the function that determines their covariance structure. We use the above assumption and apply a certain class of covariance functions to allow for an appropriate rate of change in word sets while preserving the semantic relatedness among words. Applying our findings to a large newspaper data set, the New York Times Annotated corpus (all articles between 1987 and 2007), we are able to identify sub-topics in time, \\\\textit{time-localized topics} and find patterns in their behavior over time. However, we have to drop the assumption of semantic relatedness over all available time for any one topic. Time-localized topics are consistent in themselves but do not necessarily share semantic meaning between each other. They can, however, be interpreted to capture the notion of issues and their behavior that of issue-cycles.
|
196 |
Interpretable Binary and Multiclass Prediction Models for Insolvencies and Credit RatingsObermann, Lennart 10 May 2016 (has links)
Insolvenzprognosen und Ratings sind wichtige Aufgaben der Finanzbranche und dienen der Kreditwürdigkeitsprüfung von Unternehmen. Eine Möglichkeit dieses Aufgabenfeld anzugehen, ist maschinelles Lernen. Dabei werden Vorhersagemodelle aufgrund von Beispieldaten aufgestellt. Methoden aus diesem Bereich sind aufgrund Ihrer Automatisierbarkeit vorteilhaft. Dies macht menschliche Expertise in den meisten Fällen überflüssig und bietet dadurch einen höheren Grad an Objektivität. Allerdings sind auch diese Ansätze nicht perfekt und können deshalb menschliche Expertise nicht gänzlich ersetzen. Sie bieten sich aber als Entscheidungshilfen an und können als solche von Experten genutzt werden, weshalb interpretierbare Modelle wünschenswert sind. Leider bieten nur wenige Lernalgorithmen interpretierbare Modelle. Darüber hinaus sind einige Aufgaben wie z.B. Rating häufig Mehrklassenprobleme. Mehrklassenklassifikationen werden häufig durch Meta-Algorithmen erreicht, welche mehrere binäre Algorithmen trainieren. Die meisten der üblicherweise verwendeten Meta-Algorithmen eliminieren jedoch eine gegebenenfalls vorhandene Interpretierbarkeit.
In dieser Dissertation untersuchen wir die Vorhersagegenauigkeit von interpretierbaren Modellen im Vergleich zu nicht interpretierbaren Modellen für Insolvenzprognosen und Ratings. Wir verwenden disjunktive Normalformen und Entscheidungsbäume mit Schwellwerten von Finanzkennzahlen als interpretierbare Modelle. Als nicht interpretierbare Modelle werden Random Forests, künstliche Neuronale Netze und Support Vector Machines verwendet. Darüber hinaus haben wir einen eigenen Lernalgorithmus Thresholder entwickelt, welcher disjunktive Normalformen und interpretierbare Mehrklassenmodelle generiert.
Für die Aufgabe der Insolvenzprognose zeigen wir, dass interpretierbare Modelle den nicht interpretierbaren Modellen nicht unterlegen sind. Dazu wird in einer ersten Fallstudie eine in der Praxis verwendete Datenbank mit Jahresabschlüssen von 5152 Unternehmen verwendet, um die Vorhersagegenauigkeit aller oben genannter Modelle zu messen.
In einer zweiten Fallstudie zur Vorhersage von Ratings demonstrieren wir, dass interpretierbare Modelle den nicht interpretierbaren Modellen sogar überlegen sind. Die Vorhersagegenauigkeit aller Modelle wird anhand von drei in der Praxis verwendeten Datensätzen bestimmt, welche jeweils drei Ratingklassen aufweisen.
In den Fallstudien vergleichen wir verschiedene interpretierbare Ansätze bezüglich deren Modellgrößen und der Form der Interpretierbarkeit. Wir präsentieren exemplarische Modelle, welche auf den entsprechenden Datensätzen basieren und bieten dafür Interpretationsansätze an.
Unsere Ergebnisse zeigen, dass interpretierbare, schwellwertbasierte Modelle den Klassifikationsproblemen in der Finanzbranche angemessen sind. In diesem Bereich sind sie komplexeren Modellen, wie z.B. den Support Vector Machines, nicht unterlegen. Unser Algorithmus Thresholder erzeugt die kleinsten Modelle während seine Vorhersagegenauigkeit vergleichbar mit den anderen interpretierbaren Modellen bleibt.
In unserer Fallstudie zu Rating liefern die interpretierbaren Modelle deutlich bessere Ergebnisse als bei der zur Insolvenzprognose (s. o.). Eine mögliche Erklärung dieser Ergebnisse bietet die Tatsache, dass Ratings im Gegensatz zu Insolvenzen menschengemacht sind. Das bedeutet, dass Ratings auf Entscheidungen von Menschen beruhen, welche in interpretierbaren Regeln, z.B. logischen Verknüpfungen von Schwellwerten, denken. Daher gehen wir davon aus, dass interpretierbare Modelle zu den Problemstellungen passen und diese interpretierbaren Regeln erkennen und abbilden.
|
197 |
Modeling the climate change impacts on global coffee productionBunn, Christian 27 October 2015 (has links)
Die Untersuchung der Auswirkungen des Klimawandels auf die globale Kaffeeproduktion in einem integriertem Modell war das Ziel dieser Arbeit. Der vorwiegende Teil der globalen Kaffeeproduktion stammt von zwei Arten: dem hitzeempfindlichen Coffea arabica (Arabica) Strauch und vom frostempfindlichen Coffea canephora (Robusta). Eine zunehmende Zahl Studien zeigt, dass der Klimawandel bereits heute die Produktion mindert. Maschinenlernklassifizierung wurde hier genutzt um ein Modell der globalen Klima-Kaffee-Wechselwirkungen zu entwickeln. Zur Integration der modellierten Klimafolgen mit ökonomischen Faktoren war ein detailliertes Wissen über die räumliche Verteilung der Kaffeeproduktion notwendig. Da existierende Datensätze unzureichend waren, wurde ein neuer methodischer Ansatz auf der Grundlage der maschinenlern-basierten Anbaueignungsklassifizierung entwickelt. Diese beiden Schritte waren Voraussetzung für die Inklusion eines Modells des Kaffeesektors in dem räumlich expliziten partiellen Gleichgewichtsmodell Globiom. Auf der Hälfte der heute für den Anbau geeigneten Fläche muss bis 2050 2,5-mal so viel Kaffee produziert werden um die zukünftige Nachfrage zu sättigen. Niedrigere Ernten und höhere Preise werden das Volumen des Kaffeemarktes um über 5 Mio. Tonnen pro Jahr reduzieren. Dieser Verlust entspricht dem Marktvolumen im Modellbasisjahr. Kaffeeproduktion wird zukünftig in höheren Lagen angebaut werden müssen, sofern dort landwirtschaftliche Fläche zur Verfügung steht. Die Produktion wird größtenteils innerhalb der gegenwärtigen Breitengrade bleiben, aber wichtige Produzenten, wie Brasilien und Vietnam werden Probleme haben wettbewerbsfähig zu bleiben mit weniger betroffenen Ländern in Ost-Afrika. Modellunsicherheit auf lokaler Ebene erschwert jedoch die Entwicklung eindeutiger Anpassungsempfehlungen. Es wird also auch in Zukunft Kaffee geben, aber dieser Kaffee wird von geringerer Qualität sein und mehr kosten. / To model the impacts of climate change on global coffee production in an integrated modeling framework was the objective of this thesis. The majority of coffee is produced using either one of two species which form a single market: the heat sensitive Coffea arabica (Arabica) and the cold sensitive Coffea canephora (Robusta). Recently, evidence is increasing that climate change has begun to affect production. Machine learning classification was used to develop a global biophysical impacts model for both coffee species. Integrating these biophysical effects with demand side effects required a detailed understanding of the spatial distribution of coffee production. Because existing datasets were found to be insufficient a novel methodology was developed that built upon the machine learning classification of coffee suitability. These two steps were preconditions to include a model of the coffee sector in the spatially explicit partial equilibrium modeling framework Globiom. On only half the area that is currently available for coffee production by 2050 2.5-times as much coffee will have to be produced to meet future demand. Reduced yields and increased prices were shown to reduce the coffee market by more than 5million tons per year, equivalent to the size of the baseyear market volume. Coffee production will migrate to higher elevations where area is available for agricultural production. Production will remain within current latitudinal ranges but major producers like Brazil and Vietnam will struggle to remain competitive with relatively less affected countries in East Africa. Substantial uncertainty about the impacts on local scale prevails and impedes the development of unambiguous adaptation strategies. Thus, there will be coffee on the table in 2050, but it will be of lower quality and will cost more.
|
198 |
An Approach to Incremental Learning Good Classification TestsNaidenova, Xenia, Parkhomenko, Vladimir 28 May 2013 (has links) (PDF)
An algorithm of incremental mining implicative logical rules is pro-posed. This algorithm is based on constructing good classification tests. The in-cremental approach to constructing these rules allows revealing the interde-pendence between two fundamental components of human thinking: pattern recognition and knowledge acquisition.
|
199 |
Learning under differing training and test distributionsBickel, Steffen January 2008 (has links)
One of the main problems in machine learning is to train a predictive model from training data and to make predictions on test data. Most predictive models are constructed under the assumption that the training data is governed by the exact same distribution which the model will later be exposed to. In practice, control over the data collection process is often imperfect. A typical scenario is when labels are collected by questionnaires and one does not have access to the test population. For example, parts of the test population are underrepresented in the survey, out of reach, or do not return the questionnaire. In many applications training data from the test distribution are scarce because they are difficult to obtain or very expensive. Data from auxiliary sources drawn from similar distributions are often cheaply available.
This thesis centers around learning under differing training and test distributions and covers several problem settings with different assumptions on the relationship between training and test distributions-including multi-task learning and learning under covariate shift and sample selection bias. Several new models are derived that directly characterize the divergence between training and test distributions, without the intermediate step of estimating training and test distributions separately. The integral part of these models are rescaling weights that match the rescaled or resampled training distribution to the test distribution. Integrated models are studied where only one optimization problem needs to be solved for learning under differing distributions. With a two-step approximation to the integrated models almost any supervised learning algorithm can be adopted to biased training data.
In case studies on spam filtering, HIV therapy screening, targeted advertising, and other applications the performance of the new models is compared to state-of-the-art reference methods. / Eines der wichtigsten Probleme im Maschinellen Lernen ist das Trainieren von Vorhersagemodellen aus Trainingsdaten und das Ableiten von Vorhersagen für Testdaten. Vorhersagemodelle basieren üblicherweise auf der Annahme, dass Trainingsdaten aus der gleichen Verteilung gezogen werden wie Testdaten. In der Praxis ist diese Annahme oft nicht erfüllt, zum Beispiel, wenn Trainingsdaten durch Fragebögen gesammelt werden. Hier steht meist nur eine verzerrte Zielpopulation zur Verfügung, denn Teile der Population können unterrepräsentiert sein, nicht erreichbar sein, oder ignorieren die Aufforderung zum Ausfüllen des Fragebogens. In vielen Anwendungen stehen nur sehr wenige Trainingsdaten aus der Testverteilung zur Verfügung, weil solche Daten teuer oder aufwändig zu sammeln sind. Daten aus alternativen Quellen, die aus ähnlichen Verteilungen gezogen werden, sind oft viel einfacher und günstiger zu beschaffen.
Die vorliegende Arbeit beschäftigt sich mit dem Lernen von Vorhersagemodellen aus Trainingsdaten, deren Verteilung sich von der Testverteilung unterscheidet. Es werden verschiedene Problemstellungen behandelt, die von unterschiedlichen Annahmen über die Beziehung zwischen Trainings- und Testverteilung ausgehen. Darunter fallen auch Multi-Task-Lernen und Lernen unter Covariate Shift und Sample Selection Bias. Es werden mehrere neue Modelle hergeleitet, die direkt den Unterschied zwischen Trainings- und Testverteilung charakterisieren, ohne dass eine einzelne Schätzung der Verteilungen nötig ist. Zentrale Bestandteile der Modelle sind Gewichtungsfaktoren, mit denen die Trainingsverteilung durch Umgewichtung auf die Testverteilung abgebildet wird. Es werden kombinierte Modelle zum Lernen mit verschiedenen Trainings- und Testverteilungen untersucht, für deren Schätzung nur ein einziges Optimierungsproblem gelöst werden muss. Die kombinierten Modelle können mit zwei Optimierungsschritten approximiert werden und dadurch kann fast jedes gängige Vorhersagemodell so erweitert werden, dass verzerrte Trainingsverteilungen korrigiert werden.
In Fallstudien zu Email-Spam-Filterung, HIV-Therapieempfehlung, Zielgruppenmarketing und anderen Anwendungen werden die neuen Modelle mit Referenzmethoden verglichen.
|
200 |
Approaches to analyse and interpret biological profile dataScholz, Matthias January 2006 (has links)
Advances in biotechnologies rapidly increase the number of molecules of a cell which can be observed simultaneously. This includes expression levels of thousands or ten-thousands of genes as well as concentration levels of metabolites or proteins.
<br><br>
Such Profile data, observed at different times or at different experimental conditions (e.g., heat or dry stress), show how the biological experiment is reflected on the molecular level. This information is helpful to understand the molecular behaviour and to identify molecules or combination of molecules that characterise specific biological condition (e.g., disease).
<br><br>
This work shows the potentials of component extraction algorithms to identify the major factors which influenced the observed data. This can be the expected experimental factors such as the time or temperature as well as unexpected factors such as technical artefacts or even unknown biological behaviour.
<br><br>
Extracting components means to reduce the very high-dimensional data to a small set of new variables termed components. Each component is a combination of all original variables. The classical approach for that purpose is the principal component analysis (PCA).
<br><br>
It is shown that, in contrast to PCA which maximises the variance only, modern approaches such as independent component analysis (ICA) are more suitable for analysing molecular data. The condition of independence between components of ICA fits more naturally our assumption of individual (independent) factors which influence the data. This higher potential of ICA is demonstrated by a crossing experiment of the model plant <i>Arabidopsis thaliana</i> (Thale Cress). The experimental factors could be well identified and, in addition, ICA could even detect a technical artefact.
<br><br>
However, in continuously observations such as in time experiments, the data show, in general, a nonlinear distribution. To analyse such nonlinear data, a nonlinear extension of PCA is used. This nonlinear PCA (NLPCA) is based on a neural network algorithm. The algorithm is adapted to be applicable to incomplete molecular data sets. Thus, it provides also the ability to estimate the missing data. The potential of nonlinear PCA to identify nonlinear factors is demonstrated by a cold stress experiment of <i>Arabidopsis thaliana</i>.
<br><br>
The results of component analysis can be used to build a molecular network model. Since it includes functional dependencies it is termed functional network. Applied to the cold stress data, it is shown that functional networks are appropriate to visualise biological processes and thereby reveals molecular dynamics. / Fortschritte in der Biotechnologie ermöglichen es, eine immer größere Anzahl von Molekülen in einer Zelle gleichzeitig zu erfassen. Das betrifft sowohl die Expressionswerte tausender oder zehntausender Gene als auch die Konzentrationswerte von Metaboliten oder Proteinen.
<br><br>
Diese Profildaten verschiedener Zeitpunkte oder unterschiedlicher experimenteller Bedingungen (z.B. unter Stressbedingungen wie Hitze oder Trockenheit) zeigen, wie sich das biologische Experiment auf molekularer Ebene widerspiegelt. Diese Information kann genutzt werden, um molekulare Abläufe besser zu verstehen und um Moleküle oder Molekül-Kombinationen zu bestimmen, die für bestimmte biologische Zustände (z.B.: Krankheit) charakteristisch sind.
<br><br>
Die Arbeit zeigt die Möglichkeiten von Komponenten-Extraktions-Algorithmen zur Bestimmung der wesentlichen Faktoren, die einen Einfluss auf die beobachteten Daten ausübten. Das können sowohl die erwarteten experimentellen Faktoren wie Zeit oder Temperatur sein als auch unerwartete Faktoren wie technische Einflüsse oder sogar unerwartete biologische Vorgänge.
<br><br>
Unter der Extraktion von Komponenten versteht man die Reduzierung dieser stark hoch-dimensionalen Daten auf wenige neue Variablen, die eine Kombination aus allen ursprünglichen Variablen darstellen und als Komponenten bezeichnet werden. Die Standard-Methode für diesen Zweck ist die Hauptkomponentenanalyse (PCA).
<br><br>
Es wird gezeigt, dass - im Vergleich zur nur die Varianz maximierenden PCA - moderne Methoden wie die Unabhängige Komponentenanalyse (ICA) für die Analyse molekularer Datensätze besser geeignet sind. Die Unabhängigkeit von Komponenten in der ICA entspricht viel besser unserer Annahme individueller (unabhängiger) Faktoren, die einen Einfluss auf die Daten ausüben. Dieser Vorteil der ICA wird anhand eines Kreuzungsexperiments mit der Modell-Pflanze <i>Arabidopsis thaliana</i> (Ackerschmalwand) demonstriert. Die experimentellen Faktoren konnten dabei gut identifiziert werden und ICA erkannte sogar zusätzlich einen technischen Störfaktor.
<br><br>
Bei kontinuierlichen Beobachtungen wie in Zeitexperimenten zeigen die Daten jedoch häufig eine nichtlineare Verteilung. Für die Analyse dieser nichtlinearen Daten wird eine nichtlinear erweiterte Methode der PCA angewandt. Diese nichtlineare PCA (NLPCA) basiert auf einem neuronalen Netzwerk-Algorithmus. Der Algorithmus wurde für die Anwendung auf unvollständigen molekularen Daten erweitert. Dies ermöglicht es, die fehlenden Werte zu schätzen. Die Fähigkeit der nichtlinearen PCA zur Bestimmung nichtlinearer Faktoren wird anhand eines Kältestress-Experiments mit <i>Arabidopsis thaliana</i> demonstriert.
<br><br>
Die Ergebnisse aus der Komponentenanalyse können zur Erstellung molekularer Netzwerk-Modelle genutzt werden. Da sie funktionelle Abhängigkeiten berücksichtigen, werden sie als Funktionale Netzwerke bezeichnet. Anhand der Kältestress-Daten wird demonstriert, dass solche funktionalen Netzwerke geeignet sind, biologische Prozesse zu visualisieren und dadurch die molekularen Dynamiken aufzuzeigen.
|
Page generated in 0.0582 seconds