Global ETD Search

1	Scalable time series similarity search for data analytics Schäfer, Patrick 26 October 2015 (has links) Eine Zeitreihe ist eine zeitlich geordnete Folge von Datenpunkten. Zeitreihen werden typischerweise über Sensormessungen oder Experimente erfasst. Sensoren sind so preiswert geworden, dass sie praktisch allgegenwärtig sind. Während dadurch die Menge an Zeitreihen regelrecht explodiert, lag der Schwerpunkt der Forschung in den letzten Jahrzehnten auf der Analyse von (a) vorgefilterten und (b) kleinen Zeitreihendatensätzen. Die Analyse realer Zeitreihendatensätze wirft zwei Probleme auf: Erstens setzen aktuelle Ähnlichkeitsmodelle eine Vorfilterung der Zeitreihen voraus. Das beinhaltet die Extraktion charakteristischer Teilsequenzen und das Entfernen von Rauschen. Diese Vorverarbeitung muss durch einen Spezialisten erfolgen. Sie kann zeit- und kostenintensiver als die anschließende Analyse und für große Datensätze unrentabel werden. Zweitens führte die Verbesserung der Genauigkeit aktueller Ähnlichkeitsmodelle zu einem unverhältnismäßig hohen Anstieg der Komplexität (quadratisch bis biquadratisch). Diese Dissertation behandelt beide Probleme. Es wird eine symbolische Zeitreihenrepräsentation vorgestellt. Darauf aufbauend werden drei verschiedene Ähnlichkeitsmodelle eingeführt. Diese erweitern den aktuellen Stand der Forschung insbesondere dadurch, dass sie vorverarbeitungsfrei, unempfindlich gegenüber Rauschen und skalierbar sind. Anhand von 91 realen Datensätzen und Benchmarkdatensätzen wird zusätzlich gezeigt, dass die hier eingeführten Modelle auf den meisten Datenätzen die höchste Genauigkeit im Vergleich zu 15 aktuellen Ähnlichkeitsmodellen liefern. Sie sind teilweise drei Größenordnungen schneller und benötigen kaum Vorfilterung. / A time series is a collection of values sequentially recorded from sensors or live observations over time. Sensors for recording time series have become cheap and omnipresent. While data volumes explode, research in the field of time series data analytics has focused on the availability of (a) pre-processed and (b) moderately sized time series datasets in the last decades. The analysis of real world datasets raises two major problems: Firstly, state-of-the-art similarity models require the time series to be pre-processed. Pre-processing aims at extracting approximately aligned characteristic subsequences and reducing noise. It is typically performed by a domain expert, may be more time consuming than the data mining part itself, and simply does not scale to large data volumes. Secondly, time series research has been driven by accuracy metrics and not by reasonable execution times for large data volumes. This results in quadratic to biquadratic computational complexities of state-of-the-art similarity models. This dissertation addresses both issues by introducing a symbolic time series representation and three different similarity models. These contribute to state of the art by being pre-processing-free, noise-robust, and scalable. Our experimental evaluation on 91 real-world and benchmark datasets shows that our methods provide higher accuracy for most datasets when compared to 15 state-of-the-art similarity models. Meanwhile they are up to three orders of magnitude faster, require less pre-processing for noise or alignment, or scale to large data volumes. Data Mining Zeitreihen Skalierbar Ähnlichkeitssuche Time Series Scalable Similarity Search Data Analytics 004 Informatik 28 Informatik, Datenverarbeitung SK 845 ST 265 ddc:004
2	Complex systems methods for detecting dynamical anomalies in past climate variability Lekscha, Jaqueline Stefanie 22 January 2020 (has links) Die Analyse von Proxy-Zeitreihen aus Paläoklimaarchiven wie zum Beispiel Baumringen, Seesedimenten, Tropfsteinen und Eisbohrkernen mittels gefensterter Rekurrenznetzwerkanalyse ermöglicht die Identifizierung und Charakterisierung dynamischer Anomalien in der Klimavariabilität der Vergangenheit. Das Ziel der vorliegenden Arbeit ist die Entwicklung einer zuverlässigeren Routine zur gefensterten Rekurrenznetzwerkanalyse. Aufbauend auf dem bestehenden methodischen Rahmen werden die Bereiche der Phasenraumrekonstruktion und des Signifikanztests als verbesserungsfähig identifiziert. Deshalb werden verschiedene Methoden zur Rekonstruktion des Phasenraums aus unregelmäßig abgetasteten, verrauschten Daten verglichen. Außerdem wird ein allgemeiner flächenweiser Signifikanztest eingeführt, der, basierend auf einem ausgewählten Nullmodell, Korrelationen in den Analyseergebnissen numerisch abschätzt, um damit das Problem hoher Raten an falsch positiv signifikanten Ergebnissen zu adressieren. Im zweiten Teil der Arbeit wird die entwickelte Methodik genutzt, um die nichtlineare Variabilität des Klimas der Vergangenheit in Nord- und Südamerika zu untersuchen, indem vier reale Zeitreihen verschiedener Proxys studiert werden. Außerdem werden Proxy-System-Modelle genutzt, um auf die Frage der Eignung von Daten verschiedener Paläoklimaarchive zur Charakterisierung der Klimavariabilität mittels gefensterter Rekurrenznetzwerkanalyse einzugehen. Mit der Arbeit wird der Einsatz nichtlinearer Methoden zur Analyse von Paläoklima-Zeitreihen vorangebracht, das Potential und die Grenzen der gefensterten Rekurrenznetzwerkanalyse aufgezeigt und zukünftige relevante Fragestellungen, die die erhaltenen Ergebnisse und Schlussfolgerungen komplementieren können, identifiziert. / Studying palaeoclimate proxy data from archives such as tree rings, lake sediments, speleothems, and ice cores using windowed recurrence network analysis offers the possibility to characterise dynamical anomalies in past climate variability. This thesis aims at developing a more reliable framework of windowed recurrence network analysis by comparing different phase space reconstruction approaches for non-uniformly sampled noisy data and by tackling the problem of increased numbers of false positive significant points when correlations within the analysis results can not be neglected. For this, different phase space reconstruction approaches are systematically compared and a generalised areawise significance test which implements a numerical estimation of the correlations within the analysis results is introduced. In particular, the test can be used to identify patches of possibly false positive significant points. The developed analysis framework is applied to detect and characterise dynamical anomalies in past climate variability in North and South America by studying four real-world palaeoclimatic time series from different archives. Furthermore, the question whether palaeoclimate proxy time series from different archives are equally well suited for tracking past climate dynamics with windowed recurrence network analysis is approached by using the framework of proxy system modelling. This thesis promotes the use of non-linear methods for analysing palaeoclimate proxy time series, provides a detailed assessment of potentials and limitations of windowed recurrence network analysis and identifies future research directions that can complement the obtained results and conclusions. komplexe Systeme nichtlineare Dynamik Zeitreihenanalyse Netzwerke Paläoklimatologie complex systems non-linear dynamics time series analysis networks palaeoclimatology 530 Physik UT 6220 TK 1075 SK 845 ddc:530
3	Networks of the late Quaternary / Analysing paleoclimate data using complex network techniques Franke, Jasper Gideon 20 May 2019 (has links) In den letzten Jahren erfreuen sich komplexe Netzwerke einer zunehmenden Beliebtheit, um Zusammenhänge und Strukturen in hoch-dimensionalen Datensätzen zu analysieren. Im Unterschied zu vielen anderen Forschungsgebieten wurden sie jedoch selten auf Paläoklima-Daten angewandt, obwohl die steigende Anzahl an veröffentlichen Zeitreihen die Nutzung effizienter Methoden multivariater Analyse ermöglicht. Die Resultate der wenigen Studien, in denen Netzwerkmethoden und Paläoklima-Daten kombiniert wurden, sind außerdem geprägt von niedriger Robustheit und hohen Unsicherheiten. Dies steht im Zusammenhang zu der niedrigen Anzahl und Auflösung der Zeitreihen als auch den Unsicherheiten, die den meisten Paläoklima-Rekonstruktionen zu eigen sind. In dieser Doktorarbeit schlage ich verschiedene Wege vor, um diese Probleme zu überwinden, indem verlässlichere, quantitative Resultate ermöglicht werden, unter anderem indem die Datenunsicherheiten explizit in die Analyse mit einbezogen werden. Zu diesem Zweck präsentiere ich vier Fallstudien mit einem Fokus auf zwei Zeiträume, das späte Holozän (die letzten zweitausend Jahre) und den Übergang von der letzten Kaltzeit zur aktuellen Warmzeit, die letzte glaziale Termination. Alle diese Studien legen einen räumlichen Fokus auf den Nordatlantik, eine Schlüsselregion globaler Klimavariabilität. Ich beschränke mich hierbei auf zwei Methoden, eine der netzwerkbasierten Zeitreihenanalyse, Sichtbarkeitsgraphen genannt, und eine der räumlichen Analyse, sogenannte Klimanetzwerke. Neben Erweiterungen von existierende Methoden, schlage ich auch neue Wege vor, um verlässliche Resultate auch für Zeitreihen mit hohen Unsicherheiten zu erhalten. Diese Fallstudien demonstrieren, dass Netzwerkmethoden auch für die Analyse von Paläoklima-Daten nützlich sein können. Sie sind daher ein weiterer Schritt hin zu einer künftigen Anwendung durch eine größere Anzahl an Forschenden. / In recent years, complex networks have become an increasingly popular tool to analyse relationships and structures in high-dimensional data sets in a variety of research fields. They have, however, rarely been applied to paleoclimate data sets, even though the growing number of published records demands efficient tools of multivariate analysis. The few published results that combine network methods and paleoclimate proxies are often not robust or have high uncertainty levels, linked tothe low dimensionality, resolution and the large uncertainties of most particulate time series. In this thesis, I propose several ways to overcome these issues in order to obtain reliable and quantitative results from network based tools by taking the particularities of paleoclimate data into account. For this purpose, I present four case studies, focusing on two time periods, the late Holocene (last two millennia) and the transition from the last ice age to the recent warm period, the last deglaciation. These studies are all related to the North Atlantic, a key region in multi-decadal to millennial scale climate variability. I primarily use two methods, one of network based time series analysis named visibility graphs and one of spatial analysis, so called limate networks. I have both further developed existing methods, but also propose new ways to yield reliable results when dealing with highly uncertain paleoclimate data. The case studies demonstrate the usefulness of network based data analysis to study patterns of regional climate variability. Hence, this work is another step in bringing network based approaches to a larger audience and towards a wider application of these methods. Paläoklima Netzwerke Sichtbarkeitsgraphen Klimanetzwerke Paleoclimate networks visibility graphs climate networks 530 Physik 004 Informatik SK 845 UT 8900 ddc:530 ddc:004
4	Fluctuations, irreversibility and causal influence in time series. Auconi, Andrea 09 May 2019 (has links) Informationsthermodynamik ist der aktuelle Trend in der statistischen Physik. Es ist die theoretische Konstruktion eines einheitlichen Rahmens für die Beschreibung der Nichtgleichgewichtsmerkmale stochastischer dynamischer Systeme, wie die Dissipation der Arbeit und die Irreversibilität von Trajektorien, unter Verwendung der Sprache der Fluktuationstheoreme und der Informationstheorie. Die modellunabhängige Natur von Information und Irreversibilität ermöglicht eine breite Anwendbarkeit der Theorie auf allgemeinere (nichtphysikalische) Modelle aus der Systembiologie und der quantitativen Finanzmathematik, in denen asymmetrische Wechselwirkungen und Nichtlinearitäten allgegenwärtig sind. Insbesondere interessieren wir uns für Zeitreihe, die aus Messungen gewonnen werden oder aus einer Zeitdiskretisierung kontinuierlicher Modelle resultieren. In dieser Arbeit untersuchen wir die Irreversibilität von Zeitreihen unter Berücksichtigung der statistischen Eigenschaften ihrer Zeitumkehrung, und leiten daraus ein Fluktuationstheorem ab, das für Signal-Antwort-Modelle gilt, und das Irreversibilität sowie bedingte Informationen mit der Vergangenheit verknüpft. Interagierende Systeme tauschen kontinuierlich Informationen aus und beeinflussen sich gegenseitig. Intuitiv ist der kausale Einfluss der Effekt dieser Wechselwirkungen, der im Hinblick auf den Informationsfluss über die Zeit beobachtet werden kann, aber seine quantitative Definition wird in der Fachgemeinschaft immer noch diskutiert. Wir wenden insbesondere das Schema der partiellen Informationszerlegung (PID) an, das kürzlich definiert wurde, um synergistische und redundante Effekte aus informationstheoretischen Maßen zu entfernen. Hier schlagen wir unsere PID vor und diskutieren die resultierende Definition des kausalen Einflusses für den Sonderfall linearer Signal-Antwort-Modelle. / Information thermodynamics is the current trend in statistical physics. It is the theoretical research of a unified framework for the description of nonequilibrium features of stochastic dynamical systems like work dissipation and the irreversibility of trajectories, using the language of fluctuation theorems and information theory. The model-independent nature of information and irreversibility allows a wide applicability of the theory to more general (nonphysical) models from systems biology and quantitative finance, where asymmetric interactions and nonlinearities are ubiquitous. In particular, we are interested in time series obtained from measurements or resulting from a time discretization of continuous models. In this thesis we study the irreversibility of time series considering the statistical properties of their time-reversal, and we derive a fluctuation theorem that holds for time series of signal-response models, and that links irreversibility and conditional information towards past. Interacting systems continuously share information while influencing each other dynamics. Intuitively, the causal influence is the effect of those interactions observed in terms of information flow over time, but its quantitative definition is still under debate in the community. In particular, we adopt the scheme of partial information decomposition (PID), that was recently defined in the attempt to remove synergistic and redundant effects from information-theoretic measures. Here we propose our PID, and motivate the resulting definition of causal influence for the special case of linear signal-response models. The thermodynamic role of causal influences can only be discussed for time series of linear signal-response models in the continuous limit, and its generalization to general time series remains in our opinion the open problem in information thermodynamics. Informationsthermodynamik Irreversibilität Fluktuationstheoreme Zeitreihe kausale Einfluss Fluctuations Causal influence Information Thermodynamics Irreversibility Circadian rhythms Time series 530 Physik 539 Moderne Physik 621 Angewandte Physik WD 9200 UG 2000 UG 3700 SK 845 ddc:530 ddc:539 ddc:621
5	Scalable and Efficient Analysis of Large High-Dimensional Data Sets in the Context of Recurrence Analysis Rawald, Tobias 13 February 2018 (has links) Die Recurrence Quantification Analysis (RQA) ist eine Methode aus der nicht-linearen Zeitreihenanalyse. Im Mittelpunkt dieser Methode steht die Auswertung des Inhalts sogenannter Rekurrenzmatrizen. Bestehende Berechnungsansätze zur Durchführung der RQA können entweder nur Zeitreihen bis zu einer bestimmten Länge verarbeiten oder benötigen viel Zeit zur Analyse von sehr langen Zeitreihen. Diese Dissertation stellt die sogenannte skalierbare Rekurrenzanalyse (SRA) vor. Sie ist ein neuartiger Berechnungsansatz, der eine gegebene Rekurrenzmatrix in mehrere Submatrizen unterteilt. Jede Submatrix wird von einem Berechnungsgerät in massiv-paralleler Art und Weise untersucht. Dieser Ansatz wird unter Verwendung der OpenCL-Schnittstelle umgesetzt. Anhand mehrerer Experimente wird demonstriert, dass SRA massive Leistungssteigerungen im Vergleich zu existierenden Berechnungsansätzen insbesondere durch den Einsatz von Grafikkarten ermöglicht. Die Dissertation enthält eine ausführliche Evaluation, die den Einfluss der Anwendung mehrerer Datenbankkonzepte, wie z.B. die Repräsentation der Eingangsdaten, auf die RQA-Verarbeitungskette analysiert. Es wird untersucht, inwiefern unterschiedliche Ausprägungen dieser Konzepte Einfluss auf die Effizienz der Analyse auf verschiedenen Berechnungsgeräten haben. Abschließend wird ein automatischer Optimierungsansatz vorgestellt, der performante RQA-Implementierungen für ein gegebenes Analyseszenario in Kombination mit einer Hardware-Plattform dynamisch bestimmt. Neben anderen Aspekten werden drastische Effizienzgewinne durch den Einsatz des Optimierungsansatzes aufgezeigt. / Recurrence quantification analysis (RQA) is a method from nonlinear time series analysis. It relies on the identification of line structures within so-called recurrence matrices and comprises a set of scalar measures. Existing computing approaches to RQA are either not capable of processing recurrence matrices exceeding a certain size or suffer from long runtimes considering time series that contain hundreds of thousands of data points. This thesis introduces scalable recurrence analysis (SRA), which is an alternative computing approach that subdivides a recurrence matrix into multiple sub matrices. Each sub matrix is processed individually in a massively parallel manner by a single compute device. This is implemented exemplarily using the OpenCL framework. It is shown that this approach delivers considerable performance improvements in comparison to state-of-the-art RQA software by exploiting the computing capabilities of many-core hardware architectures, in particular graphics cards. The usage of OpenCL allows to execute identical SRA implementations on a variety of hardware platforms having different architectural properties. An extensive evaluation analyses the impact of applying concepts from database technology, such memory storage layouts, to the RQA processing pipeline. It is investigated how different realisations of these concepts affect the performance of the computations on different types of compute devices. Finally, an approach based on automatic performance tuning is introduced that automatically selects well-performing RQA implementations for a given analytical scenario on specific computing hardware. Among others, it is demonstrated that the customised auto-tuning approach allows to considerably increase the efficiency of the processing by adapting the implementation selection. Paralleles Rechnen Paralleler Algorithmus Maschinelles Lernen Rekurrenzanalyse Nichtlineare Zeitreihenanalyse parallel computing parallel algorithm machine learning recurrence analysis nonlinear time series analysis 004 Informatik SK 845 ST 530 ddc:004 ddc:000 ddc:005

1

Page generated in 0.0229 seconds