Spelling suggestions: "subject:"teilfolge"" "subject:"selfolge""
1 |
Exploring the Complexity of Event Query DiscoveryKleest-Meißner, Sarah 15 November 2024 (has links)
Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. Die theoretischen Ergebnisse werden durch die Beschreibung der prototypischen Implementierung der genannten Algorithmen und der experimentellen Evaluation basierend auf synthetischen und realen Datensätzen ergänzt. / Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data.
|
Page generated in 0.0294 seconds