101 |
Transparent Forecasting Strategies in Database Management SystemsFischer, Ulrike, Lehner, Wolfgang 02 February 2023 (has links)
Whereas traditional data warehouse systems assume that data is complete or has been carefully preprocessed, increasingly more data is imprecise, incomplete, and inconsistent. This is especially true in the context of big data, where massive amount of data arrives continuously in real-time from vast data sources. Nevertheless, modern data analysis involves sophisticated statistical algorithm that go well beyond traditional BI and, additionally, is increasingly performed by non-expert users. Both trends require transparent data mining techniques that efficiently handle missing data and present a complete view of the database to the user. Time series forecasting estimates future, not yet available, data of a time series and represents one way of dealing with missing data. Moreover, it enables queries that retrieve a view of the database at any point in time - past, present, and future. This article presents an overview of forecasting techniques in database management systems. After discussing possible application areas for time series forecasting, we give a short mathematical background of the main forecasting concepts. We then outline various general strategies of integrating time series forecasting inside a database and discuss some individual techniques from the database community. We conclude this article by introducing a novel forecasting-enabled database management architecture that natively and transparently integrates forecast models.
|
102 |
Clustering Uncertain Data with Possible WorldsLehner, Wolfgang, Volk, Peter Benjamin, Rosenthal, Frank, Hahmann, Martin, Habich, Dirk 16 August 2022 (has links)
The topic of managing uncertain data has been explored in many ways. Different methodologies for data storage and query processing have been proposed. As the availability of management systems grows, the research on analytics of uncertain data is gaining in importance. Similar to the challenges faced in the field of data management, algorithms for uncertain data mining also have a high performance degradation compared to their certain algorithms. To overcome the problem of performance degradation, the MCDB approach was developed for uncertain data management based on the possible world scenario. As this methodology shows significant performance and scalability enhancement, we adopt this method for the field of mining on uncertain data. In this paper, we introduce a clustering methodology for uncertain data and illustrate current issues with this approach within the field of clustering uncertain data.
|
103 |
Methodik zur Erstellung von synthetischen Daten für das Qualitätsmanagement und der vorausschauenden Instandhaltung im Bereich der Innenhochdruck-Umformung (IHU)Reuter, Thomas, Massalsky, Kristin, Burkhardt, Thomas 28 November 2023 (has links)
Unternehmen stehen zunehmend vor der Herausforderung, dem drohenden Wissensverlust durch demografischen Wandel und Mitarbeiterabgang zu begegnen. In Zeiten
voranschreitender Digitalisierung gilt es, große Datenmengen beherrschbar und nutzbar zu machen, mit dem Ziel, einerseits die Ressourceneffizienz innerhalb des
Unternehmens zu erhöhen und anderseits den Kunden zusätzliche Dienstleistungen anbieten zu können. Vor dem Hintergrund, ein effizientes Qualitätsmanagement
und eine vorausschauende Instandhaltung mit ein und demselben System zu realisieren, sind zunächst technologische Kennzahlen und die Prozessführung zu bestimmen. Im Bereich der intelligenten Instandhaltung ist es jedoch nicht immer möglich, Fehlerzustände von physischen Anlagen im Serienbetrieb als Datensatz abzufassen. Das bewusste Zulassen von Fehlern unter realen Produktionsbedingungen könnte zu fatalen Ausfällen bis hin zur Zerstörung der Anlage führen. Auch das gezielte Erzeugen von Fehlern unter stark kontrollierten Bedingungen kann zeitaufwendig, kostenintensiv oder sogar undurchführbar sein.
|
104 |
Methodology for the creation of synthetic data for quality management and predictive maintenance in the field of hydroforming (IHU)Reuter, Thomas, Massalsky, Kristin, Burkhardt, Thomas 28 November 2023 (has links)
Companies are increasingly challenged by the impending loss of knowledge due to demographic change and employee loss. In times of advancing digitalization, it is
important to make large datasets accessible and usable, aiming at increasing resource efficiency within the company on the one hand and being able to offer customers additional services on the other. Given the background of implementing efficient quality management and predictive maintenance with the same system, technological key
figures and process control must first be determined. In the field of intelligent maintenance, however, it is not always possible to record error states of physical systems in
series operation as a data set. Deliberately allowing faults to occur under real production conditions could lead to fatal failures or even the destruction of the system.
The targeted generation of faults under highly controlled conditions can also be timeconsuming, cost-intensive, or even impractical.
|
105 |
Rabattprobleme aus Konsumentensicht: Eine Online- und OfflineanalyseReißner, Michael 19 December 2022 (has links)
Einem Konsumenten werden in verschiedensten Situationen Rabatte angeboten. In dieser Dissertation wird die Frage untersucht, wie solche Rabattsituationen aus konsumentensicht formalisiert werden können und wie Kaufentscheidungen getroffen werden können. Um diese Frage zu beantworten, wird ein formaler Rahmen für Rabattsituationen angegeben und zur Analyse einer neuen Gruppe von acht Problemen, die auf alltäglichen Erfahrungen mit Rabattaktionen basieren, angewendet. Diese Probleme werden hinsichtlich der Rabattgrundlage (Stempel / Punkte), dem Kartentyp (Einzelkarte, Gruppenkarte) und der Frage, ob Stempel/Punkte für Käufe mit Rabatt gesammelt werden, unterschieden. Der inhärenten Planungsunsicherheit für Konsumentenentscheidungen wird explizit durch die Betrachtung jedes Problems als eine Onlinesituation Rechnung getragen. Für die Onlineprobleme wird eine zugeschnittene Methode zur Güteabschätzung präsentiert. Jedes der acht Probleme wird als Entscheidungs-, Optimierungs- und Onlineproblem analysiert. Für alle Entscheidungsprobleme wird NP-Vollständigkeit nachgewiesen. Jedes Optimierungsproblem wird mit ganzzahliger linearer Programmierung und einige stempelbasierte Probleme zusätzlich mit dynamischer Programmierung gelöst. Für die Onlineprobleme wird jeweils eine untere Güteschranke gezeigt und für drei Gruppen von Onlinealgorithmen die Güte abgeschätzt.:1. Einleitung
2. Vorbetrachtungen
3. Problemformulierung und Analysemethodik
4. Die Probleme im Detail
5. Zusammenfassung
6. Ausblick
A. Implementationen / A consumer is offered discounts in a variety of situations. The central question investigated in this dissertation is how to formalize such discount situations from a consumer perspective and what methods for deducing purchase decisions are possible. To answer this question a formal framework for discount situations is established and used to explore a new group of eight discount problems based on everyday experience with loyalty programs. These problems are distinguished by discount basis (stamps / points), card type (single / group) and whether stamps/-points are collectable if a discount is granted. The inherent uncertainty in consumer decisions is explicitly taken into account by considering each of these problems as an online situation as well. Regarding the online problems, a method for competitive analysis is presented. Each of the eight problems is examined as a decision, an optimization and an online problem. For all decision problems N P-completeness is shown.
Each optimization problem is solved via linear integer programming and some stamp based optimization problems are furthermore solved with dynamic programming. For each online problem a lower bound on the competitive ratio is presented together with three groups of online algorithms and the respective bounds on the competitive ratio.:1. Einleitung
2. Vorbetrachtungen
3. Problemformulierung und Analysemethodik
4. Die Probleme im Detail
5. Zusammenfassung
6. Ausblick
A. Implementationen
|
106 |
Model-based Integration of Past & Future in TimeTravelKhalefa, Mohamed E., Fischer, Ulrike, Pedersen, Torben Bach, Lehner, Wolfgang 10 January 2023 (has links)
We demonstrate TimeTravel, an efficient DBMS system for seamless integrated querying of past and (forecasted) future values of time series, allowing the user to view past and future values as one joint time series. This functionality is important for advanced application domain like energy. The main idea is to compactly represent time series as models. By using models, the TimeTravel system answers queries approximately on past and future data with error guarantees (absolute error and confidence) one order of magnitude faster than when accessing the time series directly. In addition, it efficiently supports exact historical queries by only accessing relevant portions of the time series. This is unlike existing approaches, which access the entire time series to exactly answer the query.
To realize this system, we propose a novel hierarchical model index structure. As real-world time series usually exhibits seasonal behavior, models in this index incorporate seasonality. To construct a hierarchical model index, the user specifies seasonality period, error guarantees levels, and a statistical forecast method. As time proceeds, the system incrementally updates the index and utilizes it to answer approximate and exact queries. TimeTravel is implemented into PostgreSQL, thus achieving complete user transparency at the query level. In the demo, we show the easy building of a hierarchical model index for a real-world time series and the effect of varying the error guarantees on the speed up of approximate and exact queries.
|
107 |
Top-k Entity Augmentation using Consistent Set CoveringEberius, Julian, Thiele, Maik, Braunschweig, Katrin, Lehner, Wolfgang 19 September 2022 (has links)
Entity augmentation is a query type in which, given a set of entities and a large corpus of possible data sources, the values of a missing attribute are to be retrieved. State of the art methods return a single result that, to cover all queried entities, is fused from a potentially large set of data sources. We argue that queries on large corpora of heterogeneous sources using information retrieval and automatic schema matching methods can not easily return a single result that the user can trust, especially if the result is composed from a large number of sources that user has to verify manually. We therefore propose to process these queries in a Top-k fashion, in which the system produces multiple minimal consistent solutions from which the user can choose to resolve the uncertainty of the data sources and methods used. In this paper, we introduce and formalize the problem of consistent, multi-solution set covering, and present algorithms based on a greedy and a genetic optimization approach. We then apply these algorithms to Web table-based entity augmentation. The publication further includes a Web table corpus with 100M tables, and a Web table retrieval and matching system in which these algorithms are implemented. Our experiments show that the consistency and minimality of the augmentation results can be improved using our set covering approach, without loss of precision or coverage and while producing multiple alternative query results.
|
108 |
Peer-to-Peer algorithms in wireless ad-hoc networks for Disaster ManagementGeibig, Joanna 06 May 2016 (has links)
In dieser Arbeit werden P2P-Algorithmen in ressourcen-limitierten und irregulären Wireless-ad-hoc-Netzwerken (WAHN) betrachtet, die effizient, skalierbar und fehlertolerant in Situationen arbeiten sollen, in denen eine räumlich benachbarte Gruppe von Netzwerkknoten simultan ausfällt. Es wird ein fehlertolerantes Replikationsschema zur datenzentrischen Speicherung betrachtet, und eine selbstorganisierende, skalierbare Berechnung von Datenaggregaten zur Lösung des Konsensproblems. Existierende P2P-Algorithmen die Skalierbarkeit, Fehlertoleranz und Selbstorganisation in drahtgebundenen Netzen betrachten sind für die Klasse des WAHNs nicht geeignet weil sie Engpässe in WAHNs verursachen können und in Katastrophenmanagement-szenarien die Zuverlässigkeit der Daten nicht sicherstellen können. Die Verwendung von Informationen der geographischen Position von Knoten ist ein möglicher Weg, um die Effizienz und Skalierbarkeit von P2P-Anwendungen in drahtlosen Netzwerken zu verbessern. In dieser Arbeit wird ein neuer Ansatz vorgestellt, wie auf effiziente Weise 1) Gebiet des Netzwerks, das die geographische Ausbreitung seiner Knoten umfasst, und 2) Gruppenzugehörigkeit, wobei jeder Knoten zu genau einer Gruppe innerhalb eines einstellbaren Gebietes gehört, erzeugt werden kann. Dadurch können: existierenden, skalierbare P2P Datenspeicheralgorithmen für WAHNs genutzt werden, effiziente, fehlertolerante Replikation erstellt werden, die Effizienz von geographischen Routing und der Suche nach Replikaten verbessert werden sowie, Anwendungen auf einen bestimmten geographischen Bereich innerhalb des WAHN beschränkt werden (z.B. im Aggregationsprotokoll). Die entwickelten Protokolle sind tolerant gegenüber Nachrichtenverlust und verwenden ausschließlich lokale Broadcast-Nachrichten. Das Protokoll wurde mit Simulationen untersucht, die auf realistischen Netzwerktopologien mit Anteilen an sehr spärlichen und sehr dichten Knotenansammlungen basieren. / This dissertation addresses the challenge of reaching efficiency, scalability and fault-tolerance by P2P algorithms for resource-limited and irregular wireless ad-hoc networks (WAHNs) in disaster management (DM) scenarios where a spatially correlated group of nodes may crash simultaneously. In particular, we consider a fault-tolerant replication scheme for data-centric storage and a self-organized, scalable calculation of localized data aggregates for solving the consensus problem. Existing Peer-to-Peer algorithms that address issues of scalability, fault tolerance and self-organization in wired networks are inadequate for the addressed systems, they may cause bottlenecks in WAHNs and use replication that abstracts from geographical location of replicas and cannot therefore supply data survivability in DM scenarios in WAHNs. Incorporating information on geographical location of nodes is a recognized way to increase the efficiency and scalability of P2P applications in wireless networks. This dissertation proposes to efficiently construct new position information in a location-aware WAHN, where each node knows its own location and location of its direct neighbors. The new information are: network area, which expresses the geographical area covered by the network, and group membership, where each node belongs to exactly one group that is placed over the area of a maximum defined size. Together, they enable the use of the existing, scalable P2P data store in WAHNs (Geographical Hash Table), allow design of efficient fault-tolerant replication for the assumed fault model, increase efficiency of geographic routing and replica search, and allow to limit the geographical extent of activity of any distributed application, as we show using an example of data aggregation protocol. Proposed protocols tolerate message loss and use local broadcast only. They are evaluated by simulation over irregular topologies following the node placement of the existing, large WAHNs.
|
109 |
Adaptive investment strategies for different scenariosBarrientos, Jesús Emeterio Navarro 20 September 2010 (has links)
Die folgende Arbeit befasst sich mit den Untersuchungen von Problemen der Optimierung von Ressourcen in Umgebungen mit unvorhersehbarem Verhalten, wo: (i) nicht alle Informationen verfügbar sind, und (ii) die Umgebung unbekannte zeitliche Veränderungen aufweist. Diese Dissertation ist folgendermaßen gegliedert: Teil I stellt das Investitionsmodell vor. Es wird sowohl eine analytische als auch eine numerische Analyse der Dynamik dieses Modells für feste Investitionsstrategien in verschiedenen zufälligen Umgebungen vorgestellt. In diesem Investitionsmodell hängt die Dynamik des Budgets des Agenten x(t) von der Zufälligkeit der exogenen Rendite r(t) ab, wofür verschiedene Annahmen diskutiert wurden. Die Heavy-tailed Verteilung des Budgets wurde numerisch untersucht und mit theoretischen Vorhersagen verglichen. In Teil II wurde ein Investitionsszenario mit stilisierten exogenen Renditen untersucht, das durch eine periodische Funktion mit verschiedenen Arten und Stärken von Rauschen charakterisiert ist. In diesem Szenario wurden unterschiedliche Strategien, Agenten-Verhalten und Agenten Fähigkeiten zur Vorhersage der zukünftigen r(t) untersucht. Hier wurden Null-intelligenz-Agenten, die über technischen Analysen verfügen, mit Agenten, die über genetischen Algorithmen verfügen, verglichen. Umfangreiche Ergebnisse von Computersimulationen wurden präsentiert, in denen nachgewiesen wurde, dass für exogene Renditen mit Periodizität: (i) das wagemutige das vorsichtige Verhalten überbietet, und (ii) die genetischen Algorithmen in der Lage sind, die optimalen Investitionsstrategien zu finden und deshalb die anderen Strategien überbieten. Obwohl der Schwerpunkt dieser Dissertation im Zusammenhang mit dem Gebiet der Informatik präsentiert wurde, können die hier vorgestellten Ergebnisse auch in Szenarien angewendet werden, in denen der Agent anderere Arten von Ressourcen steuern muss, wie z.B. Energie, Zeitverbrauch, erwartete Lebensdauer, etc. / The main goal of this PhD thesis is to investigate some of the problems related to optimization of resources in environments with unpredictable behavior where: (i) not all information is available and (ii) the environment presents unknown temporal changes. The investigations in this PhD thesis are divided in two parts: Part I presents the investment model and some analytical as well as numerical analysis of the dynamics of this model for fixed investment strategies in different random environments. In this investment model, the dynamics of the investor''s budget x(t) depend on the stochasticity of the exogenous return on investment r(t) for which different model assumptions are discussed. The fat-tail distribution of the budget is investigated numerically and compared with theoretical predictions. Part II investigates an investment scenario with stylized exogenous returns characterized by a periodic function with different types and levels of noise. In this scenario, different strategies, agent''s behaviors and agent''s capacities to predict the future r(t) are investigated. Here, ''zero-intelligent'' agents using technical analysis (such as moving least squares) are compared with agents using genetic algorithms to predict r(t). Results are presented for extensive computer simulations, which shows that for exogenous returns with periodicity: (i) the daring behavior outperforms the cautious behavior and (ii) the genetic algorithm is able to find the optimal investment strategy by itself, thus outperforming the other strategies considered. Finally, the investment model is extended to include the formation of common investment projects between agents. Although the main focus of this PhD thesis is more related to the area of computer science, the results presented here can be also applied to scenarios where the agent has to control other kinds of resources, such as energy, time consumption, expected life time, etc.
|
110 |
Learning Group Composition and Re-composition in Large-scale Online Learning ContextsZheng, Zhilin 27 September 2017 (has links)
Die Erforschung der Zusammenstellung kleiner Lerngruppen beschäftigt sich mit dem Problem, eine passende Gruppenzusammensetzung in einer Population von Lernern zu finden, die jeder Gruppe optimalen Nutzen bringen könnte. In letzter Zeit sind viele Studien zu diesem Problem der Kleingruppenzusammenstellung durchgeführt worden. Allerdings waren diese Forschungen nur selten auf den Kontext großer Lerner-Populationen ausgerichtet. Angesichts des zunehmenden Aufkommens von MOOCs muss jedoch das Problem der Gruppenzusammenstellung entsprechend erweitert betrachtet werden, und zwar mit neuen Forschungen, die den Kontext derartig großer Lerner-Populationen berücksichtigen. Anders als in Klassenzimmer-Settings könnte die beobachtete hohe Abbruchquote in MOOCs in einer Unterbesetzung der Gruppengröße resultieren und könnte somit viele Lerner dazu bringen, neue Gruppen zu bilden. Zusätzlich zur Gruppenzusammenstellung muss daher die Gruppenneuzusammenstellung als neues Thema in aktuellen Kontexten großer Lerner-Populationen ebenfalls erforscht werden.
Die Untersuchungen der vorliegenden Arbeit gliedern sich in zwei Teile. Der erste Teil beschäftigt sich mit Gruppenzusammenstellung. In diesem Teil stelle ich einen diskreten-PSO Algorithmus zur Zusammenstellung kleiner Lerngruppen vor und vergleiche bislang bestehende Gruppenzusammenstellungs-Algorithmen unter den Gesichtspunkten Zeitaufwand und Gruppierungsqualität. Um Gruppenzusammenstellung in MOOCs anzuwenden wurde ein Gruppenzusammenstellungsexperiment in einem MOOC durchgeführt. Die Hauptergebnisse deuten darauf hin, dass die Gruppenzusammenstellung die Abbruchsquote reduzieren kann, jedoch lediglich einen sehr schwachen Bezug zur Lernperformanz der Lerner aufweist. Der zweite Teil beschäftigt sich mit Gruppenneuzusammenstellung. Die vorliegende Arbeit stellt eine datengesteuerte Herangehensweise vor, die umfassenden Gebrauch von Gruppeninteraktionsdaten macht sowie Gruppendynamik mit einbezieht. Mittels einer in einem Simulationsexperiment durchgeführten Evaluation zeigen sich die Vorteile dieses Verfahrens: Der Lerngruppenzusammenhalt wird verbessert und die Abbruchsquote im Vergleich zu einer Zufallsverteilung reduziert. Darüberhinaus wurde hier ein Gruppen-Lern-Werkzeug entwickelt und für die Praxis vorbereitet, das die Anforderungen des geforderten Ansatzes der Gruppenneuzusammenstellung erfüllt. / Small learning group composition addresses the problem of seeking such matching among a population of students that it could bring each group optimal benefits. Recently, many studies have been conducted to address this small group composition problem. Nevertheless, the focus of such a body of research has rarely been cast to large-scale contexts. Due to the recent come of MOOCs, the topic of group composition needs to be accordingly extended with new investigations in such large learning contexts. Different from classroom settings, the reported high drop-out rate of MOOCs could result in group’s incompletion in size and thus might compel many students to compose new groups. Thus, in addition to group composition, group re-composition as a new topic needs to be studied in current large-scale learning contexts as well.
In this thesis, the research is structured in two stages. The first stage is group composition. In this part, I proposed a discrete-PSO algorithm to compose small learning groups and compared the existing group composition algorithms from the perspectives of time cost and grouping quality. To implement group composition in MOOCs, a group composition experiment was conducted in a MOOC. The main results indicate that group composition can reduce drop-out rate, yet has a very weak association with students’ learning performance. The second stage is to cope with group re-composition. This thesis suggests a data-driven approach that makes full use of group interaction data and accounts for group dynamics. Through evaluation in a simulation experiment, it shows its advantages of bringing us more cohesive learning groups and reducing the drop-out rate compared to a random condition. Apart from these, a group learning tool that fulfills the goals of the proposed group re-composition approach has been developed and is made ready for practice.
|
Page generated in 0.0488 seconds