1 |
Statistical approaches to enhance decision support in time series and causality problemsBokelmann, Björn 11 November 2024 (has links)
Prädiktive Modelle sind hilfreiche Mittel zur quantitativen Entscheidungsunterstützung von modernen Unternehmen. Jedoch gibt es in vielen Fällen statistische Probleme in den genutzten Daten, die eine wirkungsvolle Anwendung prädiktiver Modelle zur Entscheidungsunterstützung verhindern. In dieser Doktorarbeit werden solche häufig auftretenden statistischen Probleme analysiert und statistische Methoden werden vorgestellt, mit denen man diese Probleme überwinden und damit prädiktive Modellierung und Entscheidungsunterstützung wirkungsvoll machen kann. Der erste Teil der Arbeit behandelt das Problem von "Concept Drift" in Google Trends Zeitreihen. Die Doktorarbeit bietet eine empirische Analyse des Problems und einen Ansatz um die Daten zu bereinigen. Für den speziellen Anwendungsfall der Tourismusnachfragevorhersage in Deutschland demonstriert die Arbeit empirisch den Nutzen der Bereinigungsmethode. Der zweite Teil der Arbeit setzt sich mit Experimenten und Modellen zur Schätzung von heterogenen Behandlungseffekten von Individuen auseinander. In solchen Anwendungen stellt Rauschen (Noise) in den Daten eine statistische Herausforderung dar, die zu einer hohen benötigten Fallzahl im Experiment und unerwarteten negativen Folgen bei der anschließenden selektiven Vergabe der Behandlung führen kann. Um diese Probleme zu überwinden entwickelt die Arbeit Methoden um Experimente mit einer kleineren Fallzahl durchzuführen, ohne Einbußen in der Qualität der Ergebnisse zu erleiden. Darüber hinaus analysiert die Arbeit die potenziell negativen Folgen von Noise auf die selektive Behandlungsvergabe und schlägt Ideen vor, wie man diese verhindern kann. / Predictive models are useful methods for quantitative decision support in contemporary business. However, often there are statistical problems in the data sets, hindering effective predictive modeling and decision support. This thesis analyzes such frequently occurring statistical problems and provides statistical approaches to overcome them and thereby enable efficient predictive modeling and decision support. The first part of the thesis focuses on concept drift in Google Trends time series data. The thesis provides an empirical analysis of the problem and an approach to sanitize the data. For the specific use case of tourism demand forecasting in Germany, the thesis demonstrates the usefulness of the statistical approach. The second part of the thesis focuses on experiments and models to estimate heterogeneous treatment effects of individuals. In such applications, noise in the data poses a statistical challenge, leading to high requirements in the sample size for randomized experiments and potentially leading to unexpected negative results in the treatment allocation process. To overcome this problem, the thesis proposes methods to conduct experiments with a limited number of individuals, without impairing the decision support. Moreover, the thesis analyzes the potential adverse effects of noise on the treatment allocation process and provides ideas on how to prevent them.
|
2 |
Dynamic Clustering and Visualization of Smart Data via D3-3D-LSA / with Applications for QuantNet 2.0 and GitHubBorke, Lukas 08 September 2017 (has links)
Mit der wachsenden Popularität von GitHub, dem größten Online-Anbieter von Programm-Quellcode und der größten Kollaborationsplattform der Welt, hat es sich zu einer Big-Data-Ressource entfaltet, die eine Vielfalt von Open-Source-Repositorien (OSR) anbietet. Gegenwärtig gibt es auf GitHub mehr als eine Million Organisationen, darunter solche wie Google, Facebook, Twitter, Yahoo, CRAN, RStudio, D3, Plotly und viele mehr. GitHub verfügt über eine umfassende REST API, die es Forschern ermöglicht, wertvolle Informationen über die Entwicklungszyklen von Software und Forschung abzurufen. Unsere Arbeit verfolgt zwei Hauptziele: (I) ein automatisches OSR-Kategorisierungssystem für Data Science Teams und Softwareentwickler zu ermöglichen, das Entdeckbarkeit, Technologietransfer und Koexistenz fördert. (II) Visuelle Daten-Exploration und thematisch strukturierte Navigation innerhalb von GitHub-Organisationen für reproduzierbare Kooperationsforschung und Web-Applikationen zu etablieren. Um Mehrwert aus Big Data zu generieren, ist die Speicherung und Verarbeitung der Datensemantik und Metadaten essenziell. Ferner ist die Wahl eines geeigneten Text Mining (TM) Modells von Bedeutung. Die dynamische Kalibrierung der Metadaten-Konfigurationen, TM Modelle (VSM, GVSM, LSA), Clustering-Methoden und Clustering-Qualitätsindizes wird als "Smart Clusterization" abgekürzt. Data-Driven Documents (D3) und Three.js (3D) sind JavaScript-Bibliotheken, um dynamische, interaktive Datenvisualisierung zu erzeugen. Beide Techniken erlauben Visuelles Data Mining (VDM) in Webbrowsern, und werden als D3-3D abgekürzt. Latent Semantic Analysis (LSA) misst semantische Information durch Kontingenzanalyse des Textkorpus. Ihre Eigenschaften und Anwendbarkeit für Big-Data-Analytik werden demonstriert. "Smart clusterization", kombiniert mit den dynamischen VDM-Möglichkeiten von D3-3D, wird unter dem Begriff "Dynamic Clustering and Visualization of Smart Data via D3-3D-LSA" zusammengefasst. / With the growing popularity of GitHub, the largest host of source code and collaboration platform in the world, it has evolved to a Big Data resource offering a variety of Open Source repositories (OSR). At present, there are more than one million organizations on GitHub, among them Google, Facebook, Twitter, Yahoo, CRAN, RStudio, D3, Plotly and many more. GitHub provides an extensive REST API, which enables scientists to retrieve valuable information about the software and research development life cycles. Our research pursues two main objectives: (I) provide an automatic OSR categorization system for data science teams and software developers promoting discoverability, technology transfer and coexistence; (II) establish visual data exploration and topic driven navigation of GitHub organizations for collaborative reproducible research and web deployment. To transform Big Data into value, in other words into Smart Data, storing and processing of the data semantics and metadata is essential. Further, the choice of an adequate text mining (TM) model is important. The dynamic calibration of metadata configurations, TM models (VSM, GVSM, LSA), clustering methods and clustering quality indices will be shortened as "smart clusterization". Data-Driven Documents (D3) and Three.js (3D) are JavaScript libraries for producing dynamic, interactive data visualizations, featuring hardware acceleration for rendering complex 2D or 3D computer animations of large data sets. Both techniques enable visual data mining (VDM) in web browsers, and will be abbreviated as D3-3D. Latent Semantic Analysis (LSA) measures semantic information through co-occurrence analysis in the text corpus. Its properties and applicability for Big Data analytics will be demonstrated. "Smart clusterization" combined with the dynamic VDM capabilities of D3-3D will be summarized under the term "Dynamic Clustering and Visualization of Smart Data via D3-3D-LSA".
|
Page generated in 0.021 seconds