• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 240
  • 96
  • 14
  • 2
  • Tagged with
  • 351
  • 304
  • 229
  • 188
  • 181
  • 141
  • 130
  • 130
  • 76
  • 53
  • 42
  • 37
  • 36
  • 35
  • 33
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Model Learning for Performance Prediction of Cloud-native Microservice Applications / Lernen von Modellen für die Performancevorhersage von Cloud-nativen Microservice Anwendungen

Grohmann, Johannes Sebastian January 2022 (has links) (PDF)
One consequence of the recent coronavirus pandemic is increased demand and use of online services around the globe. At the same time, performance requirements for modern technologies are becoming more stringent as users become accustomed to higher standards. These increased performance and availability requirements, coupled with the unpredictable usage growth, are driving an increasing proportion of applications to run on public cloud platforms as they promise better scalability and reliability. With data centers already responsible for about one percent of the world's power consumption, optimizing resource usage is of paramount importance. Simultaneously, meeting the increasing and changing resource and performance requirements is only possible by optimizing resource management without introducing additional overhead. This requires the research and development of new modeling approaches to understand the behavior of running applications with minimal information. However, the emergence of modern software paradigms makes it increasingly difficult to derive such models and renders previous performance modeling techniques infeasible. Modern cloud applications are often deployed as a collection of fine-grained and interconnected components called microservices. Microservice architectures offer massive benefits but also have broad implications for the performance characteristics of the respective systems. In addition, the microservices paradigm is typically paired with a DevOps culture, resulting in frequent application and deployment changes. Such applications are often referred to as cloud-native applications. In summary, the increasing use of ever-changing cloud-hosted microservice applications introduces a number of unique challenges for modeling the performance of modern applications. These include the amount, type, and structure of monitoring data, frequent behavioral changes, or infrastructure variabilities. This violates common assumptions of the state of the art and opens a research gap for our work. In this thesis, we present five techniques for automated learning of performance models for cloud-native software systems. We achieve this by combining machine learning with traditional performance modeling techniques. Unlike previous work, our focus is on cloud-hosted and continuously evolving microservice architectures, so-called cloud-native applications. Therefore, our contributions aim to solve the above challenges to deliver automated performance models with minimal computational overhead and no manual intervention. Depending on the cloud computing model, privacy agreements, or monitoring capabilities of each platform, we identify different scenarios where performance modeling, prediction, and optimization techniques can provide great benefits. Specifically, the contributions of this thesis are as follows: Monitorless: Application-agnostic prediction of performance degradations. To manage application performance with only platform-level monitoring, we propose Monitorless, the first truly application-independent approach to detecting performance degradation. We use machine learning to bridge the gap between platform-level monitoring and application-specific measurements, eliminating the need for application-level monitoring. Monitorless creates a single and holistic resource saturation model that can be used for heterogeneous and untrained applications. Results show that Monitorless infers resource-based performance degradation with 97% accuracy. Moreover, it can achieve similar performance to typical autoscaling solutions, despite using less monitoring information. SuanMing: Predicting performance degradation using tracing. We introduce SuanMing to mitigate performance issues before they impact the user experience. This contribution is applied in scenarios where tracing tools enable application-level monitoring. SuanMing predicts explainable causes of expected performance degradations and prevents performance degradations before they occur. Evaluation results show that SuanMing can predict and pinpoint future performance degradations with an accuracy of over 90%. SARDE: Continuous and autonomous estimation of resource demands. We present SARDE to learn application models for highly variable application deployments. This contribution focuses on the continuous estimation of application resource demands, a key parameter of performance models. SARDE represents an autonomous ensemble estimation technique. It dynamically and continuously optimizes, selects, and executes an ensemble of approaches to estimate resource demands in response to changes in the application or its environment. Through continuous online adaptation, SARDE efficiently achieves an average resource demand estimation error of 15.96% in our evaluation. DepIC: Learning parametric dependencies from monitoring data. DepIC utilizes feature selection techniques in combination with an ensemble regression approach to automatically identify and characterize parametric dependencies. Although parametric dependencies can massively improve the accuracy of performance models, DepIC is the first approach to automatically learn such parametric dependencies from passive monitoring data streams. Our evaluation shows that DepIC achieves 91.7% precision in identifying dependencies and reduces the characterization prediction error by 30% compared to the best individual approach. Baloo: Modeling the configuration space of databases. To study the impact of different configurations within distributed DBMSs, we introduce Baloo. Our last contribution models the configuration space of databases considering measurement variabilities in the cloud. More specifically, Baloo dynamically estimates the required benchmarking measurements and automatically builds a configuration space model of a given DBMS. Our evaluation of Baloo on a dataset consisting of 900 configuration points shows that the framework achieves a prediction error of less than 11% while saving up to 80% of the measurement effort. Although the contributions themselves are orthogonally aligned, taken together they provide a holistic approach to performance management of modern cloud-native microservice applications. Our contributions are a significant step forward as they specifically target novel and cloud-native software development and operation paradigms, surpassing the capabilities and limitations of previous approaches. In addition, the research presented in this paper also has a significant impact on the industry, as the contributions were developed in collaboration with research teams from Nokia Bell Labs, Huawei, and Google. Overall, our solutions open up new possibilities for managing and optimizing cloud applications and improve cost and energy efficiency. / Eine der Folgen der weltweiten Coronavirus-Pandemie ist die erhöhte Nachfrage und Nutzung von Onlinediensten in der gesamten Welt. Gleichzeitig werden die Performanceanforderungen an moderne Technologien immer strenger, da die Benutzer an höhere Standards gewöhnt sind. Diese gestiegenen Performance- und Verfügbarkeitsanforderungen, gepaart mit dem unvorhersehbaren Nutzerwachstum, führen dazu, dass ein zunehmender Anteil der Anwendungen auf Public-Cloud-Plattformen läuft, da diese eine bessere Skalierbarkeit und Zuverlässigkeit versprechen. Da Rechenzentren bereits heute für etwa ein Prozent des weltweiten Stromverbrauchs verantwortlich sind, ist es von größter Bedeutung, den Ressourceneinsatz zu optimieren. Die gleichzeitige Erfüllung der steigenden und variierenden Ressourcen- und Performanceanforderungen ist nur durch eine Optimierung des Ressourcenmanagements möglich, ohne gleichzeitig zusätzlichen Overhead einzuführen. Dies erfordert die Erforschung und Entwicklung neuer Modellierungsansätze, um das Verhalten der laufenden Anwendungen mit möglichst wenigen Informationen zu verstehen. Das Aufkommen moderner Softwareparadigmen macht es jedoch zunehmend schwieriger, solche Modelle zu lernen und macht bisherige Modellierungstechniken unbrauchbar. Moderne Cloud-Anwendungen werden oft als eine Sammlung von feingranularen, miteinander verbundenen Komponenten, sogenannten Microservices, bereitgestellt. Microservicearchitekturen bieten massive Vorteile, haben aber auch weitreichende Auswirkungen auf die Performance der jeweiligen Systeme. Darüber hinaus wird das Microserviceparadigma häufig in Verbindung mit einer DevOps-Kultur eingesetzt, was zu häufigen Änderungen am Deployment oder der Anwendung selbst führt. Solche Anwendungen werden auch als cloud-native Anwendungen bezeichnet. Zusammenfassend lässt sich sagen, dass der zunehmende Einsatz von sich ständig ändernden und in der Cloud gehosteten Microservice-Anwendungen eine Reihe von besonderen Herausforderungen für die Modellierung der Performance von modernen Anwendungen mit sich bringt. Darunter sind die Menge, Art und Struktur der Monitoringdaten, häufige Änderungen am Verhalten oder Veränderungen der zugrundeliegenden Infrastruktur. Das verstößt gegen gängige Annahmen des aktuellen Stands der Technik und eröffnet eine Forschungslücke für unsere Arbeit. In der vorliegenden Arbeit stellen wir fünf Techniken zum automatisierten Lernen von Performancemodellen für cloud-native Softwaresysteme vor. Wir erreichen dies durch die Kombination von maschinellem Lernen mit traditionellen Performance-Modellierungstechniken. Im Gegensatz zu früheren Arbeiten liegt unser Fokus auf in der Cloud gehosteten und sich ständig weiterentwickelnden Microservice-Architekturen, sogenannten cloud-nativen Anwendungen. Daher zielen unsere Beiträge darauf ab, die oben genannten Herausforderungen zu lösen, um automatisierte Performancemodelle mit minimalem Rechenaufwand und ohne manuellen Aufwand zu erzeugen. Abhängig vom jeweiligen Cloudmodell, eventuellen Datenschutzvereinbarungen oder den Möglichkeiten des Monitoringsframworks der jeweiligen Plattform, identifizieren wir verschiedene Anwendungsszenarien, in denen Techniken zur Modellierung, Vorhersage und Optimierung der Performance große Vorteile bieten können. Im Einzelnen sind die Beiträge dieser Arbeit wie folgt: Monitorless: Anwendungsagnostische Vorhersage von Performanceverschlechterung. Um die Performance einer Anwendung ausschliesslich mittels Monitoring auf Plattformebene zu verwalten, schlagen wir Monitorless vor, den ersten wirklich anwendungsunabhängigen Ansatz zur Erkennung von Performanceverschlechterungen. Wir verwenden maschinelles Lernen, um die Lücke zwischen Monitoring auf Plattformebene und anwendungsspezifischen Messungen zu schließen, wodurch das Monitoring auf Anwendungsebene überflüssig wird. Monitorless erstellt ein einziges und ganzheitliches Modell der Ressourcensättigung, das auch für heterogene und nicht im Training enthaltene Anwendungen verwendet werden kann. Die Ergebnisse zeigen, dass Monitorless ressourcenbasierte Performanceverschlechterungen mit einer Genauigkeit von 97% erkennt. Darüber hinaus zeigt es ähnliche Leistungen wie typische Autoscalinglösungen, obwohl es weniger Monitoringinformationen verwendet. SuanMing: Vorhersage von Performanceverschlechterung mithilfe von Tracing. Wir führen SuanMing ein, um Performanceprobleme zu entschärfen, bevor sie sich auf das Benutzererlebnis auswirken. Dieser Beitrag wird in Szenarien angewendet, in denen Tracing-Tools das Monitoring auf Anwendungsebene ermöglichen. SuanMing sagt erklärbare Ursachen für erwartete Performanceeinbußen voraus und verhindert diese, bevor sie auftreten. Evaluationsergebnisse zeigen, dass SuanMing zukünftige Performanceeinbußen mit einer Genauigkeit von über 90% vorhersagen und lokalisieren kann. SARDE: Kontinuierliche und autonome Schätzung des Ressourcenbedarfs. Wir stellen SARDE vor, um Performancemodelle für hochvariable Anwendungen zu lernen. Dieser Beitrag konzentriert sich auf die kontinuierliche Schätzung des Ressourcenbedarfs von Anwendungen, einem wichtigen Parameter in Performancemodellen. SARDE ist ein autonomes Ensembleverfahren zum Schätzen. Es wählt dynamisch und kontinuierlich aus einem Ensemble von Ansätzen, optimiiert diese, und führt sie aus, um den Ressourcenbedarf als Reaktion auf Änderungen in der Anwendung oder ihrer Umgebung zu schätzen. Durch kontinuierliche Online-Anpassung erreicht SARDE in unserer Evaluation effizient einen durchschnittlichen Fehler bei der Schätzung des Ressourcenbedarfs von 15,96%. DepIC: Lernen parametrischer Abhängigkeiten aus Monitoringdaten. DepIC nutzt Techniken zu Featureauswahl in Kombination mit einem Ensemble-Regressionsansatz, um parametrische Abhängigkeiten automatisch zu identifizieren und zu charakterisieren. Obwohl parametrische Abhängigkeiten die Genauigkeit von Performancemodellen deutlich verbessern können, ist DepIC der erste Ansatz, der solche parametrischen Abhängigkeiten automatisch aus passiven Monitoringdatenströmen lernt. Unsere Evaluation zeigt, dass DepIC eine Genauigkeit von 91,7% bei der Identifizierung von Abhängigkeiten erreicht und den Fehler bei der Charakterisierungsvorhersage um 30% im Vergleich zum besten individuellen Ansatz reduziert. Baloo: Modellierung des Konfigurationsraums von Datenbanken. Um die Auswirkungen verschiedener Konfigurationseinstellungen in verteilten Datenbankmanagementsystemen zu untersuchen, führen wir Baloo ein. Unser letzter Beitrag modelliert den Konfigurationsraum von Datenbanken unter Berücksichtigung der Messungsvariabilitäten der Cloud. Genauer gesagt, schätzt Baloo dynamisch die erforderliche Anzahl der Benchmarkmessungen und baut automatisch ein Konfigurationsraummodell eines gegebenen Datenbankmanagementsystems auf. Unsere Evaluation von Baloo auf einem aus 900 Konfigurationspunkten bestehenden Datensatz zeigt, dass das Framework einen Vorhersagefehler von weniger als 11% erreicht und gleichzeitig bis zu 80% des Messaufwands einspart. Obwohl die Beiträge an sich orthogonal zueinander ausgerichtet sind, bilden sie zusammengenommen einen ganzheitlichen Ansatz für das Performancemanagement von modernen cloud-nativen Microservice-Anwendungen. Unsere Beiträge sind ein bedeutender Schritt, da sie speziell auf neuartige und cloud-native Paradigmen für Softwareentwicklung und Betrieb abzielen, sowie die Fähigkeiten bisheriger Ansätze übertreffen. Darüber hinaus hat die in dieser Arbeit vorgestellte Forschung auch einen bedeutenden Einfluss auf die Industrie, da die Beiträge in Zusammenarbeit mit Forschungsteams von Nokia Bell Labs, Huawei und Google entwickelt wurden. Insgesamt eröffnen unsere Lösungen neue Möglichkeiten für die Verwaltung und Optimierung von Cloudanwendungen und verbessern so die Kosten- und Energieeffizienz.
92

Design and Evaluation of Data-Driven Enterprise Process Monitoring Systems / Design und Evaluation von datengetriebenen Prozess Überwachungssystemen in Unternehmen

Oberdorf, Felix January 2022 (has links) (PDF)
Increasing global competition forces organizations to improve their processes to gain a competitive advantage. In the manufacturing sector, this is facilitated through tremendous digital transformation. Fundamental components in such digitalized environments are process-aware information systems that record the execution of business processes, assist in process automation, and unlock the potential to analyze processes. However, most enterprise information systems focus on informational aspects, process automation, or data collection but do not tap into predictive or prescriptive analytics to foster data-driven decision-making. Therefore, this dissertation is set out to investigate the design of analytics-enabled information systems in five independent parts, which step-wise introduce analytics capabilities and assess potential opportunities for process improvement in real-world scenarios. To set up and extend analytics-enabled information systems, an essential prerequisite is identifying success factors, which we identify in the context of process mining as a descriptive analytics technique. We combine an established process mining framework and a success model to provide a structured approach for assessing success factors and identifying challenges, motivations, and perceived business value of process mining from employees across organizations as well as process mining experts and consultants. We extend the existing success model and provide lessons for business value generation through process mining based on the derived findings. To assist the realization of process mining enabled business value, we design an artifact for context-aware process mining. The artifact combines standard process logs with additional context information to assist the automated identification of process realization paths associated with specific context events. Yet, realizing business value is a challenging task, as transforming processes based on informational insights is time-consuming. To overcome this, we showcase the development of a predictive process monitoring system for disruption handling in a production environment. The system leverages state-of-the-art machine learning algorithms for disruption type classification and duration prediction. It combines the algorithms with additional organizational data sources and a simple assignment procedure to assist the disruption handling process. The design of such a system and analytics models is a challenging task, which we address by engineering a five-phase method for predictive end-to-end enterprise process network monitoring leveraging multi-headed deep neural networks. The method facilitates the integration of heterogeneous data sources through dedicated neural network input heads, which are concatenated for a prediction. An evaluation based on a real-world use-case highlights the superior performance of the resulting multi-headed network. Even the improved model performance provides no perfect results, and thus decisions about assigning agents to solve disruptions have to be made under uncertainty. Mathematical models can assist here, but due to complex real-world conditions, the number of potential scenarios massively increases and limits the solution of assignment models. To overcome this and tap into the potential of prescriptive process monitoring systems, we set out a data-driven approximate dynamic stochastic programming approach, which incorporates multiple uncertainties for an assignment decision. The resulting model has significant performance improvement and ultimately highlights the particular importance of analytics-enabled information systems for organizational process improvement. / Der zunehmende globale Wettbewerb zwingt Unternehmen zur Verbesserung ihrer Prozesse, um sich dadurch einen Wettbewerbsvorteil zu verschaffen. In der Fertigungsindustrie wird das durch die die digitale Transformation unterstützt. Grundlegende Komponenten in den entstehenden digitalisierten Umgebungen sind prozessorientierte Informationssysteme, die die Ausführung von Geschäftsprozessen aufzeichnen, bei der Prozessautomatisierung unterstützen und wiederum Potenzial zur Prozessanalyse freisetzen. Die meisten Informationssysteme in Unternehmen konzentrieren sich jedoch auf die Anzeige von Informationen, Prozessautomatisierung oder Datenerfassung, nutzen aber keine predictive analytics oder prescriptive analytics, um datengetriebene Entscheidungen zu unterstützen. Daher wird in dieser Dissertation der Aufbau von analytics-enabled Informationssystemen in fünf unabhängigen Teilen untersucht, die schrittweise analytische Methoden einführen und potenzielle Möglichkeiten zur Prozessverbesserung in realen Szenarien bewerten. Eine wesentliche Voraussetzung für den Auf- und Ausbau von analytics-enabled Informationssystemen ist die Identifikation von Erfolgsfaktoren, die wir im Kontext von Process Mining als deskriptive Methode untersuchen. Wir kombinieren einen etablierten Process Mining Framework und ein Process Mining Erfolgsmodell, um einen strukturierten Ansatz zur Bewertung von Erfolgsfaktoren zu ermöglichen, den wir aufbauend zur Identifizierung von Herausforderungen, Motivationen und des wahrgenommenen Mehrwerts (engl. Business Value) von Process Mining durch Mitarbeiter in Organisationen und Process Mining Experten nutzen. Auf Grundlage der gewonnenen Erkenntnisse erweitern wir das bestehende Erfolgsmodell und leiten Implikationen für die Generierung von Business Value durch Process Mining ab. Um die Realisierung des durch Process Mining ermöglichten Business Value zu unterstützen, entwickeln wir ein Artefakt für kontextbezogenes Process Mining. Das Artefakt kombiniert standard Prozessdaten mit zusätzlichen Kontextinformationen, um die automatische Identifizierung von Prozesspfaden, die mit den Kontextereignissen in Verbindung gebracht werden, zu unterstützen. Die entsprechende Realisierung ist jedoch eine herausfordernde Aufgabe, da die Transformation von Prozessen auf der Grundlage von Informationserkenntnissen zeitaufwendig ist. Um dies zu überwinden, stellen wir die Entwicklung eines predictive process monitoring Systems zur Automatisierung des Störungsmanagements in einer Produktionsumgebung vor. Das System nutzt etablierte Algorithmen des maschinellen Lernens zur Klassifizierung von Störungsarten und zur Vorhersage der Störungsdauer. Es kombiniert die Algorithmen mit zusätzlichen Datenquellen und einem einfachen Zuweisungsverfahren, um den Prozess der Störungsbearbeitung zu unterstützen. Die Entwicklung eines solchen Systems und entsprechender Modelle ist eine anspruchsvolle Aufgabe, die wir durch die Entwicklung einer Fünf-Phasen-Methode für predictive end-to-end process monitoring von Unternehmensprozessen unter Verwendung von multi-headed neural networks adressieren. Die Methode erleichtert die Integration heterogener Datenquellen durch dedizierte Modelle, die für eine Vorhersage kombiniert werden. Die Evaluation eines realen Anwendungsfalls unterstreicht die Kompetitivität des eines aus der entwickelten Methode resultierenden Modells. Allerdings sind auch die Ergebnisse des verbesserten Modells nicht perfekt. Somit muss die Entscheidung über die Zuweisung von Agenten zur Lösung von Störungen unter Unsicherheit getroffen werden. Dazu können zwar mathematische Modelle genutzt werden, allerdings steigt die Anzahl der möglichen Szenarien durch komplexe reale Bedingungen stark an und limitiert die Lösung mathematischer Modelle. Um dies zu überwinden und das Potenzial eines prescriptive process monitoring Systems zu beleuchten, haben wir einen datengetriebenen Ansatz zur Approximation eines dynamischen stochastischen Problems entwickelt, der mehrere Unsicherheiten bei der Zuweisung der Agenten berücksichtigt. Das resultierende Modell hat eine signifikant bessere Leistung und unterstreicht letztlich die besondere Bedeutung von analytics-enabled Informationssystemen für die Verbesserung von Organisationsprozessen.
93

Variational networks in magnetic resonance imaging - Application to spiral cardiac MRI and investigations on image quality / Variational Networks in der Magnetresonanztomographie - Anwendung auf spirale Herzbildgebung und Untersuchungen zur Bildqualität

Kleineisel, Jonas January 2024 (has links) (PDF)
Acceleration is a central aim of clinical and technical research in magnetic resonance imaging (MRI) today, with the potential to increase robustness, accessibility and patient comfort, reduce cost, and enable entirely new kinds of examinations. A key component in this endeavor is image reconstruction, as most modern approaches build on advanced signal and image processing. Here, deep learning (DL)-based methods have recently shown considerable potential, with numerous publications demonstrating benefits for MRI reconstruction. However, these methods often come at the cost of an increased risk for subtle yet critical errors. Therefore, the aim of this thesis is to advance DL-based MRI reconstruction, while ensuring high quality and fidelity with measured data. A network architecture specifically suited for this purpose is the variational network (VN). To investigate the benefits these can bring to non-Cartesian cardiac imaging, the first part presents an application of VNs, which were specifically adapted to the reconstruction of accelerated spiral acquisitions. The proposed method is compared to a segmented exam, a U-Net and a compressed sensing (CS) model using qualitative and quantitative measures. While the U-Net performed poorly, the VN as well as the CS reconstruction showed good output quality. In functional cardiac imaging, the proposed real-time method with VN reconstruction substantially accelerates examinations over the gold-standard, from over 10 to just 1 minute. Clinical parameters agreed on average. Generally in MRI reconstruction, the assessment of image quality is complex, in particular for modern non-linear methods. Therefore, advanced techniques for precise evaluation of quality were subsequently demonstrated. With two distinct methods, resolution and amplification or suppression of noise are quantified locally in each pixel of a reconstruction. Using these, local maps of resolution and noise in parallel imaging (GRAPPA), CS, U-Net and VN reconstructions were determined for MR images of the brain. In the tested images, GRAPPA delivers uniform and ideal resolution, but amplifies noise noticeably. The other methods adapt their behavior to image structure, where different levels of local blurring were observed at edges compared to homogeneous areas, and noise was suppressed except at edges. Overall, VNs were found to combine a number of advantageous properties, including a good trade-off between resolution and noise, fast reconstruction times, and high overall image quality and fidelity of the produced output. Therefore, this network architecture seems highly promising for MRI reconstruction. / Eine Beschleunigung des Bildgebungsprozesses ist heute ein wichtiges Ziel von klinischer und technischer Forschung in der Magnetresonanztomographie (MRT). Dadurch könnten Robustheit, Verfügbarkeit und Patientenkomfort erhöht, Kosten gesenkt und ganz neue Arten von Untersuchungen möglich gemacht werden. Da sich die meisten modernen Ansätze hierfür auf eine fortgeschrittene Signal- und Bildverarbeitung stützen, ist die Bildrekonstruktion ein zentraler Baustein. In diesem Bereich haben Deep Learning (DL)-basierte Methoden in der jüngeren Vergangenheit bemerkenswertes Potenzial gezeigt und eine Vielzahl an Publikationen konnte deren Nutzen in der MRT-Rekonstruktion feststellen. Allerdings besteht dabei das Risiko von subtilen und doch kritischen Fehlern. Daher ist das Ziel dieser Arbeit, die DL-basierte MRT-Rekonstruktion weiterzuentwickeln, während gleichzeitig hohe Bildqualität und Treue der erzeugten Bilder mit den gemessenen Daten gewährleistet wird. Eine Netzwerkarchitektur, die dafür besonders geeignet ist, ist das Variational Network (VN). Um den Nutzen dieser Netzwerke für nicht-kartesische Herzbildgebung zu untersuchen, beschreibt der erste Teil dieser Arbeit eine Anwendung von VNs, welche spezifisch für die Rekonstruktion von beschleunigten Akquisitionen mit spiralen Auslesetrajektorien angepasst wurden. Die vorgeschlagene Methode wird mit einer segmentierten Rekonstruktion, einem U-Net, und einem Compressed Sensing (CS)-Modell anhand von qualitativen und quantitativen Metriken verglichen. Während das U-Net schlecht abschneidet, zeigen die VN- und CS-Methoden eine gute Bildqualität. In der funktionalen Herzbildgebung beschleunigt die vorgeschlagene Echtzeit-Methode mit VN-Rekonstruktion die Aufnahme gegenüber dem Goldstandard wesentlich, von etwa zehn zu nur einer Minute. Klinische Parameter stimmen im Mittel überein. Die Bewertung von Bildqualität in der MRT-Rekonstruktion ist im Allgemeinen komplex, vor allem für moderne, nichtlineare Methoden. Daher wurden anschließend forgeschrittene Techniken zur präsizen Analyse von Bildqualität demonstriert. Mit zwei separaten Methoden wurde einerseits die Auflösung und andererseits die Verstärkung oder Unterdrückung von Rauschen in jedem Pixel eines untersuchten Bildes lokal quantifiziert. Damit wurden lokale Karten von Auflösung und Rauschen in Rekonstruktionen durch Parallele Bildgebung (GRAPPA), CS, U-Net und VN für MR-Aufnahmen des Gehirns berechnet. In den untersuchten Bildern zeigte GRAPPA gleichmäßig eine ideale Auflösung, aber merkliche Rauschverstärkung. Die anderen Methoden verhalten sich lokal unterschiedlich je nach Struktur des untersuchten Bildes. Die gemessene lokale Unschärfe unterschied sich an den Kanten gegenüber homogenen Bildbereichen, und Rauschen wurde überall außer an Kanten unterdrückt. Insgesamt wurde für VNs eine Kombination von verschiedenen günstigen Eigenschaften festgestellt, unter anderem ein guter Kompromiss zwischen Auflösung und Rauschen, schnelle Laufzeit, und hohe Qualität und Datentreue der erzeugten Bilder. Daher erscheint diese Netzwerkarchitektur als ein äußerst vielversprechender Ansatz für MRT-Rekonstruktion.
94

Machine Learning Explainability on Multi-Modal Data using Ecological Momentary Assessments in the Medical Domain / Erklärbarkeit von maschinellem Lernen unter Verwendung multi-modaler Daten und Ecological Momentary Assessments im medizinischen Sektor

Allgaier, Johannes January 2024 (has links) (PDF)
Introduction. Mobile health (mHealth) integrates mobile devices into healthcare, enabling remote monitoring, data collection, and personalized interventions. Machine Learning (ML), a subfield of Artificial Intelligence (AI), can use mHealth data to confirm or extend domain knowledge by finding associations within the data, i.e., with the goal of improving healthcare decisions. In this work, two data collection techniques were used for mHealth data fed into ML systems: Mobile Crowdsensing (MCS), which is a collaborative data gathering approach, and Ecological Momentary Assessments (EMA), which capture real-time individual experiences within the individual’s common environments using questionnaires and sensors. We collected EMA and MCS data on tinnitus and COVID-19. About 15 % of the world’s population suffers from tinnitus. Materials & Methods. This thesis investigates the challenges of ML systems when using MCS and EMA data. It asks: How can ML confirm or broad domain knowledge? Domain knowledge refers to expertise and understanding in a specific field, gained through experience and education. Are ML systems always superior to simple heuristics and if yes, how can one reach explainable AI (XAI) in the presence of mHealth data? An XAI method enables a human to understand why a model makes certain predictions. Finally, which guidelines can be beneficial for the use of ML within the mHealth domain? In tinnitus research, ML discerns gender, temperature, and season-related variations among patients. In the realm of COVID-19, we collaboratively designed a COVID-19 check app for public education, incorporating EMA data to offer informative feedback on COVID-19-related matters. This thesis uses seven EMA datasets with more than 250,000 assessments. Our analyses revealed a set of challenges: App user over-representation, time gaps, identity ambiguity, and operating system specific rounding errors, among others. Our systematic review of 450 medical studies assessed prior utilization of XAI methods. Results. ML models predict gender and tinnitus perception, validating gender-linked tinnitus disparities. Using season and temperature to predict tinnitus shows the association of these variables with tinnitus. Multiple assessments of one app user can constitute a group. Neglecting these groups in data sets leads to model overfitting. In select instances, heuristics outperform ML models, highlighting the need for domain expert consultation to unveil hidden groups or find simple heuristics. Conclusion. This thesis suggests guidelines for mHealth related data analyses and improves estimates for ML performance. Close communication with medical domain experts to identify latent user subsets and incremental benefits of ML is essential. / Einleitung. Unter Mobile Health (mHealth) versteht man die Nutzung mobiler Geräte wie Handys zur Unterstützung der Gesundheitsversorgung. So können Ärzt:innen z. B. Gesundheitsinformationen sammeln, die Gesundheit aus der Ferne überwachen, sowie personalisierte Behandlungen anbieten. Man kann maschinelles Lernen (ML) als System nutzen, um aus diesen Gesundheitsinformationen zu lernen. Das ML-System versucht, Muster in den mHealth Daten zu finden, um Ärzt:innen zu helfen, bessere Entschei- dungen zu treffen. Zur Datensammlung wurden zwei Methoden verwendet: Einerseits trugen zahlreiche Personen zur Sammlung von umfassenden Informationen mit mo- bilen Geräten bei (sog. Mobile Crowdsensing), zum anderen wurde den Mitwirkenden digitale Fragebögen gesendet und Sensoren wie GPS eingesetzt, um Informationen in einer alltäglichen Umgebung zu erfassen (sog. Ecologcial Momentary Assessments). Diese Arbeit verwendet Daten aus zwei medizinischen Bereichen: Tinnitus und COVID-19. Schätzungen zufolge leidet etwa 15 % der Menschheit an Tinnitus. Materialien & Methoden. Die Arbeit untersucht, wie ML-Systeme mit mHealth Daten umgehen: Wie können diese Systeme robuster werden oder neue Dinge lernen? Funktion- ieren die neuen ML-Systeme immer besser als einfache Daumenregeln, und wenn ja, wie können wir sie dazu bringen, zu erklären, warum sie bestimmte Entscheidungen treffen? Welche speziellen Regeln sollte man außerdem befolgen, wenn man ML-Systeme mit mHealth Daten trainiert? Während der COVID-19-Pandemie entwickelten wir eine App, die den Menschen helfen sollte, sich über das Virus zu informieren. Diese App nutzte Daten der Krankheitssymptome der App Nutzer:innen, um Handlungsempfehlungen für das weitere Vorgehen zu geben. Ergebnisse. ML-Systeme wurden trainiert, um Tinnitus vorherzusagen und wie er mit geschlechtsspezifischen Unterschieden zusammenhängen könnte. Die Verwendung von Faktoren wie Jahreszeit und Temperatur kann helfen, Tinnitus und seine Beziehung zu diesen Faktoren zu verstehen. Wenn wir beim Training nicht berücksichtigen, dass ein App User mehrere Datensätze ausfüllen kann, führt dies zu einer Überanpassung und damit Verschlechterung des ML-Systems. Interessanterweise führen manchmal einfache Regeln zu robusteren und besseren Modellen als komplexe ML-Systeme. Das zeigt, dass es wichtig ist, Experten auf dem Gebiet einzubeziehen, um Überanpassung zu vermeiden oder einfache Regeln zur Vorhersage zu finden. Fazit. Durch die Betrachtung verschiedener Langzeitdaten konnten wir neue Empfehlun- gen zur Analyse von mHealth Daten und der Entwicklung von ML-Systemen ableiten. Dabei ist es wichtig, medizinischen Experten mit einzubeziehen, um Überanpassung zu vermeiden und ML-Systeme schrittweise zu verbessern.
95

Fernerkundung und maschinelles Lernen zur Erfassung von urbanem Grün - Eine Analyse am Beispiel der Verteilungsgerechtigkeit in Deutschland / Remote Sensing and Machine Learning to Capture Urban Green – An Analysis Using the Example of Distributive Justice in Germany

Weigand, Matthias Johann January 2024 (has links) (PDF)
Grünflächen stellen einen der wichtigsten Umwelteinflüsse in der Wohnumwelt der Menschen dar. Einerseits wirken sie sich positiv auf die physische und mentale Gesundheit der Menschen aus, andererseits können Grünflächen auch negative Wirkungen anderer Faktoren abmildern, wie beispielsweise die im Laufe des Klimawandels zunehmenden Hitzeereignisse. Dennoch sind Grünflächen nicht für die gesamte Bevölkerung gleichermaßen zugänglich. Bestehende Forschung im Kontext der Umweltgerechtigkeit (UG) konnte bereits aufzeigen, dass unterschiedliche sozio-ökonomische und demographische Gruppen der deutschen Bevölkerung unterschiedlichen Zugriff auf Grünflächen haben. An bestehenden Analysen von Umwelteinflüssen im Kontext der UG wird kritisiert, dass die Auswertung geographischer Daten häufig auf zu stark aggregiertem Level geschieht, wodurch lokal spezifische Expositionen nicht mehr genau abgebildet werden. Dies trifft insbesondere für großflächig angelegte Studien zu. So werden wichtige räumliche Informationen verloren. Doch moderne Erdbeobachtungs- und Geodaten sind so detailliert wie nie und Methoden des maschinellen Lernens ermöglichen die effiziente Verarbeitung zur Ableitung höherwertiger Informationen. Das übergeordnete Ziel dieser Arbeit besteht darin, am Beispiel von Grünflächen in Deutschland methodische Schritte der systematischen Umwandlung umfassender Geodaten in relevante Geoinformationen für die großflächige und hochaufgelöste Analyse von Umwelteigenschaften aufzuzeigen und durchzuführen. An der Schnittstelle der Disziplinen Fernerkundung, Geoinformatik, Sozialgeographie und Umweltgerechtigkeitsforschung sollen Potenziale moderner Methoden für die Verbesserung der räumlichen und semantischen Auflösung von Geoinformationen erforscht werden. Hierfür werden Methoden des maschinellen Lernens eingesetzt, um Landbedeckung und -nutzung auf nationaler Ebene zu erfassen. Diese Entwicklungen sollen dazu beitragen bestehende Datenlücken zu schließen und Aufschluss über die Verteilungsgerechtigkeit von Grünflächen zu bieten. Diese Dissertation gliedert sich in drei konzeptionelle Teilschritte. Im ersten Studienteil werden Erdbeobachtungsdaten der Sentinel-2 Satelliten zur deutschlandweiten Klassifikation von Landbedeckungsinformationen verwendet. In Kombination mit punktuellen Referenzdaten der europaweiten Erfassung für Landbedeckungs- und Landnutzungsinformationen des Land Use and Coverage Area Frame Survey (LUCAS) wird ein maschinelles Lernverfahren trainiert. In diesem Kontext werden verschiedene Vorverarbeitungsschritte der LUCAS-Daten und deren Einfluss auf die Klassifikationsgenauigkeit beleuchtet. Das Klassifikationsverfahren ist in der Lage Landbedeckungsinformationen auch in komplexen urbanen Gebieten mit hoher Genauigkeit abzuleiten. Ein Ergebnis des Studienteils ist eine deutschlandweite Landbedeckungsklassifikation mit einer Gesamtgenauigkeit von 93,07 %, welche im weiteren Verlauf der Arbeit genutzt wird, um grüne Landbedeckung (GLC) räumlich zu quantifizieren. Im zweiten konzeptionellen Teil der Arbeit steht die differenzierte Betrachtung von Grünflächen anhand des Beispiels öffentlicher Grünflächen (PGS), die häufig Gegenstand der UG-Forschung ist, im Vordergrund. Doch eine häufig verwendete Quelle für räumliche Daten zu öffentlichen Grünflächen, der European Urban Atlas (EUA), wird bisher nicht flächendeckend für Deutschland erhoben. Dieser Studienteil verfolgt einen datengetriebenen Ansatz, die Verfügbarkeit von öffentlichem Grün auf der räumlichen Ebene von Nachbarschaften für ganz Deutschland zu ermitteln. Hierfür dienen bereits vom EUA erfasste Gebiete als Referenz. Mithilfe einer Kombination von Erdbeobachtungsdaten und Informationen aus dem OpenStreetMap-Projekt wird ein Deep Learning -basiertes Fusionsnetzwerk erstellt, welche die verfügbare Fläche von öffentlichem Grün quantifiziert. Das Ergebnis dieses Schrittes ist ein Modell, welches genutzt wird, um die Menge öffentlicher Grünflächen in der Nachbarschaft zu schätzen (𝑅 2 = 0.952). Der dritte Studienteil greift die Ergebnisse der ersten beiden Studienteile auf und betrachtet die Verteilung von Grünflächen in Deutschland unter Hinzunahme von georeferenzierten Bevölkerungsdaten. Diese exemplarische Analyse unterscheidet dabei Grünflächen nach zwei Typen: GLC und PGS. Zunächst wird mithilfe deskriptiver Statistiken die generelle Grünflächenverteilung in der Bevölkerung Deutschlands beleuchtet. Daraufhin wird die Verteilungsgerechtigkeit anhand gängiger Gerechtigkeitsmetriken bestimmt. Abschließend werden die Zusammenhänge zwischen der demographischen Komposition der Nachbarschaft und der verfügbaren Menge von Grünflächen anhand dreier exemplarischer soziodemographischer Gesellschaftsgruppen untersucht. Die Analyse zeigt starke Unterschiede der Verfügbarkeit von PGS zwischen städtischen und ländlichen Gebieten. Ein höherer Prozentsatz der Stadtbevölkerung hat Zugriff das Mindestmaß von PGS gemessen an der Vorgabe der Weltgesundheitsorganisation. Die Ergebnisse zeigen auch einen deutlichen Unterschied bezüglich der Verteilungsgerechtigkeit zwischen GLC und PGS und verdeutlichen die Relevanz der Unterscheidung von Grünflächentypen für derartige Untersuchungen. Die abschließende Betrachtung verschiedener Bevölkerungsgruppen arbeitet Unterschiede auf soziodemographischer Ebene auf. In der Zusammenschau demonstriert diese Arbeit wie moderne Geodaten und Methoden des maschinellen Lernens genutzt werden können bisherige Limitierungen räumlicher Datensätze zu überwinden. Am Beispiel von Grünflächen in der Wohnumgebung der Bevölkerung Deutschlands wird gezeigt, dass landesweite Analysen zur Umweltgerechtigkeit durch hochaufgelöste und lokal feingliedrige geographische Informationen bereichert werden können. Diese Arbeit verdeutlicht, wie die Methoden der Erdbeobachtung und Geoinformatik einen wichtigen Beitrag leisten können, die Ungleichheit der Wohnumwelt der Menschen zu identifizieren und schlussendlich den nachhaltigen Siedlungsbau in Form von objektiven Informationen zu unterstützen und überwachen. / Green spaces are one of the most important environmental factors for humans in the living environment. On the one hand they provide benefits to people’s physical and mental health, on the other hand they allow for the mitigation of negative impacts of environmental stressors like heat waves which are increasing as a result of climate change. Yet, green spaces are not equally accessible to all people. Existing literature in the context of Environmental Justice (EJ) research has shown that the access to green space varies among different socio-economic and demographic groups in Germany. However, previous studies in the context of EJ were criticized for using strongly spatially aggregated data for their analyses resulting in a loss of spatial detail on local environmental exposure metrics. This is especially true for large-scale studies where important spatial information often get lost. In this context, modern earth observation and geospatial data are more detailed than ever, and machine learning methods enable efficient processing to derive higher value information for diverse applications. The overall objective of this work is to demonstrate and implement methodological steps that allow for the transformation of vast geodata into relevant geoinformation for the large-scale and high-resolution analysis of environmental characteristics using the example of green spaces in Germany. By bridging the disciplines remote sensing, geoinformatics, social geography and environmental justice research, potentials of modern methods for the improvement of spatial and semantic resolution of geoinformation are explored. For this purpose, machine learning methods are used to map land cover and land use on a national scale. These developments will help to close existing data gaps and provide information on the distributional equity of green spaces. This dissertation comprises three conceptual steps. In the first part of the study, earth observation data from the Sentinel-2 satellites are used to derive land cover information across Germany. In combination with point reference data on land cover and land use from the paneuropean Land Use and Coverage Area Frame Survey (LUCAS) a machine learning model is trained. Therein, different preprocessing steps of the LUCAS data and their influence on the classification accuracy are highlighted. The classification model derives land cover information with high accuracy even in complex urban areas. One result of the study is a Germany-wide land cover classification with an overall accuracy of 93.07 % which is used in the further course of the dissertation to spatially quantify green land cover (GLC). The second conceptual part of this study focuses on the semantic differentiation of green spaces using the example of public green spaces (PGS), which is often the subject of EJ research. A frequently used source of spatial data on public green spaces, the European Urban Atlas (EUA),however, is not available for all of Germany. This part of the study takes a data-driven approach to determine the availability of public green space at the spatial level of neighborhoods for all of Germany. For this purpose, areas already covered by the EUA serve as a reference. Using a combination of earth observation data and information from the OpenStreetMap project, a Deep Learning -based fusion network is created that quantifies the available area of public green space. The result of this step is a model that is utilized to estimate the amount of public green space in the neighborhood (𝑅 2 = 0.952). The third part of this dissertation builds upon the results of the first two parts and integrates georeferenced population data to study the socio-spatial distribution of green spaces in Germany. This exemplary analysis distinguishes green spaces according to two types: GLC and PGS. In this,first, descriptive statistics are used to examine the overall distribution of green spaces available to the German population. Then, the distributional equality is determined using established equality metrics. Finally, the relationships between the demographic composition of the neighborhood and the available amount of green space are examined using three exemplary sociodemographic groups. The analysis reveals strong differences in PGS availability between urban and rural areas. Compared to the rural population, a higher percentage of the urban population has access to the minimum level of PGS defined as a target by the World Health Organization (WHO). The results also show a clear deviation in terms of distributive equality between GLC and PGS, highlighting the relevance of distinguishing green space types for such studies. The final analysis of certain population groups addresses differences at the sociodemographic level. In summary, this dissertation demonstrates how previous limitations of spatial datasets can be overcome through a combination of modern geospatial data and machine learning methods. Using the example of green spaces in the residential environment of the population in Germany,it is shown that nationwide analyses of environmental justice can be enriched by high-resolution and locally fine-grained geographic information. This study illustrates how earth observation and methods of geoinformatics can make an important contribution to identifying inequalities in people’s living environment. Such objective information can ultimately be deployed to support and monitor sustainable urban development.
96

Think outside the Black Box: Model-Agnostic Deep Learning with Domain Knowledge / Think outside the Black Box: Modellagnostisches Deep Learning mit Domänenwissen

Kobs, Konstantin January 2024 (has links) (PDF)
Deep Learning (DL) models are trained on a downstream task by feeding (potentially preprocessed) input data through a trainable Neural Network (NN) and updating its parameters to minimize the loss function between the predicted and the desired output. While this general framework has mainly remained unchanged over the years, the architectures of the trainable models have greatly evolved. Even though it is undoubtedly important to choose the right architecture, we argue that it is also beneficial to develop methods that address other components of the training process. We hypothesize that utilizing domain knowledge can be helpful to improve DL models in terms of performance and/or efficiency. Such model-agnostic methods can be applied to any existing or future architecture. Furthermore, the black box nature of DL models motivates the development of techniques to understand their inner workings. Considering the rapid advancement of DL architectures, it is again crucial to develop model-agnostic methods. In this thesis, we explore six principles that incorporate domain knowledge to understand or improve models. They are applied either on the input or output side of the trainable model. Each principle is applied to at least two DL tasks, leading to task-specific implementations. To understand DL models, we propose to use Generated Input Data coming from a controllable generation process requiring knowledge about the data properties. This way, we can understand the model’s behavior by analyzing how it changes when one specific high-level input feature changes in the generated data. On the output side, Gradient-Based Attribution methods create a gradient at the end of the NN and then propagate it back to the input, indicating which low-level input features have a large influence on the model’s prediction. The resulting input features can be interpreted by humans using domain knowledge. To improve the trainable model in terms of downstream performance, data and compute efficiency, or robustness to unwanted features, we explore principles that each address one of the training components besides the trainable model. Input Masking and Augmentation directly modifies the training input data, integrating knowledge about the data and its impact on the model’s output. We also explore the use of Feature Extraction using Pretrained Multimodal Models which can be seen as a beneficial preprocessing step to extract useful features. When no training data is available for the downstream task, using such features and domain knowledge expressed in other modalities can result in a Zero-Shot Learning (ZSL) setting, completely eliminating the trainable model. The Weak Label Generation principle produces new desired outputs using knowledge about the labels, giving either a good pretraining or even exclusive training dataset to solve the downstream task. Finally, improving and choosing the right Loss Function is another principle we explore in this thesis. Here, we enrich existing loss functions with knowledge about label interactions or utilize and combine multiple task-specific loss functions in a multitask setting. We apply the principles to classification, regression, and representation tasks as well as to image and text modalities. We propose, apply, and evaluate existing and novel methods to understand and improve the model. Overall, this thesis introduces and evaluates methods that complement the development and choice of DL model architectures. / Deep-Learning-Modelle (DL-Modelle) werden trainiert, indem potenziell vorverarbeitete Eingangsdaten durch ein trainierbares Neuronales Netz (NN) geleitet und dessen Parameter aktualisiert werden, um die Verlustfunktion zwischen der Vorhersage und der gewünschten Ausgabe zu minimieren. Während sich dieser allgemeine Ablauf kaum geändert hat, haben sich die verwendeten NN-Architekturen erheblich weiterentwickelt. Auch wenn die Wahl der Architektur für die Aufgabe zweifellos wichtig ist, schlagen wir in dieser Arbeit vor, Methoden für andere Komponenten des Trainingsprozesses zu entwickeln. Wir vermuten, dass die Verwendung von Domänenwissen hilfreich bei der Verbesserung von DL-Modellen bezüglich ihrer Leistung und/oder Effizienz sein kann. Solche modellagnostischen Methoden sind dann bei jeder bestehenden oder zukünftigen NN-Architektur anwendbar. Die Black-Box-Natur von DL-Modellen motiviert zudem die Entwicklung von Methoden, die zum Verständnis der Funktionsweise dieser Modelle beitragen. Angesichts der schnellen Architektur-Entwicklung ist es wichtig, modellagnostische Methoden zu entwickeln. In dieser Arbeit untersuchen wir sechs Prinzipien, die Domänenwissen verwenden, um Modelle zu verstehen oder zu verbessern. Sie werden auf Trainingskomponenten im Eingang oder Ausgang des Modells angewendet. Jedes Prinzip wird dann auf mindestens zwei DL-Aufgaben angewandt, was zu aufgabenspezifischen Implementierungen führt. Um DL-Modelle zu verstehen, verwenden wir kontrolliert generierte Eingangsdaten, was Wissen über die Dateneigenschaften benötigt. So können wir das Verhalten des Modells verstehen, indem wir die Ausgabeänderung bei der Änderung von abstrahierten Eingabefeatures beobachten. Wir untersuchen zudem gradienten-basierte Attribution-Methoden, die am Ausgang des NN einen Gradienten anlegen und zur Eingabe zurückführen. Eingabefeatures mit großem Einfluss auf die Modellvorhersage können so identifiziert und von Menschen mit Domänenwissen interpretiert werden. Um Modelle zu verbessern (in Bezug auf die Ergebnisgüte, Daten- und Recheneffizienz oder Robustheit gegenüber ungewollten Eingaben), untersuchen wir Prinzipien, die jeweils eine Trainingskomponente neben dem trainierbaren Modell betreffen. Das Maskieren und Augmentieren von Eingangsdaten modifiziert direkt die Trainingsdaten und integriert dabei Wissen über ihren Einfluss auf die Modellausgabe. Die Verwendung von vortrainierten multimodalen Modellen zur Featureextraktion kann als ein Vorverarbeitungsschritt angesehen werden. Bei fehlenden Trainingsdaten können die Features und Domänenwissen in anderen Modalitäten als Zero-Shot Setting das trainierbare Modell gänzlich eliminieren. Das Weak-Label-Generierungs-Prinzip erzeugt neue gewünschte Ausgaben anhand von Wissen über die Labels, was zu einem Pretrainings- oder exklusiven Trainigsdatensatz führt. Schließlich ist die Verbesserung und Auswahl der Verlustfunktion ein weiteres untersuchtes Prinzip. Hier reichern wir bestehende Verlustfunktionen mit Wissen über Label-Interaktionen an oder kombinieren mehrere aufgabenspezifische Verlustfunktionen als Multi-Task-Ansatz. Wir wenden die Prinzipien auf Klassifikations-, Regressions- und Repräsentationsaufgaben sowie Bild- und Textmodalitäten an. Wir stellen bestehende und neue Methoden vor, wenden sie an und evaluieren sie für das Verstehen und Verbessern von DL-Modellen, was die Entwicklung und Auswahl von DL-Modellarchitekturen ergänzt.
97

Applied machine learning for the analysis of CRISPR-Cas systems / Angewandtes maschinelles Lernen für die Analyse von CRISPR-Cas-Systemen

Yu, Yanying January 2024 (has links) (PDF)
Among the defense strategies developed in microbes over millions of years, the innate adaptive CRISPR-Cas immune systems have spread across most of bacteria and archaea. The flexibility, simplicity, and specificity of CRISPR-Cas systems have laid the foundation for CRISPR-based genetic tools. Yet, the efficient administration of CRISPR-based tools demands rational designs to maximize the on-target efficiency and off-target specificity. Specifically, the selection of guide RNAs (gRNAs), which play a crucial role in the target recognition of CRISPR-Cas systems, is non-trivial. Despite the fact that the emerging machine learning techniques provide a solution to aid in gRNA design with prediction algorithms, design rules for many CRISPR-Cas systems are ill-defined, hindering their broader applications. CRISPR interference (CRISPRi), an alternative gene silencing technique using a catalytically dead Cas protein to interfere with transcription, is a leading technique in bacteria for functional interrogation, pathway manipulation, and genome-wide screens. Although the application is promising, it also is hindered by under-investigated design rules. Therefore, in this work, I develop a state-of-art predictive machine learning model for guide silencing efficiency in bacteria leveraging the advantages of feature engineering, data integration, interpretable AI, and automated machine learning. I first systematically investigate the influential factors that attribute to the extent of depletion in multiple CRISPRi genome-wide essentiality screens in Escherichia coli and demonstrate the surprising dominant contribution of gene-specific effects, such as gene expression level. These observations allowed me to segregate the confounding gene-specific effects using a mixed-effect random forest (MERF) model to provide a better estimate of guide efficiency, together with the improvement led by integrating multiple screens. The MERF model outperformed existing tools in an independent high-throughput saturating screen. I next interpret the predictive model to extract the design rules for robust gene silencing, such as the preference for cytosine and disfavoring for guanine and thymine within and around the protospacer adjacent motif (PAM) sequence. I further incorporated the MERF model in a web-based tool that is freely accessible at www.ciao.helmholtz-hiri.de. When comparing the MERF model with existing tools, the performance of the alternative gRNA design tool optimized for CRISPRi in eukaryotes when applied to bacteria was far from satisfying, questioning the robustness of prediction algorithms across organisms. In addition, the CRISPR-Cas systems exhibit diverse mechanisms albeit with some similarities. The captured predictive patterns from one dataset thereby are at risk of poor generalization when applied across organisms and CRISPR-Cas techniques. To fill the gap, the machine learning approach I present here for CRISPRi could serve as a blueprint for the effective development of prediction algorithms for specific organisms or CRISPR-Cas systems of interest. The explicit workflow includes three principle steps: 1) accommodating the feature set for the CRISPR-Cas system or technique; 2) optimizing a machine learning model using automated machine learning; 3) explaining the model using interpretable AI. To illustrate the applicability of the workflow and diversity of results when applied across different bacteria and CRISPR-Cas systems, I have applied this workflow to analyze three distinct CRISPR-Cas genome-wide screens. From the CRISPR base editor essentiality screen in E. coli, I have determined the PAM preference and sequence context in the editing window for efficient editing, such as A at the 2nd position of PAM, A/TT/TG downstream of PAM, and TC at the 4th to 5th position of gRNAs. From the CRISPR-Cas13a screen in E. coli, in addition to the strong correlation with the guide depletion, the target expression level is the strongest predictor in the model, supporting it as a main determinant of the activation of Cas13-induced immunity and better characterizing the CRISPR-Cas13 system. From the CRISPR-Cas12a screen in Klebsiella pneumoniae, I have extracted the design rules for robust antimicrobial activity across K. pneumoniae strains and provided a predictive algorithm for gRNA design, facilitating CRISPR-Cas12a as an alternative technique to tackle antibiotic resistance. Overall, this thesis presents an accurate prediction algorithm for CRISPRi guide efficiency in bacteria, providing insights into the determinants of efficient silencing and guide designs. The systematic exploration has led to a robust machine learning approach for effective model development in other bacteria and CRISPR-Cas systems. Applying the approach in the analysis of independent CRISPR-Cas screens not only sheds light on the design rules but also the mechanisms of the CRISPR-Cas systems. Together, I demonstrate that applied machine learning paves the way to a deeper understanding and a broader application of CRISPR-Cas systems. / Unter den Verteidigungsstrategien, welche sich über Millionen von Jahren in Mikroben entwickelt haben, hat sich das angeborene adaptive CRISPR-Cas Immunsystem in vielen Bakterien und den meisten Archaeen verbreitet. Flexibilität, Einfachheit und Spezifizität von CRISPR-Cas Systemen bilden die Grundlage für CRISPR-basierten genetischen Werkzeugen. Dennoch verlangt die effiziente Anwendung CRISPR-basierter genetischer Werkzeuge ein rationales Design, um die Effektivität zu maximieren und Spezifizität zu gewährleisten. Speziell die Auswahl an Leit-RNAs, oder auch „guide“ RNAs (gRNAs), welche eine essentielle Rolle in der Ziel-Erkennung des CRISPR-Cas Systems spielen, ist nicht trivial. Trotz aufkommender Techniken des maschinellen Lernens, die mit Hilfe von Vorhersage-Algorithmen eine Unterstützung im gRNA-Design darstellen, sind die Design-Regeln für viele CRISPR-Cas Systeme schlecht definiert und die breite Anwendung dadurch bisher gehindert. CRISPR Interferenz (CRISPRi), eine Methode der Genrepression, nutzt ein katalytisch inaktives Cas-Protein, um die Gen-Transkription zu verhindern und ist eine führende Technik für Gen-Funktionsstudien, der Manipulation von Stoffwechselwegen und genomweiter Screens in Bakterien. Auch wenn viele der Anwendungen vielversprechend sind, ist die Umsetzung aufgrund der wenig untersuchten Design-Regeln schwierig. Daher entwickele ich in dieser Arbeit ein hochmodernes auf maschinellem Lernen basierendes Modell für die Vorhersage der gRNA Genrepressions-Effizienz in Bakterien, wobei die Merkmalskonstruktion, Datenintegration, interpretierbare künstliche Intelligenz (KI) und automatisiertes maschinelles Lernen genutzt wurden. Zuerst untersuche ich systematisch die Einflussfaktoren, welche zum Ausmaß der Depletion in genomweiten CRISPRi-Screens zur Gen-Essentialität in Escherichia coli beitragen und demonstriere den überraschend dominanten Beitrag genspezifischer Effekte, wie z. B. dem Genexpressionslevel. Diese Beobachtungen erlaubten mir die genspezifischen Störvariablen mit einem sogenannten mixed-effect random forest (MERF) Modell zu segregieren, um eine bessere Einschätzung der gRNA Effizienz zu erreichen und durch die Integration zusätzlicher Screen-Daten noch weiter zu verbessern. Das MERF Modell übertraf dabei bereits existierende Werkzeuge in einem unabhängigen Hochdurchsatz Sättigungs-Screen. Als nächstes interpretiere ich die Modell Vorhersage, um Design-Regeln für eine solide Genrepression zu extrahieren, wie z. B. eine Präferenz für Cytosin und eine Abneigung gegenüber Guanin und Thymin innerhalb und der „protospacer adjacent motif“ (PAM) direkt umgebenden Sequenz. Weiterhin integrierte ich das MERF Modell in einem Web-basierten Werkzeug, welches unter www.ciao.helmholtz-hiri.de frei zugänglich ist. Ein Vergleich von existierenden Werkzeugen mit dem MERF Modell zeigt, dass alternative, für CRISPRi in Eukaryoten optimierte, gRNA Design-Werkzeuge schlecht abschneiden, sobald sie in Bakterien angewandt werden. Dies lässt Zweifel an einer robusten Übertragbarkeit dieser Vorhersage-Algorithmen zwischen verschiedenen Organismen. Zusätzlich haben CRISPR-Cas Systeme, trotz einiger genereller Gemeinsamkeiten, höchst diverse Wirkungsmechanismen. Die Vorhersagemuster eines Datensets sind daher schlecht generalisierbar, sobald sie auf andere Organismen oder CRISPR-Cas Techniken angewandt werden. Diese Lücke kann mit dem hier präsentierten Ansatz des maschinellen Lernens für CRISPRi geschlossen werden und als eine Vorlage für die Entwicklung effektiver Vorhersage-Algorithmen für spezifische Organismen oder CRISPR-Cas Systeme dienen. Der explizite Arbeitsablauf beinhaltet drei Hauptschritte: 1) Aufnehmen des Merkmalsets des jeweiligen CRISPR-Cas Systems bzw. der CRISPR-Cas Technik; 2) Optimierung des maschinellen Lernen Modells durch automatisiertes maschinelles Lernen; 3) Erklärung des Modells mit interpretierbarer KI. Um die Anwendbarkeit des Arbeitsablaufs und die Diversität der Ergebnisse, im Zusammenhang mit unterschiedlichen Organismen und CRISPR-Cas Systemen, zu demonstrieren, habe ich diese Arbeitsschritte zur Analyse drei unterschiedlicher genomweiter Screens angewandt. Von dem CRISPR „base editor“ Essentialitäts-Screen in E. coli, konnten die PAM Präferenzen und der Sequenzkontext innerhalb des Editierungsfensters für eine effiziente Editierung abgeleitet werden. Beispielsweise tragen ein A an der zweiten PAM Position, ein A/TT/TG an der PAM direkt nachgeschalten Position und ein TC an der vierten oder fünften gRNA Position zur effizienten Editierung bei. Im CRISPR-Cas13a Screen in E. coli, stellten wir eine starke Korrelation zwischen dem Genexpressionslevel und der gRNA-Depletion fest. Zusätzlich ist das Expressionslevel des Ziel-Gens der stärkste Vorhersagefaktor des Modells, was das Expressionslevel als Hauptdeterminante für die Cas13-induzierte Immunität hervorhebt und die bessere Charakterisierung von CRISPR-Cas13 Systemen ermöglicht. Aus dem CRISPR-Cas12a Screen in Klebsiella pneumoniae, habe ich gRNA Design Regeln für die robuste antimikrobielle Aktivität über unterschiedliche K. pneumoniae Stämme hinweg extrahiert und einen Vorhersage-Algorithmus für das gRNA Design bereitgestellt. Dies ermöglicht die Nutzung von Cas12a als eine alternative Lösung, um Antibiotikaresistenzen zu bekämpfen. Zusammengefasst präsentiert diese Thesis einen akkuraten Vorhersage-Algorithmus für die CRISPRi gRNA Effizienz in Bakterien und gibt Einblicke in die Determinanten für eine effiziente Genrepression und optimales gRNA Design. Die systematische Exploration führte zu einem robusten Ansatz des maschinellen Lernens für effektive Modell Entwicklungen in unterschiedlichen bakteriellen Spezies und CRISPR-Cas Systemen. Durch die Anwendung dieses Ansatzes auf unabhängige CRISPR-Cas Screens, konnte ich nicht nur wichtige Design Regeln ableiten, sondern auch die Mechanismen der jeweiligen CRISPR-Cas Systeme besser erleuchten. Zu guter Letzt demonstriere ich hier, dass angewandtes maschinelles Lernen den Weg zu einem tieferen Verständnis und einer breiteren Anwendung von CRISPR-Cas Systemen ebnen kann.
98

VOCUS a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index.
99

VOCUS : a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index. Also issued online.
100

Automatisierte Verfahren für die Themenanalyse nachrichtenorientierter Textquellen: Automatisierte Verfahren für dieThemenanalyse nachrichtenorientierterTextquellen

Niekler, Andreas 13 January 2016 (has links)
Im Bereich der medienwissenschaftlichen Inhaltsanalyse stellt die Themenanalyse einen wichtigen Bestandteil dar. Für die Analyse großer digitaler Textbestände hin- sichtlich thematischer Strukturen ist es deshalb wichtig, das Potential automatisierter computergestützter Methoden zu untersuchen. Dabei müssen die methodischen und analytischen Anforderungen der Inhaltsanalyse beachtet und abgebildet werden, wel- che auch für die Themenanalyse gelten. In dieser Arbeit werden die Möglichkeiten der Automatisierung der Themenanalyse und deren Anwendungsperspektiven untersucht. Dabei wird auf theoretische und methodische Grundlagen der Inhaltsanalyse und auf linguistische Theorien zu Themenstrukturen zurückgegriffen,um Anforderungen an ei- ne automatische Analyse abzuleiten. Den wesentlichen Beitrag stellt die Untersuchung der Potentiale und Werkzeuge aus den Bereichen des Data- und Text-Mining dar, die für die inhaltsanalytische Arbeit in Textdatenbanken hilfreich und gewinnbringend eingesetzt werden können. Weiterhin wird eine exemplarische Analyse durchgeführt, um die Anwendbarkeit automatischer Methoden für Themenanalysen zu zeigen. Die Arbeit demonstriert auch Möglichkeiten der Nutzung interaktiver Oberflächen, formu- liert die Idee und Umsetzung einer geeigneten Software und zeigt die Anwendung eines möglichen Arbeitsablaufs für die Themenanalyse auf. Die Darstellung der Potentiale automatisierter Themenuntersuchungen in großen digitalen Textkollektionen in dieser Arbeit leistet einen Beitrag zur Erforschung der automatisierten Inhaltsanalyse. Ausgehend von den Anforderungen, die an eine Themenanalyse gestellt werden, zeigt diese Arbeit, mit welchen Methoden und Automatismen des Text-Mining diesen Anforderungen nahe gekommen werden kann. Zusammenfassend sind zwei Anforde- rungen herauszuheben, deren jeweilige Erfüllung die andere beeinflusst. Zum einen ist eine schnelle thematische Erfassung der Themen in einer komplexen Dokument- sammlung gefordert, um deren inhaltliche Struktur abzubilden und um Themen kontrastieren zu können. Zum anderen müssen die Themen in einem ausreichenden Detailgrad abbildbar sein, sodass eine Analyse des Sinns und der Bedeutung der The- meninhalte möglich ist. Beide Ansätze haben eine methodische Verankerung in den quantitativen und qualitativen Ansätzen der Inhaltsanalyse. Die Arbeit diskutiert diese Parallelen und setzt automatische Verfahren und Algorithmen mit den Anforde- rungen in Beziehung. Es können Methoden aufgezeigt werden, die eine semantische und damit thematische Trennung der Daten erlauben und einen abstrahierten Über- blick über große Dokumentmengen schaffen. Dies sind Verfahren wie Topic-Modelle oder clusternde Verfahren. Mit Hilfe dieser Algorithmen ist es möglich, thematisch kohärente Untermengen in Dokumentkollektion zu erzeugen und deren thematischen Gehalt für Zusammenfassungen bereitzustellen. Es wird gezeigt, dass die Themen trotz der distanzierten Betrachtung unterscheidbar sind und deren Häufigkeiten und Verteilungen in einer Textkollektion diachron dargestellt werden können. Diese Auf- bereitung der Daten erlaubt die Analyse von thematischen Trends oder die Selektion bestimmter thematischer Aspekte aus einer Fülle von Dokumenten. Diachrone Be- trachtungen thematisch kohärenter Dokumentmengen werden dadurch möglich und die temporären Häufigkeiten von Themen können analysiert werden. Für die detaillier- te Interpretation und Zusammenfassung von Themen müssen weitere Darstellungen und Informationen aus den Inhalten zu den Themen erstellt werden. Es kann gezeigt werden, dass Bedeutungen, Aussagen und Kontexte über eine Kookurrenzanalyse im Themenkontext stehender Dokumente sichtbar gemacht werden können. In einer Anwendungsform, welche die Leserichtung und Wortarten beachtet, können häufig auftretende Wortfolgen oder Aussagen innerhalb einer Thematisierung statistisch erfasst werden. Die so generierten Phrasen können zur Definition von Kategorien eingesetzt werden oder mit anderen Themen, Publikationen oder theoretischen An- nahmen kontrastiert werden. Zudem sind diachrone Analysen einzelner Wörter, von Wortgruppen oder von Eigennamen in einem Thema geeignet, um Themenphasen, Schlüsselbegriffe oder Nachrichtenfaktoren zu identifizieren. Die so gewonnenen Infor- mationen können mit einem „close-reading“ thematisch relevanter Dokumente ergänzt werden, was durch die thematische Trennung der Dokumentmengen möglich ist. Über diese methodischen Perspektiven hinaus lassen sich die automatisierten Analysen als empirische Messinstrumente im Kontext weiterer hier nicht besprochener kommu- nikationswissenschaftlicher Theorien einsetzen. Des Weiteren zeigt die Arbeit, dass grafische Oberflächen und Software-Frameworks für die Bearbeitung von automatisier- ten Themenanalysen realisierbar und praktikabel einsetzbar sind. Insofern zeigen die Ausführungen, wie die besprochenen Lösungen und Ansätze in die Praxis überführt werden können. Wesentliche Beiträge liefert die Arbeit für die Erforschung der automatisierten Inhaltsanalyse. Die Arbeit dokumentiert vor allem die wissenschaftliche Auseinan- dersetzung mit automatisierten Themenanalysen. Während der Arbeit an diesem Thema wurden vom Autor geeignete Vorgehensweisen entwickelt, wie Verfahren des Text-Mining in der Praxis für Inhaltsanalysen einzusetzen sind. Unter anderem wur- den Beiträge zur Visualisierung und einfachen Benutzung unterschiedlicher Verfahren geleistet. Verfahren aus dem Bereich des Topic Modelling, des Clustering und der Kookkurrenzanalyse mussten angepasst werden, sodass deren Anwendung in inhalts- analytischen Anwendungen möglich ist. Weitere Beiträge entstanden im Rahmen der methodologischen Einordnung der computergestützten Themenanalyse und in der Definition innovativer Anwendungen in diesem Bereich. Die für die vorliegende Arbeit durchgeführte Experimente und Untersuchungen wurden komplett in einer eigens ent- wickelten Software durchgeführt, die auch in anderen Projekten erfolgreich eingesetzt wird. Um dieses System herum wurden Verarbeitungsketten,Datenhaltung,Visualisie- rung, grafische Oberflächen, Möglichkeiten der Dateninteraktion, maschinelle Lernver- fahren und Komponenten für das Dokumentretrieval implementiert. Dadurch werden die komplexen Methoden und Verfahren für die automatische Themenanalyse einfach anwendbar und sind für künftige Projekte und Analysen benutzerfreundlich verfüg- bar. Sozialwissenschaftler,Politikwissenschaftler oder Kommunikationswissenschaftler können mit der Softwareumgebung arbeiten und Inhaltsanalysen durchführen, ohne die Details der Automatisierung und der Computerunterstützung durchdringen zu müssen.

Page generated in 0.0856 seconds