Global ETD Search

1	Query Execution on Modern CPUs Zeuch, Steffen 13 July 2018 (has links) Über die letzten Jahrzehnte haben sich Datenbanken von festplatten-basierten zu hauptspeicher-basierten Datenbanksystemen entwickelt. Um diese Herausforderungen anzugehen und das volle Potenzial moderner Prozessoren zu erschließen, stellt diese Dissertation vier Ansätze vor um den Einfluss der „Memory Wall“ zu reduzieren. Der erste Ansatz zeigt auf, wie spezielle Prozessorinstruktionen (sogenannte SIMD Instruktionen) die Ausnutzung von Caches erhöhen und gleichzeitig die Anzahl der Instruktionen verringern. In dieser Arbeit werden dazu vorhandene Baumstrukturen so angepasst, dass diese SIMD Instruktionen verwendet werden können und somit die benötigte Hauptspeicherbandbreite verringert wird. Der zweite Ansatz dieser Arbeit führt ein Model ein, welches es ermöglicht die Anfrageausführung in verschiedenen Datenbanksystemen zu vereinheitlichen und dadurch vergleichbar zu machen. Durch diese Vereinheitlichung wird es möglich, die Hardwareausnutzung durch Hinzunahme von Wissen über die auszuführende Hardware zu optimieren. Der dritte Ansatz analysiert verschiedene Datenbankoperatoren bezüglich ihres Verhaltens auf verschiedenen Hardwareumgebungen. Diese Analyse ermöglicht es, Datenbankoperatoren besser zu verstehen und Kostenmodelle für ihr Verhalten zu entwickeln. Der vierte Ansatz dieser Arbeit baut auf der Analyse der Operatoren auf und führt einen progressiven Optimierungsalgorithmus ein, der die Ausführung von Anfragen zur Laufzeit auf die jeweiligen Bedingungen wie z.B. Daten- oder Hardwareeigenschaften anpasst. Dazu werden zur Laufzeit prozessorinterne Zähler verwendet, die das Verhalten des Operators auf der jeweiligen Hardware widerspiegeln. / Over the last decades, database systems have been migrated from disk to memory architectures such as RAM, Flash, or NVRAM. Research has shown that this migration fundamentally shifts the performance bottleneck upwards in the memory hierarchy. Whereas disk-based database systems were largely dominated by disk bandwidth and latency, in-memory database systems mainly depend on the efficiency of faster memory components, e.g., RAM, caches, and registers. To encounter these challenges and enable the full potential of the available processing power of modern CPUs for database systems, this thesis proposes four approaches to reduce the impact of the Memory Wall. First, SIMD instructions increase the cache line utilization and decrease the number of executed instructions if they operate on an appropriate data layout. Thus, we adapt tree structures for processing with SIMD instructions to reduce demands on the memory bus and processing units are decreased. Second, by modeling and executing queries following a unified model, we are able to achieve high resource utilization. Therefore, we propose a unified model that enables us to utilize knowledge about the query plan and the underlying hardware to optimize query execution. Third, we need a fundamental knowledge about the individual database operators and their behavior and requirements to optimally distribute the resources among available computing units. We conduct an in-depth analysis of different workloads using performance counters create these insights. Fourth, we propose a non-invasive progressive optimization approach based on in-depth knowledge of individual operators that is able to optimize query execution during run-time. In sum, using additional run-time statistics gathered by performance counters, a unified model, and SIMD instructions, this thesis improves query execution on modern CPUs. Datenbank Hauptspeicher Prozessor Performanz Database Main-Memory CPU Performance 004 Datenverarbeitung; Informatik ST 270 ddc:004
2	ANNIS: A graph-based query system for deeply annotated text corpora Krause, Thomas 11 January 2019 (has links) Diese Dissertation beschreibt das Design und die Implementierung eines effizienten Suchsystems für linguistische Korpora. Das bestehende und auf einer relationalen Datenbank basierende System ANNIS ist spezialisiert darin, Korpora mit verschiedenen Arten von Annotationen zu unterstützen und nutzt Graphen als einheitliche Repräsentation der verschiedener Annotationen. Für diese Dissertation wurde eine Hauptspeicher-Datenbank, die rein auf Graphen basiert, als Nachfolger für ANNIS entwickelt. Die Korpora werden in Kantenkomponenten partitioniert und für verschiedene Typen von Subgraphen werden unterschiedliche Implementationen zur Darstellung und Suche in diesen Komponenten genutzt. Operationen der Anfragesprache AQL (ANNIS Query Language) werden als Kombination von Erreichbarkeitsanfragen auf diesen verschiedenen Komponenten implementiert und jede Implementierung hat optimierte Funktionen für diese Art von Anfragen. Dieser Ansatz nutzt die verschiedenen Strukturen der unterschiedlichen Annotationsarten aus, ohne die einheitliche Darstellung als Graph zu verlieren. Zusätzliche Optimierungen, wie die parallele Ausführung von Teilen der Anfragen, wurden ebenfalls implementiert und evaluiert. Da AQL eine bestehende Implementierung besitzt und diese für Forscher offen als webbasierter Service zu Verfügung steht, konnten echte AQL-Anfragen aufgenommen werden. Diese dienten als Grundlage für einen Benchmark der neuen Implementierung. Mehr als 4000 Anfragen über 18 Korpora wurden zu einem realistischen Workload zusammengetragen, der sehr unterschiedliche Arten von Korpora und Anfragen mit einem breitem Spektrum von Komplexität enthält. Die neue graphbasierte Implementierung wurde mit der existierenden, die eine relationale Datenbank nutzt, verglichen. Sie führt den Anfragen im Workload im Vergleich ~10 schneller aus und die Experimente zeigen auch, dass die verschiedenen Implementierungen für die Kantenkomponenten daran einen großen Anteil haben. / This dissertation describes the design and implementation of an efficient system for linguistic corpus queries. The existing system ANNIS is based on a relational database and is focused on providing support for corpora with very different kinds of annotations and uses graphs as unified representations of the different annotations. For this dissertation, a main memory and solely graph-based successor of ANNIS has been developed. Corpora are divided into edge components and different implementations for representation and search of these components are used for different types of subgraphs. AQL operations are interpreted as a set of reachability queries on the different components and each component implementation has optimized functions for this type of queries. This approach allows exploiting the different structures of the different kinds of annotations without losing the common representation as a graph. Additional optimizations, like parallel executions of parts of the query, are also implemented and evaluated. Since AQL has an existing implementation and is already provided as a web-based service for researchers, real-life AQL queries have been recorded and thus can be used as a base for benchmarking the new implementation. More than 4000 queries from 18 corpora (from which most are available under an open-access license) have been compiled into a realistic workload that includes very different types of corpora and queries with a wide range of complexity. The new graph-based implementation was compared against the existing one, which uses a relational database. It executes the workload ~10 faster than the baseline and experiments show that the different graph storage implementations had a major effect in this improvement. Hauptspeicher-Datenbank Graphdatenbank Korpuslinguistik Suchmaschine In-memory database Graph database Corpus linguistics Search engine 004 Datenverarbeitung; Informatik ST 306 ddc:004
3	Scalable and Declarative Information Extraction in a Parallel Data Analytics System Rheinländer, Astrid 06 July 2017 (has links) Informationsextraktions (IE) auf sehr großen Datenmengen erfordert hochkomplexe, skalierbare und anpassungsfähige Systeme. Obwohl zahlreiche IE-Algorithmen existieren, ist die nahtlose und erweiterbare Kombination dieser Werkzeuge in einem skalierbaren System immer noch eine große Herausforderung. In dieser Arbeit wird ein anfragebasiertes IE-System für eine parallelen Datenanalyseplattform vorgestellt, das für konkrete Anwendungsdomänen konfigurierbar ist und für Textsammlungen im Terabyte-Bereich skaliert. Zunächst werden konfigurierbare Operatoren für grundlegende IE- und Web-Analytics-Aufgaben definiert, mit denen komplexe IE-Aufgaben in Form von deklarativen Anfragen ausgedrückt werden können. Alle Operatoren werden hinsichtlich ihrer Eigenschaften charakterisiert um das Potenzial und die Bedeutung der Optimierung nicht-relationaler, benutzerdefinierter Operatoren (UDFs) für Data Flows hervorzuheben. Anschließend wird der Stand der Technik in der Optimierung nicht-relationaler Data Flows untersucht und herausgearbeitet, dass eine umfassende Optimierung von UDFs immer noch eine Herausforderung ist. Darauf aufbauend wird ein erweiterbarer, logischer Optimierer (SOFA) vorgestellt, der die Semantik von UDFs mit in die Optimierung mit einbezieht. SOFA analysiert eine kompakte Menge von Operator-Eigenschaften und kombiniert eine automatisierte Analyse mit manuellen UDF-Annotationen, um die umfassende Optimierung von Data Flows zu ermöglichen. SOFA ist in der Lage, beliebige Data Flows aus unterschiedlichen Anwendungsbereichen logisch zu optimieren, was zu erheblichen Laufzeitverbesserungen im Vergleich mit anderen Techniken führt. Als Viertes wird die Anwendbarkeit des vorgestellten Systems auf Korpora im Terabyte-Bereich untersucht und systematisch die Skalierbarkeit und Robustheit der eingesetzten Methoden und Werkzeuge beurteilt um schließlich die kritischsten Herausforderungen beim Aufbau eines IE-Systems für sehr große Datenmenge zu charakterisieren. / Information extraction (IE) on very large data sets requires highly complex, scalable, and adaptive systems. Although numerous IE algorithms exist, their seamless and extensible combination in a scalable system still is a major challenge. This work presents a query-based IE system for a parallel data analysis platform, which is configurable for specific application domains and scales for terabyte-sized text collections. First, configurable operators are defined for basic IE and Web Analytics tasks, which can be used to express complex IE tasks in the form of declarative queries. All operators are characterized in terms of their properties to highlight the potential and importance of optimizing non-relational, user-defined operators (UDFs) for dataflows. Subsequently, we survey the state of the art in optimizing non-relational dataflows and highlight that a comprehensive optimization of UDFs is still a challenge. Based on this observation, an extensible, logical optimizer (SOFA) is introduced, which incorporates the semantics of UDFs into the optimization process. SOFA analyzes a compact set of operator properties and combines automated analysis with manual UDF annotations to enable a comprehensive optimization of data flows. SOFA is able to logically optimize arbitrary data flows from different application areas, resulting in significant runtime improvements compared to other techniques. Finally, the applicability of the presented system to terabyte-sized corpora is investigated. Hereby, we systematically evaluate scalability and robustness of the employed methods and tools in order to pinpoint the most critical challenges in building an IE system for very large data sets. Informationsextraktion Optimierung Map/Reduce Data Flow Stratosphere Operatorsemantik Information Extraction Optimization Map/Reduce Data Flow Stratosphere Operator Semantics 004 Datenverarbeitung; Informatik ST 530 ddc:004
4	Networks of the late Quaternary Franke, Jasper Gideon 20 May 2019 (has links) In den letzten Jahren erfreuen sich komplexe Netzwerke einer zunehmenden Beliebtheit, um Zusammenhänge und Strukturen in hoch-dimensionalen Datensätzen zu analysieren. Im Unterschied zu vielen anderen Forschungsgebieten wurden sie jedoch selten auf Paläoklima-Daten angewandt, obwohl die steigende Anzahl an veröffentlichen Zeitreihen die Nutzung effizienter Methoden multivariater Analyse ermöglicht. Die Resultate der wenigen Studien, in denen Netzwerkmethoden und Paläoklima-Daten kombiniert wurden, sind außerdem geprägt von niedriger Robustheit und hohen Unsicherheiten. Dies steht im Zusammenhang zu der niedrigen Anzahl und Auflösung der Zeitreihen als auch den Unsicherheiten, die den meisten Paläoklima-Rekonstruktionen zu eigen sind. In dieser Doktorarbeit schlage ich verschiedene Wege vor, um diese Probleme zu überwinden, indem verlässlichere, quantitative Resultate ermöglicht werden, unter anderem indem die Datenunsicherheiten explizit in die Analyse mit einbezogen werden. Zu diesem Zweck präsentiere ich vier Fallstudien mit einem Fokus auf zwei Zeiträume, das späte Holozän (die letzten zweitausend Jahre) und den Übergang von der letzten Kaltzeit zur aktuellen Warmzeit, die letzte glaziale Termination. Alle diese Studien legen einen räumlichen Fokus auf den Nordatlantik, eine Schlüsselregion globaler Klimavariabilität. Ich beschränke mich hierbei auf zwei Methoden, eine der netzwerkbasierten Zeitreihenanalyse, Sichtbarkeitsgraphen genannt, und eine der räumlichen Analyse, sogenannte Klimanetzwerke. Neben Erweiterungen von existierende Methoden, schlage ich auch neue Wege vor, um verlässliche Resultate auch für Zeitreihen mit hohen Unsicherheiten zu erhalten. Diese Fallstudien demonstrieren, dass Netzwerkmethoden auch für die Analyse von Paläoklima-Daten nützlich sein können. Sie sind daher ein weiterer Schritt hin zu einer künftigen Anwendung durch eine größere Anzahl an Forschenden. / In recent years, complex networks have become an increasingly popular tool to analyse relationships and structures in high-dimensional data sets in a variety of research fields. They have, however, rarely been applied to paleoclimate data sets, even though the growing number of published records demands efficient tools of multivariate analysis. The few published results that combine network methods and paleoclimate proxies are often not robust or have high uncertainty levels, linked tothe low dimensionality, resolution and the large uncertainties of most particulate time series. In this thesis, I propose several ways to overcome these issues in order to obtain reliable and quantitative results from network based tools by taking the particularities of paleoclimate data into account. For this purpose, I present four case studies, focusing on two time periods, the late Holocene (last two millennia) and the transition from the last ice age to the recent warm period, the last deglaciation. These studies are all related to the North Atlantic, a key region in multi-decadal to millennial scale climate variability. I primarily use two methods, one of network based time series analysis named visibility graphs and one of spatial analysis, so called limate networks. I have both further developed existing methods, but also propose new ways to yield reliable results when dealing with highly uncertain paleoclimate data. The case studies demonstrate the usefulness of network based data analysis to study patterns of regional climate variability. Hence, this work is another step in bringing network based approaches to a larger audience and towards a wider application of these methods. Paläoklima Netzwerke Sichtbarkeitsgraphen Klimanetzwerke Paleoclimate networks visibility graphs climate networks 530 Physik 004 Datenverarbeitung; Informatik SK 845 UT 8900 ddc:530 ddc:004
5	Scalable Inference in Latent Gaussian Process Models Wenzel, Florian 05 February 2020 (has links) Latente Gauß-Prozess-Modelle (latent Gaussian process models) werden von Wissenschaftlern benutzt, um verborgenen Muster in Daten zu er- kennen, Expertenwissen in probabilistische Modelle einfließen zu lassen und um Vorhersagen über die Zukunft zu treffen. Diese Modelle wurden erfolgreich in vielen Gebieten wie Robotik, Geologie, Genetik und Medizin angewendet. Gauß-Prozesse definieren Verteilungen über Funktionen und können als flexible Bausteine verwendet werden, um aussagekräftige probabilistische Modelle zu entwickeln. Dabei ist die größte Herausforderung, eine geeignete Inferenzmethode zu implementieren. Inferenz in probabilistischen Modellen bedeutet die A-Posteriori-Verteilung der latenten Variablen, gegeben der Daten, zu berechnen. Die meisten interessanten latenten Gauß-Prozess-Modelle haben zurzeit nur begrenzte Anwendungsmöglichkeiten auf großen Datensätzen. In dieser Doktorarbeit stellen wir eine neue effiziente Inferenzmethode für latente Gauß-Prozess-Modelle vor. Unser neuer Ansatz, den wir augmented variational inference nennen, basiert auf der Idee, eine erweiterte (augmented) Version des Gauß-Prozess-Modells zu betrachten, welche bedingt konjugiert (conditionally conjugate) ist. Wir zeigen, dass Inferenz in dem erweiterten Modell effektiver ist und dass alle Schritte des variational inference Algorithmus in geschlossener Form berechnet werden können, was mit früheren Ansätzen nicht möglich war. Unser neues Inferenzkonzept ermöglicht es, neue latente Gauß-Prozess- Modelle zu studieren, die zu innovativen Ergebnissen im Bereich der Sprachmodellierung, genetischen Assoziationsstudien und Quantifizierung der Unsicherheit in Klassifikationsproblemen führen. / Latent Gaussian process (GP) models help scientists to uncover hidden structure in data, express domain knowledge and form predictions about the future. These models have been successfully applied in many domains including robotics, geology, genetics and medicine. A GP defines a distribution over functions and can be used as a flexible building block to develop expressive probabilistic models. The main computational challenge of these models is to make inference about the unobserved latent random variables, that is, computing the posterior distribution given the data. Currently, most interesting Gaussian process models have limited applicability to big data. This thesis develops a new efficient inference approach for latent GP models. Our new inference framework, which we call augmented variational inference, is based on the idea of considering an augmented version of the intractable GP model that renders the model conditionally conjugate. We show that inference in the augmented model is more efficient and, unlike in previous approaches, all updates can be computed in closed form. The ideas around our inference framework facilitate novel latent GP models that lead to new results in language modeling, genetic association studies and uncertainty quantification in classification tasks. Maschinelles Lernen Gaußsche Prozesse Variationelle Inferenz Probabilistische Methode Machine Learning Bayesian Inference Gaussian Processes Variational Inference Probabilistic Methods 004 Datenverarbeitung; Informatik ST 304 ddc:004
6	Computational models to investigate binding mechanisms of regulatory proteins Munteanu, Alina 07 May 2018 (has links) Es gibt tausende regulatorische Proteine in Eukaryoten, die spezifische cis-regulatorischen Elemente von Genen und/oder RNA-Transkripten binden und die Genexpession koordinieren. Auf DNA-Ebene modulieren Transkriptionsfaktoren (TFs) die Initiation der Transkription, während auf RNA-Ebene RNA-bindende Proteine (RBPs) viele Aspekte des RNA-Metabolismus und der RNA-Funktion regulieren. Für hunderte dieser regulatorischer Proteine wurden die gebundenen Gene beziehungsweise RNA-Transkripte, sowie deren etwaige Sequenzbindepräferenzen mittels in vivo oder in vitro Hochdurchsatz-Experimente bestimmt. Zu diesen Methoden zählen unter anderem Chromatin-Immunpräzipitation (ChIP) gefolgt von Sequenzierung (ChIP-seq) und Protein Binding Microarrays (PBMs) für TFs, sowie Cross-Linking und Immunpräzipitation (CLIP)-Techniken und RNAcompete für RBPs. In vielen Fällen kann die zum Teil hohe Bindespezifität für ein zumeist sehr kurzes Sequenzmotiv regulatorischer Proteine nicht allein durch die gebundene Primärsequenz erklärt werden. Um besser zu verstehen, wie verschiedene Proteine ihre regulatorische Spezifität erreichen, haben wir zwei Computerprogramme entwickelt, die zusätzliche Informationen in die Analyse von experimentell bestimmten Bindestellen einbeziehen und somit differenziertere Bindevorhersagen ermöglichen. Für Protein-DNA-Interaktionen untersuchen wir die Bindungsspezifität paraloger TFs (d.h. Mitglieder der gleichen TF-Familie). Mit dem Fokus auf der Unterscheidung von genomischen Regionen, die in vivo von Paaren eng miteinander verwandter TFs gebunden sind, haben wir ein Klassifikationsframework entwickelt, das potenzielle Co-Faktoren identifiziert, die zur Spezifität paraloger TFs beitragen. Für Protein-RNA-Interaktionen untersuchen wir die Rolle von RNA-Sekundärstruktur und ihre Auswirkung auf die Auswahl von Bindestellen. Wir haben einen Motif-Finding-Algorithmus entwickelt, der Sekundärstruktur und Primärsequenz integriert, um Bindungspräferenzen der RBPs besser zu bestimmen. / There are thousands of eukaryotic regulatory proteins that bind to specific cis regulatory regions of genes and/or RNA transcripts and coordinate gene expression. At the DNA level, transcription factors (TFs) modulate the initiation of transcription, while at the RNA level, RNA-binding proteins (RBPs) regulate every aspect of RNA metabolism and function. The DNA or RNA targets and/or the sequence preferences of hundreds of eukaryotic regulatory proteins have been determined thus far using high-throughput in vivo and in vitro experiments, such as chromatin immunoprecipitation (ChIP) followed by sequencing (ChIP-seq) and protein binding microarrays (PBMs) for TFs, or cross-linking and immunoprecipitation (CLIP) techniques and RNAcompete for RBPs. However, the derived short sequence motifs do not fully explain the highly specific binding of these regulatory proteins. In order to improve our understanding of how different proteins achieve their regulatory specificity, we developed two computational tools that incorporate additional information in the analysis of experimentally determined binding sites. For protein-DNA interactions, we investigate the binding specificity of paralogous TFs (i.e. members of the same TF family). Focusing on distinguishing between genomic regions bound in vivo by pairs of closely-related TFs, we developed a classification framework that identifies putative co-factors that provide specificity to paralogous TFs. For protein-RNA interactions, we investigate the role of RNA secondary structure and its impact on binding-site recognition. We developed a motif finding algorithm that integrates secondary structure together with primary sequence in order to better identify binding preferences of RBPs. Genexpession regulatorische Proteine Motif-Finding-Algorithmus Klassifikation gene expression regulatory proteins motif finding classification 004 Datenverarbeitung; Informatik 570 Biowissenschaften; Biologie WC 7700 ddc:000 ddc:004 ddc:570
7	Bioinformatic analyses for T helper cell subtypes discrimination and gene regulatory network reconstruction Kröger, Stefan 02 August 2017 (has links) Die Etablierung von Hochdurchsatz-Technologien zur Durchführung von Genexpressionsmessungen führte in den letzten 20 Jahren zu einer stetig wachsende Menge an verfügbaren Daten. Sie ermöglichen durch Kombination einzelner Experimente neue Vergleichsstudien zu kombinieren oder Experimente aus verschiedenen Studien zu großen Datensätzen zu vereinen. Dieses Vorgehen wird als Meta-Analyse bezeichnet und in dieser Arbeit verwendet, um einen großen Genexpressionsdatensatz aus öffentlich zugänglichen T-Zell Experimenten zu erstellen. T-Zellen sind Immunzellen, die eine Vielzahl von unterschiedlichen Funktionen des Immunsystems inititiieren und steuern. Sie können in verschiedene Subtypen mit unterschiedlichen Funktionen differenzieren. Der mittels Meta-Analyse erstellte Datensatz beinhaltet nur Experimente zu einem T-Zell-Subtyp, den regulatorischen T-Zellen (Treg) bzw. der beiden Untergruppen, natürliche Treg (nTreg) und induzierte Treg (iTreg) Zellen. Eine bisher unbeantwortete Frage lautet, welche subtyp-spezifischen gen-regulatorische Mechanismen die T-Zell Differenzierung steuern. Dazu werden in dieser Arbeit zwei spezifische Herausforderungen der Treg Forschung behandelt: (i) die Identifikation von Zelloberflächenmarkern zur Unterscheidung und Charakterisierung der Subtypen, sowie (ii) die Rekonstruktion von Treg-Zell-spezifischen gen-regulatorischen Netzwerken (GRN), die die Differenzierungsmechanismen beschreiben. Die implementierte Meta-Analyse kombiniert mehr als 150 Microarray-Experimente aus über 30 Studien in einem Datensatz. Dieser wird benutzt, um mittels Machine Learning Zell-spezifische Oberflächenmarker an Hand ihres Expressionsprofils zu identifizieren. Mit der in dieser Arbeit entwickelten Methode wurden 41 Genen extrahiert, von denen sechs Oberflächenmarker sind. Zusätzliche Validierungsexperimente zeigten, dass diese sechs Gene die Experimenten beider T-Zell Subtypen sicher unterscheiden können. Zur Rekonstruktion von GRNs vergleichen wir unter Verwendung des erstellten Datensatzes 11 verschiedene Algorithmen und evaluieren die Ergebnisse mit Informationen aus Interaktionsdatenbanken. Die Evaluierung zeigt, dass die derzeit verfügbaren Methoden nicht in der Lage sind den Wissensstand Treg-spezifischer, regulatorsicher Mechanismen zu erweitern. Abschließend präsentieren wir eine Datenintegrationstrategie zur Rekonstruktion von GRN am Beispiel von Th2 Zellen. Aus Hochdurchsatzexperimenten wird ein Th2-spezifisches GRN bestehend aus 100 Genen rekonstruiert. Während 89 dieser Gene im Kontext der Th2-Zelldifferenzierung bekannt sind, wurden 11 neue Kandidatengene ohne bisherige Assoziation zur Th2-Differenzierung ermittelt. Die Ergebnisse zeigen, dass Datenintegration prinzipiell die GRN Rekonstruktion ermöglicht. Mit der Verfügbarkeit von mehr Daten mit besserer Qualität ist zu erwarten, dass Methoden zur Rekonstruktion maßgeblich zum besseren Verstehen der zellulären Differenzierung im Immunsystem und darüber hinaus beitragen können und so letztlich die Ursachenforschung von Dysfunktionen und Krankheiten des Immunsystems ermöglichen werden. / Within the last two decades high-throughput gene expression screening technologies have led to a rapid accumulation of experimental data. The amounts of information available have enabled researchers to contrast and combine multiple experiments by synthesis, one of such approaches is called meta-analysis. In this thesis, we build a large gene expression data set based on publicly available studies for further research on T cell subtype discrimination and the reconstruction of T cell specific gene regulatory events. T cells are immune cells which have the ability to differentiate into subtypes with distinct functions, initiating and contributing to a variety of immune processes. To date, an unsolved problem in understanding the immune system is how T cells obtain a specific subtype differentiation program, which relates to subtype-specific gene regulatory mechanisms. We present an assembled expression data set which describes a specific T cell subset, regulatory T (Treg) cells, which can be further categorized into natural Treg (nTreg) and induced Treg (iTreg) cells. In our analysis we have addressed specific challenges in regulatory T cell research: (i) discriminating between different Treg cell subtypes for characterization and functional analysis, and (ii) reconstructing T cell subtype specific gene regulatory mechanisms which determine the differences in subtype-specific roles for the immune system. Our meta-analysis strategy combines more than one hundred microarray experiments. This data set is applied to a machine learning based strategy of extracting surface protein markers to enable Treg cell subtype discrimination. We identified a set of 41 genes which distinguish between nTregs and iTregs based on gene expression profile only. Evaluation of six of these genes confirmed their discriminative power which indicates that our approach is suitable to extract candidates for robust discrimination between experiment classes. Next, we identify gene regulatory interactions using existing reconstruction algorithms aiming to extend the number of known gene-gene interactions for Treg cells. We applied eleven GRN reconstruction tools based on expression data only and compared their performance. Taken together, our results suggest that the available methods are not yet sufficient to extend the current knowledge by inferring so far unreported Treg specific interactions. Finally, we present an approach of integrating multiple data sets based on different high-throughput technologies to reconstruct a subtype-specific GRN. We constructed a Th2 cell specific gene regulatory network of 100 genes. While 89 of these are known to be related to Th2 cell differentiation, we were able to attribute 11 new candidate genes with a function in Th2 cell differentiation. We show that our approach to data integration does, in principle, allow for the reconstruction of a complex network. Future availability of more and more consistent data may enable the use of the concept of GRN reconstruction to improve understanding causes and mechanisms of cellular differentiation in the immune system and beyond and, ultimately, their dysfunctions and diseases. T-Zelle Microarray Genexpressionsdaten Feature Selection Datenintegration gen-regulatorische Interaktionen Netzwerkrekonstruktion Meta-Analyse T cell gene expression data meta-analysis gene regulatory network reconstruction data integration microarray analysis feature selection 004 Datenverarbeitung; Informatik WC 7700 ddc:004
8	Bridging network reconstruction and mathematical modelling - rxncon a framework to reconstruct, visualise and model signal-transduction networks Thieme, Sebastian 17 October 2017 (has links) Lebende Organismen sind komplexe Systeme von miteinander interagierenden Komponen- ten. Ein entscheidender Schritt zum besseren Verständnis solcher biologischen Systeme ist die Erstellung biologischer Netzwerke, welche unser bisheriges Verständnis dieser Systeme widerspiegelt. Verschiedene Ansätze zur Netzwerk-Rekonstruktion unterscheiden sich zwar in ihrem Zweck und ihrer Komplexität, allerding haben sie ein gemeinsames Ziel: die Übersetzung des biologischen Wissens in ein mathematisches Modell zur Aufdeckung von Inkonsistenzen und Wissenslücken innerhalb der Rekonstruktionen durch computerbasierte Analysen. Während es für metabolische Netzwerke bereits gut entwickelte Rekonstruktionsansätze gibt, existieren derzeit nur wenige Ansätze für Signal-Transduktionsnetzwerke. In dieser Arbeit stelle ich eine Methode zur systematischen und komprimierten Rekonstruk- tion von Signal-Transduktionsnetzwerken vor – rxncon. Diese Methode hat zwei grundlegende Aspekte: Einerseits haben wir eine Sprache zur Rekonstruktion biologischer Netzwerke entwickelt, die die Probleme kombinatorischer Komplexität durch die Kombination von Zuständen während des Rekonstruktionsprozesses angeht. Diese kombinatorische Komplexität wird durch die Verwendung kontextfreier Grammatik und der Beschreibung der Daten auf derselben Ebene wie experimentelle Erkenntnisse umgangen. Andererseits haben wir eine computerbasierte Struktur zur Interpretation und zum Export entwickelt, welche es ermöglicht das rekonstruierte Wissen in mathematische Modelle und unterschiedliche Visualisierungsformate zu übersetzen. Dadurch sind wir in der Lage, erstens Signal-Transduktionsnetzwerke detailliert zu rekon- struieren, zweitens diese Netzwerke in ausführbare Boolesche Modelle zur Verbesserung, Evaluation und Validierung dieser Netzwerke zu übersetzen und drittens diese Netzwerke als Regelbasierte Modelle zu exportieren. Daher ermöglicht rxncon die Rekonstruktion, Validierung und Simulation von umfangreichen Signal-Transduktionsnetzwerken und verbindet dadurch den Rekonstruktionsprozess mit klassischen mathematischen Modellierungsansätzen. / Living organisms are complex systems of interacting components. A crucial step to understand those complex biological systems is the construction of biological networks that re ect our current knowledge of the system. The scope and coverage of different network reconstructions can differ, but they have one aim in common – to convert the knowledge into a mathematical model enabling computational analysis to nd possible inconsistencies and gaps. While reconstruction methods for metabolic networks are well established, only a few methods exist for reconstructing cellular signal- transduction networks. In this thesis, I present a method – rxncon – enabling a systematised and condensed reconstruction of signal-transduction networks. This method has two aspects. On the one hand, we developed a language for reconstructing biological networks. The language addresses the issue, that states are combined in signal-transduction networks, which create a large number of speci c states, generating highly complex structures. Due to the context-free grammar in the language and the description of the data on the same level of detail as biological ndings we can largely avoid the combinatorial complexity. On the other hand, we developed a framework for interpreting and exporting this knowledge into different mathematical models and visualisation formats, enabling a work ow to: 1) reconstruct mechanistic detailed signal-transduction network, 2) convert them into an executable Boolean model for evaluation, validation and improvement of the network and 3) export the reconstructed model into a rule-based model. Hence, rxncon has the potential to reconstruct, validate and simulate large-scale signalling networks – bridging large scale network reconstruction and classical mathematical modelling approaches. System Biologie Netzwerkrekonstruktion rxncon Modellierung Signal-Transduktions Netzwerke systems biology network reconstruction rxncon modelling signal-transduction networks 004 Datenverarbeitung; Informatik 570 Biowissenschaften; Biologie WD 9200 WC 7700 WE 5320 ddc:004 ddc:570
9	Deep Learning for Uncertainty Measurement Kim, Alisa 12 February 2021 (has links) Diese Arbeit konzentriert sich auf die Lösung des Problems der Unsicherheitsmessung und ihrer Auswirkungen auf Geschäftsentscheidungen, wobei zwei Ziele verfolgt werden: Erstens die Entwicklung und Validierung robuster Modelle zur Quantifizierung der Unsicherheit, wobei insbesondere sowohl die etablierten statistischen Modelle als auch neu entwickelte maschinelle Lernwerkzeuge zum Einsatz kommen. Das zweite Ziel dreht sich um die industrielle Anwendung der vorgeschlagenen Modelle. Die Anwendung auf reale Fälle bei der Messung der Volatilität oder bei einer riskanten Entscheidung ist mit einem direkten und erheblichen Gewinn oder Verlust verbunden. Diese These begann mit der Untersuchung der impliziten Volatilität (IV) als Proxy für die Wahrnehmung der Unsicherheit von Anlegern für eine neue Klasse von Vermögenswerten - Kryptowährungen. Das zweite Papier konzentriert sich auf Methoden zur Identifizierung risikofreudiger Händler und nutzt die DNN-Infrastruktur, um das Risikoverhalten von Marktakteuren, das auf Unsicherheit beruht und diese aufrechterhält, weiter zu untersuchen. Das dritte Papier befasste sich mit dem herausfordernden Bestreben der Betrugserkennung 3 und bot das Entscheidungshilfe-modell, das eine genauere und interpretierbarere Bewertung der zur Prüfung eingereichten Finanzberichte ermöglichte. Angesichts der Bedeutung der Risikobewertung und der Erwartungen der Agenten für die wirtschaftliche Entwicklung und des Aufbaus der bestehenden Arbeiten von Baker (2016) bot das vierte Papier eine neuartige DL-NLP-basierte Methode zur Quantifizierung der wirtschaftspolitischen Unsicherheit. Die neuen Deep-Learning-basierten Lösungen bieten eine überlegene Leistung gegenüber bestehenden Ansätzen zur Quantifizierung und Erklärung wirtschaftlicher Unsicherheiten und ermöglichen genauere Prognosen, verbesserte Planungskapazitäten und geringere Risiken. Die angebotenen Anwendungsfälle bilden eine Plattform für die weitere Forschung. / This thesis focuses on solving the problem of uncertainty measurement and its impact on business decisions while pursuing two goals: first, develop and validate accurate and robust models for uncertainty quantification, employing both the well established statistical models and newly developed machine learning tools, with particular focus on deep learning. The second goal revolves around the industrial application of proposed models, applying them to real-world cases when measuring volatility or making a risky decision entails a direct and substantial gain or loss. This thesis started with the exploration of implied volatility (IV) as a proxy for investors' perception of uncertainty for a new class of assets - crypto-currencies. The second paper focused on methods to identify risk-loving traders and employed the DNN infrastructure for it to investigate further the risk-taking behavior of market actors that both stems from and perpetuates uncertainty. The third paper addressed the challenging endeavor of fraud detection and offered the decision support model that allowed a more accurate and interpretable evaluation of financial reports submitted for audit. Following the importance of risk assessment and agents' expectations in economic development and building on the existing works of Baker (2016) and their economic policy uncertainty (EPU) index, it offered a novel DL-NLP-based method for the quantification of economic policy uncertainty. In summary, this thesis offers insights that are highly relevant to both researchers and practitioners. The new deep learning-based solutions exhibit superior performance to existing approaches to quantify and explain economic uncertainty, allowing for more accurate forecasting, enhanced planning capacities, and mitigated risks. The offered use-cases provide a road-map for further development of the DL tools in practice and constitute a platform for further research. deep learning NLP Unsicherheit Volatilität deep learning NLP uncertainty volatility 330 Wirtschaft 004 Datenverarbeitung; Informatik 332 Finanzwirtschaft QC 020 ddc:000 ddc:330 ddc:004 ddc:332
10	Augmented Reality-Umgebungen im Urheberrecht Dietrich, Jannis P. 24 February 2021 (has links) Die Studie untersucht mit der Augmented Reality (AR)-Technologie ein vergleichsweise neues techni-sches Phänomen aus urheberrechtlicher Perspektive, das sich insbesondere durch eine dynamische Ver-mischung von Realität und Virtualität kennzeichnet. Schwerpunktmäßig wird die Einordnung solcher interaktiver Werke als Filmwerk untersucht und abge-lehnt, um dann einen konkreten Vorschlag für die passendere Werkart des Multimediawerks zu unter-breiten und die Verkehrsfähigkeit und Urheberschaft hieran zu untersuchen. Konkret werden zunächst die technische Funktionsweise und die Anwendungsfelder der AR-Technologie untersucht (Kapitel 1) um in der Folge auf die Schutzfähigkeit einzugehen (Kapitel 2). Hierbei wird ins-besondere die Verwandtschaft mit anderen Werken mit einer künstlerisch-technischen Doppelnatur (hybride Werke), namentlich den Videospielen, herausgearbeitet. Daran angelehnt wird einerseits die Schutzmöglichkeit des zugrundeliegenden Codes als Computerprogramm und andererseits der erzeug-ten AR-Oberfläche insbesondere als Filmwerk untersucht. Die Einordnung als Film und auch als sonstige bekannte Werkart kann hier im Ergebnis nicht überzeugen und auch die herrschende Ansicht zur Ein-ordnung von Videospielen als Film wird kritisch hinterfragt. Es wird ein Vorschlag für eine unbenannte Werkart – das Multimediawerk – erarbeitet. Hierunter kön-nen moderne interaktive Gestaltungen flexibel und zeitgemäß subsumiert werden, insbesondere auch die digitale Oberfläche von Augmented Reality Umgebungen. Im dritten Kapitel werden dann die praktische Verkehrsfähigkeit sowie die Urheberschaft an entspre-chenden Multimediawerken untersucht. Ein Schwerpunkt liegt dabei insbesondere auf der Herleitung einer analogen Anwendbarkeit der Sonderregelungen zur Verwertung von Filmen (§§ 88 ff. UrhG) auf das hier vorgeschlagene Multimediawerk. / This study focuses on augmented reality (AR) technology from a copyright perspective. This compara-tively new technical phenomenon is characterized in particular by a dynamic intermingling of reality and virtuality. One of the key aspects of the study is the potential classification of such interactive works as cinemato-graphic works, which is examined and rejected. Consequently, a proposal of a better suited work type, the multimedia work, is presented before the marketability and authorship of such works is analyzed. First, the technical functionality and scope of AR technology are examined (chapter 1) in order to sub-sequently address its protectability (chapter 2). In particular, the similarity to other works defined by a combined aesthetic and technical nature (hybrid works), namely video games, is explored. Based on this, the possibility of protecting the underlying code as a computer program, on the one hand, and protecting the generated AR surface, in particular as a cinematographic work, on the other hand, is analyzed. It is concluded that the classification as cinematographic work, and also as any other known type of work, is to be rejected and furthermore, the prevailing view classifying video games as cine-matographic works is critically questioned. A proposal for an unnamed type of work – the multimedia work – is made. Modern interactive designs, in particular the digital surface of augmented reality environments, can be subsumed as such in a flex-ible and contemporary way. This study concludes with the third chapter, analyzing the practical marketability of such multimedia works as well as their authorship. A particular focus is set on the development of an analogous applica-bility of the legal framework for the exploitation of films (Sec. 88 et seq. German Copyright Act) to the multimedia work proposed here. Urheberrecht Multimediawerk Filmwerk Augmented Reality hybride Werke Videospiele Computerspiele künstlerisch-technische Doppelnatur interaktiv Filmverwertung Multimedia copyright multimedia work hybrid work augmented reality multimedia 340 Recht 346 Privatrecht 004 Datenverarbeitung; Informatik PZ 3400 ddc:340 ddc:346 ddc:004

Search results