Global ETD Search

1	Differential splicing in lymphoma Zimmermann, Karin 05 September 2018 (has links) Alternatives Spleißen ist ein wesentlicher Mechanismus, um Proteindiversität in Eukaryoten zu gewährleisten. Gewebespezifität sowie entwicklungsrelevante Prozesse werden unter anderem massgeblich davon beeinflusst. Aberrante (alternative) Spleißvorgänge können wiederum zu veränderten Proteinisoformen führen, die verschiedenste Krankheiten wie Krebs verursachen oder zu veränderter Medikamentenwirksamkeit beitragen können. In dieser Arbeit untersuchen wir differentielles Spleißen im Kontext von Krebserkrankungen. Dazu betrachten wir drei Aspekte, die uns wichtig erscheinen. Der erste Teil dieser Arbeit beschäftigt sich mit dem systematischen Vergleich verschiedener Methoden für die Detektion von differentiellem Spleißen in Exon-ArrayDaten. Anhand artifizieller und experimentell validierter Daten identifizieren wir Methoden, die über verschiedene Parameterszenarien hinweg robuste Ergebnisse liefern, und ermitteln bestimmte Datenparameter, die die Ergebnisgüte sowie die Qualität der angewandten Methoden beeinflussen. Im zweiten Teil identifizieren wir Spleiß-regulatorischer Proteine, die für die beobachteten Spleissveränderungen zwischen Krebs und einer Kontrolle verantwortlich sein könnten. Zu diesem Zweck stellen wir eine von uns entwickelte Methode basierend auf einem Netzwerkansatz vor. Hierbei werden Spleißfaktoren und differentiell gesplicete Exons in ein Netzwerk integriert und anschliessend anhand der Unterschiede in ihrer Zentralität geordnet. Im dritten Teil analysieren wir die Vergleichbarkeit zweier Datentypen, generiert durch unterschiedliche Technologien, in Bezug auf die Detektion von differentiellem Spleißen. Dazu beziehen wir mehrere Vergleichsebenen mit ein und wenden Methoden an, die für beide Technologien geeignet sind um eine methodenbasierte Beeinträchtigung der Vergleichbarkeit auszuschließen. Die Anwendung unseres Ansatzes auf zwei Datensätze identifiziert ähnliche Trends in der Vergleichbarkeit bei einer sich unterscheidenden Gesamtkonkordanz. / Alternative splicing is a crucial mechanism in eukaryotes, which provides an ample protein diversity that is necessary for maintaining an organism. In contrast, aberrant (alternative) splicing may lead to altered protein isoforms contributing to diseases such as cancer. In this thesis, we study differential splicing in cancer, i.e. splicing changes observed between cancerous and control tissues. We seek to identify methods best suited for the detection of differential splicing, we investigate regulatory factors potentially causal for the splicing changes observed, and we study the comparability of two data types obtained from different technologies with respect to differential splicing detection. The first part of the thesis assesses the performance of methods for detecting differential splicing from exon arrays as existing methods are often of low concordance. We examine global data parameters and their potential influence on results and method performance using artificial and validated experimental data. Overall, our evaluation indicates methods that perform robustly well across artificial and experimental data and identifies parameters impacting result performance. The second part aims at identifying regulatory factors responsible for splicing changes observed between cancer, and healthy tissue. Therefor, we develop a novel, network based approach which first integrates differentially spliced exons with splicing regulatory proteins (splicing factors), using transcriptomics data, and then ranks splicing factors according to their potential involvement in cancer. Third, we compare differential splicing detection based on RNA sequencing and exon array data by developing a multi-level comparison framework using two differential splicing detection methods applicable to both, RNA sequencing and exon array data, to avoid method inherent bias. We apply our multi-level framework to two data sets, leading, despite varying overall concordance, to similar trends in comparability. Spleißen Exon Array Lymphome Spleißfaktoren Splicing Exon Array Lymphoma Splicing Factors ST 265 ddc:000
2	Efficient Processing of Range Queries in Main Memory Sprenger, Stefan 11 March 2019 (has links) Datenbanksysteme verwenden Indexstrukturen, um Suchanfragen zu beschleunigen. Im Laufe der letzten Jahre haben Forscher verschiedene Ansätze zur Indexierung von Datenbanktabellen im Hauptspeicher entworfen. Hauptspeicherindexstrukturen versuchen möglichst häufig Daten zu verwenden, die bereits im Zwischenspeicher der CPU vorrätig sind, anstatt, wie bei traditionellen Datenbanksystemen, die Zugriffe auf den externen Speicher zu optimieren. Die meisten vorgeschlagenen Indexstrukturen für den Hauptspeicher beschränken sich jedoch auf Punktabfragen und vernachlässigen die ebenso wichtigen Bereichsabfragen, die in zahlreichen Anwendungen, wie in der Analyse von Genomdaten, Sensornetzwerken, oder analytischen Datenbanksystemen, zum Einsatz kommen. Diese Dissertation verfolgt als Hauptziel die Fähigkeiten von modernen Hauptspeicherdatenbanksystemen im Ausführen von Bereichsabfragen zu verbessern. Dazu schlagen wir zunächst die Cache-Sensitive Skip List, eine neue aktualisierbare Hauptspeicherindexstruktur, vor, die für die Zwischenspeicher moderner Prozessoren optimiert ist und das Ausführen von Bereichsabfragen auf einzelnen Datenbankspalten ermöglicht. Im zweiten Abschnitt analysieren wir die Performanz von multidimensionalen Bereichsabfragen auf modernen Serverarchitekturen, bei denen Daten im Hauptspeicher hinterlegt sind und Prozessoren über SIMD-Instruktionen und Multithreading verfügen. Um die Relevanz unserer Experimente für praktische Anwendungen zu erhöhen, schlagen wir zudem einen realistischen Benchmark für multidimensionale Bereichsabfragen vor, der auf echten Genomdaten ausgeführt wird. Im letzten Abschnitt der Dissertation präsentieren wir den BB-Tree als neue, hochperformante und speichereffziente Hauptspeicherindexstruktur. Der BB-Tree ermöglicht das Ausführen von multidimensionalen Bereichs- und Punktabfragen und verfügt über einen parallelen Suchoperator, der mehrere Threads verwenden kann, um die Performanz von Suchanfragen zu erhöhen. / Database systems employ index structures as means to accelerate search queries. Over the last years, the research community has proposed many different in-memory approaches that optimize cache misses instead of disk I/O, as opposed to disk-based systems, and make use of the grown parallel capabilities of modern CPUs. However, these techniques mainly focus on single-key lookups, but neglect equally important range queries. Range queries are an ubiquitous operator in data management commonly used in numerous domains, such as genomic analysis, sensor networks, or online analytical processing. The main goal of this dissertation is thus to improve the capabilities of main-memory database systems with regard to executing range queries. To this end, we first propose a cache-optimized, updateable main-memory index structure, the cache-sensitive skip list, which targets the execution of range queries on single database columns. Second, we study the performance of multidimensional range queries on modern hardware, where data are stored in main memory and processors support SIMD instructions and multi-threading. We re-evaluate a previous rule of thumb suggesting that, on disk-based systems, scans outperform index structures for selectivities of approximately 15-20% or more. To increase the practical relevance of our analysis, we also contribute a novel benchmark consisting of several realistic multidimensional range queries applied to real- world genomic data. Third, based on the outcomes of our experimental analysis, we devise a novel, fast and space-effcient, main-memory based index structure, the BB- Tree, which supports multidimensional range and point queries and provides a parallel search operator that leverages the multi-threading capabilities of modern CPUs. Datenbanksysteme Bereichsabfragen Moderne Hardware Hauptspeicher Database Management Systems Range Queries Modern Hardware Main Memory ST 175 ddc:000
3	Domain-Centered Product Line Testing Lackner, Hartmut 11 July 2017 (has links) Die Ansprüche von Kunden an neue (Software-)Produkte wachsen stetig. Produkte sollen genau auf die einzelnen Kundenwünsche zugeschnitten sein, sodass der Kunde genau die Funktionalität erhält und bezahlt die er benötigt. Hersteller reagieren auf diese gestiegenen Ansprüche mit immer mehr Varianten in denen sie ihre Produkte ihren Kunden anbieten. Die Variantenvielfalt hat in solchem Maß zugenommen, dass selbst in Massen gefertigte Produkte heute als Unikate produziert werden können. Neue Methoden wie Produktlinienentwicklung unterstützen die Entwicklung solcher variantenreicher Systeme. Während der Aufwand für die Entwicklung neuer Varianten nun sinkt, profitiert die Qualitätssicherung nicht vom Effizienzgewinn der Entwicklung. Im Gegenteil: Insbesondere beim Test wird zunächst jede Variante wie ein einzelnes Produkt behandelt. Bei variantenreichen Systemen ist dies aufwandsbedingt jedoch nicht mehr möglich. Die in dieser Arbeit vorgestellten Testentwurfsmethoden berücksichtigen die Variantenvielfalt in besonderem Maße. Bisher wurden, nach einer Stichprobenauswahl zur Reduktion des Testaufwands, die Testfälle auf Basis der konkreten Produkte entworfen. Statt nun auf Basis konkreter Produkte werden in dieser Arbeit zwei Ansätze vorgestellt, die die Phase des Testentwurfs auf die Produktlinienebene heben. Die bei Anwendung dieser Methoden entstehenden Testfälle enthalten, je nach Inhalt, Freiheitsgrade bzgl. ihrer Anforderungen an eine Variante, sodass ein Testfall auf ein oder mehrere Varianten angewendet wird. Ausgehend von solchen Testfällen werden in dieser Arbeit neue Kriterien zur Stichprobenauswahl entwickelt. Mit diesen Kriterien kann der Umfang der Stichprobe, aber auch Eigenschaften der zu testenden Varianten bzgl. eines gegebenes Testziel optimiert werden. So ist es möglich, z.B. sehr wenige oder sehr unterschiedliche Varianten zum Test auszuwählen. Insgesamt werden in dieser Arbeit fünf Kriterien definiert und auf ihr Fehleraufdeckungspotenzial untersucht. Zu diesem Zweck werden neue Bewertungskriterien zur Fehleraufdeckungswahrscheinlichkeit von Produktlinientests etabliert. Somit ist erstmalig eine quantitative sowie qualitative Bewertung von Produktlinientests möglich. Die Ergebnisse der vorgestellten Methoden und Auswahlkriterien werden sowohl untereinander evaluiert, als auch konventionellen Testmethoden für Produktliniensysteme gegenübergestellt. An vier Beispielen unterschiedlicher Gro{\"ss}e werden die in dieser Arbeit vorgestellten Methoden evaluiert. / Consumer expectations of (software-)products are growing continuously. They demand products that fit their exact needs, so they pay only for necessary functionalities. Producers react to those demands by offering more variants of a product. Product customization has reached a level where classically mass produced goods, like cars, can be configured to unique items. New paradigms facilitate the engineering of such variant-rich systems and reduce costs for development and production. While development and production became more efficient, quality assurance suffers from treating each variant as a distinct product. In particular, test effort is affected, since each variant must be tested sufficiently prior to production. For variant-rich systems this testing approach is not feasible anymore. The methods for test design presented in this thesis overcome this issue by integrating variability into the test design process. The resulting test cases include requirements for variants, which must be fulfilled to execute the test successfully. Hence multiple variants may fulfill these requirements, each test case may be applicable to more than only one variant. Having test cases with requirements enables sampling subsets of variants for the purpose of testing. Under the assumption that each test case must be executed once, variants can be sampled to meet predefined test goals, like testing a minimal or diverse subset of variants. In this thesis, five goals are defined and evaluated by assessing the tests for their fault detection potential. For this purpose, new criteria for assessing the fault detection capability of product line tests are established. These criteria enable quantitative as well as qualitative assessment of such test cases for the first time. The results of the presented methods are compared with each other and furthermore with state of the art methods for product line testing. This comparison is carried out on four examples of different sizes, from small to industry-grade. Modellbasierter Test Produktlinien Produktauswahl Mutationsanalyse model-based Testing Product Lines Product Sampling Mutation Analysis SR 870 ST 233 ddc:000
4	Physical Computing als Mittel der wissenschaftlichen Erkenntnisgewinnung Schulz, Sandra 17 December 2018 (has links) Physical-Computing-Geräten wie Robotern und Mikrocontrollern wird eine wichtige Rolle als Lernmedium für Schülerinnen und Schüler zugesprochen. Zu lernende Kontexte sind ähnlich vielfältig wie die inzwischen existierenden Geräte. Die Komplexität der Systeme ist mannigfaltig und bisherige Forschung geht zumeist von dem Gerät als Forschungsgegenstand aus. Im Rahmen dieser Dissertation wird von einem geräteunabhängigen Physical- Computing-Prozess als Problemlöseprozess ausgegangen, um ein Fundament für nachhaltige und geräteunabhängige Forschung zu schaffen sowie Physical Computing als Unterrichtsgegenstand zu beschreiben. Aufgrund von Merkmalen, wie der Arbeit mit Sensorik und Aktuatorik sowie dem iterativen Testen und Evaluieren, scheint Physical Computing Ähnlichkeiten zu dem naturwissenschaftlichen Experiment aufzuweisen. Dieser Zusammenhang und die potentiellen Auswirkungen auf die Informatikdidaktik werden in den folgenden drei Ausprägungsformen untersucht. Basierend auf Modellen aus der Literatur wird ein Modell des Physical-Computing- Prozesses abgeleitet und mithilfe empirischer Studien adaptiert. Bei dem Vergleich der Prozesse der wissenschaftlichen Erkenntnisgewinnung und des Physical Computing können diverse Gemeinsamkeiten festgestellt werden. Insbesondere verlaufen die Prozesse parallel zueinander, was die Grundlage für einen MINT-Problemlöseprozess bildet. Bislang wurden konkrete Probleme von Schülerinnen und Schülern bei der Interaktion mit den Geräten peripher beschrieben. In dieser Arbeit wird eine Analyse von Problemursachen vorgenommen und auftretende Probleme werden kategorisiert. Probleme, die gleichzeitig mehrere Problemursachen haben, werden aufgedeckt und eine Problemtaxonomie zur Beschreibung von Problemursachen abgeleitet. Ein mehrstufiges Feedback-Modell zur Unterstützung des Problemlösens in Physical- Computing-Aktivitäten wird basierend auf der Problemtaxonomie entwickelt. Durch eine empirische Untersuchung wird es als unterstützend für den Physical-Computing-Prozess evaluiert und bildet damit ein Modell zur Entwicklung von kognitiven Tutorensystemen für Physical Computing. / Physical computing devices like robots and microcontrollers play an important role as learning devices for students. These devices as well as the learning contexts are multifaceted. The complexities of the systems are diverse and the existing research is usually concentrated on the devices. This thesis develops as a starting point a device-independent physical computing process by seeing it as problem-solving process. The goal is to construct a base for sustained and device-independent physical computing research and to describe physical computing as a school subject. The physical computing process seems to share similarities with the scientific inquiry process, because of characteristics like working with sensors and actuators and iterativ testing and evaluating. This relation and the implications on computer science education are explored in the following three facets. Based on existing literature, a model of the physical computing process is derived and supplemented by empirical data. In the comparison of the scientific inquiry and the physical computing processes substantial commonalities are identified. Hence, a base for a joint STEM problem-solving process is built. So far, concrete students’ problems during the activities with physical computing devices are described as a side product. In this thesis problem sources are uncovered and occurring problems categorized. Problems having more than one problem source are uncovered and a problem taxonomy is derived from that. Based on the problem taxonomy, a multilevel feedback model to support problem solving during physical computing activities is developed. With an empirical exploration, the taxonomy is evaluated. Results indicate that the taxonomy is supportive for achieving the physical computing process. Finally a model for a cognitive tutoring system for physical computing is outlined. Physical Computing Scientific Inquiry Informatikdidaktik MINT Physical Computing Scientific Inquiry Computer Science Education STEM 373 Sekundarbildung 000 Informatik SR 910 ddc:373 ddc:000
5	Simulationssprachen - Effiziente Entwicklung und Ausführung Blunk, Andreas 21 January 2019 (has links) Simulationssprachen sind in Bezug auf die Unterstützung neuer domänenspezifischer Konzepte mit einer dem Problem entsprechenden prägnanten Darstellung nicht flexibel erweiterbar. Dies betrifft sowohl die Sprache in ihren Konzepten als auch die Unterstützung der Sprache durch Sprachwerkzeuge. In dieser Arbeit entsteht der neue Sprachentwicklungsansatz Discrete-Event Modelling with Extensibility (DMX) für die Entwicklung flexibel erweiterbarer Simulationssprachen für domänenspezifische Anwendungsfelder, der eine effiziente Entwicklung der Sprache und eine effiziente Ausführung von Modellen erlaubt. Der Fokus der Arbeit liegt auf der zeitdiskreten ereignisbasierten Simulation und einer prozessorientierten Beschreibung von Simulationsmodellen. Der Ansatz unterscheidet Basiskonzepte, die zur Basissprache gehören, und Erweiterungskonzepte, die Teil von Erweiterungsdefinitionen sind. Es wird untersucht, welche Basiskonzepte eine Simulationssprache bereitstellen muss, so dass eine laufzeiteffiziente Ausführung von prozessorientierten Modellen möglich ist. Die hohe Laufzeiteffizienz der Ausführung wird durch die Konzeption einer neuartigen Methode zur Abbildung von Prozesskontextwechseln auf ein C++-Programm gezeigt. Der Spracherweiterungsansatz ist nicht auf Simulationssprachen als Basissprachen beschränkt und wird daher allgemein beschrieben. Der Ansatz basiert auf einer Syntaxerweiterung einer Basissprache, die mit einem Metamodell und einer kontextfreien Grammatik definiert ist. Die Ausführung von Erweiterungskonzepten wird durch eine Konzeptreduktion auf Basiskonzepte erreicht. Der Ansatz stellt bestimmte Voraussetzungen an eine Basissprache und erlaubt bestimmte Arten von Erweiterungen, die in der Arbeit untersucht werden. Die Eignung des Anstatzes zur Entwicklung einer komplexen domänenspezifischen Simulationssprache wird an einer Sprache für Zustandsautomaten gezeigt. / Simulation languages are not extensible regarding the support of new domain-specific concepts with a concise representation. This includes the concepts of a language as well as the language tools. In this dissertation, the new approach Discrete-Event Modelling with Extensibility (DMX) is developed. DMX allows to create flexible domain-specific simulation languages by defining extensions to a base language. The approach allows to develop these languages efficiently and also to execute simulation models in a runtime efficient way. The focus of this dissertation is on process-oriented descriptions of discrete-event simulation models. The approach distinguishes base concepts which are part of the base language and extension concepts which are part of extension definitions. The dissertation investigates the necessary base concepts which should be included in a base simulation language in order to execute process-oriented models efficiently. The high runtime efficiency of executions is achieved by creating a new method for mapping process context switches to a program in C++. The runtime efficiency can be transferred to extension concepts as well. The extension approach is described in a general way because it is not limited to a simulation language as a base language. The approach is based on the syntax extension of a base language, which is defined by a metamodel and a context-free grammar. The execution of extension concepts is achieved by concept reduction to base concepts. The approach has a number of requirements to the base language and allows certain kinds of extensions, which are desribed in the dissertation. The possibility to define a complex domain-specific simulation language is shown by applying the approach to the development of a state machine language. Simulation Programmiersprache Modellierungssprache Spracherweiterung simulation programming language modelling extension ST 240 ddc:000
6	Zertifizierende verteilte Algorithmen Völlinger, Kim 22 October 2020 (has links) Eine Herausforderung der Softwareentwicklung ist, die Korrektheit einer Software sicherzustellen. Testen bietet es keine mathematische Korrektheit. Formale Verifikation ist jedoch oft zu aufwändig. Laufzeitverifikation steht zwischen den beiden Methoden. Laufzeitverifikation beantwortet die Frage, ob ein Eingabe-Ausgabe-Paar korrekt ist. Ein zertifizierender Algorithmus überzeugt seinen Nutzer durch ein Korrektheitsargument zur Laufzeit. Dafür berechnet ein zertifizierender Algorithmus für eine Eingabe zusätzlich zur Ausgabe noch einen Zeugen – ein Korrektheitsargument. Jeder zertifizierende Algorithmus besitzt ein Zeugenprädikat: Ist dieses erfüllt für eine Eingabe, eine Ausgabe und einen Zeugen, so ist das Eingabe-Ausgabe-Paar korrekt. Ein simpler Algorithmus, der das Zeugenprädikat für den Nutzer entscheidet, ist ein Checker. Die Korrektheit des Checkers ist folglich notwendig für den Ansatz und die formale Instanzverifikation, bei der wir Checker verifizieren und einen maschinen-geprüften Beweis für die Korrektheit eines Eingabe-Ausgabe-Paars zur Laufzeit gewinnen. Zertifizierende sequentielle Algorithmen sind gut untersucht. Verteilte Algorithmen, die auf verteilten Systemen laufen, unterscheiden sich grundlegend von sequentiellen Algorithmen: die Ausgabe ist über das System verteilt oder der Algorithmus läuft fortwährend. Wir untersuchen zertifizierende verteilte Algorithmen. Unsere Forschungsfrage ist: Wie können wir das Konzept zertifizierender sequentieller Algorithmen so auf verteilte Algorithmen übertragen, dass wir einerseits nah am ursprünglichen Konzept bleiben und andererseits die Gegebenheiten verteilter Systeme berücksichtigen? Wir stellen eine Methode der Übertragung vor. Die beiden Ziele abwägend entwickeln wir eine Klasse zertifizierender verteilter Algorithmen, die verteilte Zeugen berechnen und verteilte Checker besitzen. Wir präsentieren Fallstudien, Entwurfsmuster und ein Framework zur formalen Instanzverifikation. / A major problem in software engineering is to ensure the correctness of software. Testing offers no mathematical correctness. Formal verification is often too costly. Runtime verification stands between the two methods. Runtime verification answers the question whether an input-output pair is correct. A certifying algorithm convinces its user at runtime by offering a correctness argument. For each input, a certifying algorithm computes an output and additionally a witness. Each certifying algorithm has a witness predicate – a predicate with the property: being satisfied for an input, output and witness implies the input-output pair is correct. A simple algorithm deciding the witness predicate for the user is a checker. Hence, the checker’s correctness is crucial to the approach and motivates formal instance verification where we verify checkers and obtain machine-checked proofs for the correctness of an input-output pair at runtime. Certifying sequential algorithms are well-established. Distributed algorithms, designed to run on distributed systems, behave fundamentally different from sequential algorithms: their output is distributed over the system or they even run continuously. We investigate certifying distributed algorithms. Our research question is: How can we transfer the concept of certifying sequential algorithms to distributed algorithms such that we are in line with the original concept but also adapt to the conditions of distributed systems? In this thesis, we present a method to transfer the concept: Weighing up both sometimes conflicting goals, we develop a class of certifying distributed algorithms that compute distributed witnesses and have distributed checkers. We offer case studies, design patterns and a framework for formal instance verification. Additionally, we investigate other methods to transfer the concept of certifying algorithms to distributed algorithms. zertifizierende Algorithmen verteilte Algorithmen Laufzeitverifikation Instanzverifikation Beweisassistent Coq certifying algortihm distributed algorithm runtime verification instance verification proof assistant Coq ST 233 ddc:000
7	Machine Learning for Credit Risk Analytics Kozodoi, Nikita 03 June 2022 (has links) Der Aufstieg des maschinellen Lernens (ML) und die rasante Digitalisierung der Wirtschaft haben die Entscheidungsprozesse in der Finanzbranche erheblich verändert. Finanzinstitute setzen zunehmend auf ML, um die Entscheidungsfindung zu unterstützen. Kreditscoring ist eine der wichtigsten ML-Anwendungen im Finanzbereich. Die Aufgabe von Kreditscoring ist die Unterscheidung ob ein Antragsteller einen Kredit zurückzahlen wird. Finanzinstitute verwenden ML, um Scorecards zu entwickeln, die die Ausfallwahrscheinlichkeit eines Kreditnehmers einschätzen und Genehmigungsentscheidungen automatisieren. Diese Dissertation konzentriert sich auf drei große Herausforderungen, die mit dem Aufbau von ML-basierten Scorekarten für die Bewertung von Verbraucherkrediten verbunden sind: (i) Optimierung von Datenerfassungs- und -speicherkosten bei hochdimensionalen Daten von Kreditantragstellern; (ii) Bewältigung der negativen Auswirkungen von Stichprobenverzerrungen auf das Training und die Bewertung von Scorekarten; (iii) Messung und Sicherstellung der Fairness von Instrumenten bei gleichzeitig hoher Rentabilität. Die Arbeit bietet und testet eine Reihe von Instrumenten, um jede dieser Herausforderungen zu lösen und die Entscheidungsfindung in Finanzinstituten zu verbessern. Erstens entwickeln wir Strategien zur Auswahl von Merkmalen, die mehrere unternehmensbezogene Zielfunktionen optimieren. Unsere Vorschläge reduzieren die Kosten der Datenerfassung und verbessern die Rentabilität der Modelle. Zweitens schlagen wir Methoden zur Abschwächung der negativen Auswirkungen von Stichprobenverzerrungen vor. Unsere Vorschläge gleichen die Verluste aufgrund von Verzerrungen teilweise aus und liefern zuverlässigere Schätzungen der künftigen Scorecard-Leistung. Drittens untersucht die Arbeit faire ML-Praktiken in Kreditscoring. Wir katalogisieren geeignete algorithmische Optionen für die Einbeziehung von Fairness-Zielen und verdeutlichen den Kompromiss zwischen Gewinn und Fairness. / The rise of machine learning (ML) and the rapid digitization of the economy has substantially changed decision processes in the financial industry. Financial institutions increasingly rely on ML to support decision-making. Credit scoring is one of the prominent ML applications in finance. The task of credit scoring is to distinguish between applicants who will pay back the loan or default. Financial institutions use ML to develop scoring models to estimate a borrower's probability of default and automate approval decisions. This dissertation focuses on three major challenges associated with building ML-based scorecards in consumer credit scoring: (i) optimizing data acquisition and storage costs when dealing with high-dimensional data of loan applicants; (ii) addressing the adverse effects of sampling bias on training and evaluation of scoring models; (iii) measuring and ensuring the scorecard fairness while maintaining high profitability. The thesis offers a set of tools to remedy each of these challenges and improve decision-making practices in financial institutions. First, we develop feature selection strategies that optimize multiple business-inspired objectives. Our propositions reduce data acquisition costs and improve model profitability and interpretability. Second, the thesis illustrates the adverse effects of sampling bias on model training and evaluation and suggests novel bias correction frameworks. The proposed methods partly recover the loss due to bias, provide more reliable estimates of the future scorecard performance and increase the resulting model profitability. Third, the thesis investigates fair ML practices in consumer credit scoring. We catalog algorithmic options for incorporating fairness goals in the model development pipeline and perform empirical experiments to clarify the profit-fairness trade-off in lending decisions and identify suitable options to implement fair credit scoring and measure the scorecard fairness. Kreditscoring maschinelles Lernen Merkmalsauswahl Stichprobenverzerrung Fairness credit scoring machine learning feature selection sampling bias fairness QK 320 ddc:000
8	OPEN HISTORY Höltgen, Stefan 03 March 2020 (has links) Wie ist Computergeschichtsschreibung aus informatischer Perspektive möglich? Diese Frage wird unter Berücksichtigung der Medienarchäologie, die die Operativität und damit Ahistorizität technischer Medien betont, gestellt, woraus sich die Computerarchäologie als interdisziplinäre Theorie und Methode ergibt. Die Arbeit erfasst zunächst die Probleme technisch defizitärer, widersprüchlicher und idiosynkratischer Computerhistoriografie an ausgewählten Beispielen, um diese geschichtskritisch, diskurs- und medienarchäologisch zu dekonstruieren. Unter dem Begriff der Archäographie werden sodann Werkzeuge und Methoden zusammengestellt, die es ermöglichen operative ‘alte’ Computer techniknah zu untersuchen und zur Entwicklung einer Theorie mittlerer Reichweite zu beschreiben. Dabei suspendieren Methoden der Informatik, Elektrotechnik, Diagrammatik u. a. die hermeneutischen Beschreibungsverfahren der Historiografie. Zusätzliche Methoden der Medienwissenschaft und anderer Disziplinen ergänzen dieses Methodenset. Retrocomputing, das als eine hobbyistische Form der Computerarchäologie bereits seit Jahrzehnten betrieben wird, bildet den Rahmen für 4 computerarchäologische Projekte mit frühen Mikrocomputern (1975-1985): 1. die Analyse einer ‘traditionellen’ Computer-Demonstration; 2. die Entwicklung eines “Game of Life” auf einer 8-Bit-Computerplattform; 3. die Entwicklung eines neuen Computerspiels und modernen Massenspeichers für eine Spielkonsole von 1978; und 4. die Reparatur eines 8-Bit-Computers von 1977. Diese Projekte werden im Anschluss durch eine didaktische Betrachtung gerahmt. Retrocomputing verfährt damit auf ähnliche Weise wie ‘Homecomputing’ (ab den späten 1970er Jahren). Die didaktische Reflexion der Projekte mündet in eine Retro-Didaktik, die geeignet wäre durch Komplexitätsreduktion breitenwirksam Kenntnisse über aktuelle Informatik-Systeme zu vermitteln und zugleich ein historisch-kritisches Bewusstsein der Computerkultur zu generieren. / How is computer history possible from the viewpoint of computer science? By considering media archaeology’s theory of operative and thus a-historical media computer archaeology combines an interdisciplinary set of theories and methods to answer this question. At first, the problems of computer historiography (technical inaccuracy, inconsistency, and idiosyncrasy) will be deconstructed with the help of history criticism, discourse archaeology, and media archaeology. Following that, technology–oriented tools and methods are gathered for describing ‘old’ computers within an ‘archaeography’ and analyzing them within a mid-range theory. Methods of computer science, electronics, diagrammatics etc. supersede hermeneutical methods of historiography. Additional tools (re-enactment, demonstration, computer philology) from media science and other disciplines complement this set of methods. Retro computing sets the frame for 4 computer archaeological projects about early micro computers (1975-85): 1. a computer philological analysis of a ‘traditional’ computer demo; 2. the development of a “Game of Life” on an 8-bit platform; 3. the development of a new computer game for a 1978 gaming console; 4. the reparation of an 8-bit computer done by a hardware hacker. These projects are discussed afterwards to gain the specific didactical modus operandi of retro computing hobbyists. Just like historical home computing (starting from the late 1970s) retro computing autodidactically gathers theoretical, historical, and practical knowledge by trial and error, gamification, and e-learning through a “learning by doing” procedure. The confrontation of three historical examples with three actual retro computing projects will prove this. The didactical reflection of retro computing projects describes a ‘retro didactic’ that would be useful for a broad application of historic sensitive, computer scientific knowledge with the help of less complex systems like early microcomputers are. Medienarchäologie Computerarchäologie Computergeschichte Retrocomputing media archaeology computer archaeology computer history retro computing SR 800 ddc:000
9	Preprocessing to Deal with Hard Problems Hols, Eva-Maria Christiana 22 May 2020 (has links) In der klassischen Komplexitätstheorie unterscheiden wir zwischen der Klasse P von in Polynomialzeit lösbaren Problemen, und der Klasse NP-schwer von Problemen bei denen die allgemeine Annahme ist, dass diese nicht in Polynomialzeit lösbar sind. Allerdings sind viele Probleme, die wir lösen möchten, NP-schwer. Gleichzeitig besteht eine große Diskrepanz zwischen den empirisch beobachteten und den festgestellten worst-case Laufzeiten. Es ist bekannt, dass Vorverarbeitung oder Datenreduktion auf realen Instanzen zu Laufzeitverbesserungen führt. Hier stoßen wir an die Grenze der klassischen Komplexitätstheorie. Der Fokus dieser Arbeit liegt auf Vorverarbeitungsalgorithmen für NP-schwere Probleme. Unser Ziel ist es, bestimmte Instanzen eines NP-schweren Problems vorverarbeiten zu können, indem wir die Struktur betrachten. Genauer gesagt, für eine gegebene Instanz und einen zusätzlichen Parameter l, möchten wir in Polynomialzeit eine äquivalente Instanz berechnen, deren Größe und Parameterwert nur durch eine Funktion im Parameterwert l beschränkt ist. In der parametrisierten Komplexitätstheorie heißen diese Algorithmen Kernelisierung. Wir werden drei NP-schwere Graphenprobleme betrachten, nämlich Vertex Cover, Edge Dominating Set und Subset Feedback Vertex Set. Für Vertex Cover werden wir bekannte Ergebnisse für Kernelisierungen vereinheitlichen, wenn der Parameter die Größe einer Entfernungsmenge zu einer gegebenen Graphklasse ist. Anschließend untersuchen wir die Kernelisierbarkeit von Edge Dominating Set. Es stellt sich heraus, dass die Kernelisierbarkeit deutlich komplexer ist. Dennoch klassifizieren wir die Existenz einer polynomiellen Kernelisierung, wenn jeder Graph in der Graphklasse eine disjunkte Vereinigung von konstant großen Komponenten ist. Schließlich betrachten wir das Subset Feedback Vertex Set Problem und zeigen, dass es eine randomisierte polynomielle Kernelisierung hat, wenn der Parameter die Lösungsgröße ist. / In classical complexity theory, we distinguish between the class P, of polynomial-time solvable problems, and the class NP-hard, of problems where the widely-held belief is that we cannot solve these problems in polynomial time. Unfortunately, many of the problems we want to solve are NP-hard. At the same time, there is a large discrepancy between the empirically observed running times and the established worst-case bounds. Using preprocessing or data reductions on real-world instances is known to lead to huge improvements in the running time. Here we come to the limits of classical complexity theory. In this thesis, we focus on preprocessing algorithms for NP-hard problems. Our goal is to find ways to preprocess certain instances of an NP-hard problem by considering the structure of the input instance. More precisely, given an instance and an additional parameter l, we want to compute in polynomial time an equivalent instance whose size and parameter value is bounded by a function in the parameter l only. In the field of parameterized complexity, these algorithms are called kernelizations. We will consider three NP-hard graph problems, namely Vertex Cover, Edge Dominating Set, and Subset Feedback Vertex Set. For Vertex Cover, we will unify known results for kernelizations when parameterized by the size of a deletion set to a specified graph class. Afterwards, we study the existence of polynomial kernelizations for Edge Dominating Set when parameterized by the size of a deletion set to a graph class. We point out that the existence of polynomial kernelizations is much more complicated than for Vertex Cover. Nevertheless, we fully classify the existence of polynomial kernelizations when every graph in the graph class is a disjoint union of constant size components. Finally, we consider graph cut problems, especially the Subset Feedback Vertex Set problem. We show that this problem has a randomized polynomial kernelization when the parameter is the solution size. Komplexitätstheorie Parametrisierte Komplexitätstheorie Kernelisierung Strukturelle Parameter Complexity Theory Parameterized Complexity Kernelization Structural Parameters ST 134 ddc:000
10	Distance-based methods for the analysis of Next-Generation sequencing data Otto, Raik 14 September 2021 (has links) Die Analyse von NGS Daten ist ein zentraler Aspekt der modernen genomischen Forschung. Bei der Extraktion von Daten aus den beiden am häufigsten verwendeten Quellorganismen bestehen jedoch vielfältige Problemstellungen. Im ersten Kapitel wird ein neuartiger Ansatz vorgestellt welcher einen Abstand zwischen Krebszellinienkulturen auf Grundlage ihrer kleinen genomischen Varianten bestimmt um die Kulturen zu identifizieren. Eine Voll-Exom sequenzierte Kultur wird durch paarweise Vergleiche zu Referenzdatensätzen identifiziert so ein gemessener Abstand geringer ist als dies bei nicht verwandten Kulturen zu erwarten wäre. Die Wirksamkeit der Methode wurde verifiziert, jedoch verbleiben Einschränkung da nur das Sequenzierformat des Voll-Exoms unterstützt wird. Daher wird im zweiten Kapitel eine publizierte Modifikation des Ansatzes vorgestellt welcher die Unterstützung der weitläufig genutzten Bulk RNA sowie der Panel-Sequenzierung ermöglicht. Die Ausweitung der Technologiebasis führt jedoch zu einer Verstärkung von Störeffekten welche zu Verletzungen der mathematischen Konditionen einer Abstandsmetrik führen. Daher werden die entstandenen Verletzungen durch statistische Verfahren zuerst quantifiziert und danach durch dynamische Schwellwertanpassungen erfolgreich kompensiert. Das dritte Kapitel stellt eine neuartige Daten-Aufwertungsmethode (Data-Augmentation) vor welche das Trainieren von maschinellen Lernmodellen in Abwesenheit von neoplastischen Trainingsdaten ermöglicht. Ein abstraktes Abstandsmaß wird zwischen neoplastischen Entitäten sowie Entitäten gesundem Ursprungs mittels einer transkriptomischen Dekonvolution hergestellt. Die Ausgabe der Dekonvolution erlaubt dann das effektive Vorhersagen von klinischen Eigenschaften von seltenen jedoch biologisch vielfältigen Krebsarten wobei die prädiktive Kraft des Verfahrens der des etablierten Goldstandard ebenbürtig ist. / The analysis of NGS data is a central aspect of modern Molecular Genetics and Oncology. The first scientific contribution is the development of a method which identifies Whole-exome-sequenced CCL via the quantification of a distance between their sets of small genomic variants. A distinguishing aspect of the method is that it was designed for the computer-based identification of NGS-sequenced CCL. An identification of an unknown CCL occurs when its abstract distance to a known CCL is smaller than is expected due to chance. The method performed favorably during benchmarks but only supported the Whole-exome-sequencing technology. The second contribution therefore extended the identification method by additionally supporting the Bulk mRNA-sequencing technology and Panel-sequencing format. However, the technological extension incurred predictive biases which detrimentally affected the quantification of abstract distances. Hence, statistical methods were introduced to quantify and compensate for confounding factors. The method revealed a heterogeneity-robust benchmark performance at the trade-off of a slightly reduced sensitivity compared to the Whole-exome-sequencing method. The third contribution is a method which trains Machine-Learning models for rare and diverse cancer types. Machine-Learning models are subsequently trained on these distances to predict clinically relevant characteristics. The performance of such-trained models was comparable to that of models trained on both the substituted neoplastic data and the gold-standard biomarker Ki-67. No proliferation rate-indicative features were utilized to predict clinical characteristics which is why the method can complement the proliferation rate-oriented pathological assessment of biopsies. The thesis revealed that the quantification of an abstract distance can address sources of erroneous NGS data analysis. Krebs NGS Krebszelllinie maschinelles Lernen Bioinformatik Cancer NGS Cancer Cell Line Machine-Learning Bioinformatics ST 640 ST 300 ST 265 ddc:000

Search results