Global ETD Search

91	Integration and analysis of phenotypic data from functional screens Paszkowski-Rogacz, Maciej 10 January 2011 (has links) (PDF) Motivation: Although various high-throughput technologies provide a lot of valuable information, each of them is giving an insight into different aspects of cellular activity and each has its own limitations. Thus, a complete and systematic understanding of the cellular machinery can be achieved only by a combined analysis of results coming from different approaches. However, methods and tools for integration and analysis of heterogenous biological data still have to be developed. Results: This work presents systemic analysis of basic cellular processes, i.e. cell viability and cell cycle, as well as embryonic stem cell pluripotency and differentiation. These phenomena were studied using several high-throughput technologies, whose combined results were analysed with existing and novel clustering and hit selection algorithms. This thesis also introduces two novel data management and data analysis tools. The first, called DSViewer, is a database application designed for integrating and querying results coming from various genome-wide experiments. The second, named PhenoFam, is an application performing gene set enrichment analysis by employing structural and functional information on families of protein domains as annotation terms. Both programs are accessible through a web interface. Conclusions: Eventually, investigations presented in this work provide the research community with novel and markedly improved repertoire of computational tools and methods that facilitate the systematic analysis of accumulated information obtained from high-throughput studies into novel biological insights. Datenintegration Datenanalyse Bioinformatik Systembiologie Hochdurchsatz-Screening RNA-Interferenz data integration data analysis bioinformatics systems biology high-throughput screening RNA interference ddc:576 ddc:005 ddc:570 rvk:WC 7700 Datenintegration Datenanalyse Bioinformatik Hochdurchsatz-Screening RNA-Interferenz
92	Programmtransformationen für Vielteilchensimulationen auf Multicore-Rechnern Schwind, Michael 15 December 2010 (has links) (PDF) In dieser Dissertation werden Programmtransformationen für die Klasse der regulär-irregulären Schleifenkomplexe, welche typischerweise in komplexen Simulationscodes für Vielteilchensysteme auftreten, betrachtet. Dabei wird die Effizienz der resultierenden Programme auf modernen Multicore-Systemen untersucht. Reguläre Schleifenkomplexe zeichnen sich durch feste Schleifengrenzen und eine regelmäßige Struktur der Abhängigkeiten der Berechnungen aus, bei irregulären Berechnungen sind Abhängigkeiten zwischen Berechnungen erst zur Laufzeit bekannt und stark von den Eingabedaten abhängig. Die hier betrachteten regulären-irregulären Berechnungen koppeln beide Arten von Berechnungen eng. Die Herausforderung der effizienten Realisierung regulär-irregulärer Schleifenkomplexe auf modernen Multicore-Systemen liegt in der Kombination von Transformationstechnicken, die sowohl ein hohes Maß an Parallelität erlauben als auch die Lokalität der Berechnungen berücksichtigen. Moderne Multicore-Systeme bestehen aus einer komplexen Speicherhierachie aus privaten und gemeinsam genutzten Caches, sowie einer gemeinsamen Speicheranbindung. Diese neuen architektonischen Merkmale machen es notwendig Programmtransformationen erneut zu betrachten und die Effizienz der Berechnungen neu zu bewerten. Es werden eine Reihe von Transformationen betrachtet, die sowohl die Reihenfolge der Berechnungen als auch die Reihenfolge der Abspeicherung der Daten im Speicher ändern, um eine erhöhte räumliche und zeitliche Lokalität zu erreichen. Parallelisierung und Lokalität sind eng verknüpft und beeinflussen gemeinsam die Effizienz von parallelen Programmen. Es werden in dieser Arbeit verschiedene Parallelisierungsstrategien für regulär-irreguläre Berechnungen für moderne Multicore-Systeme betrachtet. Einen weiteren Teil der Arbeit bildet die Betrachtung rein irregulärer Berechnungen, wie sie typisch für eine große Anzahl von Vielteilchensimualtionscodes sind. Auch diese Simulationscodes wurden für Multicore-Systeme betrachtet und daraufhin untersucht, inwieweit diese auf modernen Multicore-CPUs skalieren. Die neuartige Architektur von Multicore-System, im besonderen die in hohem Maße geteilte Speicherbandbreite, macht auch hier eine neue Betrachtung solcher rein irregulärer Berechnungen notwendig. Es werden Techniken betrachtet, die die Anzahl der zu ladenden Daten reduzieren und somit die Anforderungen an die gemeinsame Speicherbandbreite reduzieren. Vielteilchen Simulation Multicore-Systeme regulär Berechnung irreguläre Berechnungen Programmtransformationen Parallele Programmierung MD-Simulation many-body simulation multicore systems regular-irregular computations program transformations parallel programming ddc:005 Parallel processing Molekulardynamik Programmtransformation Mehrkernprozessor
93	Database centric software test management framework for test metrics Pleehajinda, Parawee 06 November 2015 (has links) (PDF) Big amounts of test data generated by the current used software testing tools (QA-C/QA-C++ and Cantata) contain a variety of different values. The variances cause enormous challenges in data aggregation and interpretation that directly affect generation of test metrics. Due to the circumstance of data processing, this master thesis introduces a database-centric test management framework for test metrics aims at centrally handling the big data as well as facilitating the generation of test metrics. Each test result will be individually parsed to be a particular format before being stored in a centralized database. A friendly front-end user interface is connected and synchronized with the database that allows authorized users to interact with the stored data. With a granularity tracking mechanism, any stored data will be systematically located and programmatically interpreted by a test metrics generator to create various kinds of high-quality test metrics. The automatization of the framework is driven by Jenkins CI to automatically and periodically performing the sequential operations. The technology greatly and effectively optimizes and reduces effort in the development, as well as enhance the performance of the software testing processes. In this research, the framework is only started at managing the testing processes on software-unit level. However, because of the independence of the database from levels of software testing, it could also be expanded to support software development at any level. Automatisierung Software Datenaggregation Dateninterpretation Testdaten Metrik software testing test management framework test data software testing tools test metrics database-centric data aggregation and interpretation automatization ddc:004 ddc:005 Automation Software Daten Testdaten Metrik
94	Validierung der Solverimplementierung des hygrothermischen Simulationsprogramms Delphin Sontag, Luisa, Nicolai, Andreas, Vogelsang, Stefan 26 November 2013 (has links) (PDF) Das Simulationsprogramm Delphin ermöglicht die Berechnung des gekoppelten Wärme-, Feuchte-, Luft- und Stofftransports in kapillarporösen Materialien. Die Simulation verwendet ein numerisches Lösungsverfahren für die Differentialgleichungen welche die Transportprozesse beschreiben. Zur Kontrolle der numerischen Fehler sowie der korrekten Implementierung der physikalischen Gleichungen werden Validierungsrechnungen durchgeführt. Dafür werden vordefinierte Testfälle eingegeben, gerechnet und mit Referenzlösungen bzw. den Ergebnissen anderer Simulationsprogramme verglichen. In diesem Artikel werden die Ergebnisse der Validierung der Delphin Versionen 5.6, 5.8, 6.0 und 6.1 zusammengefasst. Es wurden folgende Testfälle gerechnet: HAMSTAD Benchmarks 1 bis 5, DIN EN ISO 10211 Fall 1 und 2, DIN EN 15026 und der Aufsaug-Trocknungs-Test. Die Validierung von Delphin erfolgte hinsichtlich des Wärme-, Feuchte- und Lufttransports bei ein- und zweidimensionalen Problemstellungen. Alle Programmversionen erfüllen die Anforderungen aller Testfälle. Delphin Transportsimulation Validierung HAMSTAD DIN EN ISO 10211 DIN EN 15026 Delphin 6 Delphin transport simulation Validation HAMSTAD DIN EN ISO 10211 DIN EN 15026 Delphin 6 ddc:005 ddc:004 rvk:ZI 3100
95	Schedulability Tests for Real-Time Uni- and Multiprocessor Systems / Planbarkeitstests für Ein- und Mehrprozessor-Echtzeitsysteme unter besonderer Berücksichtigung des partitionierten Ansatzes Müller, Dirk 07 April 2014 (has links) (PDF) This work makes significant contributions in the field of sufficient schedulability tests for rate-monotonic scheduling (RMS) and their application to partitioned RMS. Goal is the maximization of possible utilization in worst or average case under a given number of processors. This scenario is more realistic than the dual case of minimizing the number of necessary processors for a given task set since the hardware is normally fixed. Sufficient schedulability tests are useful for quick estimates of task set schedulability in automatic system-synthesis tools and in online scheduling where exact schedulability tests are too slow. Especially, the approach of Accelerated Simply Periodic Task Sets (ASPTSs) and the concept of circular period similarity are cornerstones of improvements in the success ratio of such schedulability tests. To the best of the author's knowledge, this is the first application of circular statistics in real-time scheduling. Finally, the thesis discusses the use of sharp total utilization thresholds for partitioned EDF. A constant-time admission control is enabled with a controlled residual risk. / Diese Arbeit liefert entscheidende Beiträge im Bereich der hinreichenden Planbarkeitstests für ratenmonotones Scheduling (RMS) und deren Anwendung auf partitioniertes RMS. Ziel ist die Maximierung der möglichen Last im Worst Case und im Average Case bei einer gegebenen Zahl von Prozessoren. Dieses Szenario ist realistischer als der duale Fall der Minimierung der Anzahl der notwendigen Prozessoren für eine gegebene Taskmenge, da die Hardware normalerweise fixiert ist. Hinreichende Planbarkeitstests sind für schnelle Schätzungen der Planbarkeit von Taskmengen in automatischen Werkzeugen zur Systemsynthese und im Online-Scheduling sinnvoll, wo exakte Einplanungstests zu langsam sind. Insbesondere der Ansatz der beschleunigten einfach-periodischen Taskmengen und das Konzept der zirkulären Periodenähnlichkeit sind Eckpfeiler für Verbesserungen in der Erfolgsrate solcher Einplanungstests. Nach bestem Wissen ist das die erste Anwendung zirkulärer Statistik im Echtzeit-Scheduling. Schließlich diskutiert die Arbeit plötzliche Phasenübergänge der Gesamtlast für partitioniertes EDF. Eine Zugangskontrolle konstanter Zeitkomplexität mit einem kontrollierten Restrisiko wird ermöglicht. Scheduling Mehrprozessorsystem Echtzeit partitioniert ratenmonoton zirkuläres Ähnlichkeitsmaß Phasenübergang Schwellwert scheduling multiprocessor real-time partitioned rate-monotonic circular similarity measure phase transition threshold ddc:004 ddc:005 ddc:006 Scheduling Mehrprozessorsystem Echtzeit Ähnlichkeitsmaß zirkuläre Statistik Phasenumwandlung
96	Energie- und Ausführungszeitmodelle zur effizienten Ausführung wissenschaftlicher Simulationen / Energy and execution time models for an efficient execution of scientific simulations Lang, Jens 15 January 2015 (has links) (PDF) Das wissenschaftliche Rechnen mit der Computersimulation hat sich heute als dritte Säule der wissenschaftlichen Methodenlehre neben der Theorie und dem Experiment etabliert. Aufgabe der Informatik im wissenschaftlichen Rechnen ist es, sowohl effiziente Simulationsalgorithmen zu entwickeln als auch ihre effiziente Implementierung. Die vorliegende Arbeit richtet ihren Fokus auf die effiziente Implementierung zweier wichtiger Verfahren des wissenschaftlichen Rechnens: die Schnelle Multipolmethode (FMM) für Teilchensimulationen und die Methode der finiten Elemente (FEM), die z. B. zur Berechnung der Deformation von Festkörpern genutzt wird. Die Effizienz der Implementierung bezieht sich hier auf die Ausführungszeit der Simulationen und den zur Ausführung notwendigen Energieverbrauch der eingesetzten Rechnersysteme. Die Steigerung der Effizienz wurde durch modellbasiertes Autotuning erreicht. Beim modellbasierten Autotuning wird für die wesentlichen Teile des Algorithmus ein Modell aufgestellt, das dessen Ausführungszeit bzw. Energieverbrauch beschreibt. Dieses Modell ist abhängig von Eigenschaften des genutzten Rechnersystems, von Eingabedaten und von verschiedenen Parametern des Algorithmus. Die Eigenschaften des Rechnersystems werden durch Ausführung des tatsächlich genutzten Codes für verschiedene Implementierungsvarianten ermittelt. Diese umfassen eine CPU-Implementierung und eine Grafikprozessoren-Implementierung für die FEM und die Implementierung der Nahfeld- und der Fernfeldwechselwirkungsberechnung für die FMM. Anhand der aufgestellten Modelle werden die Kosten der Ausführung für jede Variante vorhergesagt. Die optimalen Algorithmenparameter können somit analytisch bestimmt werden, um die gewünschte Zielgröße, also Ausführungszeit oder Energieverbrauch, zu minimieren. Bei der Ausführung der Simulation werden die effizientesten Implementierungsvarianten entsprechend der Vorhersage genutzt. Während bei der FMM die Performance-Messungen unabhängig von der Ausführung der Simulation durchgeführt werden, wird für die FEM ein Verfahren zur dynamischen Verteilung der Rechenlast zwischen CPU und GPU vorgestellt, das auf Ausführungszeitmessungen zur Laufzeit der Simulation reagiert. Durch Messung der tatsächlichen Ausführungszeiten kann so dynamisch auf sich während der Laufzeit verändernde Verhältnisse reagiert und die Verteilung der Rechenlast entsprechend angepasst werden. Die Ergebnisse dieser Arbeit zeigen, dass modellbasiertes Autotuning es ermöglicht, die Effizienz von Anwendungen des wissenschaftlichen Rechnens in Bezug auf Ausführungszeit und Energieverbrauch zu steigern. Insbesondere die Berücksichtigung des Energieverbrauchs alternativer Ausführungspfade, also die Energieadaptivität, wird in naher Zukunft von großer Bedeutung im wissenschaftlichen Rechnen sein. / Computer simulation as a part of the scientific computing has established as third pillar in scientific methodology, besides theory and experiment. The task of computer science in the field of scientific computing is the development of efficient simulation algorithms as well as their efficient implementation. The thesis focuses on the efficient implementation of two important methods in scientific computing: the Fast Multipole Method (FMM) for particle simulations, and the Finite Element Method (FEM), which is, e.g., used for deformation problems of solids. The efficiency of the implementation considers the execution time of the simulations and the energy consumption of the computing systems needed for the execution. The method used for increasing the efficiency is model-based autotuning. For model-based autotuning, a model for the substantial parts of the algorithm is set up which estimates the execution time or energy consumption. This model depends on properties of the computer used, of the input data and of parameters of the algorithm. The properties of the computer are determined by executing the real code for different implementation variants. These implementation variantss comprise a CPU and a graphics processor implementation for the FEM, and implementations of near field and far field interaction calculations for the FMM. Using the models, the execution costs for each variant are predicted. Thus, the optimal algorithm parameters can be determined analytically for a minimisation of the desired target value, i.e. execution time or energy consumption. When the simulation is executed, the most efficient implementation variants are used depending on the prediction of the model. While for the FMM the performance measurement takes place independently from the execution of the simulation, for the FEM a method for dynamically distributing the workload to the CPU and the GPU is presented, which takes into account execution times measured at runtime. By measuring the real execution times, it is possible to response to changing conditions and to adapt the distribution of the workload accordingly. The results of the thesis show that model-based autotuning makes it possible to increase the efficiency of applications in scientific computing regarding execution time and energy consumption. Especially, the consideration of the energy consumption of alternative execution paths, i.e. the energy adaptivity, will be of great importance in scientific computing in the near future. Energieeffizienz wissenschaftliches Rechnen Methode der finiten Elemente Schnelle Multipolmethode modellbasiertes Autotuning energy efficiency scientific computing finite element method fast multipole method model-based autotuning ddc:005 Wissenschaftliches Rechnen Hochleistungsrechnen Finite-Elemente-Methode Simulation Energieeffizienz
97	Modeling growth and adaptation in bacteria Bulović, Ana 10 November 2023 (has links) Bakterielle Wirte wie Escherichia coli dienen der Produktion industrieller rekombinanter Proteine. Dieser Prozess verursacht systemischen Stress und führt zu umfangreichen Veränderungen in mRNA- und Proteinexpression. In meiner Arbeit analysiere ich Regulationsmechanismen der zellulären Reaktion auf diesen Stress. Zudem untersuche ich die zelluläre Ressourcenallokation mittels eines stationären Ganzzellmodells von E. coli, basierend auf der Resource Balance Analysis. Das Modell berücksichtigt Kosten zellulärer Prozesse und Einschränkungen wie Energie, Effizienz und Raum. Es unterstützt die Experimentplanung in der Bioproduktion. Weiterhin habe ich an der Entwicklung von RBApy mitgewirkt, einer Software zur Erstellung und Simulation von RBA-Modellen. Schließlich entwickle ich ein Modell zur Untersuchung der Regulation von Stressreaktionen durch die Tendenz der Zelle, wachstumsoptimale Ressourcenstrategien anzuwenden. Das Modell berücksichtigt zelluläre Beschränkungen und zeigt, dass die erhaltene Stressreaktion der experimentell ermittelten Reaktion ähnelt. Die Integration von Ressourcenzuteilung in Zellmodelle ermöglicht Einsichten in regulatorische Ereignisse und Anpassungen während der Bioproduktion, was zur Optimierung der rekombinanten Proteinexpression in Escherichia coli beiträgt. / Bacterial hosts such as Escherichia coli are used for the production of industrial recombinant proteins. This process causes systemic stress and leads to extensive changes in mRNA and protein expression. In my work, I analyze regulatory mechanisms of the cellular response to this stress. In addition, I investigate cellular resource allocation using a steady-state whole-cell model of E. coli based on resource balance analysis. The model accounts for costs of cellular processes and constraints such as energy, efficiency, and space. It supports experiment design in bioproduction. Furthermore, I contributed to the development of RBApy, a software to create and simulate RBA models. Finally, I developed a model to study the regulation of stress responses by the tendency of the cell to adopt growth-optimal resource strategies. The model accounts for cellular constraints and shows that the obtained stress response resembles the experimentally determined response. Integrating resource allocation into cell models provides insights into regulatory events and adaptations during bioproduction, which contributes to the optimization of recombinant protein expression in Escherichia coli. Stressreaktionen Escherichia coli Ressourcenallokation Regulationsmechanismen Escherichia coli Stress response Resource allocation Regulatory mechanisms 570 Biologie 500 Naturwissenschaften und Mathematik WD 9200 WF 9745 WF 5200 ddc:570 ddc:005 ddc:500
98	Verfahren des maschinellen Lernens zur Entscheidungsunterstützung Bequé, Artem 21 September 2018 (has links) Erfolgreiche Unternehmen denken intensiv über den eigentlichen Nutzen ihres Unternehmens für Kunden nach. Diese versuchen, ihrer Konkurrenz voraus zu sein, und zwar durch gute Ideen, Innovationen und Kreativität. Dabei wird Erfolg anhand von Metriken gemessen, wie z.B. der Anzahl der loyalen Kunden oder der Anzahl der Käufer. Gegeben, dass der Wettbewerb durch die Globalisierung, Deregulierung und technologische Innovation in den letzten Jahren angewachsen ist, spielen die richtigen Entscheidungen für den Erfolg gerade im operativen Geschäft der sämtlichen Bereiche des Unternehmens eine zentrale Rolle. Vor diesem Hintergrund entstammen die in der vorliegenden Arbeit zur Evaluation der Methoden des maschinellen Lernens untersuchten Entscheidungsprobleme vornehmlich der Entscheidungsunterstützung. Hierzu gehören Klassifikationsprobleme wie die Kreditwürdigkeitsprüfung im Bereich Credit Scoring und die Effizienz der Marketing Campaigns im Bereich Direktmarketing. In diesem Kontext ergaben sich Fragestellungen für die korrelativen Modelle, nämlich die Untersuchung der Eignung der Verfahren des maschinellen Lernens für den Bereich des Credit Scoring, die Kalibrierung der Wahrscheinlichkeiten, welche mithilfe von Verfahren des maschinellen Lernens erzeugt werden sowie die Konzeption und Umsetzung einer Synergie-Heuristik zwischen den Methoden der klassischen Statistik und Verfahren des maschinellen Lernens. Desweiteren wurden kausale Modelle für den Bereich Direktmarketing (sog. Uplift-Effekte) angesprochen. Diese Themen wurden im Rahmen von breit angelegten empirischen Studien bearbeitet. Zusammenfassend ergibt sich, dass der Einsatz der untersuchten Verfahren beim derzeitigen Stand der Forschung zur Lösung praxisrelevanter Entscheidungsprobleme sowie spezifischer Fragestellungen, welche aus den besonderen Anforderungen der betrachteten Anwendungen abgeleitet wurden, einen wesentlichen Beitrag leistet. / Nowadays right decisions, being it strategic or operative, are important for every company, since these contribute directly to an overall success. This success can be measured based on quantitative metrics, for example, by the number of loyal customers or the number of incremental purchases. These decisions are typically made based on the historical data that relates to all functions of the company in general and to customers in particular. Thus, companies seek to analyze this data and apply obtained knowlegde in decision making. Classification problems represent an example of such decisions. Classification problems are best solved, when techniques of classical statistics and these of machine learning are applied, since both of them are able to analyze huge amount of data, to detect dependencies of the data patterns, and to produce probability, which represents the basis for the decision making. I apply these techniques and examine their suitability based on correlative models for decision making in credit scoring and further extend the work by causal predictive models for direct marketing. In detail, I analyze the suitability of techniques of machine learning for credit scoring alongside multiple dimensions, I examine the ability to produce calibrated probabilities and apply techniques to improve the probability estimations. I further develop and propose a synergy heuristic between the methods of classical statistics and techniques of machine learning to improve the prediction quality of the former, and finally apply conversion models to turn machine learning techqiques to account for causal relationship between marketing campaigns and customer behavior in direct marketing. The work has shown that the techniques of machine learning represent a suitable alternative to the methods of classical statistics for decision making and should be considered not only in research but also should find their practical application in real-world practices. Entscheidungsunterstützung Verfahren des maschinellen Lernens Wahrscheinlichkeiten korrelative/kausale Modelle Decision support Machine learning techniques Probabilities Correlative/causal modelling 122 Kausalität 004 Informatik QH 235 ddc:122 ddc:519 ddc:004 ddc:005
99	Towards Transparency and Open Science / A Principled Perspective on Computational Reproducibility and Preregistration Peikert, Aaron 17 October 2023 (has links) Die Psychologie und andere empirische Wissenschaften befinden sich in einer Krise, da vielen Forschenden bewusst geworden ist, dass viele Erkenntnisse nicht so stark empirisch gestützt sind, wie sie einst glaubten. Es wurden mehrere Ursachen dieser Krise vorgeschlagen: Missbrauch statistischer Methoden, soziologische Verzerrungen und schwache Theorien. In dieser Dissertation gehe ich davon aus, dass ungenaue Theorien unvermeidlich sind, diese aber mithilfe von Induktion einer empirischen Prüfung unterzogen werden können. Anhand von Daten können Theorien ergänzt werden, sodass präzise Vorhersagen möglich sind, die sich mit der Realität vergleichen lassen. Eine solche Strategie ist jedoch mit Kosten verbunden. Induktion ist daher zwar notwendig, aber führt zu einem übermäßigen Vertrauen in empirische Befunde. Um empirische Ergebnisse adäquat zu bewerten, muss diese Verzerrung berücksichtigt werden. Das Ausmaß der Verzerrung hängt von den Eigenschaften des induktiven Prozesses ab. Einige induktive Prozesse können vollständig transparent gemacht werden, sodass ihre Verzerrung angemessen berücksichtigt werden kann. Ich zeige, dass dies bei Induktion der Fall ist, die beliebig mit anderen Daten wiederholt werden kann, was die Bedeutung von computergestützter Reproduzierbarkeit unterstreicht. Induktion, die die Forschenden und ihr kognitives Modell einbezieht, kann nicht beliebig wiederholt werden; daher kann die Verzerrung durch Induktion nur mit Unsicherheit beurteilt werden. Ich schlage vor, dass die Verringerung dieser Unsicherheit das Ziel von Präregistrierung sein sollte. Nachdem ich die Ziele von Reproduzierbarkeit und Präregistrierung unter dem Gesichtspunkt der Transparenz über Induktion präzisiert habe, gebe ich in den wissenschaftlichen Artikeln, die als Teil der Dissertation veröffentlicht wurden, Empfehlungen für die praktische Umsetzung beider Verfahren. / Psychology and other empirical sciences are in the middle of a crisis, as many researchers have become aware that many findings do not have as much empirical support as they once believed. Several causes of this crisis have been suggested: misuse of statistical methods, sociological biases, and weak theories. This dissertation proposes the following rationale: to some extent, imprecise theories are unavoidable, but they still can be subjected to an empirical test by employing induction. Data may be used to amend theories, allowing precise predictions that can be compared to reality. However, such a strategy comes at a cost. While induction is necessary, it causes overconfidence in empirical findings. When assessing findings, this overconfidence must be taken into account. The extent of the overconfidence depends on the properties of the inductive process. Some inductive processes can be made fully transparent, so their bias can be accounted for appropriately. I show that this is the case for induction that can be repeated at will on other data, highlighting the importance of computational reproducibility. Induction involving the researcher and their cognitive model can not be repeated; hence, the extent of overconfidence must be judged with uncertainty. I propose that reducing this uncertainty should be the objective of preregistration. Having explicated the goals of computational reproducibility and preregistration from a perspective of transparency about induction in the synopsis, I put forward recommendations for the practice of both in the articles published as part of this dissertation. open science reproduzierbarkeit preregistrierung induktion informationstheorie open science reproducibility preregistration induction information theory 121 Epistemologie (Erkenntnistheorie) 150 Psychologie 161 Induktion AK 54410 CM 2200 ddc:005 ddc:121 ddc:150 ddc:161
100	Identifying markers of cell identity from single-cell omics data Vlot, Hendrika Cornelia 12 September 2023 (has links) Einzelzell-Omics-Daten stehen derzeit im Fokus der Entwicklung computergestützter Methoden in der Molekularbiologie und Genetik. Einzelzellexperimenten lieferen dünnbesetzte, hochdimensionale Daten über zehntausende Gene oder hunderttausende regulatorische Regionen in zehntausenden Zellen. Diese Daten bieten den Forschenden die Möglichkeit, Gene und regulatorische Regionen zu identifizieren, welche die Bestimmung und Aufrechterhaltung der Zellidentität koordinieren. Die gängigste Strategie zur Identifizierung von Zellidentitätsmarkern besteht darin, die Zellen zu clustern und dann Merkmale zu finden, welche die Cluster unterscheiden, wobei davon ausgegangen wird, dass die Zellen innerhalb eines Clusters die gleiche Identität haben. Diese Annahme ist jedoch nicht immer zutreffend, insbesondere nicht für Entwicklungsdaten bei denen sich die Zellen in einem Kontinuum befinden und die Definition von Clustergrenzen biologisch gesehen potenziell willkürlich ist. Daher befasst sich diese Dissertation mit Clustering-unabhängigen Strategien zur Identifizierung von Markern aus Einzelzell-Omics-Daten. Der wichtigste Beitrag dieser Dissertation ist SEMITONES, eine auf linearer Regression basierende Methode zur Identifizierung von Markern. SEMITONES identifiziert (Gruppen von) Markern aus verschiedenen Arten von Einzelzell-Omics-Daten, identifiziert neue Marker und übertrifft bestehende Marker-Identifizierungsansätze. Außerdem ermöglicht die Identifizierung von regulatorischen Markerregionen durch SEMITONES neue Hypothesen über die Regulierung der Genexpression während dem Erwerb der Zellidentität. Schließlich beschreibt die Dissertation einen Ansatz zur Identifizierung neuer Markergene für sehr ähnliche, dennoch underschiedliche neurale Vorlauferzellen im zentralen Nervensystem von Drosphila melanogaster. Ingesamt zeigt die Dissertation, wie Cluster-unabhängige Ansätze zur Aufklärung bisher uncharakterisierter biologischer Phänome aus Einzelzell-Omics-Daten beitragen. / Single-cell omics approaches are the current frontier of computational method development in molecular biology and genetics. A single single-cell experiment provides sparse, high-dimensional data on tens of thousands of genes or hundreds of thousands of regulatory regions (i.e. features) in tens of thousands of cells (i.e. samples). This data provides researchers with an unprecedented opportunity to identify those genes and regulatory regions that determine and coordinate cell identity acquisition and maintenance. The most common strategy for identifying cell identity markers consists of clustering the cells and then identifying differential features between these clusters, assuming that cells within a cluster share the same identity. This assumption is, however, not guaranteed to hold, particularly for developmental data where cells lie along a continuum and inferring cluster boundaries becomes non-trivial and potentially biologically arbitrary. In response, this thesis presents clustering-independent strategies for marker feature identification from single-cell omics data. The primary contribution of this thesis is a linear regression-based method for marker feature identification from single-cell omics data called SEMITONES. SEMITONES can identify markers or marker sets from diverse single-cell omics data types, identifies novel markers, outperforms existing marker identification approaches. The thesis also describes how the identification of marker regulatory regions by SEMITONES enables the generation of novel hypotheses regarding gene regulation during cell identity acquisition. Lastly, the thesis describes the clustering-independent identification of novel marker genes for highly similar yet distinct neural progenitor cells in the Drosophila melanogaster central nervous system. Altogether, the thesis demonstrates how clustering-independent approaches aid the elucidation of yet uncharacterised biological patterns from single cell-omics data. Einzelzell-Omics-Daten Transkriptomik Epigenomik Merkmalsidentifikation Genregulation single-cell omics data transcriptomics epigenomics feature identification gene regulation 570 Biologie WC 7700 ddc:005 ddc:570

Search results