Global ETD Search

1	Does it have to be trees? : Data-driven dependency parsing with incomplete and noisy training data Spreyer, Kathrin January 2011 (has links) We present a novel approach to training data-driven dependency parsers on incomplete annotations. Our parsers are simple modifications of two well-known dependency parsers, the transition-based Malt parser and the graph-based MST parser. While previous work on parsing with incomplete data has typically couched the task in frameworks of unsupervised or semi-supervised machine learning, we essentially treat it as a supervised problem. In particular, we propose what we call agnostic parsers which hide all fragmentation in the training data from their supervised components. We present experimental results with training data that was obtained by means of annotation projection. Annotation projection is a resource-lean technique which allows us to transfer annotations from one language to another within a parallel corpus. However, the output tends to be noisy and incomplete due to cross-lingual non-parallelism and error-prone word alignments. This makes the projected annotations a suitable test bed for our fragment parsers. Our results show that (i) dependency parsers trained on large amounts of projected annotations achieve higher accuracy than the direct projections, and that (ii) our agnostic fragment parsers perform roughly on a par with the original parsers which are trained only on strictly filtered, complete trees. Finally, (iii) when our fragment parsers are trained on artificially fragmented but otherwise gold standard dependencies, the performance loss is moderate even with up to 50% of all edges removed. / Wir präsentieren eine neuartige Herangehensweise an das Trainieren von daten-gesteuerten Dependenzparsern auf unvollständigen Annotationen. Unsere Parser sind einfache Varianten von zwei bekannten Dependenzparsern, nämlich des transitions-basierten Malt-Parsers sowie des graph-basierten MST-Parsers. Während frühere Arbeiten zum Parsing mit unvollständigen Daten die Aufgabe meist in Frameworks für unüberwachtes oder schwach überwachtes maschinelles Lernen gebettet haben, behandeln wir sie im Wesentlichen mit überwachten Lernverfahren. Insbesondere schlagen wir "agnostische" Parser vor, die jegliche Fragmentierung der Trainingsdaten vor ihren daten-gesteuerten Lernkomponenten verbergen. Wir stellen Versuchsergebnisse mit Trainingsdaten vor, die mithilfe von Annotationsprojektion gewonnen wurden. Annotationsprojektion ist ein Verfahren, das es uns erlaubt, innerhalb eines Parallelkorpus Annotationen von einer Sprache auf eine andere zu übertragen. Bedingt durch begrenzten crosslingualen Parallelismus und fehleranfällige Wortalinierung ist die Ausgabe des Projektionsschrittes jedoch üblicherweise verrauscht und unvollständig. Gerade dies macht projizierte Annotationen zu einer angemessenen Testumgebung für unsere fragment-fähigen Parser. Unsere Ergebnisse belegen, dass (i) Dependenzparser, die auf großen Mengen von projizierten Annotationen trainiert wurden, größere Genauigkeit erzielen als die zugrundeliegenden direkten Projektionen, und dass (ii) die Genauigkeit unserer agnostischen, fragment-fähigen Parser der Genauigkeit der Originalparser (trainiert auf streng gefilterten, komplett projizierten Bäumen) annähernd gleichgestellt ist. Schließlich zeigen wir mit künstlich fragmentierten Gold-Standard-Daten, dass (iii) der Verlust an Genauigkeit selbst dann bescheiden bleibt, wenn bis zu 50% aller Kanten in den Trainingsdaten fehlen. Dependenzparsing partielle Annotationen schwach überwachte Lernverfahren Annotationsprojektion Parallelkorpora dependency parsing partial annotations weakly supervised learning techniques annotation projection parallel corpora Language, Linguistics
2	Model-Based Prediction of an Effective Adhesion Parameter Guiding Multi-Type Cell Segregation Roßbach, Philipp, Böhme, Hans-Joachim, Lange, Steffen, Voß-Böhme, Anja 24 February 2022 (has links) The process of cell-sorting is essential for development and maintenance of tissues. With the Differential Adhesion Hypothesis, Steinberg proposed that cellsorting is determined by quantitative differences in cell-type-specific intercellular adhesion strengths. An implementation of the Differential Adhesion Hypothesis is the Differential Migration Model by Voss-Böhme and Deutsch. There, an effective adhesion parameter was derived analytically for systems with two cell types, which predicts the asymptotic sorting pattern. However, the existence and form of such a parameter for more than two cell types is unclear. Here, we generalize analytically the concept of an effective adhesion parameter to three and more cell types and demonstrate its existence numerically for three cell types based on in silico time-series data that is produced by a cellular-automaton implementation of the Differential Migration Model. Additionally, we classify the segregation behavior using statistical learning methods and show that the estimated effective adhesion parameter for three cell types matches our analytical prediction. Finally, we demonstrate that the effective adhesion parameter can resolve a recent dispute about the impact of interfacial adhesion, cortical tension and heterotypic repulsion on cell segregation. / Der Prozess der Zellsortierung ist für die Entwicklung und Erhaltung von Geweben unerlässlich. Mit der Differentiellen Adhäsionshypothese schlug Steinberg vor, dass die Zellsortierung durch quantitative Unterschiede in den zelltypspezifischen interzellulären Adhäsionsstärken bestimmt wird. Eine Umsetzung der Differentiellen Adhäsionshypothese ist das Differentielle Migrationsmodell von Voss-Böhme und Deutsch. In diesem wurde für Systeme mit zwei Zelltypen ein effektiver Adhäsionsparameter analytisch hergeleitet, der das asymptotische Sortiermuster vorhersagt. Die Existenz und Form eines solchen Parameters für mehr als zwei Zelltypen ist jedoch unklar. Hier verallgemeinern wir analytisch das Konzept eines effektiven Adhäsionsparameters für drei und mehr Zelltypen und zeigen numerisch seine Existenz für drei Zelltypen auf der Basis von in silico Zeitreihendaten, die von einem zellulären Automaten des Differentiellen Migrationsmodells erzeugt werden. Darüber hinaus klassifizieren wir das Segregationsverhalten mithilfe statistischer Lernverfahren und zeigen, dass der geschätzte effektive Adhäsionsparameter für drei Zelltypen mit unserer analytischen Vorhersage übereinstimmt. Schließlich zeigen wir, dass der effektive Adhäsionsparameter eine kürzlich aufgekommene Diskussion über den Einfluss von Grenzflächenadhäsion, Kortikalspannung und heterotypischer Abstoßung auf die Zellsegregation lösen kann. info:eu-repo/classification/ddc/510 ddc:510
3	Algorithmic classification in tumour spheroid control experiments using time series analysis Schmied, Jannik 05 June 2024 (has links) At the forefront of cancer treatment development and evaluation, three-dimensional Tumour Spheroid Control Experiments play a pivotal role in the battle against cancer. Conducting and evaluating in vitro experiments are time-consuming processes. This thesis details the development, implementation, and validation of an algorithmic model that classifies spheroids as either controlled or relapsed by assessing the success of their treatments based on criteria rooted in biological insights. The introduction of this model is crucial for biologists to accurately and efficiently predict treatment efficacy in 3D in vitro experiments. The motivation for this research is driven by the need to improve the objectivity and efficiency of treatment outcome evaluations, which have traditionally depended on manual and subjective assessments by biologists. The research involved creating a comprehensive dataset from multiple 60-day in vitro experiments by combining data from various sources, focusing on the growth dynamics of tumour spheroids subjected to different treatment regimens. Through preprocessing and analysis, growth characteristics were extracted and utilized as input features for the model. A feature selection and optimization technique was applied to refine the software model and improve its predictive accuracy. The model is based on a handful of comprehensive criteria, calibrated by employing a grid search mechanism for hyperparameter tuning to optimize accuracy. The validation process, conducted via independent test sets, confirmed the model’s capability to predict treatment outcomes with a high degree of reliability and an accuracy of about 99%. The findings reveal that algorithmic classification models can make a significant contribution to the standardization and automation of treatment efficacy assessment in tumour spheroid experiments. Not only does this approach reduce the potential for human error and variability, but it also provides a scalable and objective means of evaluating treatment outcomes.:1 Introduction 1.1 Background and Motivation 1.2 Biological Background 1.3 Iteration Methodology 1.4 Objective of the Thesis 2 Definition of basic Notation and Concepts 2.1 Time Series Analysis 2.2 Linear Interpolation 2.3 Simple Exponential Smoothing 2.4 Volume of a Spheroid 2.5 Heavyside Function 2.6 Least Squares Method 2.7 Linear Regression 2.8 Exponential Approximation 2.9 Grid Search 2.10 Binary Regression 2.11 Pearson Correlation Coefficient 3 Observation Data 3.1 General Overview 3.1.1 Structure of the Data 3.1.2 Procedure of Data Processing using 3D-Analysis 3.2 Data Engineering 3.2.1 Data Consolidation and Sanitization 3.2.2 Extension and Interpolation 3.2.3 Variance Reduction 4 Model Development 4.1 Modeling of Various Classification-Relevant Aspects 4.1.1 Primary Criteria 4.1.2 Secondary Criteria 4.1.3 Statistical Learning Approaches 4.2 Day of Relapse Estimation 4.3 Model Implementation 4.3.1 Combination of Approaches 4.3.2 Implementation in Python 4.4 Model Calibration 4.4.1 Consecutive Growth 4.4.2 Quintupling 4.4.3 Secondary Criteria 4.4.4 Combined Approach 5 Model Testing 5.1 Evaluation Methods 5.1.1 Applying the Model to New Data 5.1.2 Spheroid Control Probability 5.1.3 Kaplan-Meier Survival Analysis 5.1.4 Analysis of Classification Mismatches 5.2 Model Benchmark 5.2.1 Comparison to Human Raters 5.2.2 Comparison to Binary Regression Model 5.3 Robustness 5.3.1 Test using different Segmentation 5.3.2 Feature Reduction 5.3.3 Sensitivity 5.3.4 Calibration Templates 6 Discussion 6.1 Practical Application Opportunities 6.2 Evaluation of the Algorithmic Model 6.3 Limitations 7 Conclusion 7.1 Summary 7.2 Future Research Directions / Dreidimensionale Experimente zur Kontrolle von Tumorsphäroiden sind zentral für die Entwicklung und Evaluierung von Krebstherapien. Die Durchführung und Auswertung von In-vitro-Experimenten ist jedoch zeitaufwendig. Diese Arbeit beschreibt die Entwicklung, Implementierung und Validierung eines algorithmischen Modells zur Einstufung von Sphäroiden als kontrolliert oder rezidivierend. Das Modell bewertet den Behandlungserfolg anhand biologisch fundierter Kriterien. Diese Innovation ist entscheidend für die präzise und effiziente Vorhersage der Wirksamkeit von Behandlungen in 3D-In-vitro-Experimenten und zielt darauf ab, die Objektivität und Effizienz der Beurteilung von Behandlungsergebnissen zu verbessern, die traditionell von manuellen, subjektiven Einschätzungen der Biologen abhängen. Die Forschung umfasste die Erstellung eines umfassenden Datensatzes aus mehreren 60-tägigen In-vitro-Experimenten, bei denen die Wachstumsdynamik von Tumorsphäroiden unter verschiedenen Behandlungsschemata untersucht wurde. Durch Vorverarbeitung und Analyse wurden Wachstumscharakteristika extrahiert und als Eingangsmerkmale für das Modell verwendet. Das Modell basiert auf wenigen umfassenden Kriterien, die mithilfe eines Gittersuchmechanismus zur Abstimmung der Hyperparameter kalibriert wurden, um die Genauigkeit zu optimieren. Der Validierungsprozess bestätigte die Fähigkeit des Modells, Behandlungsergebnisse mit hoher Zuverlässigkeit und einer Genauigkeit von etwa 99 % vorherzusagen. Die Ergebnisse zeigen, dass algorithmische Klassifizierungsmodelle einen wesentlichen Beitrag zur Standardisierung und Automatisierung der Bewertung der Behandlungseffektivität in Tumorsphäroid-Experimenten leisten können. Dieser Ansatz verringert nicht nur das Potenzial für menschliche Fehler und Schwankungen, sondern bietet auch ein skalierbares und objektives Mittel zur Bewertung von Behandlungsergebnissen.:1 Introduction 1.1 Background and Motivation 1.2 Biological Background 1.3 Iteration Methodology 1.4 Objective of the Thesis 2 Definition of basic Notation and Concepts 2.1 Time Series Analysis 2.2 Linear Interpolation 2.3 Simple Exponential Smoothing 2.4 Volume of a Spheroid 2.5 Heavyside Function 2.6 Least Squares Method 2.7 Linear Regression 2.8 Exponential Approximation 2.9 Grid Search 2.10 Binary Regression 2.11 Pearson Correlation Coefficient 3 Observation Data 3.1 General Overview 3.1.1 Structure of the Data 3.1.2 Procedure of Data Processing using 3D-Analysis 3.2 Data Engineering 3.2.1 Data Consolidation and Sanitization 3.2.2 Extension and Interpolation 3.2.3 Variance Reduction 4 Model Development 4.1 Modeling of Various Classification-Relevant Aspects 4.1.1 Primary Criteria 4.1.2 Secondary Criteria 4.1.3 Statistical Learning Approaches 4.2 Day of Relapse Estimation 4.3 Model Implementation 4.3.1 Combination of Approaches 4.3.2 Implementation in Python 4.4 Model Calibration 4.4.1 Consecutive Growth 4.4.2 Quintupling 4.4.3 Secondary Criteria 4.4.4 Combined Approach 5 Model Testing 5.1 Evaluation Methods 5.1.1 Applying the Model to New Data 5.1.2 Spheroid Control Probability 5.1.3 Kaplan-Meier Survival Analysis 5.1.4 Analysis of Classification Mismatches 5.2 Model Benchmark 5.2.1 Comparison to Human Raters 5.2.2 Comparison to Binary Regression Model 5.3 Robustness 5.3.1 Test using different Segmentation 5.3.2 Feature Reduction 5.3.3 Sensitivity 5.3.4 Calibration Templates 6 Discussion 6.1 Practical Application Opportunities 6.2 Evaluation of the Algorithmic Model 6.3 Limitations 7 Conclusion 7.1 Summary 7.2 Future Research Directions info:eu-repo/classification/ddc/006.31 ddc:006.31 Krebs <Medizin> Tumor Sphäroid In-vitro-Kultur Tumorwachstum Mathematische Modellierung Maschinelles Lernen Algorithmus Therapieerfolg Rezidiv
4	Generische Verkettung maschineller Ansätze der Bilderkennung durch Wissenstransfer in verteilten Systemen: Am Beispiel der Aufgabengebiete INS und ACTEv der Evaluationskampagne TRECVid Roschke, Christian 08 November 2021 (has links) Der technologische Fortschritt im Bereich multimedialer Sensorik und zugehörigen Methoden zur Datenaufzeichnung, Datenhaltung und -verarbeitung führt im Big Data-Umfeld zu immensen Datenbeständen in Mediatheken und Wissensmanagementsystemen. Zugrundliegende State of the Art-Verarbeitungsalgorithmen werden oftmals problemorientiert entwickelt. Aufgrund der enormen Datenmengen lassen sich nur bedingt zuverlässig Rückschlüsse auf Güte und Anwendbarkeit ziehen. So gestaltet sich auch die intellektuelle Erschließung von großen Korpora schwierig, da die Datenmenge für valide Aussagen nahezu vollumfänglich semi-intellektuell zu prüfen wäre, was spezifisches Fachwissen aus der zugrundeliegenden Datendomäne ebenso voraussetzt wie zugehöriges Verständnis für Datenhandling und Klassifikationsprozesse. Ferner gehen damit gesonderte Anforderungen an Hard- und Software einher, welche in der Regel suboptimal skalieren, da diese zumeist auf Multi-Kern-Rechnern entwickelt und ausgeführt werden, ohne dabei eine notwendige Verteilung vorzusehen. Folglich fehlen Mechanismen, um die Übertragbarkeit der Verfahren auf andere Anwendungsdomänen zu gewährleisten. Die vorliegende Arbeit nimmt sich diesen Herausforderungen an und fokussiert auf die Konzeptionierung und Entwicklung einer verteilten holistischen Infrastruktur, die die automatisierte Verarbeitung multimedialer Daten im Sinne der Merkmalsextraktion, Datenfusion und Metadatensuche innerhalb eines homogenen Systems ermöglicht. Der Fokus der vorliegenden Arbeit liegt in der Konzeptionierung und Entwicklung einer verteilten holistischen Infrastruktur, die die automatisierte Verarbeitung multimedialer Daten im Sinne der Merkmalsextraktion, Datenfusion und Metadatensuche innerhalb eines homogenen aber zugleich verteilten Systems ermöglicht. Dabei sind Ansätze aus den Domänen des Maschinellen Lernens, der Verteilten Systeme, des Datenmanagements und der Virtualisierung zielführend miteinander zu verknüpfen, um auf große Datenmengen angewendet, evaluiert und optimiert werden zu können. Diesbezüglich sind insbesondere aktuelle Technologien und Frameworks zur Detektion von Mustern zu analysieren und einer Leistungsbewertung zu unterziehen, so dass ein Kriterienkatalog ableitbar ist. Die so ermittelten Kriterien bilden die Grundlage für eine Anforderungsanalyse und die Konzeptionierung der notwendigen Infrastruktur. Diese Architektur bildet die Grundlage für Experimente im Big Data-Umfeld in kontextspezifischen Anwendungsfällen aus wissenschaftlichen Evaluationskampagnen, wie beispielsweise TRECVid. Hierzu wird die generische Applizierbarkeit in den beiden Aufgabenfeldern Instance Search und Activity in Extended Videos eruiert.:Abbildungsverzeichnis Tabellenverzeichnis 1 Motivation 2 Methoden und Strategien 3 Systemarchitektur 4 Instance Search 5 Activities in Extended Video 6 Zusammenfassung und Ausblick Anhang Literaturverzeichnis / Technological advances in the field of multimedia sensing and related methods for data acquisition, storage, and processing are leading to immense amounts of data in media libraries and knowledge management systems in the Big Data environment. The underlying modern processing algorithms are often developed in a problem-oriented manner. Due to the enormous amounts of data, reliable statements about quality and applicability can only be made to a limited extent. Thus, the intellectual exploitation of large corpora is also difficult, as the data volume would have to be analyzed for valid statements, which requires specific expertise from the underlying data domain as well as a corresponding understanding of data handling and classification processes. In addition, there are separate requirements for hardware and software, which usually scale in a suboptimal manner while being developed and executed on multicore computers without provision for the required distribution. Consequently, there is a lack of mechanisms to ensure the transferability of the methods to other application domains. The focus of this work is the design and development of a distributed holistic infrastructure that enables the automated processing of multimedia data in terms of feature extraction, data fusion, and metadata search within a homogeneous and simultaneously distributed system. In this context, approaches from the areas of machine learning, distributed systems, data management, and virtualization are combined in order to be applicable on to large data sets followed by evaluation and optimization procedures. In particular, current technologies and frameworks for pattern recognition are to be analyzed and subjected to a performance evaluation so that a catalog of criteria can be derived. The criteria identified in this way form the basis for a requirements analysis and the conceptual design of the infrastructure required. This architecture builds the base for experiments in the Big Data environment in context-specific use cases from scientific evaluation campaigns, such as TRECVid. For this purpose, the generic applicability in the two task areas Instance Search and Activity in Extended Videos is elicited.:Abbildungsverzeichnis Tabellenverzeichnis 1 Motivation 2 Methoden und Strategien 3 Systemarchitektur 4 Instance Search 5 Activities in Extended Video 6 Zusammenfassung und Ausblick Anhang Literaturverzeichnis info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/005 ddc:005 info:eu-repo/classification/ddc/006 ddc:006 Maschinelles Lernen Verteiltes System Bilderkennung Datenfusion Optimierung

1

Page generated in 0.0672 seconds