481 |
KI-basierte Detektion von Meilerplätzen mithilfe der Kombination luftgestützter LiDAR-Datenprodukte und Neuronaler NetzeRünger, Carolin 20 August 2024 (has links)
Die historische Holzkohleproduktion spielte eine bedeutende Rolle in der industriellen Entwicklung. Traditionell wurde Holzkohle in sogenannten Meilern, aufrechtstehenden Öfen, hergestellt. Diese Praxis führte zur weitreichenden Abholzung und veränderte die Vegetationszusammensetzung. Um die historische Waldbedeckung und historischen Landnutzungspraktiken besser zu verstehen, ist es notwendig, die räumliche Verteilung der Meiler zu analysieren. Die manuelle Kartierung der Meilerüberreste mittels DGM-Visualisierungstechniken ist sehr zeit- und arbeitsintensiv. Diese Arbeit untersucht daher den Einsatz von Deep Learning zur automatischen Detektion von Meilerplätzen basierend auf LiDAR-Datenprodukten. Hierfür wurden vortrainierte Modelle der Toolbox MMDetection mit DGM-Bildern trainiert, um ein spezifisch auf Meiler abgestimmtes Modell zu entwickeln. Insgesamt wurden vier Experimente durchgeführt, die den Einfluss verschiedener DGM-Visualisierungen, die Größe der Bounding Boxen und Hyperparameter unter Verwendung des FoveaBox-Detektors sowie die Leistung unterschiedlicher Modelle (ATSS, VFNet, RetinaNet) analysierten. Die Ergebnisse zeigen, dass ein 3-Band Bild bestehend aus Hügelschattierung, Sky-View Faktor und Neigung sowie eine Bounding Box Größe von 50 m optimal für die Detektion von Meilern sind. Der FoveaBox-Detektor erzielte die beste Leistung mit dem RAdam-Optimierer und einer Lernrate von 0.0001, wobei das ATSS-Modell mit den gleichen Hyperparametern die schlüssigsten Ergebnisse mit einer Genauigkeit von 93 % erreichte und nur 7 % der Meiler übersah. Das ATSS-Modell zeigte im Gegensatz zu anderen Studien eine um bis zu 10 % bessere Leistung. Ausschlaggebende Faktoren für diese Verbesserungen waren der verwendete Datensatz aus den 3-Band Bildern, die Größe der Bounding Boxen und die umfangreichere Datenaugmentierung, insbesondere die ergänzende Nutzung radiometrischer Techniken. Durch die experimentelle Herangehensweise konnte die Erkennungsgenauigkeit um 13 % gesteigert werden. Im Vergleich zur manuellen Kartierung hat das Modell viele zusätzliche Meiler identifiziert, obwohl es gelegentlich zu Verwechslungen mit angehäufter Erde am Hang und Fehldetektionen in unebenem Gelände mit geringen Höhenunterschieden kam. Die Eignung des Algorithmus zur verbesserten Erkennung von Meilerplätzen anstelle der manuellen Kartierung wird als effizienter, aber nicht zwangsläufig als präziser eingeschätzt:Selbständigkeitserklärung II
Weitergabe der Arbeit II
Kurzfassung IV
Abstract V
Abbildungsverzeichnis VIII
Tabellenverzeichnis X
Abkürzungsverzeichnis XI
1 Einleitung 1
1.1 Problemstellung und Zielsetzung 1
1.2 Aufbau der Arbeit 2
2 Grundlagen 3
2.1 Historischer und archäologischer Kontext von Meilerplätzen 3
2.1.1 Holzkohleproduktion und ihre Auswirkungen auf die Umwelt 3
2.1.2 Wichtigkeit der Erforschung von Meilerplätzen 4
2.1.3 Aussehen der Meilerüberreste 5
2.2 Einsatz von LiDAR-Daten für die Detektion von Meilerplätzen 6
2.2.1 Einführung in LiDAR 6
2.2.2 LiDAR in der archäologischen Praxis 8
2.2.3 Visualisierungstechniken von Höhenmodellen 10
2.2.4 Automatisierte Detektion von Meilerplätzen 15
2.3 Objekterkennung mit Deep Learning 16
2.3.1 Einführung in Deep Learning 16
2.3.2 Bildbasierte Objekterkennung von kleinen Objekten 17
2.3.3 Training eines Deep Learning-Modells 18
2.3.4 Datenaugmentierung 19
2.3.5 Hyperparameter 21
2.3.6 Bewertungsmetriken 21
2.3.7 Kategorisierung von Deep Learning-Modellen 23
2.3.8 Verwendete Modelle 25
3 Daten und Methoden 31
3.1 Datengrundlage und Computer-Hardware 31
3.2 Aufbereitung der Daten 32
3.2.1 Bearbeitung der Meilerdaten 32
3.2.2 Vorverarbeitung der DGM-Bilder 33
3.2.3 Aufteilung in Trainings-, Test- und Validierungsdatensatz 34
3.2.4 Datenaugmentierung des Trainingsdatensatzes 35
3.2.5 Verwendete DGM-Visualisierungstechniken 37
3.2.6 COCO-Format und Normalisierung 38
3.3 Experimentelles Vorgehen 39
3.3.1 Experiment 1: Verschiedene Eingangsdaten 39
3.3.2 Experiment 2: Verschiedene Bounding Box-Größen 40
3.3.3 Experiment 3: Verschiedene Hyperparameter 41
3.3.4 Experiment 4: Verschiedene Modelle 41
3.4 Verwendete Bewertungsmetriken 42
4 Ergebnisse 44
4.1 Experiment 1: Verschiedene Eingangsdaten 44
4.2 Experiment 2: Verschiedene Bounding Box-Größen 48
4.3 Experiment 3: Verschiedene Hyperparameter 52
4.4 Experiment 4: Verschiedene Modelle 56
4.5 Inferenz des besten Modells auf ein unbekanntes Gebiet 61
5 Diskussion 63
5.1 Interpretation der Ergebnisse 63
5.2 Vergleich der Ergebnisse mit anderen Studien 66
5.3 Bewertung der Modelleistung in einem gut und schlecht zu kartierendem Gebiet 68
6 Fazit und Ausblick 71
7 Literaturverzeichnis 73
Anhang 78 / The historical production of charcoal played a significant role in the industrial development. Traditionally, charcoal was produced in so-called kilns, upright ovens. This practice led to extensive deforestation and changed the vegetation composition. In order to better understand historical forest cover and historical land use practices, it is necessary to analyze the spatial distribution of the charcoal kilns. However, manual mapping of the kilns remains using DTM visualization techniques is very time-consuming and labour-intensive. Therefore, this study examines the use of deep learning for the automatic detection of charcoal kiln sites based on LiDAR data products. Pre-trained models from the MMDetection toolbox were trained with DTM images to develop a model specifically adapted to the charcoal kilns. A total of four experiments were conducted to analyze the impact of different DTM visualizations, bounding box sizes, and hyperparameters using the FoveaBox detector as well as the performance of different models (FoveaBox, ATSS, VFNet, RetinaNet). The results show that a 3-band image consisting of hill shading, Sky-View factor, and slope, and a bounding box size of 50 m, is ideal for the detection of kilns. The FoveaBox detector achieved the best performance with the RAdam optimizer and a learning rate of 0.0001, while the ATSS model performed the most consistent results with an accuracy of 93 % and missing only 7 % of the kilns. The ATSS model shows up to 10 % better performance compared to other studies. Key factors for these improvements were the used dataset of the 3-band images, the size of the bounding boxes, and the more extensive data augmentation, particularly the complementary use of radiometric techniques. Through the experimental approach, detection accuracy was improved by 13 %. Compared to manual mapping, the model could identify many additional kilns, although it sometimes led to confusion with accumulated soil on slopes and false detections in uneven terrain with small height differences. The suitability of the algorithm for improved detection of charcoal kiln sites instead of manual mapping is considered efficient but not necessarily more accurate.:Selbständigkeitserklärung II
Weitergabe der Arbeit II
Kurzfassung IV
Abstract V
Abbildungsverzeichnis VIII
Tabellenverzeichnis X
Abkürzungsverzeichnis XI
1 Einleitung 1
1.1 Problemstellung und Zielsetzung 1
1.2 Aufbau der Arbeit 2
2 Grundlagen 3
2.1 Historischer und archäologischer Kontext von Meilerplätzen 3
2.1.1 Holzkohleproduktion und ihre Auswirkungen auf die Umwelt 3
2.1.2 Wichtigkeit der Erforschung von Meilerplätzen 4
2.1.3 Aussehen der Meilerüberreste 5
2.2 Einsatz von LiDAR-Daten für die Detektion von Meilerplätzen 6
2.2.1 Einführung in LiDAR 6
2.2.2 LiDAR in der archäologischen Praxis 8
2.2.3 Visualisierungstechniken von Höhenmodellen 10
2.2.4 Automatisierte Detektion von Meilerplätzen 15
2.3 Objekterkennung mit Deep Learning 16
2.3.1 Einführung in Deep Learning 16
2.3.2 Bildbasierte Objekterkennung von kleinen Objekten 17
2.3.3 Training eines Deep Learning-Modells 18
2.3.4 Datenaugmentierung 19
2.3.5 Hyperparameter 21
2.3.6 Bewertungsmetriken 21
2.3.7 Kategorisierung von Deep Learning-Modellen 23
2.3.8 Verwendete Modelle 25
3 Daten und Methoden 31
3.1 Datengrundlage und Computer-Hardware 31
3.2 Aufbereitung der Daten 32
3.2.1 Bearbeitung der Meilerdaten 32
3.2.2 Vorverarbeitung der DGM-Bilder 33
3.2.3 Aufteilung in Trainings-, Test- und Validierungsdatensatz 34
3.2.4 Datenaugmentierung des Trainingsdatensatzes 35
3.2.5 Verwendete DGM-Visualisierungstechniken 37
3.2.6 COCO-Format und Normalisierung 38
3.3 Experimentelles Vorgehen 39
3.3.1 Experiment 1: Verschiedene Eingangsdaten 39
3.3.2 Experiment 2: Verschiedene Bounding Box-Größen 40
3.3.3 Experiment 3: Verschiedene Hyperparameter 41
3.3.4 Experiment 4: Verschiedene Modelle 41
3.4 Verwendete Bewertungsmetriken 42
4 Ergebnisse 44
4.1 Experiment 1: Verschiedene Eingangsdaten 44
4.2 Experiment 2: Verschiedene Bounding Box-Größen 48
4.3 Experiment 3: Verschiedene Hyperparameter 52
4.4 Experiment 4: Verschiedene Modelle 56
4.5 Inferenz des besten Modells auf ein unbekanntes Gebiet 61
5 Diskussion 63
5.1 Interpretation der Ergebnisse 63
5.2 Vergleich der Ergebnisse mit anderen Studien 66
5.3 Bewertung der Modelleistung in einem gut und schlecht zu kartierendem Gebiet 68
6 Fazit und Ausblick 71
7 Literaturverzeichnis 73
Anhang 78
|
482 |
Applications of deep learning-based image-analysis models for the personalization of radiotherapyStarke, Sebastian 09 July 2024 (has links)
Radiotherapy treatment-response of cancer patients can vary considerably, even in patients sharing the same diagnosis. Enhancing the degree of treatment personalization might offer a way towards improving curation rates. The recent advancements in the field of deep neural networks provide new directions for the non-invasive extraction of patient-individual biomarkers when applied on diagnostic imaging data. Within this thesis, we explored the potential of image-based deep learning as an enabler for individualized therapy. In a cohort of head and neck cancer patients, we first assessed the suitability of applying convolutional neural networks (CNNs) on pre-treatment computed tomography imaging data for the prediction of loco-regional tumor control in the presence of censored outcomes.
We further investigated whether the predictive performance can be improved through the adoption of multitask learning strategies that combine multiple outcome prediction models and a tumor segmentation task, both for CNNs and the recently emerged vision transformer-based network architectures. Subsequently, we applied neural networks on multimodal and longitudinal imaging data collected during the course of radiotherapy and evaluated their potential to further improve outcome models. Finally, in the context of proton-beam radiotherapy of primary brain tumor patients, we applied CNNs for the prediction of the linear energy transfer and examined the feasibility of this approach for estimating treatment-related side-effects considering a variable biological effectiveness of protons.:1. Introduction
2. Theoretical background
3. Convolutional neural networks for outcome prediction
4. Multitask learning and attention-based models for outcome prediction
5. Longitudinal and multimodal models for outcome prediction
6. Prediction of the linear energy transfer in proton-beam radiotherapy / Das Ansprechverhalten von Krebspatienten auf eine Strahlentherapie kann selbst zwischen Patienten mit gleicher Diagnose deutlich variieren. Eine erweiterte Personalisierung der Behandlung stellt einen möglichen Weg dar, um die Heilungschancen zu verbessern. Durch die kürzlich erzielten Fortschritte im Bereich neuronaler Netzwerke bieten sich neue Möglichkeiten zur nicht-invasiven Extraktion patientenspezifischer Merkmale aus diagnostischen Bildgebungsdaten. In dieser Arbeit wurde das Potential tiefer, bildbasierter neuronaler Netzwerke für eine individualisierte Strahlentherapie analysiert.
In einer Kohorte von Patienten mit Kopf- und Halstumoren wurde zunächst die Eignung faltender neuronaler Netzwerke (CNNs) zur Vorhersage der lokoregionären Kontrolle im Beisein zensierter Beobachtungen basierend auf prätherapeutischer Computertomographie (CT) evaluiert. Außerdem wurde untersucht, ob sich die Vorhersagequalität von CNNs und den kürzlich vorgestellten vision transformer Architekturen unter Verwendung von Multitask-Lernstrategien, welche mehrere Vorhersagemodelle und eine Segmentierung des Tumors kombinieren, verbessern lässt.
Anschließend wurde die Anwendbarkeit neuronaler Netzwerke zur Analyse multimodaler und longitudinaler, während des Behandlungsverlaufes aufgenommener, Bildgebungsdaten aufgezeigt und ihr Potential zur weiteren Verbesserung der Vorhersagen analysiert. Abschließend wurden CNNs im Rahmen der Protonentherapie genutzt, um den linearen Energietransfer bei Patienten mit primären Hirntumoren vorherzusagen. Die Plausibilität dieser Vorhersagen zur Risikoabschätzung behandlungsbedingter Nebenwirkungen wurde unter Berücksichtigung einer variablen relativen biologischen Wirksamkeit von Protonen untersucht.:1. Introduction
2. Theoretical background
3. Convolutional neural networks for outcome prediction
4. Multitask learning and attention-based models for outcome prediction
5. Longitudinal and multimodal models for outcome prediction
6. Prediction of the linear energy transfer in proton-beam radiotherapy
|
483 |
Segmentation in Tomography Data: Exploring Data Augmentation for Supervised and Unsupervised Voxel Classification with Neural NetworksWagner, Franz 23 September 2024 (has links)
Computed Tomography (CT) imaging provides invaluable insight into internal structures of objects and organisms, which is critical for applications ranging from materials science to medical diagnostics. In CT data, an object is represented by a 3D reconstruction that is generated by combining multiple 2D X-ray images taken from various angles around the object. Each voxel, a volumetric pixel, within the reconstructed volume represents a small cubic element, allowing for detailed spatial representation. To extract meaningful information from CT imaging data and facilitate analysis and interpretation, accurate segmentation of internal structures is essential. However, this can be challenging due to various artifacts introduced by the physics of a CT scan and the properties of the object being imaged.
This dissertation directly addresses this challenge by using deep learning techniques. Specifically, Convolutional Neural Networks (CNNs) are used for segmentation. However, they face the problem of limited training data. Data scarcity is addressed by data augmentation through the unsupervised generation of synthetic training data and the use of 2D and 3D data augmentation methods. A combination of these augmentation strategies allows for streamlining segmentation in voxel data and effectively addresses data scarcity. Essentially, the work aims to simplify training of CNNs, using minimal or no labeled data. To enhance accessibility to the results of this thesis, two user-friendly software solutions, unpAIred and AiSeg, have been developed. These platforms enable the generation of training data, data augmentation, as well as training, analysis, and application of CNNs.
This cumulative work first examines simpler but efficient conventional data augmentation methods, such as radiometric and geometric image manipulations, which are already widely used in literature. However, these methods are usually randomly applied and do not follow a specific order. The primary focus of the first paper is to investigate this approach and to develop both online and offline data augmentation pipelines that allow for systematic sequencing of these operations. Offline augmentation involves augmenting training data stored on a drive, while online augmentation is performed dynamically at runtime, just before images are fed to the CNN. It is successfully shown that random data augmentation methods are inferior to the new pipelines.
A careful comparison of 3D CNNs is then performed to identify optimal models for specific segmentation tasks, such as carbon and pore segmentation in CT scans of Carbon Reinforced Concrete (CRC). Through an evaluation of eight 3D CNN models on six datasets, tailored recommendations are provided for selecting the most effective model based on dataset characteristics. The analysis highlights the consistent performance of the 3D U-Net, one of the CNNs, and its residual variant, which excel at roving (a bundle of carbon fibers) and pore segmentation tasks.
Based on the augmentation pipelines and the results of the 3D CNN comparison, the pipelines are extended to 3D, specifically targeting the segmentation of carbon in CT scans of CRC. A comparative analysis of different 3D augmentation strategies, including both offline and online augmentation variants, provides insight into their effectiveness. While offline augmentation results in fewer artifacts, it can only segment rovings already present in the training data, while online augmentation is essential for effectively segmenting different types of rovings contained in CT scans. However, constraints such as limited diversity of the dataset and overly aggressive augmentation that resulted in segmentation artifacts require further investigation to address data scarcity.
Recognizing the need for a larger and more diverse dataset, this thesis extends the results of the three former papers by introducing a deep learning-based augmentation using a Generative Adversarial Network (GAN), called Contrastive Unpaired Translation (CUT), for synthetic training data generation. By combining the GAN with augmentation pipelines, semi-supervised and unsupervised end-to-end training methods are introduced and the successful generation of training data for 2D pore segmentation is demonstrated. However, challenges remain in achieving a stable 3D CUT implementation, which warrants further research and development efforts.
In summary, the results of this dissertation address the challenges of accurate CT data segmentation in materials science through deep learning techniques and novel 2D and 3D online and offline augmentation pipelines. By evaluating different 3D CNN models, tailored recommendations for specific segmentation tasks are provided. Furthermore, the exploration of deep learning-based augmentation using CUT shows promising results in the generating synthetic training data.
Future work will include the development of a stable implementation of a 3D CUT version, the exploration of new model architectures, and the development of sub-voxel accurate segmentation techniques. These have the potential for significant advances in segmentation in tomography data.:Abstract IV
Zusammenfassung VI
1 Introduction 1
1.1 Thesis Structure 2
1.2 Scientific Context 3
1.2.1 Developments in the Segmentation in Tomography Data 3
1.2.2 3D Semantic Segmentation using Machine Learning 5
1.2.3 Data Augmentation 6
2 Developed Software Solutions: AiSeg and unpAIred 9
2.1 Software Design 10
2.2 Installation 11
2.3 AiSeg 11
2.4 unpAIred 12
2.5 Limitations 12
3 Factors Affecting Image Quality in Computed Tomography 13
3.1 From CT Scan to Reconstruction 13
3.2 X-ray Tube and Focal Spot 14
3.3 Beam Hardening 14
3.4 Absorption, Scattering and Pairing 15
3.5 X-ray Detector 16
3.6 Geometric Calibration 17
3.7 Reconstruction Algorithm 17
3.8 Artifact corrections 18
4 On the Development of Augmentation Pipelines for Image Segmentation 19
4.0 Abstract 20
4.1 Introduction 20
4.2 Methods 21
4.2.1 Data Preparation 21
4.2.2 Augmentation 21
4.2.3 Networks 24
4.2.4 Training and Metrics 25
4.3 Experimental Design 26
4.3.1 Hardware 26
4.3.2 Workflow 26
4.3.3 Test on Cityscapes 26
4.4 Results and Discussion 26
4.4.1 Stage 1: Crating a Baseline 27
4.4.2 Stage 2: Using Offline Augmentation 27
4.4.3 Stage 3: Using Online Augmentation 27
4.4.4 Test on Cityscapes 29
4.4.5 Future Work – A New Online Augmentation 30
4.5 Conclusion 31
4.6 Appendix 31
4.6.1 Appendix A. List of All Networks 31
4.6.2 Appendix B. Augmentation Methods 32
4.6.3 Appendix C. Used RIWA Online Augmentation Parameters 36
4.6.4 Appendix D. Used Cityscapes Online Augmentation Parameters 36
4.6.5 Appendix E. Comparison of CNNs with best Backbones on RIWA 37
4.6.6 Appendix F. Segmentation Results 38
4.7 References 39
5 Comparison of 3D CNNs for Volume Segmentation 43
5.0 Abstract 44
5.1 Introduction 44
5.2 Datasets 44
5.2.1 Carbon Rovings 45
5.2.2 Concrete Pores 45
5.2.3 Polyethylene Fibers 45
5.2.4 Brain Mitochondria 45
5.2.5 Brain Tumor Segmentation Challenge (BraTS) 46
5.2.6 Head and Neck Cancer 46
5.3 Methods 46
5.3.1 Data Preprocessing 46
5.3.2 Hyperparameters 46
5.3.3 Metrics 47
5.3.4 Experimental Design 48
5.4 Results and Discussion 48
5.4.1 Impact of Initial Random States (Head and Neck Cancer Dataset) 48
5.4.2 Carbon Rovings 48
5.4.3 Concrete Pores 49
5.4.4 Polyethylene Fibers 49
5.4.5 Brain Mitochondria 50
5.4.6 BraTS 51
5.5 Conclusion 51
5.6 References 52
6 Segmentation of Carbon in CRC Using 3D Augmentation 55
6.0 Abstract 56
6.1 Introduction 56
6.2 Materials and Methods 58
6.2.1 Specimens 58
6.2.2 Microtomography 59
6.2.3 AI-Based Segmentation 60
6.2.4 Roving Extraction 64
6.2.5 Multiscale Modeling 65
6.2.6 Scaled Boundary Isogeometric Analysis 66
6.2.7 Parameterized RVE and Definition of Characteristic Geometric Properties 67
6.3 Results and Discussion 70
6.3.1 Microtomography 70
6.3.2 Deep Learning 71
6.3.3 Roving Extraction 74
6.3.4 Parameterized RVE and Definition of Characteristic Geometric Properties 75
6.4 Conclusion 79
6.5 References 80
7 Image-to-Image Translation for Semi-Supervised Semantic Segmentation 85
7.1 Introduction 85
7.2 Methods 86
7.2.1 Generative Adversarial Networks 87
7.2.2 Contrastive Unpaired Translation 87
7.2.3 Fréchet Inception Distance 89
7.2.4 Datasets 89
7.3 Experimental Design 92
7.4 Results and Discussion 94
7.4.1 Training and Inference of CUT 94
7.4.2 End-to-End Training for Semantic Segmentation 99
7.5 Conclusion 104
7.5.1 Future Work 104
8 Synthesis 107
8.1 Research Summary 107
8.1.1 Augmentation Pipelines 107
8.1.2 3D CNN Comparison 108
8.1.3 3D Data Augmentation for the Segmentation of Carbon Rovings 108
8.1.4 Synthetic Training Data Generation 109
8.2 Future Developments 109
8.2.1 Augmentation 109
8.2.2 Pre-trained 3D Encoder 111
8.2.3 On the Quality Control of Carbon Reinforced Concrete 111
8.2.4 Subvoxel Accurate Segmentation 113
8.2.5 Towards Volume-to-Volume Translation 114
8.3 Conclusion 114
References 117
List of Tables 125
List of Figures 127
List of Abbreviations 131 / Computertomographie (CT) bietet wertvolle Einblicke in die inneren Strukturen von Objekten und Organismen, was für Anwendungen von der Materialwissenschaft bis zur medizinischen Diagnostik von entscheidender Bedeutung ist. In CT-Daten ist ein Objekt durch eine 3D-Rekonstruktion dargestellt, die durch die Kombination mehrerer 2D-Röntgenbilder aus verschiedenen Winkeln um das Objekt herum erstellt wird. Jedes Voxel, ein Volumen Pixel, innerhalb des rekonstruierten Volumens stellt ein kleines kubisches Element dar und ermöglicht eine detaillierte räumliche Darstellung. Um aussagekräftige Informationen aus CT-Bilddaten zu extrahieren und eine Analyse und Interpretation zu ermöglichen, ist eine genaue Segmentierung der inneren Strukturen unerlässlich. Dies kann jedoch aufgrund verschiedener Artefakte, die durch die Physik eines CT-Scans und Eigenschaften des abgebildeten Objekts verursacht werden, eine Herausforderung darstellen.
Diese Dissertation befasst sich direkt mit dieser Herausforderung, indem sie Techniken des Deep Learnings einsetzt. Konkret werden für die Segmentierung Convolutional Neural Networks (CNNs) verwendet, welche jedoch mit dem Problem begrenzter Trainingsdaten konfrontiert sind. Der Datenknappheit wird dabei durch Datenerweiterung begegnet, indem unbeaufsichtigt synthetische Trainingsdaten erzeugt und 2D- und 3D-Augmentierungssmethoden eingesetzt werden. Eine Kombination dieser Vervielfältigungsstrategien erlaubt eine Vereinfachung der Segmentierung in Voxeldaten und behebt effektiv die Datenknappheit. Im Wesentlichen zielt diese Arbeit darauf ab, das Training von CNNs zu vereinfachen, wobei wenige oder gar keine gelabelten Daten benötigt werden. Um die Ergebnisse dieser Arbeit Forschenden zugänglicher zu machen, wurden zwei benutzerfreundliche Softwarelösungen, unpAIred und AiSeg, entwickelt. Diese ermöglichen die Generierung von Trainingsdaten, die Augmentierung sowie das Training, die Analyse und die Anwendung von CNNs.
In dieser kumulativen Arbeit werden zunächst einfachere, aber effiziente konventionelle Methoden zur Datenvervielfältigung untersucht, wie z. B. radiometrische und geometrische Bildmanipulationen, die bereits häufig in der Literatur verwendet werden. Diese Methoden werden jedoch in der Regel zufällig nacheinander angewandt und folgen keiner bestimmten Reihenfolge. Der Schwerpunkt des ersten Forschungsartikels liegt darin, diesen Ansatz zu untersuchen und sowohl Online- als auch Offline-Datenerweiterungspipelines zu entwickeln, die eine systematische Sequenzierung dieser Operationen ermöglichen. Bei der Offline Variante werden die auf der Festplatte gespeicherten Trainingsdaten vervielfältigt, während die Online-Erweiterung dynamisch zur Laufzeit erfolgt, kurz bevor die Bilder dem CNN gezeigt werden. Es wird erfolgreich gezeigt, dass eine zufällige Verkettung von geometrischen und radiometrischen Methoden den neuen Pipelines unterlegen ist.
Anschließend wird ein Vergleich von 3D-CNNs durchgeführt, um die optimalen Modelle für Segmentierungsaufgaben zu identifizieren, wie z.B. die Segmentierung von Carbonbewehrung und Luftporen in CT-Scans von carbonverstärktem Beton (CRC). Durch die Bewertung von acht 3D-CNN-Modellen auf sechs Datensätzen werden Empfehlungen für die Auswahl des genauesten Modells auf der Grundlage der Datensatzeigenschaften gegeben. Die Analyse unterstreicht die konstante Überlegenheit des 3D UNets, eines der CNNs, und seiner Residualversion bei Segmentierung von Rovings (Carbonfaserbündel) und Poren.
Aufbauend auf den 2D Augmentierungspipelines und den Ergebnissen des 3D-CNN-Vergleichs werden die Pipelines auf die dritte Dimension erweitert, um insbesondere die Segmentierung der Carbonbewehrung in CT-Scans von CRC zu ermöglichen. Eine vergleichende Analyse verschiedener 3D Augmentierungsstrategien, die sowohl Offline- als auch Online-Erweiterungsvarianten umfassen, gibt Aufschluss über deren Effektivität. Die Offline-Augmentierung führt zwar zu weniger Artefakten, kann aber nur Rovings segmentieren, die bereits in den Trainingsdaten vorhanden sind. Die Online-Augmentierung erweist sich hingegen als unerlässlich für die effektive Segmentierung von Carbon-Roving-Typen, die nicht im Datensatz enthalten sind. Einschränkungen wie die geringe Vielfalt des Datensatzes und eine zu aggressive Online-Datenerweiterung, die zu Segmentierungsartefakten führt, erfordern jedoch weitere Methoden, um die Datenknappheit zu beheben.
In Anbetracht der Notwendigkeit eines größeren und vielfältigeren Datensatzes erweitert diese Arbeit die Ergebnisse der drei Forschungsartikel durch die Einführung einer auf Deep Learning basierenden Augmentierung, die ein Generative Adversarial Network (GAN), genannt Contrastive Unpaired Translation (CUT), zur Erzeugung synthetischer Trainingsdaten verwendet. Durch die Kombination des GANs mit den Augmentierungspipelines wird eine halbüberwachte Ende-zu-Ende-Trainingsmethode vorgestellt und die erfolgreiche Erzeugung von Trainingsdaten für die 2D-Porensegmentierung demonstriert. Es bestehen jedoch noch Herausforderungen bei der Implementierung einer stabilen 3D-CUT-Version, was weitere Forschungs- und Entwicklungsanstrengungen erfordert.
Zusammenfassend adressieren die Ergebnisse dieser Dissertation Herausforderungen der CT-Datensegmentierung in der Materialwissenschaft, die durch Deep-Learning-Techniken und neuartige 2D- und 3D-Online- und Offline-Augmentierungspipelines gelöst werden. Durch die Evaluierung verschiedener 3D-CNN-Modelle werden maßgeschneiderte Empfehlungen für spezifische Segmentierungsaufgaben gegeben. Darüber hinaus zeigen Untersuchungen zur Deep Learning basierten Augmentierung mit CUT vielversprechende Ergebnisse bei der Generierung synthetischer Trainingsdaten.
Zukünftige Arbeiten umfassen die Entwicklung einer stabilen Implementierung einer 3D-CUT-Version, die Erforschung neuer Modellarchitekturen und die Entwicklung von subvoxelgenauen Segmentierungstechniken. Diese haben das Potenzial für bedeutende Fortschritte bei der Segmentierung in Tomographiedaten.:Abstract IV
Zusammenfassung VI
1 Introduction 1
1.1 Thesis Structure 2
1.2 Scientific Context 3
1.2.1 Developments in the Segmentation in Tomography Data 3
1.2.2 3D Semantic Segmentation using Machine Learning 5
1.2.3 Data Augmentation 6
2 Developed Software Solutions: AiSeg and unpAIred 9
2.1 Software Design 10
2.2 Installation 11
2.3 AiSeg 11
2.4 unpAIred 12
2.5 Limitations 12
3 Factors Affecting Image Quality in Computed Tomography 13
3.1 From CT Scan to Reconstruction 13
3.2 X-ray Tube and Focal Spot 14
3.3 Beam Hardening 14
3.4 Absorption, Scattering and Pairing 15
3.5 X-ray Detector 16
3.6 Geometric Calibration 17
3.7 Reconstruction Algorithm 17
3.8 Artifact corrections 18
4 On the Development of Augmentation Pipelines for Image Segmentation 19
4.0 Abstract 20
4.1 Introduction 20
4.2 Methods 21
4.2.1 Data Preparation 21
4.2.2 Augmentation 21
4.2.3 Networks 24
4.2.4 Training and Metrics 25
4.3 Experimental Design 26
4.3.1 Hardware 26
4.3.2 Workflow 26
4.3.3 Test on Cityscapes 26
4.4 Results and Discussion 26
4.4.1 Stage 1: Crating a Baseline 27
4.4.2 Stage 2: Using Offline Augmentation 27
4.4.3 Stage 3: Using Online Augmentation 27
4.4.4 Test on Cityscapes 29
4.4.5 Future Work – A New Online Augmentation 30
4.5 Conclusion 31
4.6 Appendix 31
4.6.1 Appendix A. List of All Networks 31
4.6.2 Appendix B. Augmentation Methods 32
4.6.3 Appendix C. Used RIWA Online Augmentation Parameters 36
4.6.4 Appendix D. Used Cityscapes Online Augmentation Parameters 36
4.6.5 Appendix E. Comparison of CNNs with best Backbones on RIWA 37
4.6.6 Appendix F. Segmentation Results 38
4.7 References 39
5 Comparison of 3D CNNs for Volume Segmentation 43
5.0 Abstract 44
5.1 Introduction 44
5.2 Datasets 44
5.2.1 Carbon Rovings 45
5.2.2 Concrete Pores 45
5.2.3 Polyethylene Fibers 45
5.2.4 Brain Mitochondria 45
5.2.5 Brain Tumor Segmentation Challenge (BraTS) 46
5.2.6 Head and Neck Cancer 46
5.3 Methods 46
5.3.1 Data Preprocessing 46
5.3.2 Hyperparameters 46
5.3.3 Metrics 47
5.3.4 Experimental Design 48
5.4 Results and Discussion 48
5.4.1 Impact of Initial Random States (Head and Neck Cancer Dataset) 48
5.4.2 Carbon Rovings 48
5.4.3 Concrete Pores 49
5.4.4 Polyethylene Fibers 49
5.4.5 Brain Mitochondria 50
5.4.6 BraTS 51
5.5 Conclusion 51
5.6 References 52
6 Segmentation of Carbon in CRC Using 3D Augmentation 55
6.0 Abstract 56
6.1 Introduction 56
6.2 Materials and Methods 58
6.2.1 Specimens 58
6.2.2 Microtomography 59
6.2.3 AI-Based Segmentation 60
6.2.4 Roving Extraction 64
6.2.5 Multiscale Modeling 65
6.2.6 Scaled Boundary Isogeometric Analysis 66
6.2.7 Parameterized RVE and Definition of Characteristic Geometric Properties 67
6.3 Results and Discussion 70
6.3.1 Microtomography 70
6.3.2 Deep Learning 71
6.3.3 Roving Extraction 74
6.3.4 Parameterized RVE and Definition of Characteristic Geometric Properties 75
6.4 Conclusion 79
6.5 References 80
7 Image-to-Image Translation for Semi-Supervised Semantic Segmentation 85
7.1 Introduction 85
7.2 Methods 86
7.2.1 Generative Adversarial Networks 87
7.2.2 Contrastive Unpaired Translation 87
7.2.3 Fréchet Inception Distance 89
7.2.4 Datasets 89
7.3 Experimental Design 92
7.4 Results and Discussion 94
7.4.1 Training and Inference of CUT 94
7.4.2 End-to-End Training for Semantic Segmentation 99
7.5 Conclusion 104
7.5.1 Future Work 104
8 Synthesis 107
8.1 Research Summary 107
8.1.1 Augmentation Pipelines 107
8.1.2 3D CNN Comparison 108
8.1.3 3D Data Augmentation for the Segmentation of Carbon Rovings 108
8.1.4 Synthetic Training Data Generation 109
8.2 Future Developments 109
8.2.1 Augmentation 109
8.2.2 Pre-trained 3D Encoder 111
8.2.3 On the Quality Control of Carbon Reinforced Concrete 111
8.2.4 Subvoxel Accurate Segmentation 113
8.2.5 Towards Volume-to-Volume Translation 114
8.3 Conclusion 114
References 117
List of Tables 125
List of Figures 127
List of Abbreviations 131
|
484 |
Machine learning for fast and accurate assessment of earthquake source parameters / Implications for rupture predictability and early warningMünchmeyer, Jannes 07 November 2022 (has links)
Erdbeben gehören zu den zerstörerischsten Naturgefahren auf diesem Planeten. Obwohl Erdbeben seit Jahrtausenden dokumentiert sing, bleiben viele Fragen zu Erdbeben unbeantwortet. Eine Frage ist die Vorhersagbarkeit von Brüchen: Inwieweit ist es möglich, die endgültige Größe eines Bebens zu bestimmen, bevor der zugrundeliegende Bruchprozess endet? Diese Frage ist zentral für Frühwarnsysteme. Die bisherigen Forschungsergebnisse zur Vorhersagbarkeit von Brüchen sind widersprüchlich.
Die Menge an verfügbaren Daten für Erdbebenforschung wächst exponentiell und hat den Tera- bis Petabyte-Bereich erreicht. Während viele klassische Methoden, basierend auf manuellen Datenauswertungen, hier ihre Grenzen erreichen, ermöglichen diese Datenmengen den Einsatz hochparametrischer Modelle und datengetriebener Analysen. Insbesondere ermöglichen sie den Einsatz von maschinellem Lernen und deep learning.
Diese Doktorarbeit befasst sich mit der Entwicklung von Methoden des maschinellen Lernens zur Untersuchung zur Erbebenanalyse. Wir untersuchen zuerst die Kalibrierung einer hochpräzisen Magnitudenskala in einem post hoc Scenario. Nachfolgend befassen wir uns mit Echtzeitanalyse von Erdbeben mittels deep learning. Wir präsentieren TEAM, eine Methode zur Frühwarnung. Auf TEAM aufbauend entwickeln wir TEAM-LM zur Echtzeitschätzung von Lokation und Magnitude eines Erdbebens. Im letzten Schritt untersuchen wir die Vorhersagbarkeit von Brüchen mittels TEAM-LM anhand eines Datensatzes von teleseismischen P-Wellen-Ankünften. Dieser Analyse stellen wir eine Untersuchung von Quellfunktionen großer Erdbeben gegenüber. Unsere Untersuchung zeigt, dass die Brüche großer Beben erst vorhersagbar sind, nachdem die Hälfte des Bebens vergangen ist. Selbst dann können weitere Subbrüche nicht vorhergesagt werden. Nichtsdestotrotz zeigen die hier entwickelten Methoden, dass deep learning die Echtzeitanalyse von Erdbeben wesentlich verbessert. / Earthquakes are among the largest and most destructive natural hazards known to humankind. While records of earthquakes date back millennia, many questions about their nature remain open. One question is termed rupture predictability: to what extent is it possible to foresee the final size of an earthquake while it is still ongoing? This question is integral to earthquake early warning systems. Still, research on this question so far has reached contradictory conclusions.
The amount of data available for earthquake research has grown exponentially during the last decades reaching now tera- to petabyte scale. This wealth of data, while making manual inspection infeasible, allows for data-driven analysis and complex models with high numbers of parameters, including machine and deep learning techniques. In seismology, deep learning already led to considerable improvements upon previous methods for many analysis tasks, but the application is still in its infancy.
In this thesis, we develop machine learning methods for the study of rupture predictability and earthquake early warning. We first study the calibration of a high-confidence magnitude scale in a post hoc scenario. Subsequently, we focus on real-time estimation models based on deep learning and build the TEAM model for early warning. Based on TEAM, we develop TEAM-LM, a model for real-time location and magnitude estimation. In the last step, we use TEAM-LM to study rupture predictability. We complement this analysis with results obtained from a deep learning model based on moment rate functions. Our analysis shows that earthquake ruptures are not predictable early on, but only after their peak moment release, after approximately half of their duration. Even then, potential further asperities can not be foreseen. While this thesis finds no rupture predictability, the methods developed within this work demonstrate how deep learning methods make a high-quality real-time assessment of earthquakes practically feasible.
|
485 |
Robust recognition and exploratory analysis of crystal structures using machine learningLeitherer, Andreas 04 July 2022 (has links)
In den Materialwissenschaften läuten Künstliche-Intelligenz Methoden einen Paradigmenwechsel in Richtung Big-data zentrierter Forschung ein. Datenbanken mit Millionen von Einträgen, sowie hochauflösende Experimente, z.B. Elektronenmikroskopie, enthalten eine Fülle wachsender Information. Um diese ungenützten, wertvollen Daten für die Entdeckung verborgener Muster und Physik zu nutzen, müssen automatische analytische Methoden entwickelt werden. Die Kristallstruktur-Klassifizierung ist essentiell für die Charakterisierung eines Materials. Vorhandene Daten bieten vielfältige atomare Strukturen, enthalten jedoch oft Defekte und sind unvollständig. Eine geeignete Methode sollte diesbezüglich robust sein und gleichzeitig viele Systeme klassifizieren können, was für verfügbare Methoden nicht zutrifft. In dieser Arbeit entwickeln wir ARISE, eine Methode, die auf Bayesian deep learning basiert und mehr als 100 Strukturklassen robust und ohne festzulegende Schwellwerte klassifiziert. Die einfach erweiterbare Strukturauswahl ist breit gefächert und umfasst nicht nur Bulk-, sondern auch zwei- und ein-dimensionale Systeme. Für die lokale Untersuchung von großen, polykristallinen Systemen, führen wir die strided pattern matching Methode ein. Obwohl nur auf perfekte Strukturen trainiert, kann ARISE stark gestörte mono- und polykristalline Systeme synthetischen als auch experimentellen Ursprungs charakterisieren. Das Model basiert auf Bayesian deep learning und ist somit probabilistisch, was die systematische Berechnung von Unsicherheiten erlaubt, welche mit der Kristallordnung von metallischen Nanopartikeln in Elektronentomographie-Experimenten korrelieren. Die Anwendung von unüberwachtem Lernen auf interne Darstellungen des neuronalen Netzes enthüllt Korngrenzen und nicht ersichtliche Regionen, die über interpretierbare geometrische Eigenschaften verknüpft sind. Diese Arbeit ermöglicht die Analyse atomarer Strukturen mit starken Rauschquellen auf bisher nicht mögliche Weise. / In materials science, artificial-intelligence tools are driving a paradigm shift towards big data-centric research. Large computational databases with millions of entries and high-resolution experiments such as electron microscopy contain large and growing amount of information. To leverage this under-utilized - yet very valuable - data, automatic analytical methods need to be developed. The classification of the crystal structure of a material is essential for its characterization. The available data is structurally diverse but often defective and incomplete. A suitable method should therefore be robust with respect to sources of inaccuracy, while being able to treat multiple systems. Available methods do not fulfill both criteria at the same time. In this work, we introduce ARISE, a Bayesian-deep-learning based framework that can treat more than 100 structural classes in robust fashion, without any predefined threshold. The selection of structural classes, which can be easily extended on demand, encompasses a wide range of materials, in particular, not only bulk but also two- and one-dimensional systems. For the local study of large, polycrystalline samples, we extend ARISE by introducing so-called strided pattern matching. While being trained on ideal structures only, ARISE correctly characterizes strongly perturbed single- and polycrystalline systems, from both synthetic and experimental resources. The probabilistic nature of the Bayesian-deep-learning model allows to obtain principled uncertainty estimates which are found to be correlated with crystalline order of metallic nanoparticles in electron-tomography experiments. Applying unsupervised learning to the internal neural-network representations reveals grain boundaries and (unapparent) structural regions sharing easily interpretable geometrical properties. This work enables the hitherto hindered analysis of noisy atomic structural data.
|
486 |
Modern Computing Techniques for Solving Genomic ProblemsYu, Ning 12 August 2016 (has links)
With the advent of high-throughput genomics, biological big data brings challenges to scientists in handling, analyzing, processing and mining this massive data. In this new interdisciplinary field, diverse theories, methods, tools and knowledge are utilized to solve a wide variety of problems. As an exploration, this dissertation project is designed to combine concepts and principles in multiple areas, including signal processing, information-coding theory, artificial intelligence and cloud computing, in order to solve the following problems in computational biology: (1) comparative gene structure detection, (2) DNA sequence annotation, (3) investigation of CpG islands (CGIs) for epigenetic studies. Briefly, in problem #1, sequences are transformed into signal series or binary codes. Similar to the speech/voice recognition, similarity is calculated between two signal series and subsequently signals are stitched/matched into a temporal sequence. In the nature of binary operation, all calculations/steps can be performed in an efficient and accurate way. Improving performance in terms of accuracy and specificity is the key for a comparative method. In problem #2, DNA sequences are encoded and transformed into numeric representations for deep learning methods. Encoding schemes greatly influence the performance of deep learning algorithms. Finding the best encoding scheme for a particular application of deep learning is significant. Three applications (detection of protein-coding splicing sites, detection of lincRNA splicing sites and improvement of comparative gene structure identification) are used to show the computing power of deep neural networks. In problem #3, CpG sites are assigned certain energy and a Gaussian filter is applied to detection of CpG islands. By using the CpG box and Markov model, we investigate the properties of CGIs and redefine the CGIs using the emerging epigenetic data. In summary, these three problems and their solutions are not isolated; they are linked to modern techniques in such diverse areas as signal processing, information-coding theory, artificial intelligence and cloud computing. These novel methods are expected to improve the efficiency and accuracy of computational tools and bridge the gap between biology and scientific computing.
|
487 |
Deep Boltzmann machines as hierarchical generative models of perceptual inference in the cortexReichert, David Paul January 2012 (has links)
The mammalian neocortex is integral to all aspects of cognition, in particular perception across all sensory modalities. Whether computational principles can be identified that would explain why the cortex is so versatile and capable of adapting to various inputs is not clear. One well-known hypothesis is that the cortex implements a generative model, actively synthesising internal explanations of the sensory input. This ‘analysis by synthesis’ could be instantiated in the top-down connections in the hierarchy of cortical regions, and allow the cortex to evaluate its internal model and thus learn good representations of sensory input over time. Few computational models however exist that implement these principles. In this thesis, we investigate the deep Boltzmann machine (DBM) as a model of analysis by synthesis in the cortex, and demonstrate how three distinct perceptual phenomena can be interpreted in this light: visual hallucinations, bistable perception, and object-based attention. A common thread is that in all cases, the internally synthesised explanations go beyond, or deviate from, what is in the visual input. The DBM was recently introduced in machine learning, but combines several properties of interest for biological application. It constitutes a hierarchical generative model and carries both the semantics of a connectionist neural network and a probabilistic model. Thus, we can consider neuronal mechanisms but also (approximate) probabilistic inference, which has been proposed to underlie cortical processing, and contribute to the ongoing discussion concerning probabilistic or Bayesian models of cognition. Concretely, making use of the model’s capability to synthesise internal representations of sensory input, we model complex visual hallucinations resulting from loss of vision in Charles Bonnet syndrome.We demonstrate that homeostatic regulation of neuronal firing could be the underlying cause, reproduce various aspects of the syndrome, and examine a role for the neuromodulator acetylcholine. Next, we relate bistable perception to approximate, sampling-based probabilistic inference, and show how neuronal adaptation can be incorporated by providing a biological interpretation for a recently developed sampling algorithm. Finally, we explore how analysis by synthesis could be related to attentional feedback processing, employing the generative aspect of the DBM to implement a form of object-based attention. We thus present a model that uniquely combines several computational principles (sampling, neural processing, unsupervised learning) and is general enough to uniquely address a range of distinct perceptual phenomena. The connection to machine learning ensures theoretical grounding and practical evaluation of the underlying principles. Our results lend further credence to the hypothesis of a generative model in the brain, and promise fruitful interaction between neuroscience and Deep Learning approaches.
|
488 |
Exploration des réseaux de neurones à base d'autoencodeur dans le cadre de la modélisation des données textuellesLauly, Stanislas January 2016 (has links)
Depuis le milieu des années 2000, une nouvelle approche en apprentissage automatique, l'apprentissage de réseaux profonds (deep learning), gagne en popularité. En effet, cette approche a démontré son efficacité pour résoudre divers problèmes en améliorant les résultats obtenus par d'autres techniques qui étaient considérées alors comme étant l'état de l'art. C'est le cas pour le domaine de la reconnaissance d'objets ainsi que pour la reconnaissance de la parole. Sachant cela, l’utilisation des réseaux profonds dans le domaine du Traitement Automatique du Langage Naturel (TALN, Natural Language Processing) est donc une étape logique à suivre. Cette thèse explore différentes structures de réseaux de neurones dans le but de modéliser le texte écrit, se concentrant sur des modèles simples, puissants et rapides à entraîner.
|
489 |
End-to-End Speech Recognition ModelsChan, William 01 December 2016 (has links)
For the past few decades, the bane of Automatic Speech Recognition (ASR) systems have been phonemes and Hidden Markov Models (HMMs). HMMs assume conditional indepen-dence between observations, and the reliance on explicit phonetic representations requires expensive handcrafted pronunciation dictionaries. Learning is often via detached proxy problems, and there especially exists a disconnect between acoustic model performance and actual speech recognition performance. Connectionist Temporal Classification (CTC) character models were recently proposed attempts to solve some of these issues, namely jointly learning the pronunciation model and acoustic model. However, HMM and CTC models still suffer from conditional independence assumptions and must rely heavily on language models during decoding. In this thesis, we question the traditional paradigm of ASR and highlight the limitations of HMM and CTC models. We propose a novel approach to ASR with neural attention models and we directly optimize speech transcriptions. Our proposed method is not only an end-to- end trained system but also an end-to-end model. The end-to-end model jointly learns all the traditional components of a speech recognition system: the pronunciation model, acoustic model and language model. Our model can directly emit English/Chinese characters or even word pieces given the audio signal. There is no need for explicit phonetic representations, intermediate heuristic loss functions or conditional independence assumptions. We demonstrate our end-to-end speech recognition model on various ASR tasks. We show competitive results compared to a state-of-the-art HMM based system on the Google voice search task. We demonstrate an online end-to-end Chinese Mandarin model and show how to jointly optimize the Pinyin transcriptions during training. Finally, we also show state-of-the-art results on the Wall Street Journal ASR task compared to other end-to-end models.
|
490 |
Distributed representations for compositional semanticsHermann, Karl Moritz January 2014 (has links)
The mathematical representation of semantics is a key issue for Natural Language Processing (NLP). A lot of research has been devoted to finding ways of representing the semantics of individual words in vector spaces. Distributional approaches—meaning distributed representations that exploit co-occurrence statistics of large corpora—have proved popular and successful across a number of tasks. However, natural language usually comes in structures beyond the word level, with meaning arising not only from the individual words but also the structure they are contained in at the phrasal or sentential level. Modelling the compositional process by which the meaning of an utterance arises from the meaning of its parts is an equally fundamental task of NLP. This dissertation explores methods for learning distributed semantic representations and models for composing these into representations for larger linguistic units. Our underlying hypothesis is that neural models are a suitable vehicle for learning semantically rich representations and that such representations in turn are suitable vehicles for solving important tasks in natural language processing. The contribution of this thesis is a thorough evaluation of our hypothesis, as part of which we introduce several new approaches to representation learning and compositional semantics, as well as multiple state-of-the-art models which apply distributed semantic representations to various tasks in NLP. Part I focuses on distributed representations and their application. In particular, in Chapter 3 we explore the semantic usefulness of distributed representations by evaluating their use in the task of semantic frame identification. Part II describes the transition from semantic representations for words to compositional semantics. Chapter 4 covers the relevant literature in this field. Following this, Chapter 5 investigates the role of syntax in semantic composition. For this, we discuss a series of neural network-based models and learning mechanisms, and demonstrate how syntactic information can be incorporated into semantic composition. This study allows us to establish the effectiveness of syntactic information as a guiding parameter for semantic composition, and answer questions about the link between syntax and semantics. Following these discoveries regarding the role of syntax, Chapter 6 investigates whether it is possible to further reduce the impact of monolingual surface forms and syntax when attempting to capture semantics. Asking how machines can best approximate human signals of semantics, we propose multilingual information as one method for grounding semantics, and develop an extension to the distributional hypothesis for multilingual representations. Finally, Part III summarizes our findings and discusses future work.
|
Page generated in 0.2632 seconds