481 |
Mobile-based 3D modeling : An indepth evaluation for the application to maintenance and supervisionDe Pellegrini, Martin January 2021 (has links)
Indoor environment modeling has become a relevant topic in several applications fields including Augmented, Virtual and Mixed Reality. Furthermore, with the Digital Transformation, many industries have moved toward this technology trying to generate detailed models of an environment allowing the viewers to navigate through it or mapping surfaces to insert virtual elements in a real scene. Therefore, this Thesis project has been conducted with the purpose to review well- established deterministic methods for 3D scene reconstruction and researching the state- of- the- art, such as machine learning- based approaches, and a possible implementation on mobile devices. Initially, we focused on the well- established methods such as Structure from Motion (SfM) that use photogrammetry to estimate camera poses and depth using only RGB images. Lastly, the research has been centered on the most innovative methods that make use of machine learning to predict depth maps and camera poses from a video stream. Most of the methods reviewed are completely unsupervised and are based on a combination of two subnetwork, the disparity network (DispNet) for the depth estimation and pose network (PoseNet) for camera pose estimation. Despite the fact that the results in outdoor application show high quality depth map and and reliable odometry, there are still some limitations for the deployment of this technology in indoor environment. Overall, the results are promising. / Modellering av inomhusmiljö har blivit ett relevant ämne inom flera applikationsområden, inklusive Augmented, Virtual och Mixed Reality. Dessutom, med den digitala transformationen, har många branscher gått mot denna teknik som försöker generera detaljerade modeller av en miljö som gör det möjligt för tittarna att navigera genom den eller kartlägga ytor för att infoga virtuella element i en riktig scen. Därför har detta avhandlingsprojekt genomförts med syftet att granska väletablerade deterministiska metoder för 3Dscenrekonstruktion och undersöka det senaste inom teknik, såsom maskininlärningsbaserade metoder och en möjlig implementering på mobil. Inledningsvis fokuserade vi på de väletablerade metoderna som Structure From Motion (SfM) som använder fotogrammetri för att uppskatta kameraställningar och djup med endast RGBbilder. Slutligen har forskningen varit inriktad på de mest innovativa metoderna som använder maskininlärning för att förutsäga djupkartor och kameraposer från en videoström. De flesta av de granskade metoderna är helt utan tillsyn och baseras på en kombination av två undernätverk, skillnadsnätverket (DispNet) för djupuppskattning och posenätverk (PoseNet) för kameraposestimering. Trots att resultaten i utomhusanvändning visar djupkarta av hög kvalitet och tillförlitlig vägmätning, finns det fortfarande vissa begränsningar för användningen av denna teknik i inomhusmiljön, men ändå är resultaten lovande.
|
482 |
Machine Learning Models for Computational Structural MechanicsMehdi Jokar (16379208) 06 June 2024 (has links)
<p>The numerical simulation of physical systems plays a key role in different fields of science and engineering. The popularity of numerical methods stems from their ability to simulate complex physical phenomena for which analytical solutions are only possible for limited combinations of geometry, boundary, and initial conditions. Despite their flexibility, the computational demand of classical numerical methods quickly escalates as the size and complexity of the model increase. To address this limitation, and motivated by the unprecedented success of Deep Learning (DL) in computer vision, researchers started exploring the possibility of developing computationally efficient DL-based algorithms to simulate the response of complex systems. To date, DL techniques have been shown to be effective in simulating certain physical systems. However, their practical application faces an important common constraint: trained DL models are limited to a predefined set of configurations. Any change to the system configuration (e.g., changes to the domain size or boundary conditions) entails updating the underlying architecture and retraining the model. It follows that existing DL-based simulation approaches lack the flexibility offered by classical numerical methods. An important constraint that severely hinders the widespread application of these approaches to the simulation of physical systems.</p>
<p><br></p>
<p>In an effort to address this limitation, this dissertation explores DL models capable of combining the conceptual flexibility typical of a numerical approach for structural analysis, the finite element method, with the remarkable computational efficiency of trained neural networks. Specifically, this dissertation introduces the novel concept of <em>“Finite Element Network Analysis”</em> (FENA), a physics-informed, DL-based computational framework for the simulation of physical systems. FENA leverages the unique transfer knowledge property of bidirectional recurrent neural networks to provide a uniquely powerful and flexible computing platform. In FENA, each class of physical systems (for example, structural elements such as beams and plates) is represented by a set of surrogate DL-based models. All classes of surrogate models are pre-trained and available in a library, analogous to the finite element method, alleviating the need for repeated retraining. Another remarkable characteristic of FENA is the ability to simulate assemblies built by combining pre-trained networks that serve as surrogate models of different components of physical systems, a functionality that is key to modeling multicomponent physical systems. The ability to assemble pre-trained network models, dubbed <em>network concatenation</em>, places FENA in a new category of DL-based computational platforms because, unlike existing DL-based techniques, FENA does not require <em>ad hoc</em> training for problem-specific conditions.</p>
<p><br></p>
<p>While FENA is highly general in nature, this work focuses primarily on the development of linear and nonlinear static simulation capabilities of a variety of fundamental structural elements as a benchmark to demonstrate FENA's capabilities. Specifically, FENA is applied to linear elastic rods, slender beams, and thin plates. Then, the concept of concatenation is utilized to simulate multicomponent structures composed of beams and plate assemblies (stiffened panels). The capacity of FENA to model nonlinear systems is also shown by further applying it to nonlinear problems consisting in the simulation of geometrically nonlinear elastic beams and plastic deformation of aluminum beams, an extension that became possible thanks to the flexibility of FENA and the intrinsic nonlinearity of neural networks. The application of FENA to time-transient simulations is also presented, providing the foundation for linear time-transient simulations of homogeneous and inhomogeneous systems. Specifically, the concepts of Super Finite Network Element (SFNE) and network concatenation in time are introduced. The proposed concepts enable training SFNEs based on data available in a limited time frame and then using the trained SFNEs to simulate the system evolution beyond the initial time window characteristic of the training dataset. To showcase the effectiveness and versatility of the introduced concepts, they are applied to the transient simulation of homogeneous rods and inhomogeneous beams. In each case, the framework is validated by direct comparison against the solutions available from analytical methods or traditional finite element analysis. Results indicate that FENA can provide highly accurate solutions, with relative errors below 2 % for the cases presented in this work and a clear computational advantage over traditional numerical solution methods. </p>
<p><br></p>
<p>The consistency of the performance across diverse problem settings substantiates the adaptability and versatility of FENA. It is expected that, although the framework is illustrated and numerically validated only for selected classes of structures, the framework could potentially be extended to a broad spectrum of structural and multiphysics applications relevant to computational science.</p>
|
483 |
KI-basierte Detektion von Meilerplätzen mithilfe der Kombination luftgestützter LiDAR-Datenprodukte und Neuronaler NetzeRünger, Carolin 20 August 2024 (has links)
Die historische Holzkohleproduktion spielte eine bedeutende Rolle in der industriellen Entwicklung. Traditionell wurde Holzkohle in sogenannten Meilern, aufrechtstehenden Öfen, hergestellt. Diese Praxis führte zur weitreichenden Abholzung und veränderte die Vegetationszusammensetzung. Um die historische Waldbedeckung und historischen Landnutzungspraktiken besser zu verstehen, ist es notwendig, die räumliche Verteilung der Meiler zu analysieren. Die manuelle Kartierung der Meilerüberreste mittels DGM-Visualisierungstechniken ist sehr zeit- und arbeitsintensiv. Diese Arbeit untersucht daher den Einsatz von Deep Learning zur automatischen Detektion von Meilerplätzen basierend auf LiDAR-Datenprodukten. Hierfür wurden vortrainierte Modelle der Toolbox MMDetection mit DGM-Bildern trainiert, um ein spezifisch auf Meiler abgestimmtes Modell zu entwickeln. Insgesamt wurden vier Experimente durchgeführt, die den Einfluss verschiedener DGM-Visualisierungen, die Größe der Bounding Boxen und Hyperparameter unter Verwendung des FoveaBox-Detektors sowie die Leistung unterschiedlicher Modelle (ATSS, VFNet, RetinaNet) analysierten. Die Ergebnisse zeigen, dass ein 3-Band Bild bestehend aus Hügelschattierung, Sky-View Faktor und Neigung sowie eine Bounding Box Größe von 50 m optimal für die Detektion von Meilern sind. Der FoveaBox-Detektor erzielte die beste Leistung mit dem RAdam-Optimierer und einer Lernrate von 0.0001, wobei das ATSS-Modell mit den gleichen Hyperparametern die schlüssigsten Ergebnisse mit einer Genauigkeit von 93 % erreichte und nur 7 % der Meiler übersah. Das ATSS-Modell zeigte im Gegensatz zu anderen Studien eine um bis zu 10 % bessere Leistung. Ausschlaggebende Faktoren für diese Verbesserungen waren der verwendete Datensatz aus den 3-Band Bildern, die Größe der Bounding Boxen und die umfangreichere Datenaugmentierung, insbesondere die ergänzende Nutzung radiometrischer Techniken. Durch die experimentelle Herangehensweise konnte die Erkennungsgenauigkeit um 13 % gesteigert werden. Im Vergleich zur manuellen Kartierung hat das Modell viele zusätzliche Meiler identifiziert, obwohl es gelegentlich zu Verwechslungen mit angehäufter Erde am Hang und Fehldetektionen in unebenem Gelände mit geringen Höhenunterschieden kam. Die Eignung des Algorithmus zur verbesserten Erkennung von Meilerplätzen anstelle der manuellen Kartierung wird als effizienter, aber nicht zwangsläufig als präziser eingeschätzt:Selbständigkeitserklärung II
Weitergabe der Arbeit II
Kurzfassung IV
Abstract V
Abbildungsverzeichnis VIII
Tabellenverzeichnis X
Abkürzungsverzeichnis XI
1 Einleitung 1
1.1 Problemstellung und Zielsetzung 1
1.2 Aufbau der Arbeit 2
2 Grundlagen 3
2.1 Historischer und archäologischer Kontext von Meilerplätzen 3
2.1.1 Holzkohleproduktion und ihre Auswirkungen auf die Umwelt 3
2.1.2 Wichtigkeit der Erforschung von Meilerplätzen 4
2.1.3 Aussehen der Meilerüberreste 5
2.2 Einsatz von LiDAR-Daten für die Detektion von Meilerplätzen 6
2.2.1 Einführung in LiDAR 6
2.2.2 LiDAR in der archäologischen Praxis 8
2.2.3 Visualisierungstechniken von Höhenmodellen 10
2.2.4 Automatisierte Detektion von Meilerplätzen 15
2.3 Objekterkennung mit Deep Learning 16
2.3.1 Einführung in Deep Learning 16
2.3.2 Bildbasierte Objekterkennung von kleinen Objekten 17
2.3.3 Training eines Deep Learning-Modells 18
2.3.4 Datenaugmentierung 19
2.3.5 Hyperparameter 21
2.3.6 Bewertungsmetriken 21
2.3.7 Kategorisierung von Deep Learning-Modellen 23
2.3.8 Verwendete Modelle 25
3 Daten und Methoden 31
3.1 Datengrundlage und Computer-Hardware 31
3.2 Aufbereitung der Daten 32
3.2.1 Bearbeitung der Meilerdaten 32
3.2.2 Vorverarbeitung der DGM-Bilder 33
3.2.3 Aufteilung in Trainings-, Test- und Validierungsdatensatz 34
3.2.4 Datenaugmentierung des Trainingsdatensatzes 35
3.2.5 Verwendete DGM-Visualisierungstechniken 37
3.2.6 COCO-Format und Normalisierung 38
3.3 Experimentelles Vorgehen 39
3.3.1 Experiment 1: Verschiedene Eingangsdaten 39
3.3.2 Experiment 2: Verschiedene Bounding Box-Größen 40
3.3.3 Experiment 3: Verschiedene Hyperparameter 41
3.3.4 Experiment 4: Verschiedene Modelle 41
3.4 Verwendete Bewertungsmetriken 42
4 Ergebnisse 44
4.1 Experiment 1: Verschiedene Eingangsdaten 44
4.2 Experiment 2: Verschiedene Bounding Box-Größen 48
4.3 Experiment 3: Verschiedene Hyperparameter 52
4.4 Experiment 4: Verschiedene Modelle 56
4.5 Inferenz des besten Modells auf ein unbekanntes Gebiet 61
5 Diskussion 63
5.1 Interpretation der Ergebnisse 63
5.2 Vergleich der Ergebnisse mit anderen Studien 66
5.3 Bewertung der Modelleistung in einem gut und schlecht zu kartierendem Gebiet 68
6 Fazit und Ausblick 71
7 Literaturverzeichnis 73
Anhang 78 / The historical production of charcoal played a significant role in the industrial development. Traditionally, charcoal was produced in so-called kilns, upright ovens. This practice led to extensive deforestation and changed the vegetation composition. In order to better understand historical forest cover and historical land use practices, it is necessary to analyze the spatial distribution of the charcoal kilns. However, manual mapping of the kilns remains using DTM visualization techniques is very time-consuming and labour-intensive. Therefore, this study examines the use of deep learning for the automatic detection of charcoal kiln sites based on LiDAR data products. Pre-trained models from the MMDetection toolbox were trained with DTM images to develop a model specifically adapted to the charcoal kilns. A total of four experiments were conducted to analyze the impact of different DTM visualizations, bounding box sizes, and hyperparameters using the FoveaBox detector as well as the performance of different models (FoveaBox, ATSS, VFNet, RetinaNet). The results show that a 3-band image consisting of hill shading, Sky-View factor, and slope, and a bounding box size of 50 m, is ideal for the detection of kilns. The FoveaBox detector achieved the best performance with the RAdam optimizer and a learning rate of 0.0001, while the ATSS model performed the most consistent results with an accuracy of 93 % and missing only 7 % of the kilns. The ATSS model shows up to 10 % better performance compared to other studies. Key factors for these improvements were the used dataset of the 3-band images, the size of the bounding boxes, and the more extensive data augmentation, particularly the complementary use of radiometric techniques. Through the experimental approach, detection accuracy was improved by 13 %. Compared to manual mapping, the model could identify many additional kilns, although it sometimes led to confusion with accumulated soil on slopes and false detections in uneven terrain with small height differences. The suitability of the algorithm for improved detection of charcoal kiln sites instead of manual mapping is considered efficient but not necessarily more accurate.:Selbständigkeitserklärung II
Weitergabe der Arbeit II
Kurzfassung IV
Abstract V
Abbildungsverzeichnis VIII
Tabellenverzeichnis X
Abkürzungsverzeichnis XI
1 Einleitung 1
1.1 Problemstellung und Zielsetzung 1
1.2 Aufbau der Arbeit 2
2 Grundlagen 3
2.1 Historischer und archäologischer Kontext von Meilerplätzen 3
2.1.1 Holzkohleproduktion und ihre Auswirkungen auf die Umwelt 3
2.1.2 Wichtigkeit der Erforschung von Meilerplätzen 4
2.1.3 Aussehen der Meilerüberreste 5
2.2 Einsatz von LiDAR-Daten für die Detektion von Meilerplätzen 6
2.2.1 Einführung in LiDAR 6
2.2.2 LiDAR in der archäologischen Praxis 8
2.2.3 Visualisierungstechniken von Höhenmodellen 10
2.2.4 Automatisierte Detektion von Meilerplätzen 15
2.3 Objekterkennung mit Deep Learning 16
2.3.1 Einführung in Deep Learning 16
2.3.2 Bildbasierte Objekterkennung von kleinen Objekten 17
2.3.3 Training eines Deep Learning-Modells 18
2.3.4 Datenaugmentierung 19
2.3.5 Hyperparameter 21
2.3.6 Bewertungsmetriken 21
2.3.7 Kategorisierung von Deep Learning-Modellen 23
2.3.8 Verwendete Modelle 25
3 Daten und Methoden 31
3.1 Datengrundlage und Computer-Hardware 31
3.2 Aufbereitung der Daten 32
3.2.1 Bearbeitung der Meilerdaten 32
3.2.2 Vorverarbeitung der DGM-Bilder 33
3.2.3 Aufteilung in Trainings-, Test- und Validierungsdatensatz 34
3.2.4 Datenaugmentierung des Trainingsdatensatzes 35
3.2.5 Verwendete DGM-Visualisierungstechniken 37
3.2.6 COCO-Format und Normalisierung 38
3.3 Experimentelles Vorgehen 39
3.3.1 Experiment 1: Verschiedene Eingangsdaten 39
3.3.2 Experiment 2: Verschiedene Bounding Box-Größen 40
3.3.3 Experiment 3: Verschiedene Hyperparameter 41
3.3.4 Experiment 4: Verschiedene Modelle 41
3.4 Verwendete Bewertungsmetriken 42
4 Ergebnisse 44
4.1 Experiment 1: Verschiedene Eingangsdaten 44
4.2 Experiment 2: Verschiedene Bounding Box-Größen 48
4.3 Experiment 3: Verschiedene Hyperparameter 52
4.4 Experiment 4: Verschiedene Modelle 56
4.5 Inferenz des besten Modells auf ein unbekanntes Gebiet 61
5 Diskussion 63
5.1 Interpretation der Ergebnisse 63
5.2 Vergleich der Ergebnisse mit anderen Studien 66
5.3 Bewertung der Modelleistung in einem gut und schlecht zu kartierendem Gebiet 68
6 Fazit und Ausblick 71
7 Literaturverzeichnis 73
Anhang 78
|
484 |
Segmentation in Tomography Data: Exploring Data Augmentation for Supervised and Unsupervised Voxel Classification with Neural NetworksWagner, Franz 23 September 2024 (has links)
Computed Tomography (CT) imaging provides invaluable insight into internal structures of objects and organisms, which is critical for applications ranging from materials science to medical diagnostics. In CT data, an object is represented by a 3D reconstruction that is generated by combining multiple 2D X-ray images taken from various angles around the object. Each voxel, a volumetric pixel, within the reconstructed volume represents a small cubic element, allowing for detailed spatial representation. To extract meaningful information from CT imaging data and facilitate analysis and interpretation, accurate segmentation of internal structures is essential. However, this can be challenging due to various artifacts introduced by the physics of a CT scan and the properties of the object being imaged.
This dissertation directly addresses this challenge by using deep learning techniques. Specifically, Convolutional Neural Networks (CNNs) are used for segmentation. However, they face the problem of limited training data. Data scarcity is addressed by data augmentation through the unsupervised generation of synthetic training data and the use of 2D and 3D data augmentation methods. A combination of these augmentation strategies allows for streamlining segmentation in voxel data and effectively addresses data scarcity. Essentially, the work aims to simplify training of CNNs, using minimal or no labeled data. To enhance accessibility to the results of this thesis, two user-friendly software solutions, unpAIred and AiSeg, have been developed. These platforms enable the generation of training data, data augmentation, as well as training, analysis, and application of CNNs.
This cumulative work first examines simpler but efficient conventional data augmentation methods, such as radiometric and geometric image manipulations, which are already widely used in literature. However, these methods are usually randomly applied and do not follow a specific order. The primary focus of the first paper is to investigate this approach and to develop both online and offline data augmentation pipelines that allow for systematic sequencing of these operations. Offline augmentation involves augmenting training data stored on a drive, while online augmentation is performed dynamically at runtime, just before images are fed to the CNN. It is successfully shown that random data augmentation methods are inferior to the new pipelines.
A careful comparison of 3D CNNs is then performed to identify optimal models for specific segmentation tasks, such as carbon and pore segmentation in CT scans of Carbon Reinforced Concrete (CRC). Through an evaluation of eight 3D CNN models on six datasets, tailored recommendations are provided for selecting the most effective model based on dataset characteristics. The analysis highlights the consistent performance of the 3D U-Net, one of the CNNs, and its residual variant, which excel at roving (a bundle of carbon fibers) and pore segmentation tasks.
Based on the augmentation pipelines and the results of the 3D CNN comparison, the pipelines are extended to 3D, specifically targeting the segmentation of carbon in CT scans of CRC. A comparative analysis of different 3D augmentation strategies, including both offline and online augmentation variants, provides insight into their effectiveness. While offline augmentation results in fewer artifacts, it can only segment rovings already present in the training data, while online augmentation is essential for effectively segmenting different types of rovings contained in CT scans. However, constraints such as limited diversity of the dataset and overly aggressive augmentation that resulted in segmentation artifacts require further investigation to address data scarcity.
Recognizing the need for a larger and more diverse dataset, this thesis extends the results of the three former papers by introducing a deep learning-based augmentation using a Generative Adversarial Network (GAN), called Contrastive Unpaired Translation (CUT), for synthetic training data generation. By combining the GAN with augmentation pipelines, semi-supervised and unsupervised end-to-end training methods are introduced and the successful generation of training data for 2D pore segmentation is demonstrated. However, challenges remain in achieving a stable 3D CUT implementation, which warrants further research and development efforts.
In summary, the results of this dissertation address the challenges of accurate CT data segmentation in materials science through deep learning techniques and novel 2D and 3D online and offline augmentation pipelines. By evaluating different 3D CNN models, tailored recommendations for specific segmentation tasks are provided. Furthermore, the exploration of deep learning-based augmentation using CUT shows promising results in the generating synthetic training data.
Future work will include the development of a stable implementation of a 3D CUT version, the exploration of new model architectures, and the development of sub-voxel accurate segmentation techniques. These have the potential for significant advances in segmentation in tomography data.:Abstract IV
Zusammenfassung VI
1 Introduction 1
1.1 Thesis Structure 2
1.2 Scientific Context 3
1.2.1 Developments in the Segmentation in Tomography Data 3
1.2.2 3D Semantic Segmentation using Machine Learning 5
1.2.3 Data Augmentation 6
2 Developed Software Solutions: AiSeg and unpAIred 9
2.1 Software Design 10
2.2 Installation 11
2.3 AiSeg 11
2.4 unpAIred 12
2.5 Limitations 12
3 Factors Affecting Image Quality in Computed Tomography 13
3.1 From CT Scan to Reconstruction 13
3.2 X-ray Tube and Focal Spot 14
3.3 Beam Hardening 14
3.4 Absorption, Scattering and Pairing 15
3.5 X-ray Detector 16
3.6 Geometric Calibration 17
3.7 Reconstruction Algorithm 17
3.8 Artifact corrections 18
4 On the Development of Augmentation Pipelines for Image Segmentation 19
4.0 Abstract 20
4.1 Introduction 20
4.2 Methods 21
4.2.1 Data Preparation 21
4.2.2 Augmentation 21
4.2.3 Networks 24
4.2.4 Training and Metrics 25
4.3 Experimental Design 26
4.3.1 Hardware 26
4.3.2 Workflow 26
4.3.3 Test on Cityscapes 26
4.4 Results and Discussion 26
4.4.1 Stage 1: Crating a Baseline 27
4.4.2 Stage 2: Using Offline Augmentation 27
4.4.3 Stage 3: Using Online Augmentation 27
4.4.4 Test on Cityscapes 29
4.4.5 Future Work – A New Online Augmentation 30
4.5 Conclusion 31
4.6 Appendix 31
4.6.1 Appendix A. List of All Networks 31
4.6.2 Appendix B. Augmentation Methods 32
4.6.3 Appendix C. Used RIWA Online Augmentation Parameters 36
4.6.4 Appendix D. Used Cityscapes Online Augmentation Parameters 36
4.6.5 Appendix E. Comparison of CNNs with best Backbones on RIWA 37
4.6.6 Appendix F. Segmentation Results 38
4.7 References 39
5 Comparison of 3D CNNs for Volume Segmentation 43
5.0 Abstract 44
5.1 Introduction 44
5.2 Datasets 44
5.2.1 Carbon Rovings 45
5.2.2 Concrete Pores 45
5.2.3 Polyethylene Fibers 45
5.2.4 Brain Mitochondria 45
5.2.5 Brain Tumor Segmentation Challenge (BraTS) 46
5.2.6 Head and Neck Cancer 46
5.3 Methods 46
5.3.1 Data Preprocessing 46
5.3.2 Hyperparameters 46
5.3.3 Metrics 47
5.3.4 Experimental Design 48
5.4 Results and Discussion 48
5.4.1 Impact of Initial Random States (Head and Neck Cancer Dataset) 48
5.4.2 Carbon Rovings 48
5.4.3 Concrete Pores 49
5.4.4 Polyethylene Fibers 49
5.4.5 Brain Mitochondria 50
5.4.6 BraTS 51
5.5 Conclusion 51
5.6 References 52
6 Segmentation of Carbon in CRC Using 3D Augmentation 55
6.0 Abstract 56
6.1 Introduction 56
6.2 Materials and Methods 58
6.2.1 Specimens 58
6.2.2 Microtomography 59
6.2.3 AI-Based Segmentation 60
6.2.4 Roving Extraction 64
6.2.5 Multiscale Modeling 65
6.2.6 Scaled Boundary Isogeometric Analysis 66
6.2.7 Parameterized RVE and Definition of Characteristic Geometric Properties 67
6.3 Results and Discussion 70
6.3.1 Microtomography 70
6.3.2 Deep Learning 71
6.3.3 Roving Extraction 74
6.3.4 Parameterized RVE and Definition of Characteristic Geometric Properties 75
6.4 Conclusion 79
6.5 References 80
7 Image-to-Image Translation for Semi-Supervised Semantic Segmentation 85
7.1 Introduction 85
7.2 Methods 86
7.2.1 Generative Adversarial Networks 87
7.2.2 Contrastive Unpaired Translation 87
7.2.3 Fréchet Inception Distance 89
7.2.4 Datasets 89
7.3 Experimental Design 92
7.4 Results and Discussion 94
7.4.1 Training and Inference of CUT 94
7.4.2 End-to-End Training for Semantic Segmentation 99
7.5 Conclusion 104
7.5.1 Future Work 104
8 Synthesis 107
8.1 Research Summary 107
8.1.1 Augmentation Pipelines 107
8.1.2 3D CNN Comparison 108
8.1.3 3D Data Augmentation for the Segmentation of Carbon Rovings 108
8.1.4 Synthetic Training Data Generation 109
8.2 Future Developments 109
8.2.1 Augmentation 109
8.2.2 Pre-trained 3D Encoder 111
8.2.3 On the Quality Control of Carbon Reinforced Concrete 111
8.2.4 Subvoxel Accurate Segmentation 113
8.2.5 Towards Volume-to-Volume Translation 114
8.3 Conclusion 114
References 117
List of Tables 125
List of Figures 127
List of Abbreviations 131 / Computertomographie (CT) bietet wertvolle Einblicke in die inneren Strukturen von Objekten und Organismen, was für Anwendungen von der Materialwissenschaft bis zur medizinischen Diagnostik von entscheidender Bedeutung ist. In CT-Daten ist ein Objekt durch eine 3D-Rekonstruktion dargestellt, die durch die Kombination mehrerer 2D-Röntgenbilder aus verschiedenen Winkeln um das Objekt herum erstellt wird. Jedes Voxel, ein Volumen Pixel, innerhalb des rekonstruierten Volumens stellt ein kleines kubisches Element dar und ermöglicht eine detaillierte räumliche Darstellung. Um aussagekräftige Informationen aus CT-Bilddaten zu extrahieren und eine Analyse und Interpretation zu ermöglichen, ist eine genaue Segmentierung der inneren Strukturen unerlässlich. Dies kann jedoch aufgrund verschiedener Artefakte, die durch die Physik eines CT-Scans und Eigenschaften des abgebildeten Objekts verursacht werden, eine Herausforderung darstellen.
Diese Dissertation befasst sich direkt mit dieser Herausforderung, indem sie Techniken des Deep Learnings einsetzt. Konkret werden für die Segmentierung Convolutional Neural Networks (CNNs) verwendet, welche jedoch mit dem Problem begrenzter Trainingsdaten konfrontiert sind. Der Datenknappheit wird dabei durch Datenerweiterung begegnet, indem unbeaufsichtigt synthetische Trainingsdaten erzeugt und 2D- und 3D-Augmentierungssmethoden eingesetzt werden. Eine Kombination dieser Vervielfältigungsstrategien erlaubt eine Vereinfachung der Segmentierung in Voxeldaten und behebt effektiv die Datenknappheit. Im Wesentlichen zielt diese Arbeit darauf ab, das Training von CNNs zu vereinfachen, wobei wenige oder gar keine gelabelten Daten benötigt werden. Um die Ergebnisse dieser Arbeit Forschenden zugänglicher zu machen, wurden zwei benutzerfreundliche Softwarelösungen, unpAIred und AiSeg, entwickelt. Diese ermöglichen die Generierung von Trainingsdaten, die Augmentierung sowie das Training, die Analyse und die Anwendung von CNNs.
In dieser kumulativen Arbeit werden zunächst einfachere, aber effiziente konventionelle Methoden zur Datenvervielfältigung untersucht, wie z. B. radiometrische und geometrische Bildmanipulationen, die bereits häufig in der Literatur verwendet werden. Diese Methoden werden jedoch in der Regel zufällig nacheinander angewandt und folgen keiner bestimmten Reihenfolge. Der Schwerpunkt des ersten Forschungsartikels liegt darin, diesen Ansatz zu untersuchen und sowohl Online- als auch Offline-Datenerweiterungspipelines zu entwickeln, die eine systematische Sequenzierung dieser Operationen ermöglichen. Bei der Offline Variante werden die auf der Festplatte gespeicherten Trainingsdaten vervielfältigt, während die Online-Erweiterung dynamisch zur Laufzeit erfolgt, kurz bevor die Bilder dem CNN gezeigt werden. Es wird erfolgreich gezeigt, dass eine zufällige Verkettung von geometrischen und radiometrischen Methoden den neuen Pipelines unterlegen ist.
Anschließend wird ein Vergleich von 3D-CNNs durchgeführt, um die optimalen Modelle für Segmentierungsaufgaben zu identifizieren, wie z.B. die Segmentierung von Carbonbewehrung und Luftporen in CT-Scans von carbonverstärktem Beton (CRC). Durch die Bewertung von acht 3D-CNN-Modellen auf sechs Datensätzen werden Empfehlungen für die Auswahl des genauesten Modells auf der Grundlage der Datensatzeigenschaften gegeben. Die Analyse unterstreicht die konstante Überlegenheit des 3D UNets, eines der CNNs, und seiner Residualversion bei Segmentierung von Rovings (Carbonfaserbündel) und Poren.
Aufbauend auf den 2D Augmentierungspipelines und den Ergebnissen des 3D-CNN-Vergleichs werden die Pipelines auf die dritte Dimension erweitert, um insbesondere die Segmentierung der Carbonbewehrung in CT-Scans von CRC zu ermöglichen. Eine vergleichende Analyse verschiedener 3D Augmentierungsstrategien, die sowohl Offline- als auch Online-Erweiterungsvarianten umfassen, gibt Aufschluss über deren Effektivität. Die Offline-Augmentierung führt zwar zu weniger Artefakten, kann aber nur Rovings segmentieren, die bereits in den Trainingsdaten vorhanden sind. Die Online-Augmentierung erweist sich hingegen als unerlässlich für die effektive Segmentierung von Carbon-Roving-Typen, die nicht im Datensatz enthalten sind. Einschränkungen wie die geringe Vielfalt des Datensatzes und eine zu aggressive Online-Datenerweiterung, die zu Segmentierungsartefakten führt, erfordern jedoch weitere Methoden, um die Datenknappheit zu beheben.
In Anbetracht der Notwendigkeit eines größeren und vielfältigeren Datensatzes erweitert diese Arbeit die Ergebnisse der drei Forschungsartikel durch die Einführung einer auf Deep Learning basierenden Augmentierung, die ein Generative Adversarial Network (GAN), genannt Contrastive Unpaired Translation (CUT), zur Erzeugung synthetischer Trainingsdaten verwendet. Durch die Kombination des GANs mit den Augmentierungspipelines wird eine halbüberwachte Ende-zu-Ende-Trainingsmethode vorgestellt und die erfolgreiche Erzeugung von Trainingsdaten für die 2D-Porensegmentierung demonstriert. Es bestehen jedoch noch Herausforderungen bei der Implementierung einer stabilen 3D-CUT-Version, was weitere Forschungs- und Entwicklungsanstrengungen erfordert.
Zusammenfassend adressieren die Ergebnisse dieser Dissertation Herausforderungen der CT-Datensegmentierung in der Materialwissenschaft, die durch Deep-Learning-Techniken und neuartige 2D- und 3D-Online- und Offline-Augmentierungspipelines gelöst werden. Durch die Evaluierung verschiedener 3D-CNN-Modelle werden maßgeschneiderte Empfehlungen für spezifische Segmentierungsaufgaben gegeben. Darüber hinaus zeigen Untersuchungen zur Deep Learning basierten Augmentierung mit CUT vielversprechende Ergebnisse bei der Generierung synthetischer Trainingsdaten.
Zukünftige Arbeiten umfassen die Entwicklung einer stabilen Implementierung einer 3D-CUT-Version, die Erforschung neuer Modellarchitekturen und die Entwicklung von subvoxelgenauen Segmentierungstechniken. Diese haben das Potenzial für bedeutende Fortschritte bei der Segmentierung in Tomographiedaten.:Abstract IV
Zusammenfassung VI
1 Introduction 1
1.1 Thesis Structure 2
1.2 Scientific Context 3
1.2.1 Developments in the Segmentation in Tomography Data 3
1.2.2 3D Semantic Segmentation using Machine Learning 5
1.2.3 Data Augmentation 6
2 Developed Software Solutions: AiSeg and unpAIred 9
2.1 Software Design 10
2.2 Installation 11
2.3 AiSeg 11
2.4 unpAIred 12
2.5 Limitations 12
3 Factors Affecting Image Quality in Computed Tomography 13
3.1 From CT Scan to Reconstruction 13
3.2 X-ray Tube and Focal Spot 14
3.3 Beam Hardening 14
3.4 Absorption, Scattering and Pairing 15
3.5 X-ray Detector 16
3.6 Geometric Calibration 17
3.7 Reconstruction Algorithm 17
3.8 Artifact corrections 18
4 On the Development of Augmentation Pipelines for Image Segmentation 19
4.0 Abstract 20
4.1 Introduction 20
4.2 Methods 21
4.2.1 Data Preparation 21
4.2.2 Augmentation 21
4.2.3 Networks 24
4.2.4 Training and Metrics 25
4.3 Experimental Design 26
4.3.1 Hardware 26
4.3.2 Workflow 26
4.3.3 Test on Cityscapes 26
4.4 Results and Discussion 26
4.4.1 Stage 1: Crating a Baseline 27
4.4.2 Stage 2: Using Offline Augmentation 27
4.4.3 Stage 3: Using Online Augmentation 27
4.4.4 Test on Cityscapes 29
4.4.5 Future Work – A New Online Augmentation 30
4.5 Conclusion 31
4.6 Appendix 31
4.6.1 Appendix A. List of All Networks 31
4.6.2 Appendix B. Augmentation Methods 32
4.6.3 Appendix C. Used RIWA Online Augmentation Parameters 36
4.6.4 Appendix D. Used Cityscapes Online Augmentation Parameters 36
4.6.5 Appendix E. Comparison of CNNs with best Backbones on RIWA 37
4.6.6 Appendix F. Segmentation Results 38
4.7 References 39
5 Comparison of 3D CNNs for Volume Segmentation 43
5.0 Abstract 44
5.1 Introduction 44
5.2 Datasets 44
5.2.1 Carbon Rovings 45
5.2.2 Concrete Pores 45
5.2.3 Polyethylene Fibers 45
5.2.4 Brain Mitochondria 45
5.2.5 Brain Tumor Segmentation Challenge (BraTS) 46
5.2.6 Head and Neck Cancer 46
5.3 Methods 46
5.3.1 Data Preprocessing 46
5.3.2 Hyperparameters 46
5.3.3 Metrics 47
5.3.4 Experimental Design 48
5.4 Results and Discussion 48
5.4.1 Impact of Initial Random States (Head and Neck Cancer Dataset) 48
5.4.2 Carbon Rovings 48
5.4.3 Concrete Pores 49
5.4.4 Polyethylene Fibers 49
5.4.5 Brain Mitochondria 50
5.4.6 BraTS 51
5.5 Conclusion 51
5.6 References 52
6 Segmentation of Carbon in CRC Using 3D Augmentation 55
6.0 Abstract 56
6.1 Introduction 56
6.2 Materials and Methods 58
6.2.1 Specimens 58
6.2.2 Microtomography 59
6.2.3 AI-Based Segmentation 60
6.2.4 Roving Extraction 64
6.2.5 Multiscale Modeling 65
6.2.6 Scaled Boundary Isogeometric Analysis 66
6.2.7 Parameterized RVE and Definition of Characteristic Geometric Properties 67
6.3 Results and Discussion 70
6.3.1 Microtomography 70
6.3.2 Deep Learning 71
6.3.3 Roving Extraction 74
6.3.4 Parameterized RVE and Definition of Characteristic Geometric Properties 75
6.4 Conclusion 79
6.5 References 80
7 Image-to-Image Translation for Semi-Supervised Semantic Segmentation 85
7.1 Introduction 85
7.2 Methods 86
7.2.1 Generative Adversarial Networks 87
7.2.2 Contrastive Unpaired Translation 87
7.2.3 Fréchet Inception Distance 89
7.2.4 Datasets 89
7.3 Experimental Design 92
7.4 Results and Discussion 94
7.4.1 Training and Inference of CUT 94
7.4.2 End-to-End Training for Semantic Segmentation 99
7.5 Conclusion 104
7.5.1 Future Work 104
8 Synthesis 107
8.1 Research Summary 107
8.1.1 Augmentation Pipelines 107
8.1.2 3D CNN Comparison 108
8.1.3 3D Data Augmentation for the Segmentation of Carbon Rovings 108
8.1.4 Synthetic Training Data Generation 109
8.2 Future Developments 109
8.2.1 Augmentation 109
8.2.2 Pre-trained 3D Encoder 111
8.2.3 On the Quality Control of Carbon Reinforced Concrete 111
8.2.4 Subvoxel Accurate Segmentation 113
8.2.5 Towards Volume-to-Volume Translation 114
8.3 Conclusion 114
References 117
List of Tables 125
List of Figures 127
List of Abbreviations 131
|
485 |
Applications of deep learning-based image-analysis models for the personalization of radiotherapyStarke, Sebastian 09 July 2024 (has links)
Radiotherapy treatment-response of cancer patients can vary considerably, even in patients sharing the same diagnosis. Enhancing the degree of treatment personalization might offer a way towards improving curation rates. The recent advancements in the field of deep neural networks provide new directions for the non-invasive extraction of patient-individual biomarkers when applied on diagnostic imaging data. Within this thesis, we explored the potential of image-based deep learning as an enabler for individualized therapy. In a cohort of head and neck cancer patients, we first assessed the suitability of applying convolutional neural networks (CNNs) on pre-treatment computed tomography imaging data for the prediction of loco-regional tumor control in the presence of censored outcomes.
We further investigated whether the predictive performance can be improved through the adoption of multitask learning strategies that combine multiple outcome prediction models and a tumor segmentation task, both for CNNs and the recently emerged vision transformer-based network architectures. Subsequently, we applied neural networks on multimodal and longitudinal imaging data collected during the course of radiotherapy and evaluated their potential to further improve outcome models. Finally, in the context of proton-beam radiotherapy of primary brain tumor patients, we applied CNNs for the prediction of the linear energy transfer and examined the feasibility of this approach for estimating treatment-related side-effects considering a variable biological effectiveness of protons.:1. Introduction
2. Theoretical background
3. Convolutional neural networks for outcome prediction
4. Multitask learning and attention-based models for outcome prediction
5. Longitudinal and multimodal models for outcome prediction
6. Prediction of the linear energy transfer in proton-beam radiotherapy / Das Ansprechverhalten von Krebspatienten auf eine Strahlentherapie kann selbst zwischen Patienten mit gleicher Diagnose deutlich variieren. Eine erweiterte Personalisierung der Behandlung stellt einen möglichen Weg dar, um die Heilungschancen zu verbessern. Durch die kürzlich erzielten Fortschritte im Bereich neuronaler Netzwerke bieten sich neue Möglichkeiten zur nicht-invasiven Extraktion patientenspezifischer Merkmale aus diagnostischen Bildgebungsdaten. In dieser Arbeit wurde das Potential tiefer, bildbasierter neuronaler Netzwerke für eine individualisierte Strahlentherapie analysiert.
In einer Kohorte von Patienten mit Kopf- und Halstumoren wurde zunächst die Eignung faltender neuronaler Netzwerke (CNNs) zur Vorhersage der lokoregionären Kontrolle im Beisein zensierter Beobachtungen basierend auf prätherapeutischer Computertomographie (CT) evaluiert. Außerdem wurde untersucht, ob sich die Vorhersagequalität von CNNs und den kürzlich vorgestellten vision transformer Architekturen unter Verwendung von Multitask-Lernstrategien, welche mehrere Vorhersagemodelle und eine Segmentierung des Tumors kombinieren, verbessern lässt.
Anschließend wurde die Anwendbarkeit neuronaler Netzwerke zur Analyse multimodaler und longitudinaler, während des Behandlungsverlaufes aufgenommener, Bildgebungsdaten aufgezeigt und ihr Potential zur weiteren Verbesserung der Vorhersagen analysiert. Abschließend wurden CNNs im Rahmen der Protonentherapie genutzt, um den linearen Energietransfer bei Patienten mit primären Hirntumoren vorherzusagen. Die Plausibilität dieser Vorhersagen zur Risikoabschätzung behandlungsbedingter Nebenwirkungen wurde unter Berücksichtigung einer variablen relativen biologischen Wirksamkeit von Protonen untersucht.:1. Introduction
2. Theoretical background
3. Convolutional neural networks for outcome prediction
4. Multitask learning and attention-based models for outcome prediction
5. Longitudinal and multimodal models for outcome prediction
6. Prediction of the linear energy transfer in proton-beam radiotherapy
|
486 |
Robust recognition and exploratory analysis of crystal structures using machine learningLeitherer, Andreas 04 July 2022 (has links)
In den Materialwissenschaften läuten Künstliche-Intelligenz Methoden einen Paradigmenwechsel in Richtung Big-data zentrierter Forschung ein. Datenbanken mit Millionen von Einträgen, sowie hochauflösende Experimente, z.B. Elektronenmikroskopie, enthalten eine Fülle wachsender Information. Um diese ungenützten, wertvollen Daten für die Entdeckung verborgener Muster und Physik zu nutzen, müssen automatische analytische Methoden entwickelt werden. Die Kristallstruktur-Klassifizierung ist essentiell für die Charakterisierung eines Materials. Vorhandene Daten bieten vielfältige atomare Strukturen, enthalten jedoch oft Defekte und sind unvollständig. Eine geeignete Methode sollte diesbezüglich robust sein und gleichzeitig viele Systeme klassifizieren können, was für verfügbare Methoden nicht zutrifft. In dieser Arbeit entwickeln wir ARISE, eine Methode, die auf Bayesian deep learning basiert und mehr als 100 Strukturklassen robust und ohne festzulegende Schwellwerte klassifiziert. Die einfach erweiterbare Strukturauswahl ist breit gefächert und umfasst nicht nur Bulk-, sondern auch zwei- und ein-dimensionale Systeme. Für die lokale Untersuchung von großen, polykristallinen Systemen, führen wir die strided pattern matching Methode ein. Obwohl nur auf perfekte Strukturen trainiert, kann ARISE stark gestörte mono- und polykristalline Systeme synthetischen als auch experimentellen Ursprungs charakterisieren. Das Model basiert auf Bayesian deep learning und ist somit probabilistisch, was die systematische Berechnung von Unsicherheiten erlaubt, welche mit der Kristallordnung von metallischen Nanopartikeln in Elektronentomographie-Experimenten korrelieren. Die Anwendung von unüberwachtem Lernen auf interne Darstellungen des neuronalen Netzes enthüllt Korngrenzen und nicht ersichtliche Regionen, die über interpretierbare geometrische Eigenschaften verknüpft sind. Diese Arbeit ermöglicht die Analyse atomarer Strukturen mit starken Rauschquellen auf bisher nicht mögliche Weise. / In materials science, artificial-intelligence tools are driving a paradigm shift towards big data-centric research. Large computational databases with millions of entries and high-resolution experiments such as electron microscopy contain large and growing amount of information. To leverage this under-utilized - yet very valuable - data, automatic analytical methods need to be developed. The classification of the crystal structure of a material is essential for its characterization. The available data is structurally diverse but often defective and incomplete. A suitable method should therefore be robust with respect to sources of inaccuracy, while being able to treat multiple systems. Available methods do not fulfill both criteria at the same time. In this work, we introduce ARISE, a Bayesian-deep-learning based framework that can treat more than 100 structural classes in robust fashion, without any predefined threshold. The selection of structural classes, which can be easily extended on demand, encompasses a wide range of materials, in particular, not only bulk but also two- and one-dimensional systems. For the local study of large, polycrystalline samples, we extend ARISE by introducing so-called strided pattern matching. While being trained on ideal structures only, ARISE correctly characterizes strongly perturbed single- and polycrystalline systems, from both synthetic and experimental resources. The probabilistic nature of the Bayesian-deep-learning model allows to obtain principled uncertainty estimates which are found to be correlated with crystalline order of metallic nanoparticles in electron-tomography experiments. Applying unsupervised learning to the internal neural-network representations reveals grain boundaries and (unapparent) structural regions sharing easily interpretable geometrical properties. This work enables the hitherto hindered analysis of noisy atomic structural data.
|
487 |
Machine learning for fast and accurate assessment of earthquake source parameters / Implications for rupture predictability and early warningMünchmeyer, Jannes 07 November 2022 (has links)
Erdbeben gehören zu den zerstörerischsten Naturgefahren auf diesem Planeten. Obwohl Erdbeben seit Jahrtausenden dokumentiert sing, bleiben viele Fragen zu Erdbeben unbeantwortet. Eine Frage ist die Vorhersagbarkeit von Brüchen: Inwieweit ist es möglich, die endgültige Größe eines Bebens zu bestimmen, bevor der zugrundeliegende Bruchprozess endet? Diese Frage ist zentral für Frühwarnsysteme. Die bisherigen Forschungsergebnisse zur Vorhersagbarkeit von Brüchen sind widersprüchlich.
Die Menge an verfügbaren Daten für Erdbebenforschung wächst exponentiell und hat den Tera- bis Petabyte-Bereich erreicht. Während viele klassische Methoden, basierend auf manuellen Datenauswertungen, hier ihre Grenzen erreichen, ermöglichen diese Datenmengen den Einsatz hochparametrischer Modelle und datengetriebener Analysen. Insbesondere ermöglichen sie den Einsatz von maschinellem Lernen und deep learning.
Diese Doktorarbeit befasst sich mit der Entwicklung von Methoden des maschinellen Lernens zur Untersuchung zur Erbebenanalyse. Wir untersuchen zuerst die Kalibrierung einer hochpräzisen Magnitudenskala in einem post hoc Scenario. Nachfolgend befassen wir uns mit Echtzeitanalyse von Erdbeben mittels deep learning. Wir präsentieren TEAM, eine Methode zur Frühwarnung. Auf TEAM aufbauend entwickeln wir TEAM-LM zur Echtzeitschätzung von Lokation und Magnitude eines Erdbebens. Im letzten Schritt untersuchen wir die Vorhersagbarkeit von Brüchen mittels TEAM-LM anhand eines Datensatzes von teleseismischen P-Wellen-Ankünften. Dieser Analyse stellen wir eine Untersuchung von Quellfunktionen großer Erdbeben gegenüber. Unsere Untersuchung zeigt, dass die Brüche großer Beben erst vorhersagbar sind, nachdem die Hälfte des Bebens vergangen ist. Selbst dann können weitere Subbrüche nicht vorhergesagt werden. Nichtsdestotrotz zeigen die hier entwickelten Methoden, dass deep learning die Echtzeitanalyse von Erdbeben wesentlich verbessert. / Earthquakes are among the largest and most destructive natural hazards known to humankind. While records of earthquakes date back millennia, many questions about their nature remain open. One question is termed rupture predictability: to what extent is it possible to foresee the final size of an earthquake while it is still ongoing? This question is integral to earthquake early warning systems. Still, research on this question so far has reached contradictory conclusions.
The amount of data available for earthquake research has grown exponentially during the last decades reaching now tera- to petabyte scale. This wealth of data, while making manual inspection infeasible, allows for data-driven analysis and complex models with high numbers of parameters, including machine and deep learning techniques. In seismology, deep learning already led to considerable improvements upon previous methods for many analysis tasks, but the application is still in its infancy.
In this thesis, we develop machine learning methods for the study of rupture predictability and earthquake early warning. We first study the calibration of a high-confidence magnitude scale in a post hoc scenario. Subsequently, we focus on real-time estimation models based on deep learning and build the TEAM model for early warning. Based on TEAM, we develop TEAM-LM, a model for real-time location and magnitude estimation. In the last step, we use TEAM-LM to study rupture predictability. We complement this analysis with results obtained from a deep learning model based on moment rate functions. Our analysis shows that earthquake ruptures are not predictable early on, but only after their peak moment release, after approximately half of their duration. Even then, potential further asperities can not be foreseen. While this thesis finds no rupture predictability, the methods developed within this work demonstrate how deep learning methods make a high-quality real-time assessment of earthquakes practically feasible.
|
488 |
<b>Integrating Multi-Modal Remote Sensing, Deep Learning, and Attention Mechanisms for Yield Prediction in Plant Breeding Experiments and Management Practices Experiments</b>Claudia Elisa Aviles Toledo (17418690) 05 March 2025 (has links)
<p dir="ltr">To address the challenges of increasing global food demand, climate change, and resource constraints, significant advances are required in plant breeding, sustainable agricultural practices, and technological solutions. This dissertation examines the use of remotely sensed data from unmanned aerial vehicles (UAVs) integrated with deep learning models that incorporate temporal attention mechanisms to improve the accuracy and explainability of yield prediction in plant breeding and management trials. This study leverages a multimodal remote sensing dataset, including hyperspectral, LiDAR, and environmental data, to mitigate challenges related to early-season prediction, model explainability, and broad applicability.</p><p dir="ltr">The study consisted of three themes: identification of relevant features within hyperspectral and LiDAR datasets for models, exploration of temporal attention mechanisms to improve model interpretability, and achievement of robust yield prediction generalization across varied temporal periods and geographic areas. The research investigates the utility of Shapley Additive Explanations (SHAP) for feature selection, isolating key features derived from RS data that improve model performance without sacrificing interpretability. Attention-based DL architectures, including stacked Long Short-Term Memory (LSTM) networks, are implemented to capture temporal dynamics and align model predictions with biologically significant growth stages. Transfer learning and domain adaptation are investigated to improve the generalization of yield prediction models under diverse growing conditions and with limited training data.</p><p dir="ltr">The SHAP-based feature selection successfully decreased input dimensionality without sacrificing LSTM model accuracy; concurrently, attention mechanisms highlighted the temporal significance of features, correlating with physiological phases of maize growth. Supervised approaches and semi-supervised/unsupervised generative methods for domain adaptation demonstrated potential for robust cross-environment prediction, enhancing scalability and practical utility. This research contributes to the understanding of how multi-modal remote sensing data and deep learning techniques can be utilized to address crop yield prediction. This research suggests improvements to sustainable agricultural practices are possible, specifically within plant breeding and crop production management.</p>
|
489 |
<b>Informed Deep and Transfer Learning Models of Smartphone Conjunctiva Photographs for Rapid Malaria Risk Stratification in School-age Children</b>Sreeram P Nagappa (20840414) 06 March 2025 (has links)
<p dir="ltr">Malaria is a significant global health challenge, with effective control and eradication of malaria depend heavily on testing all suspected cases; however, school-age children are frequently overlooked, with potential for severe complications. Recent advances in retinal imaging and computer vision algorithms have shown potential for improving malaria detection. Despite these advancements, non-invasive point-of-care malaria detection has yet to be realized, primarily due to the need for specialized equipment. We investigate state-of-the-art deep learning models for automated prediction of malaria risk in a non-invasive manner. Specifically, we utilize convolutional neural networks - ResNet-18 and VGG-11 - for classifying malaria presence using photographs of the bulbar and palpebral conjunctiva, which are easily accessible sites and can contain visible symptoms for malaria. The dataset comprises 4,220 photographs from 405 children aged 5–15 years, collected using various smartphone models in a high-malaria region of Rwanda. We incorporate transfer learning with pretrained weights, green channel extraction, histogram equalization, and data augmentation, with the aim of enhancing model performance. Our results show that transfer learning and data augmentation at certain hyperparameters improve model stability and performance with ResNet-18 and VGG-11 based on quantitative metrics like recall, F1-Scores, and test accuracies. Future research focusing on color correction and more advanced model training approaches may overcome limitations and further enhance diagnostic ability of using photographs. This approach offers a rapid, non-invasive, and computationally efficient solution for malaria risk prediction, potentially advancing malaria detection in resource-limited settings.</p>
|
490 |
Modern Computing Techniques for Solving Genomic ProblemsYu, Ning 12 August 2016 (has links)
With the advent of high-throughput genomics, biological big data brings challenges to scientists in handling, analyzing, processing and mining this massive data. In this new interdisciplinary field, diverse theories, methods, tools and knowledge are utilized to solve a wide variety of problems. As an exploration, this dissertation project is designed to combine concepts and principles in multiple areas, including signal processing, information-coding theory, artificial intelligence and cloud computing, in order to solve the following problems in computational biology: (1) comparative gene structure detection, (2) DNA sequence annotation, (3) investigation of CpG islands (CGIs) for epigenetic studies. Briefly, in problem #1, sequences are transformed into signal series or binary codes. Similar to the speech/voice recognition, similarity is calculated between two signal series and subsequently signals are stitched/matched into a temporal sequence. In the nature of binary operation, all calculations/steps can be performed in an efficient and accurate way. Improving performance in terms of accuracy and specificity is the key for a comparative method. In problem #2, DNA sequences are encoded and transformed into numeric representations for deep learning methods. Encoding schemes greatly influence the performance of deep learning algorithms. Finding the best encoding scheme for a particular application of deep learning is significant. Three applications (detection of protein-coding splicing sites, detection of lincRNA splicing sites and improvement of comparative gene structure identification) are used to show the computing power of deep neural networks. In problem #3, CpG sites are assigned certain energy and a Gaussian filter is applied to detection of CpG islands. By using the CpG box and Markov model, we investigate the properties of CGIs and redefine the CGIs using the emerging epigenetic data. In summary, these three problems and their solutions are not isolated; they are linked to modern techniques in such diverse areas as signal processing, information-coding theory, artificial intelligence and cloud computing. These novel methods are expected to improve the efficiency and accuracy of computational tools and bridge the gap between biology and scientific computing.
|
Page generated in 0.1018 seconds