51 |
Validierung einer neuen Software für halbautomatische Volumetrie – ist diese besser als manuelle Messungen?Noschinski, Leonie 19 July 2016 (has links)
This study compared a manual program for liver volumetry with a semiautomated software. The hypothesis was that the software would be faster, more accurate and less dependent on the evaluator’s experience. Materials and Methods: Ten patients undergoing hemihepatectomy were included into this IRB approved study after written informed consent. All patients underwent a preoperative abdominal CTScan, which was used for whole liver volumetry and volume prediction for the liver part to be resected. Two different softwares were used: 1) manual method: borders of the liver had to be defined per slice by the user; 2) semiautomated software: automatic identification of liver volume with manual assistance for definition of Couinaud-segments. Measurements were done by six observers with different experience levels. Water displacement volumetry immediately after partial liver resection served as gold standard. The resected part was examined with a CT-scan after displacement volumetry. Results: Volumetry of the resected liver scan showed excellent correlations to water displacement volumetry (manual: ρ=0.997; semiautomated software: ρ=0.995). Difference between the predicted volume and the real volume was significantly smaller with the semiautomated software than with the manual method (33 % vs. 57 %, p=0.002). The semiautomated software was almost four times faster for volumetry of the whole liver. Conclusion:
Both methods for liver volumetry give an estimated liver volume close to the real one. The tested semiautomated software is faster, more accurate in predicting the volume of the resected liver part, gives more reproducible results and is less dependent on the user’s experience. / Ziel dieser Studie war es, eine manuelle Methode zur Lebervolumetrie mit einer halbautomatischen Software zu vergleichen. Die zu prüfende Hypothese war eine Überlegenheit der halbautomatischen Software hinsichtlich Schnelligkeit, Genauigkeit und Unabhängigkeit von der Erfahrung des Auswerters. Material und Methoden: Die Studie wurde von der Ethikkommission geprüft und es lagen Einverständniserklärungen aller Patienten vor. In die Studie wurden zehn Patienten eingeschlossen, die eine Hemihepatektomie erhielten. Es wurde präoperativ ein CT-Scan angefertigt, der sowohl für die Volumetrie der gesamten Leber als auch zur Bestimmung des Resektatvolumens verwendet wurde. Für die Volumetrie wurden zwei verschiedene Programme genutzt: 1) eine manuelle Methode, wobei die Lebergrenzen in jeder Schicht vom Auswerter definiert werden mussten 2) eine halbautomatische Software mit automatischer Erkennung des Lebervolumens und manueller Definition der Lebersegmente nach Coinaud. Die Messungen wurden von sechs Auswertern mit unterschiedlicher Erfahrung vorgenommen. Als Goldstandard diente eine Verdrängungsvolumetrie des Leberresektats, die direkt nach der Resektion im Operationssaal durchgeführt wurde. Anschließend wurde zusätzlich ein CT-Scan des Resektats angefertigt. Ergebnisse: Die Ergebnisse des postoperativen CT-Scans korrelierten hochgradig mit den Ergebnissen der Verdrängungsvolumetrie (manuell: ρ=0.997; halbautomatische Software: ρ=0.995). Mit der halbautomatischen Software fielen die Unterschiede zwischen dem vorhergesagten und dem tatsächlichen Volumen signifikant kleiner aus (33 % vs. 57 %, p=0.002). Zudem lieferte die halbautomatische Software die Volumina der Gesamtleber 3.9mal schneller.
Schlussfolgerung: Beide Methoden erlauben eine sehr gute Abschätzung des Lebervolumens. Die getestete halbautomatische Software kann das Lebervolumen jedoch schneller und das Resektatvolumen genauer vorhersagen und ist zusätzlich unabhängiger von der Erfahrung des Auswerters.
|
52 |
Skelettierung von 3d-Objekten auf kubisch-raumzentrierten Gittern und deren Anwendung in der Segmentierung, Manipulierung und Klassifizierung.Brunner, David 13 June 2007 (has links)
Oftmals kann ein Problem erst dadurch gelöst werden, indem seine Komplexität reduziert wird. Erst diese Reduktion ermöglicht die Verwendung von Lösungsansätzen, die für weniger komplexe Problemstellungen existieren.
Für 3d-Objekte ist die Skelettierung der Mechanismus, der die Objekte auf eine niedrigere Dimension abbildet und dadurch deren Komplexität reduziert.
Seit nunmehr 40 Jahren werden entsprechende Verfahren und darauf basierende Anwendungen entwickelt. In jüngster Zeit traten auf innovativen Forschungsgebieten innerhalb des Maschinenbaus, der Nanotechnologie, der Medizintechnik und nicht zuletzt der Computergrafik Probleme auf, die durch Skelettierung bewältigt wurden oder in naher Zukunft zu bewältigen sind.
Mit der vorliegenden Dissertation wird an den aktuellen Stand der Forschung angeknüpft und ein Skelettierungsverfahren vorgestellt, das nicht auf den bisher üblichen kartesischen Gittern, sondern auf den sogenannten kubisch-raumzentrierten Gittern operiert. Dadurch ergeben sich eine Vielzahl positiver Eigenschaften, sowohl unter topologischen als auch rechentechnischen Aspekten.
Die auf Gitterstrukturen basierenden Verfahren haben traditionell Schwierigkeiten, rotationsinvariante Skelette zu generieren. Diese Eigenschaft ist jedoch für eine Reihe von Applikationen wünschenswert. Eine Ausnahme bilden Verfahren, die zunächst ein Vektorfeld berechnen, das Abstoßungen vom Objektrand simuliert. Mithilfe dieser Strukturen können Skelettpunkte identifiziert werden, die von der Gitterstruktur unabhängig sind.
Allerdings sind die Verfahren, die derartige Skelette erzeugen, extrem ineffizient: Bezogen auf die Anzahl der Objektgitterpunkte ist die Komplexität quadratisch.
Deshalb ist ein weiterer Schwerpunkt dieser Arbeit, eine qualitativ hochwertige Approximation des Vektorfeldes in linearer Zeitkomplexität zu erzeugen. Die zusätzlichen Informationen, die aus diesen Vektorfeldern gewonnen werden, kommen innerhalb des ursprünglichen Skelettierungsverfahrens zum Einsatz, um die Vorteile beider Verfahren zu kombinieren.
Die auf diese Weise erzeugten eindimensionalen Skelettstrukturen der 3d-Objekte eignen sich für eine Vielzahl von Anwendungen. Drei Anwendungen, namentlich die Klassifizierung, die Segmentierung und die Manipulierung werden gezeigt. Für die Klassifizierung werden die erzeugten Skelette in eine Graphrepräsentation transformiert. Hierfür werden zwei Verfahren vorgestellt und darüber hinaus erläutert, wie die Graphrepräsentation optimiert und mit Attributen versehen werden kann. Insbesondere die Attributierung (z. B. mit Distanz- oder Krümmungsinformationen) ist von großer Bedeutung, da der Graph zunächst die Objektform nur grob abstrahiert und dadurch kein detaillierter Vergleich zwischen Objekten möglich wäre.
Für die Segmentierung und die Deformierung von 3d-Objekten besteht der wichtigste Beitrag dieser Dissertation darin, eine präzise Zuordnung zwischen Abschnitten des Graphen und Meshregionen durchzuführen, die erforderlich ist, um Änderungen an der Graphstruktur (Auftrennen oder Deformieren) direkt auf das Mesh übertragen zu können. Hierfür wird eine spezielle Datenstruktur präsentiert, die diese Zuordnung ermöglicht, ohne die Komplexität des Skelettierungsverfahrens zu verschlechtern.
Ein breites Spektrum an Vorschlägen für zukünftige, auf dieser Dissertation aufbauende Forschungsthemen schließen die Arbeit ab.
|
53 |
Segmentierung und hierarchische Klassifikation archäologischer GefäßeHörr, Christian 19 April 2006 (has links)
In der Archäologie besteht das Problem, dass es für die Beschreibung von Objekteigenschaften keine einheitliche Begriffsbasis gibt. Nicht nur bei der Klassifikation von Gefäßen, aber besonders dort kommt es dann zu Schwierigkeiten, denn neben der Subjektivität der Wortwahl existiert auch eine internationale Sprachbarriere. Somit werden Forderungen nach einer mathematisch-algorithmisch orientierten Merkmalsbeschreibung laut. Damit ginge langfristig nicht nur die Etablierung weltweit einheitlicher Typologien einher, sondern auch die Möglichkeit einer computergestützten automatischen Klassifikation.
Die Diplomarbeit behandelt im ersten Teil die Segmentierung archäologischer Gefäße. Diese ist notwendig, um die Analyse sekundärer Gefäßmerkmale vollautomatisch und unabhängig vom Gefäßrumpf durchführen zu können. Weil sich dabei topologische, skelettbasierte und krümmungsbasierte Verfahren aus verschiedenen Gründen als ungeeignet herausstellten, wurde ein neuer Segmentierungsansatz über die Rotation einer adaptiven Profillinie entwickelt. Dieser leistet eine schnelle, robuste, vor allem aber genaue Trennung asymmetrischer Teile vom Gefäßrumpf.
Im zweiten Teil werden die aus der Segmentierung gewonnenen Informationen über sekundäre und ggf. auch tertiäre Gefäßmerkmale zusammen mit den primären Attributen wie äußere Form und globale geometrische Maße in das Klassifikationssystem integriert. Aufgrund der im Klassifikationsprozess immanenten Hierarchie ist es zweckmäßiger, einen spezifischen mehrstufigen Ansatz gegenüber einstufigen oder globalen Shape-Matching-Ansätzen vorzuziehen. Darüber hinaus werden Vergleichsmetriken und ein Attributgraph vorgestellt sowie Vorschläge zur Segmentinterpretation gemacht.
|
54 |
Draft design of an elastomer spring-/damper element with adjustable spring stiffness for a tunable resonatorJakel, Roland 05 July 2019 (has links)
The presentation describes the development and design of a spring & damper element in ring form made of elastomer. It was developed to protect sensitive equipment against high dynamic random loads by assuring supercritical dynamic operation of the resonator symmetrically built with help of two of these bearing elements.
The special feature of this elastomer bushing is that its spring stiffness can be
adjusted by simple means: One ring element is made of 12 segments, so that by
changing the number of segments used its spring stiffness can be coarsely adjusted. A fine tuning can then be undertaken by preloading the elastomer elements within the bushing. In total, the axial as well as the radial spring stiffness can be synchronously adjusted by a factor of eight.
Furthermore, it is being described how a similar axial and radial stiffness was
obtained by using the parameter optimizer of the commercial FEM software Creo
Simulate. In addition, Geometric nonlinear analyses have been undertaken to
compute the effect of elastomer deformation by preloads on the stiffness of the
spring/damper element. Finally, the obtained field of characteristic spring stiffness curves of the bushing is shown. / Die Präsentation beschreibt die Entwicklung und den konstruktiven Aufbau eines
ringförmigen Feder-/Dämpferelementes aus einem Elastomer. Es wurde entwickelt, um empfindliche Ausrüstung gegen hohe dynamische Random-Lasten zu schützen.
Dazu wird der Resonator, der symmetrisch mit Hilfe zweier dieser Elemente gebildet wird, dynamisch überkritisch betrieben.
Das besondere dieses Elastomerlagers ist, dass seine Federsteifigkeit einfach
eingestellt bzw. justiert werden kann. Ein Ringelement besteht aus 12
Einzelsegmenten; durch unterschiedliche Bestückung kann die Federsteifigkeit grob voreingestellt werden. Die Feineinstellung auf eine bestimmte Ziel-Eigenfrequenz wird durch Vorspannung der einzelnen Elastomersegmente erreicht. Insgesamt kann dadurch die Federsteifigkeit sowohl in axialer als auch in radialer Richtung synchron um den Faktor 8 eingestellt werden.
Darüber hinaus wird beschrieben, wie man eine identische Axial- und Radialsteifigkeit des Elastomerelementes durch Verwendung des Parameteroptimierers der kommerziellen FEM-Software Creo Simulate erhalten hat.
Weiterhin werden nichtlineare Analysen vorgestellt, um den Einfluss der durch
mechanische Vorspannung erzeugten Elastomerdeformation auf die Federsteifigkeit zu bestimmen. Abschließend wird das erhaltene Kennlinienfeld für die Federsteifigkeit des Lagers vorgestellt.
|
55 |
Das musikalische Werkganze – ein rein theoretisches Konstrukt?: Überlegungen anhand von Jerrold Levinsons ›Music in the Moment‹Fuß, Hans-Ulrich 23 October 2023 (has links)
No description available.
|
56 |
Automatic Segmentation of the Olfactory BulbDesser, Dmitriy 20 February 2024 (has links)
Der Bulbus olfactorius (OB) spielt eine wichtige Rolle in der Wahrnehmung von Gerüchen. Das OB-Volumen korreliert mit der Riechfunktion und ist daher ein Biomarker für mehrere neurodegenerative Erkrankungen sowie für Riechstörungen. In mehreren Studien wurde gezeigt, dass eine Abnahme des OB-Volumens mit einer Abnahme der Geruchsempfindlichkeit einhergeht und umgekehrt. Dies bedeutet, dass die Messung des OB-Volumens für verschiedene Diagnose- und Forschungszwecke von großem Interesse ist. Bisher wurden diese Messungen manuell durchgeführt, was mit einem Zeitaufwand von 15-20 Minuten pro Probanden eine sehr langwierige Methode ist, die außerdem zu erheblichen Messungenauigkeiten führt. Dies erschwert die Verarbeitung großer Datensätze sowie den Vergleich verschiedener Studien. Um dieses Problem zu lösen, haben wir einen vollautomatisierten, auf Deep-Learning basierten Algorithmus zur Segmentierung des OB sowie zur Messung dessen Volumens entwickelt und ein einsatzbereites Tool zur Anwendung veröffentlicht. Des Weiteren wurde eine Studie an Patienten mit Mild Cognitive Impairment (MCI) durchgeführt, um den Effekt von Riechtraining auf funktionale und morphologische Veränderungen des OB und des Hippocampus zu untersuchen. Methoden: Wir haben unseren Algorithmus auf vier Datensätzen trainiert und getestet, die jeweils aus T1-gewichteten MRT-Aufnahmen des gesamten Gehirns sowie hochaufgelösten T2-gewichteten Aufnahmen der vorderen Schädelbasis und den entsprechenden klinischen Informationen über das Riechvermögen der Probanden bestehen. Ein Datensatz enthielt Patienten mit gesicherter Anosmie oder Hyposmie (N = 79). Die anderen drei Datensätze enthielten gesunde Probanden (N = 91). Um die Grundwahrheit für die OB-Segmentierung und die Volumenmessung zu erhalten, wurden die Datensätze von zwei erfahrenen wissenschaftlichen Mitarbeitern unabhängig voneinander nach einem einheitlichen Protokoll manuell segmentiert. Verglichen mit dem gesamten Gehirn nimmt der OB ein sehr kleines Volumen ein. Jedes Bild hat daher viel mehr Voxel, die dem Hintergrund angehören als solche, die zum OB gehören. Somit sind die Daten sehr unausgewogen, was eine Herausforderung für die automatische Lokalisierung des OB darstellt. Um dieses Problem zu lösen, haben wir zunächst die manuellen Segmentierungen mit dem Template des Montreal Neurological Institute (MNI) registriert und den Massenschwerpunkt (Center of Gravity, COG) ermittelt. Im Preprocessing übertragen wir die COG-Koordinaten aus dem MNI-Raum in den individuellen Raum der jeweiligen MR-Aufnahme und konstruieren eine Bounding Box um den OB. Anschließend selektieren wir den in der Bounding Box enthaltenen Bildanteil, in welchem dann der OB durch das 3D-U-Net-Modell segmentiert wird. Bei dem Modell handelt es sich um ein neuronales Netz, welches für die 3D-Bildsegmentierung entwickelt wurde und sich im Bereich der medizinischen Bildverarbeitung bewährt hat. Der Algorithmus gibt anschließend die binären Segmentierungsmasken und eine Datei mit den Volumina für den linken und rechten OB heraus.
Im Rahmen der Studie an MCI-Patienten wurden 37 Patienten randomisiert in Verum- und Placebo-Gruppe eingeteilt. Das Riechtraining wurde zweimal täglich über einen Zeitraum von vier Monaten durchgeführt. Olfaktorische und kognitive Testungen sowie MRT-Bildgebung wurden zu Anfang und Ende der viermonatigen Studie durchgeführt. Ergebnisse : Zum Trainieren des neuronalen Netzes haben wir den Datensatz in einen Trainings- (60%; N = 191), einen Validierungs- (20%; N = 64) und einen Testdatensatz (20%; N = 64) aufgeteilt. Auf zuvor ungesehenen Daten (d. h. auf dem Testdatensatz) wurde ein mittlerer Dice-Koeffizient (DC) von 0,77 ± 0,05 erreicht, was dem zwischen den beiden manuellen Segmentierungen ermittelten DC von 0,79 ± 0,08 für dieselbe Kohorte sehr nahe kommt. Darüber hinaus wurden die von unserem Algorithmus erzeugten Segmentierungen von einem unabhängigen verblindeten Bewerter manuell auf einer standardisierten Skala evaluiert und erreichten eine vergleichbare Punktzahl von 5,95 ± 0,87 im Vergleich zu einer Bewertungszahl von 6,23 ± 0,87 für die erste und 5,92 ± 0,81 für die zweite Segmentierung. Diese Evaluierungsergebnisse zeigen, dass unser Algorithmus mit drei bis vier Minuten pro Probanden eine schnelle und zuverlässige automatische Segmentierung des OB ermöglicht, die der Genauigkeit der derzeitigen Goldstandard-Methode entspricht. In der Studie mit MCI-Patienten wurde nach Durchführung des viermonatigen Riechtrainings eine Zunahme der Riechfähigkeit sowie der kortikalen Schichtdicke des Hippocampus beidseits beobachtet. Sowohl in der Verum-Gruppe als auch in der Placebo-Gruppe konnte keine signifikante Zunahme des OB-Volumens festgestellt werden. Diskussion: Der von uns vorgeschlagene Algorithmus kann sowohl bei gesunden Probanden als auch bei Patienten mit diagnostizierten Riechstörungen eingesetzt werden und ist daher von hoher klinischer Relevanz. Er ermöglicht die schnelle Verarbeitung großer Datensätze und die Durchführung vergleichender Studien zur Entwicklung des OB-Volumens im Laufe der Zeit, da er zuverlässigere Ergebnisse liefert als die manuellen Annotationsmethoden. In der Studie an MCI-Patienten war das Riechtraining mit einer Zunahme der kortikalen Schichtdicke des Hippocampus assoziiert, nicht jedoch mit einer Zunahme des OB- oder Hippocampus-Volumens. Ein Grund hierfür könnte die Tendenz des OB-Volumens sein, in MCI-Patienten abzunehmen. Somit könnte das stabile OB-Volumen nach Riechtraining bereits als positiver Effekt gewertet werden. Andererseits könnte das unveränderte OB-Volumen auch auf die methodisch bedingten manuellen Messfehler zurückgeführt werden. Um das Problem der ungenauen manuellen Messungen zu lösen, haben wir ein auf Python basierendes, sofort einsetzbares Tool entwickelt, das Segmentierungsmasken sowie Messungen des linken und rechten OB-Volumens liefert. Es kann sowohl über eine Befehlszeilenschnittstelle als auch über eine grafische Benutzeroberfläche verwendet werden. Für die Segmentierung des OB werden T1-gewichtete MRT-Aufnahmen des gesamten Gehirns sowie hochaufgelöste T2-gewichtete Aufnahmen der vorderen Schädelbasis verwendet.
|
57 |
Segmentation in Tomography Data: Exploring Data Augmentation for Supervised and Unsupervised Voxel Classification with Neural NetworksWagner, Franz 23 September 2024 (has links)
Computed Tomography (CT) imaging provides invaluable insight into internal structures of objects and organisms, which is critical for applications ranging from materials science to medical diagnostics. In CT data, an object is represented by a 3D reconstruction that is generated by combining multiple 2D X-ray images taken from various angles around the object. Each voxel, a volumetric pixel, within the reconstructed volume represents a small cubic element, allowing for detailed spatial representation. To extract meaningful information from CT imaging data and facilitate analysis and interpretation, accurate segmentation of internal structures is essential. However, this can be challenging due to various artifacts introduced by the physics of a CT scan and the properties of the object being imaged.
This dissertation directly addresses this challenge by using deep learning techniques. Specifically, Convolutional Neural Networks (CNNs) are used for segmentation. However, they face the problem of limited training data. Data scarcity is addressed by data augmentation through the unsupervised generation of synthetic training data and the use of 2D and 3D data augmentation methods. A combination of these augmentation strategies allows for streamlining segmentation in voxel data and effectively addresses data scarcity. Essentially, the work aims to simplify training of CNNs, using minimal or no labeled data. To enhance accessibility to the results of this thesis, two user-friendly software solutions, unpAIred and AiSeg, have been developed. These platforms enable the generation of training data, data augmentation, as well as training, analysis, and application of CNNs.
This cumulative work first examines simpler but efficient conventional data augmentation methods, such as radiometric and geometric image manipulations, which are already widely used in literature. However, these methods are usually randomly applied and do not follow a specific order. The primary focus of the first paper is to investigate this approach and to develop both online and offline data augmentation pipelines that allow for systematic sequencing of these operations. Offline augmentation involves augmenting training data stored on a drive, while online augmentation is performed dynamically at runtime, just before images are fed to the CNN. It is successfully shown that random data augmentation methods are inferior to the new pipelines.
A careful comparison of 3D CNNs is then performed to identify optimal models for specific segmentation tasks, such as carbon and pore segmentation in CT scans of Carbon Reinforced Concrete (CRC). Through an evaluation of eight 3D CNN models on six datasets, tailored recommendations are provided for selecting the most effective model based on dataset characteristics. The analysis highlights the consistent performance of the 3D U-Net, one of the CNNs, and its residual variant, which excel at roving (a bundle of carbon fibers) and pore segmentation tasks.
Based on the augmentation pipelines and the results of the 3D CNN comparison, the pipelines are extended to 3D, specifically targeting the segmentation of carbon in CT scans of CRC. A comparative analysis of different 3D augmentation strategies, including both offline and online augmentation variants, provides insight into their effectiveness. While offline augmentation results in fewer artifacts, it can only segment rovings already present in the training data, while online augmentation is essential for effectively segmenting different types of rovings contained in CT scans. However, constraints such as limited diversity of the dataset and overly aggressive augmentation that resulted in segmentation artifacts require further investigation to address data scarcity.
Recognizing the need for a larger and more diverse dataset, this thesis extends the results of the three former papers by introducing a deep learning-based augmentation using a Generative Adversarial Network (GAN), called Contrastive Unpaired Translation (CUT), for synthetic training data generation. By combining the GAN with augmentation pipelines, semi-supervised and unsupervised end-to-end training methods are introduced and the successful generation of training data for 2D pore segmentation is demonstrated. However, challenges remain in achieving a stable 3D CUT implementation, which warrants further research and development efforts.
In summary, the results of this dissertation address the challenges of accurate CT data segmentation in materials science through deep learning techniques and novel 2D and 3D online and offline augmentation pipelines. By evaluating different 3D CNN models, tailored recommendations for specific segmentation tasks are provided. Furthermore, the exploration of deep learning-based augmentation using CUT shows promising results in the generating synthetic training data.
Future work will include the development of a stable implementation of a 3D CUT version, the exploration of new model architectures, and the development of sub-voxel accurate segmentation techniques. These have the potential for significant advances in segmentation in tomography data.:Abstract IV
Zusammenfassung VI
1 Introduction 1
1.1 Thesis Structure 2
1.2 Scientific Context 3
1.2.1 Developments in the Segmentation in Tomography Data 3
1.2.2 3D Semantic Segmentation using Machine Learning 5
1.2.3 Data Augmentation 6
2 Developed Software Solutions: AiSeg and unpAIred 9
2.1 Software Design 10
2.2 Installation 11
2.3 AiSeg 11
2.4 unpAIred 12
2.5 Limitations 12
3 Factors Affecting Image Quality in Computed Tomography 13
3.1 From CT Scan to Reconstruction 13
3.2 X-ray Tube and Focal Spot 14
3.3 Beam Hardening 14
3.4 Absorption, Scattering and Pairing 15
3.5 X-ray Detector 16
3.6 Geometric Calibration 17
3.7 Reconstruction Algorithm 17
3.8 Artifact corrections 18
4 On the Development of Augmentation Pipelines for Image Segmentation 19
4.0 Abstract 20
4.1 Introduction 20
4.2 Methods 21
4.2.1 Data Preparation 21
4.2.2 Augmentation 21
4.2.3 Networks 24
4.2.4 Training and Metrics 25
4.3 Experimental Design 26
4.3.1 Hardware 26
4.3.2 Workflow 26
4.3.3 Test on Cityscapes 26
4.4 Results and Discussion 26
4.4.1 Stage 1: Crating a Baseline 27
4.4.2 Stage 2: Using Offline Augmentation 27
4.4.3 Stage 3: Using Online Augmentation 27
4.4.4 Test on Cityscapes 29
4.4.5 Future Work – A New Online Augmentation 30
4.5 Conclusion 31
4.6 Appendix 31
4.6.1 Appendix A. List of All Networks 31
4.6.2 Appendix B. Augmentation Methods 32
4.6.3 Appendix C. Used RIWA Online Augmentation Parameters 36
4.6.4 Appendix D. Used Cityscapes Online Augmentation Parameters 36
4.6.5 Appendix E. Comparison of CNNs with best Backbones on RIWA 37
4.6.6 Appendix F. Segmentation Results 38
4.7 References 39
5 Comparison of 3D CNNs for Volume Segmentation 43
5.0 Abstract 44
5.1 Introduction 44
5.2 Datasets 44
5.2.1 Carbon Rovings 45
5.2.2 Concrete Pores 45
5.2.3 Polyethylene Fibers 45
5.2.4 Brain Mitochondria 45
5.2.5 Brain Tumor Segmentation Challenge (BraTS) 46
5.2.6 Head and Neck Cancer 46
5.3 Methods 46
5.3.1 Data Preprocessing 46
5.3.2 Hyperparameters 46
5.3.3 Metrics 47
5.3.4 Experimental Design 48
5.4 Results and Discussion 48
5.4.1 Impact of Initial Random States (Head and Neck Cancer Dataset) 48
5.4.2 Carbon Rovings 48
5.4.3 Concrete Pores 49
5.4.4 Polyethylene Fibers 49
5.4.5 Brain Mitochondria 50
5.4.6 BraTS 51
5.5 Conclusion 51
5.6 References 52
6 Segmentation of Carbon in CRC Using 3D Augmentation 55
6.0 Abstract 56
6.1 Introduction 56
6.2 Materials and Methods 58
6.2.1 Specimens 58
6.2.2 Microtomography 59
6.2.3 AI-Based Segmentation 60
6.2.4 Roving Extraction 64
6.2.5 Multiscale Modeling 65
6.2.6 Scaled Boundary Isogeometric Analysis 66
6.2.7 Parameterized RVE and Definition of Characteristic Geometric Properties 67
6.3 Results and Discussion 70
6.3.1 Microtomography 70
6.3.2 Deep Learning 71
6.3.3 Roving Extraction 74
6.3.4 Parameterized RVE and Definition of Characteristic Geometric Properties 75
6.4 Conclusion 79
6.5 References 80
7 Image-to-Image Translation for Semi-Supervised Semantic Segmentation 85
7.1 Introduction 85
7.2 Methods 86
7.2.1 Generative Adversarial Networks 87
7.2.2 Contrastive Unpaired Translation 87
7.2.3 Fréchet Inception Distance 89
7.2.4 Datasets 89
7.3 Experimental Design 92
7.4 Results and Discussion 94
7.4.1 Training and Inference of CUT 94
7.4.2 End-to-End Training for Semantic Segmentation 99
7.5 Conclusion 104
7.5.1 Future Work 104
8 Synthesis 107
8.1 Research Summary 107
8.1.1 Augmentation Pipelines 107
8.1.2 3D CNN Comparison 108
8.1.3 3D Data Augmentation for the Segmentation of Carbon Rovings 108
8.1.4 Synthetic Training Data Generation 109
8.2 Future Developments 109
8.2.1 Augmentation 109
8.2.2 Pre-trained 3D Encoder 111
8.2.3 On the Quality Control of Carbon Reinforced Concrete 111
8.2.4 Subvoxel Accurate Segmentation 113
8.2.5 Towards Volume-to-Volume Translation 114
8.3 Conclusion 114
References 117
List of Tables 125
List of Figures 127
List of Abbreviations 131 / Computertomographie (CT) bietet wertvolle Einblicke in die inneren Strukturen von Objekten und Organismen, was für Anwendungen von der Materialwissenschaft bis zur medizinischen Diagnostik von entscheidender Bedeutung ist. In CT-Daten ist ein Objekt durch eine 3D-Rekonstruktion dargestellt, die durch die Kombination mehrerer 2D-Röntgenbilder aus verschiedenen Winkeln um das Objekt herum erstellt wird. Jedes Voxel, ein Volumen Pixel, innerhalb des rekonstruierten Volumens stellt ein kleines kubisches Element dar und ermöglicht eine detaillierte räumliche Darstellung. Um aussagekräftige Informationen aus CT-Bilddaten zu extrahieren und eine Analyse und Interpretation zu ermöglichen, ist eine genaue Segmentierung der inneren Strukturen unerlässlich. Dies kann jedoch aufgrund verschiedener Artefakte, die durch die Physik eines CT-Scans und Eigenschaften des abgebildeten Objekts verursacht werden, eine Herausforderung darstellen.
Diese Dissertation befasst sich direkt mit dieser Herausforderung, indem sie Techniken des Deep Learnings einsetzt. Konkret werden für die Segmentierung Convolutional Neural Networks (CNNs) verwendet, welche jedoch mit dem Problem begrenzter Trainingsdaten konfrontiert sind. Der Datenknappheit wird dabei durch Datenerweiterung begegnet, indem unbeaufsichtigt synthetische Trainingsdaten erzeugt und 2D- und 3D-Augmentierungssmethoden eingesetzt werden. Eine Kombination dieser Vervielfältigungsstrategien erlaubt eine Vereinfachung der Segmentierung in Voxeldaten und behebt effektiv die Datenknappheit. Im Wesentlichen zielt diese Arbeit darauf ab, das Training von CNNs zu vereinfachen, wobei wenige oder gar keine gelabelten Daten benötigt werden. Um die Ergebnisse dieser Arbeit Forschenden zugänglicher zu machen, wurden zwei benutzerfreundliche Softwarelösungen, unpAIred und AiSeg, entwickelt. Diese ermöglichen die Generierung von Trainingsdaten, die Augmentierung sowie das Training, die Analyse und die Anwendung von CNNs.
In dieser kumulativen Arbeit werden zunächst einfachere, aber effiziente konventionelle Methoden zur Datenvervielfältigung untersucht, wie z. B. radiometrische und geometrische Bildmanipulationen, die bereits häufig in der Literatur verwendet werden. Diese Methoden werden jedoch in der Regel zufällig nacheinander angewandt und folgen keiner bestimmten Reihenfolge. Der Schwerpunkt des ersten Forschungsartikels liegt darin, diesen Ansatz zu untersuchen und sowohl Online- als auch Offline-Datenerweiterungspipelines zu entwickeln, die eine systematische Sequenzierung dieser Operationen ermöglichen. Bei der Offline Variante werden die auf der Festplatte gespeicherten Trainingsdaten vervielfältigt, während die Online-Erweiterung dynamisch zur Laufzeit erfolgt, kurz bevor die Bilder dem CNN gezeigt werden. Es wird erfolgreich gezeigt, dass eine zufällige Verkettung von geometrischen und radiometrischen Methoden den neuen Pipelines unterlegen ist.
Anschließend wird ein Vergleich von 3D-CNNs durchgeführt, um die optimalen Modelle für Segmentierungsaufgaben zu identifizieren, wie z.B. die Segmentierung von Carbonbewehrung und Luftporen in CT-Scans von carbonverstärktem Beton (CRC). Durch die Bewertung von acht 3D-CNN-Modellen auf sechs Datensätzen werden Empfehlungen für die Auswahl des genauesten Modells auf der Grundlage der Datensatzeigenschaften gegeben. Die Analyse unterstreicht die konstante Überlegenheit des 3D UNets, eines der CNNs, und seiner Residualversion bei Segmentierung von Rovings (Carbonfaserbündel) und Poren.
Aufbauend auf den 2D Augmentierungspipelines und den Ergebnissen des 3D-CNN-Vergleichs werden die Pipelines auf die dritte Dimension erweitert, um insbesondere die Segmentierung der Carbonbewehrung in CT-Scans von CRC zu ermöglichen. Eine vergleichende Analyse verschiedener 3D Augmentierungsstrategien, die sowohl Offline- als auch Online-Erweiterungsvarianten umfassen, gibt Aufschluss über deren Effektivität. Die Offline-Augmentierung führt zwar zu weniger Artefakten, kann aber nur Rovings segmentieren, die bereits in den Trainingsdaten vorhanden sind. Die Online-Augmentierung erweist sich hingegen als unerlässlich für die effektive Segmentierung von Carbon-Roving-Typen, die nicht im Datensatz enthalten sind. Einschränkungen wie die geringe Vielfalt des Datensatzes und eine zu aggressive Online-Datenerweiterung, die zu Segmentierungsartefakten führt, erfordern jedoch weitere Methoden, um die Datenknappheit zu beheben.
In Anbetracht der Notwendigkeit eines größeren und vielfältigeren Datensatzes erweitert diese Arbeit die Ergebnisse der drei Forschungsartikel durch die Einführung einer auf Deep Learning basierenden Augmentierung, die ein Generative Adversarial Network (GAN), genannt Contrastive Unpaired Translation (CUT), zur Erzeugung synthetischer Trainingsdaten verwendet. Durch die Kombination des GANs mit den Augmentierungspipelines wird eine halbüberwachte Ende-zu-Ende-Trainingsmethode vorgestellt und die erfolgreiche Erzeugung von Trainingsdaten für die 2D-Porensegmentierung demonstriert. Es bestehen jedoch noch Herausforderungen bei der Implementierung einer stabilen 3D-CUT-Version, was weitere Forschungs- und Entwicklungsanstrengungen erfordert.
Zusammenfassend adressieren die Ergebnisse dieser Dissertation Herausforderungen der CT-Datensegmentierung in der Materialwissenschaft, die durch Deep-Learning-Techniken und neuartige 2D- und 3D-Online- und Offline-Augmentierungspipelines gelöst werden. Durch die Evaluierung verschiedener 3D-CNN-Modelle werden maßgeschneiderte Empfehlungen für spezifische Segmentierungsaufgaben gegeben. Darüber hinaus zeigen Untersuchungen zur Deep Learning basierten Augmentierung mit CUT vielversprechende Ergebnisse bei der Generierung synthetischer Trainingsdaten.
Zukünftige Arbeiten umfassen die Entwicklung einer stabilen Implementierung einer 3D-CUT-Version, die Erforschung neuer Modellarchitekturen und die Entwicklung von subvoxelgenauen Segmentierungstechniken. Diese haben das Potenzial für bedeutende Fortschritte bei der Segmentierung in Tomographiedaten.:Abstract IV
Zusammenfassung VI
1 Introduction 1
1.1 Thesis Structure 2
1.2 Scientific Context 3
1.2.1 Developments in the Segmentation in Tomography Data 3
1.2.2 3D Semantic Segmentation using Machine Learning 5
1.2.3 Data Augmentation 6
2 Developed Software Solutions: AiSeg and unpAIred 9
2.1 Software Design 10
2.2 Installation 11
2.3 AiSeg 11
2.4 unpAIred 12
2.5 Limitations 12
3 Factors Affecting Image Quality in Computed Tomography 13
3.1 From CT Scan to Reconstruction 13
3.2 X-ray Tube and Focal Spot 14
3.3 Beam Hardening 14
3.4 Absorption, Scattering and Pairing 15
3.5 X-ray Detector 16
3.6 Geometric Calibration 17
3.7 Reconstruction Algorithm 17
3.8 Artifact corrections 18
4 On the Development of Augmentation Pipelines for Image Segmentation 19
4.0 Abstract 20
4.1 Introduction 20
4.2 Methods 21
4.2.1 Data Preparation 21
4.2.2 Augmentation 21
4.2.3 Networks 24
4.2.4 Training and Metrics 25
4.3 Experimental Design 26
4.3.1 Hardware 26
4.3.2 Workflow 26
4.3.3 Test on Cityscapes 26
4.4 Results and Discussion 26
4.4.1 Stage 1: Crating a Baseline 27
4.4.2 Stage 2: Using Offline Augmentation 27
4.4.3 Stage 3: Using Online Augmentation 27
4.4.4 Test on Cityscapes 29
4.4.5 Future Work – A New Online Augmentation 30
4.5 Conclusion 31
4.6 Appendix 31
4.6.1 Appendix A. List of All Networks 31
4.6.2 Appendix B. Augmentation Methods 32
4.6.3 Appendix C. Used RIWA Online Augmentation Parameters 36
4.6.4 Appendix D. Used Cityscapes Online Augmentation Parameters 36
4.6.5 Appendix E. Comparison of CNNs with best Backbones on RIWA 37
4.6.6 Appendix F. Segmentation Results 38
4.7 References 39
5 Comparison of 3D CNNs for Volume Segmentation 43
5.0 Abstract 44
5.1 Introduction 44
5.2 Datasets 44
5.2.1 Carbon Rovings 45
5.2.2 Concrete Pores 45
5.2.3 Polyethylene Fibers 45
5.2.4 Brain Mitochondria 45
5.2.5 Brain Tumor Segmentation Challenge (BraTS) 46
5.2.6 Head and Neck Cancer 46
5.3 Methods 46
5.3.1 Data Preprocessing 46
5.3.2 Hyperparameters 46
5.3.3 Metrics 47
5.3.4 Experimental Design 48
5.4 Results and Discussion 48
5.4.1 Impact of Initial Random States (Head and Neck Cancer Dataset) 48
5.4.2 Carbon Rovings 48
5.4.3 Concrete Pores 49
5.4.4 Polyethylene Fibers 49
5.4.5 Brain Mitochondria 50
5.4.6 BraTS 51
5.5 Conclusion 51
5.6 References 52
6 Segmentation of Carbon in CRC Using 3D Augmentation 55
6.0 Abstract 56
6.1 Introduction 56
6.2 Materials and Methods 58
6.2.1 Specimens 58
6.2.2 Microtomography 59
6.2.3 AI-Based Segmentation 60
6.2.4 Roving Extraction 64
6.2.5 Multiscale Modeling 65
6.2.6 Scaled Boundary Isogeometric Analysis 66
6.2.7 Parameterized RVE and Definition of Characteristic Geometric Properties 67
6.3 Results and Discussion 70
6.3.1 Microtomography 70
6.3.2 Deep Learning 71
6.3.3 Roving Extraction 74
6.3.4 Parameterized RVE and Definition of Characteristic Geometric Properties 75
6.4 Conclusion 79
6.5 References 80
7 Image-to-Image Translation for Semi-Supervised Semantic Segmentation 85
7.1 Introduction 85
7.2 Methods 86
7.2.1 Generative Adversarial Networks 87
7.2.2 Contrastive Unpaired Translation 87
7.2.3 Fréchet Inception Distance 89
7.2.4 Datasets 89
7.3 Experimental Design 92
7.4 Results and Discussion 94
7.4.1 Training and Inference of CUT 94
7.4.2 End-to-End Training for Semantic Segmentation 99
7.5 Conclusion 104
7.5.1 Future Work 104
8 Synthesis 107
8.1 Research Summary 107
8.1.1 Augmentation Pipelines 107
8.1.2 3D CNN Comparison 108
8.1.3 3D Data Augmentation for the Segmentation of Carbon Rovings 108
8.1.4 Synthetic Training Data Generation 109
8.2 Future Developments 109
8.2.1 Augmentation 109
8.2.2 Pre-trained 3D Encoder 111
8.2.3 On the Quality Control of Carbon Reinforced Concrete 111
8.2.4 Subvoxel Accurate Segmentation 113
8.2.5 Towards Volume-to-Volume Translation 114
8.3 Conclusion 114
References 117
List of Tables 125
List of Figures 127
List of Abbreviations 131
|
58 |
Neue Ansätze zur Auswertung und Klassiffizierung von sehr hochauflösenden Daten / Methoden der Segmentierung, der hierarchischen Klassifizierung und der per-Parcel-Methode mit Daten der digitalen Kamera HRSC-A und ihre Anwendbarkeit für die Aktualisierung topographischer KartenHoffmann, Andrea 10 May 2001 (has links)
Auf dem Luftbildsektor vollziehen sich seit einigen Jahren grundsätzliche Veränderungen. Digitale flugzeuggetragene Kamerasysteme und hochauflösende Satellitensysteme bieten neue Potentiale der Datenakquise und -auswertung. Diese digitalen Datensätze werden in absehbarer Zeit das herkömmliche Luftbild ersetzen und Kartographie, Photogrammetrie und Fernerkundung erheblich verändern. Die neue Generation von digitalen Kameras wird zwei zentrale Bereiche der Kartographie einschneidend beeinflussen: Die Orthokartenherstellung und die Kartenaktualisierung. Der Bedarf aktueller Geobasisdaten macht Orthobilder besonders für Geoinformationssysteme interessant. Bisher standen als Basisdaten für Orthobildkarten großer Auflösung (> 1:10 000) lediglich Luftbilder zur Verfügung. Es wird gezeigt, daß die digitalen Daten der neuen Kamerageneration zur Erstellung von Orthobildkarten operationell einsetzbar sind. Durch die automatisierte Prozessierung werden sie den Anforderungen an schnelle aktuelle Kartenprodukte gerecht, mit ihrer hochgenauen Navigation bieten die digitalen Systeme die automatisierte Erstellung geometrisch sehr genauer Datensätze, die mit herkömmlichen Mitteln nur sehr aufwendig erreicht werden könnten. Ein Vergleich mit Luftbildern zeigt und bewertet die Unterschiede beider Aufnahmesysteme. Untersucht wurden Datensätze der digitalen Kamera HRSC-A des DLR Adlershof. Mit der HRSC-A (High Resolution Stereo Camera - Airborne) und der speziell für die Prozessierung dieser Daten entwickelten Software steht den Geoinformationsnutzern erstmals ein operationelles System zur Verfügung, das vollständig digital und vollautomatisch hochauflösende Orthobilddaten produziert. Die Pixelauflösung liegt zwischen 10 und 40 cm (Flughöhe von 2500 bis 10 000 m). Als vorteilhaft für die Analyse erweist sich die gleichzeitige Verfügbarkeit von hochauflösenden panchromatischen und multispektralen Datensätzen, die Verfügbarkeit eines hochauflösenden Geländemodells (x,y: 50 cm bzw. 1m, z: 10 cm) und die hohe Genauigkeit der Datensätze. Die Arbeit diskutiert die Problematik einer automatisierten Auswertung hochauflösender Daten. Diese Datensätze stellen neue Anforderungen an Auswertungsverfahren. Der Detailreichtum erschwert die Interpretation, gröbere räumliche Auflösungen glätten die Komplexität innerhalb heterogener Landnutzungen (besonders in urbanen Gebieten) und erleichtern so eine automatische Interpretation. Es wird gezeigt, daß "klassische" Auswertungsmethoden wie pixelbasierte Klassifizierungen (überwacht oder unüberwacht) zur Auswertung der hochauflösenden Daten nur bedingt geeignet sind. Im Rahmen der Arbeit werden zwei neue Ansätze entwickelt und untersucht, die nicht mehr pixelweise, sondern flächenhaft und objektorientiert arbeiten. Ein per-parcel-Ansatz zeigt gute Ergebnisse bei der Auswertung. Das Verfahren ermittelt zunächst mittels einer unüberwachten Klassifizierung Szenekomponenten in definierten Untereinheiten (parcel), die den Inhalt des Datensatzes repräsentieren. Die klassifizierten Pixel innerhalb der definierten parcel-Einheiten werden anschließend extrahiert und ihr Verhältnis zueinander weiter ausgewertet. Ergebnis ist zunächst die prozentuelle Verteilung der Szenekomponenten in den Einheiten, anschließend werden Zusammenhänge zwischen den vorhandenen Komponenten und der Landoberfläche definiert. Untersucht wurde ferner ein objektorientierter Ansatz, der die Interpretation von Einzelobjekten erlaubt. Hierbei wird das Bild in homogene Objekte segmentiert, die die Grundlage für die weitere Analyse bilden. Der diskutierte Ansatz besteht aus zwei Strategien: Mittels multiskalarer Segmentierung wird der Bilddatensatz zunächst in Einheiten strukturiert, verschiedene Maßstabsebenen sind gleichzeitig verfügbar. Grundidee ist die Schaffung eines hierarchischen Netzes von Bildobjekten. Diese gefundenen Einheiten werden anschließend spektral mittels Nearest Neighbour oder wissensbasiert mittels Fuzzy Logic Operatoren klassifiziert. Der Ansatz zeigt überzeugende Ergebnisse bei einer automatisierten Hauserkennung und der Aktualisierung bestehender Vektordatensätze. Die Einteilung der Bilddaten in Segmente, also zunächst eine Abstrahierung der Information vom Einzelpixel zu größeren semantischen Einheiten und die weitere Bearbeitung dieser Segmente erwies sich als sinnvoll. Es wurde ferner gezeigt, daß für die Analyse in städtischen Räumen die Einbeziehung von Oberflächeninformation unbedingt erforderlich ist. Durch die spektrale Ähnlichkeit von Bildelementen bietet die Einbeziehung des Oberflächenmodells die Möglichkeit, mittels einer zusätzlich bekannten Information über die Höhe der Objekte, diese Klassen zu trennen. / Remote sensing goes through times of fundamental changes. New digital airborne camera systems offer new potentials for data aquisition and interpretation. These data sets will replace aerial photography in the near future and change photogrammetry, cartography and remote sensing. The new camera generation will influence two central domains of cartography: Orthomap production and map updating. As a base for in-time updating orthomaps became more and more important. Up to now large scale mapping (scales > 1:10,000) is done nearly exclusively with aerial photographs. It can be shown that the digital data sets of the new camera generation can be used operationally for the production of orthomaps. A fully automated processing line provides the ortho images very shortly after aquisition, due to the used high precision navigation system the accuracy of the data is very high, even very big scales can be realized. A comparison of digital cameras and aerial photos discusses and rates the properties of the different aquisition systems and data sets. For interpretation data sets of the digital camera HRSC-A were used. The High Resolution Stereo Camera - Airborne (HRSC-A) digital photogrammetric camera and its processing software provides the geoinformation industry for the first time with an entirely digital and fully automatic process to produce highly accurate digital image data. The pixel size ranges between 10 and 40 cm (flight altitude 2500 - 10,000 m). The airborne camera combines high resolution, photogrammetric accuracy and all-digital acquisition and provides both multispectral and elevation information. The pushbroom instrument provides digital ortho-images and digital surface models with an accuracy of 10-20 cm. The use of this wide range of image information showed to be very helpful for data analysis. This investigation focuses on the problems of automated interpretation of high-resolution data. These data sets make high demands on automated interpretation procedures. The richness of details depicted in the data sets complicates the interpretation, coarser spatial resolutions smooth out spatial complexity within heterogeneous land cover types, such as urban, and make an automated interpretation easier. This report shows that conventional interpretation techniques like pixelbased classification (supervised or unsupervised) do not lead to satisfactory results. Two new object-oriented and region-oriented approaches for the interpretation of high resolution data sets were developped and discussed. The parcel-based approach showed good results in interpretation of the data. The proposed methodology begins with an unsupervised per-pixel classification to identify spectral clusters which represent the range of scene components present in the pre-defined land parcels. The per-parcel analysis extracts the pixels classified as scene components within the land parcel under examination and calculates the total numbers and fractions for each scene component present. To identify land cover types not represented by scene components at the land parcel level, it is necessary to process the scene component information and infer relationships between the scene components present and land cover type. A set of rules was devised to identify a range of land cover types from the mixtures of scene components found within each land parcel. Secondly an object-oriented and multi-scale image analysis approach was used for the interpretation of single objects. The procedure contains two basic domains. The strategy is to build up a hierarchical network of image objects which allows to represent the image information content at different resolutions (scales) simultaneously. In a second step the image objects were classified by means of fuzzy logic, either on features of objects and/or on relations between networked objects operating on the semantic network. The procedure showed very good results in detecting houses and updating vector data sets. Segmenting the data in semantic units and performing further analysis on these units showed to be very helpful for interpretation. It could be shown that for analysis of urban areas the use of a Digital Surface Model is necessary. Due to the spectral similarities of image elements the elevation information offers an important additional tool for analysis.
|
59 |
Superpixels and their Application for Visual Place Recognition in Changing EnvironmentsNeubert, Peer 03 December 2015 (has links) (PDF)
Superpixels are the results of an image oversegmentation. They are an established intermediate level image representation and used for various applications including object detection, 3d reconstruction and semantic segmentation. While there are various approaches to create such segmentations, there is a lack of knowledge about their properties. In particular, there are contradicting results published in the literature. This thesis identifies segmentation quality, stability, compactness and runtime to be important properties of superpixel segmentation algorithms. While for some of these properties there are established evaluation methodologies available, this is not the case for segmentation stability and compactness. Therefore, this thesis presents two novel metrics for their evaluation based on ground truth optical flow. These two metrics are used together with other novel and existing measures to create a standardized benchmark for superpixel algorithms. This benchmark is used for extensive comparison of available algorithms. The evaluation results motivate two novel segmentation algorithms that better balance trade-offs of existing algorithms: The proposed Preemptive SLIC algorithm incorporates a local preemption criterion in the established SLIC algorithm and saves about 80 % of the runtime. The proposed Compact Watershed algorithm combines Seeded Watershed segmentation with compactness constraints to create regularly shaped, compact superpixels at the even higher speed of the plain watershed transformation.
Operating autonomous systems over the course of days, weeks or months, based on visual navigation, requires repeated recognition of places despite severe appearance changes as they are for example induced by illumination changes, day-night cycles, changing weather or seasons - a severe problem for existing methods. Therefore, the second part of this thesis presents two novel approaches that incorporate superpixel segmentations in place recognition in changing environments. The first novel approach is the learning of systematic appearance changes. Instead of matching images between, for example, summer and winter directly, an additional prediction step is proposed. Based on superpixel vocabularies, a predicted image is generated that shows, how the summer scene could look like in winter or vice versa. The presented results show that, if certain assumptions on the appearance changes and the available training data are met, existing holistic place recognition approaches can benefit from this additional prediction step. Holistic approaches to place recognition are known to fail in presence of viewpoint changes. Therefore, this thesis presents a new place recognition system based on local landmarks and Star-Hough. Star-Hough is a novel approach to incorporate the spatial arrangement of local image features in the computation of image similarities. It is based on star graph models and Hough voting and particularly suited for local features with low spatial precision and high outlier rates as they are expected in the presence of appearance changes. The novel landmarks are a combination of local region detectors and descriptors based on convolutional neural networks. This thesis presents and evaluates several new approaches to incorporate superpixel segmentations in local region detection. While the proposed system can be used with different types of local regions, in particular the combination with regions obtained from the novel multiscale superpixel grid shows to perform superior to the state of the art methods - a promising basis for practical applications.
|
60 |
Superpixels and their Application for Visual Place Recognition in Changing EnvironmentsNeubert, Peer 01 December 2015 (has links)
Superpixels are the results of an image oversegmentation. They are an established intermediate level image representation and used for various applications including object detection, 3d reconstruction and semantic segmentation. While there are various approaches to create such segmentations, there is a lack of knowledge about their properties. In particular, there are contradicting results published in the literature. This thesis identifies segmentation quality, stability, compactness and runtime to be important properties of superpixel segmentation algorithms. While for some of these properties there are established evaluation methodologies available, this is not the case for segmentation stability and compactness. Therefore, this thesis presents two novel metrics for their evaluation based on ground truth optical flow. These two metrics are used together with other novel and existing measures to create a standardized benchmark for superpixel algorithms. This benchmark is used for extensive comparison of available algorithms. The evaluation results motivate two novel segmentation algorithms that better balance trade-offs of existing algorithms: The proposed Preemptive SLIC algorithm incorporates a local preemption criterion in the established SLIC algorithm and saves about 80 % of the runtime. The proposed Compact Watershed algorithm combines Seeded Watershed segmentation with compactness constraints to create regularly shaped, compact superpixels at the even higher speed of the plain watershed transformation.
Operating autonomous systems over the course of days, weeks or months, based on visual navigation, requires repeated recognition of places despite severe appearance changes as they are for example induced by illumination changes, day-night cycles, changing weather or seasons - a severe problem for existing methods. Therefore, the second part of this thesis presents two novel approaches that incorporate superpixel segmentations in place recognition in changing environments. The first novel approach is the learning of systematic appearance changes. Instead of matching images between, for example, summer and winter directly, an additional prediction step is proposed. Based on superpixel vocabularies, a predicted image is generated that shows, how the summer scene could look like in winter or vice versa. The presented results show that, if certain assumptions on the appearance changes and the available training data are met, existing holistic place recognition approaches can benefit from this additional prediction step. Holistic approaches to place recognition are known to fail in presence of viewpoint changes. Therefore, this thesis presents a new place recognition system based on local landmarks and Star-Hough. Star-Hough is a novel approach to incorporate the spatial arrangement of local image features in the computation of image similarities. It is based on star graph models and Hough voting and particularly suited for local features with low spatial precision and high outlier rates as they are expected in the presence of appearance changes. The novel landmarks are a combination of local region detectors and descriptors based on convolutional neural networks. This thesis presents and evaluates several new approaches to incorporate superpixel segmentations in local region detection. While the proposed system can be used with different types of local regions, in particular the combination with regions obtained from the novel multiscale superpixel grid shows to perform superior to the state of the art methods - a promising basis for practical applications.
|
Page generated in 0.0711 seconds