71 |
Slowness and sparseness for unsupervised learning of spatial and object codes from naturalistic dataFranzius, Mathias 27 June 2008 (has links)
Diese Doktorarbeit führt ein hierarchisches Modell für das unüberwachte Lernen aus quasi-natürlichen Videosequenzen ein. Das Modell basiert auf den Lernprinzipien der Langsamkeit und Spärlichkeit, für die verschiedene Ansätze und Implementierungen vorgestellt werden. Eine Vielzahl von Neuronentypen im Hippocampus von Nagern und Primaten kodiert verschiedene Aspekte der räumlichen Umgebung eines Tieres. Dazu gehören Ortszellen (place cells), Kopfrichtungszellen (head direction cells), Raumansichtszellen (spatial view cells) und Gitterzellen (grid cells). Die Hauptergebnisse dieser Arbeit basieren auf dem Training des hierarchischen Modells mit Videosequenzen aus einer Virtual-Reality-Umgebung. Das Modell reproduziert die wichtigsten räumlichen Codes aus dem Hippocampus. Die Art der erzeugten Repräsentationen hängt hauptsächlich von der Bewegungsstatistik des simulierten Tieres ab. Das vorgestellte Modell wird außerdem auf das Problem der invaranten Objekterkennung angewandt, indem Videosequenzen von simulierten Kugelhaufen oder Fischen als Stimuli genutzt wurden. Die resultierenden Modellrepräsentationen erlauben das unabhängige Auslesen von Objektidentität, Position und Rotationswinkel im Raum. / This thesis introduces a hierarchical model for unsupervised learning from naturalistic video sequences. The model is based on the principles of slowness and sparseness. Different approaches and implementations for these principles are discussed. A variety of neuron classes in the hippocampal formation of rodents and primates codes for different aspects of space surrounding the animal, including place cells, head direction cells, spatial view cells and grid cells. In the main part of this thesis, video sequences from a virtual reality environment are used for training the hierarchical model. The behavior of most known hippocampal neuron types coding for space are reproduced by this model. The type of representations generated by the model is mostly determined by the movement statistics of the simulated animal. The model approach is not limited to spatial coding. An application of the model to invariant object recognition is described, where artificial clusters of spheres or rendered fish are presented to the model. The resulting representations allow a simple extraction of the identity of the object presented as well as of its position and viewing angle.
|
72 |
Large scale mining and retrieval of visual data in a multimodal contextQuack, Till January 2009 (has links)
Zugl.: Zürich, Techn. Hochsch., Diss.
|
73 |
VOCUS a visual attention system for object detection and goal-directed search /Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index.
|
74 |
VOCUS : a visual attention system for object detection and goal-directed search /Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index. Also issued online.
|
75 |
Studentensymposium Informatik Chemnitz 201205 December 2012 (has links) (PDF)
In diesem Jahr fand das erste Studentensymposium Informatik Chemnitz (TUCSIS StudSym 2012) statt. Wir freuen uns, Ihnen in diesem Tagungsband studentische Beiträge präsentieren zu können.
Das Studentensymposium der Fakultät für Informatik der TU Chemnitz richtet sich an alle Studierende und Doktoranden der Informatik sowie angrenzender Disziplinen mit Schwerpunkt Informatik aus dem Raum Chemnitz. Das Symposium hat das Ziel, den Studierenden eine Plattform zu geben, ihre Projekte, Studienarbeiten und Forschungsvorhaben vorzustellen. Im Mittelpunkt des Symposiums stehen studentische Projekte aus Seminaren, Praktika, Abschlussarbeiten oder extracurricularen Aktivitäten. Das Symposium bietet die Möglichkeit, vor einem akademischen Publikum Ideen, Pläne und Ergebnisse zu präsentieren und zu diskutieren. Darüber hinaus sind Doktoranden eingeladen ihre Promotionsprojekte mit einem Poster zu präsentieren um dadurch Feedback von anderen jungen Wissenschaftlern und Professoren für ihre wissenschaftliche Arbeit zu erhalten.
|
76 |
Early and late effects of objecthood and spatial frequency on event-related potentials and gamma band activity: Early and late effects of objecthood and spatial frequency on event-related potentials and gamma band activityCraddock, Matt, Martinovic, Jasna, Müller, Matthias M. January 2015 (has links)
Background: The visual system may process spatial frequency information in a low-to-high, coarse-to-fine sequence. In particular, low and high spatial frequency information may be processed via different pathways during object recognition, with LSF information projected rapidly to frontal areas and HSF processed later in visual ventral areas. In an electroencephalographic study, we examined the time course of information processing for images filtered to contain different ranges of spatial frequencies. Participants viewed either high spatial frequency
(HSF), low spatial frequency (LSF), or unfiltered, broadband (BB) images of objects or nonobject textures, classifying them as showing either man-made or natural objects, or nonobjects. Event-related potentials (ERPs) and evoked and total gamma band activity (eGBA and tGBA) recorded using the electroencephalogram were compared for object and nonobject images across the different spatial frequency ranges. Results: The visual P1 showed independent modulations by object and spatial frequency, while for the N1 these factors interacted. The P1 showed more positive amplitudes for objects than nonobjects, and more positive amplitudes for BB than for HSF images, which in turn evoked more positive amplitudes than LSF images. The peak-to-peak N1 showed that the N1 was much reduced for BB non-objects relative to all other images, while HSF and LSF nonobjects still elicited as negative an N1 as objects. In contrast, eGBA was influenced by spatial
frequency and not objecthood, while tGBA showed a stronger response to objects than nonobjects. Conclusions: Different pathways are involved in the processing of low and high spatial frequencies during
object recognition, as reflected in interactions between objecthood and spatial frequency in the visual N1 component. Total gamma band seems to be related to a late, probably highlevel representational process.
|
77 |
Face Detection using Swarm IntelligenceLang, Andreas January 2010 (has links)
Groups of starlings can form impressive shapes as they travel northward together in the springtime. This is among a group
of natural phenomena based on swarm behaviour. The research field of artificial intelligence in computer science,
particularly the areas of robotics and image processing, has in recent decades given increasing attention to the underlying
structures. The behaviour of these intelligent swarms has opened new approaches for face detection as well. G. Beni and J.
Wang coined the term “swarm intelligence” to describe this type of group behaviour. In this context, intelligence describes
the ability to solve complex problems.
The objective of this project is to automatically find exactly one face on a photo or video material by means of swarm
intelligence. The process developed for this purpose consists of a combination of various known structures, which are then
adapted to the task of face detection. To illustrate the result, a 3D hat shape is placed on top of the face using an example
application program.:1 Introduction
1.1 Face Detection
1.2 Swarm Intelligence and Particle Swarm Optimisation Fundamentals
3 Face Detection by Means of Particle Swarm Optimisation
3.1 Swarms and Particles
3.2 Behaviour Patterns
3.2.1 Opportunism
3.2.2 Avoidance
3.2.3 Other Behaviour Patterns
3.3 Stop Criterion
3.4 Calculation of the Solution
3.5 Example Application
4 Summary and Outlook
|
78 |
KI-basierte Detektion von Meilerplätzen mithilfe der Kombination luftgestützter LiDAR-Datenprodukte und Neuronaler NetzeRünger, Carolin 20 August 2024 (has links)
Die historische Holzkohleproduktion spielte eine bedeutende Rolle in der industriellen Entwicklung. Traditionell wurde Holzkohle in sogenannten Meilern, aufrechtstehenden Öfen, hergestellt. Diese Praxis führte zur weitreichenden Abholzung und veränderte die Vegetationszusammensetzung. Um die historische Waldbedeckung und historischen Landnutzungspraktiken besser zu verstehen, ist es notwendig, die räumliche Verteilung der Meiler zu analysieren. Die manuelle Kartierung der Meilerüberreste mittels DGM-Visualisierungstechniken ist sehr zeit- und arbeitsintensiv. Diese Arbeit untersucht daher den Einsatz von Deep Learning zur automatischen Detektion von Meilerplätzen basierend auf LiDAR-Datenprodukten. Hierfür wurden vortrainierte Modelle der Toolbox MMDetection mit DGM-Bildern trainiert, um ein spezifisch auf Meiler abgestimmtes Modell zu entwickeln. Insgesamt wurden vier Experimente durchgeführt, die den Einfluss verschiedener DGM-Visualisierungen, die Größe der Bounding Boxen und Hyperparameter unter Verwendung des FoveaBox-Detektors sowie die Leistung unterschiedlicher Modelle (ATSS, VFNet, RetinaNet) analysierten. Die Ergebnisse zeigen, dass ein 3-Band Bild bestehend aus Hügelschattierung, Sky-View Faktor und Neigung sowie eine Bounding Box Größe von 50 m optimal für die Detektion von Meilern sind. Der FoveaBox-Detektor erzielte die beste Leistung mit dem RAdam-Optimierer und einer Lernrate von 0.0001, wobei das ATSS-Modell mit den gleichen Hyperparametern die schlüssigsten Ergebnisse mit einer Genauigkeit von 93 % erreichte und nur 7 % der Meiler übersah. Das ATSS-Modell zeigte im Gegensatz zu anderen Studien eine um bis zu 10 % bessere Leistung. Ausschlaggebende Faktoren für diese Verbesserungen waren der verwendete Datensatz aus den 3-Band Bildern, die Größe der Bounding Boxen und die umfangreichere Datenaugmentierung, insbesondere die ergänzende Nutzung radiometrischer Techniken. Durch die experimentelle Herangehensweise konnte die Erkennungsgenauigkeit um 13 % gesteigert werden. Im Vergleich zur manuellen Kartierung hat das Modell viele zusätzliche Meiler identifiziert, obwohl es gelegentlich zu Verwechslungen mit angehäufter Erde am Hang und Fehldetektionen in unebenem Gelände mit geringen Höhenunterschieden kam. Die Eignung des Algorithmus zur verbesserten Erkennung von Meilerplätzen anstelle der manuellen Kartierung wird als effizienter, aber nicht zwangsläufig als präziser eingeschätzt:Selbständigkeitserklärung II
Weitergabe der Arbeit II
Kurzfassung IV
Abstract V
Abbildungsverzeichnis VIII
Tabellenverzeichnis X
Abkürzungsverzeichnis XI
1 Einleitung 1
1.1 Problemstellung und Zielsetzung 1
1.2 Aufbau der Arbeit 2
2 Grundlagen 3
2.1 Historischer und archäologischer Kontext von Meilerplätzen 3
2.1.1 Holzkohleproduktion und ihre Auswirkungen auf die Umwelt 3
2.1.2 Wichtigkeit der Erforschung von Meilerplätzen 4
2.1.3 Aussehen der Meilerüberreste 5
2.2 Einsatz von LiDAR-Daten für die Detektion von Meilerplätzen 6
2.2.1 Einführung in LiDAR 6
2.2.2 LiDAR in der archäologischen Praxis 8
2.2.3 Visualisierungstechniken von Höhenmodellen 10
2.2.4 Automatisierte Detektion von Meilerplätzen 15
2.3 Objekterkennung mit Deep Learning 16
2.3.1 Einführung in Deep Learning 16
2.3.2 Bildbasierte Objekterkennung von kleinen Objekten 17
2.3.3 Training eines Deep Learning-Modells 18
2.3.4 Datenaugmentierung 19
2.3.5 Hyperparameter 21
2.3.6 Bewertungsmetriken 21
2.3.7 Kategorisierung von Deep Learning-Modellen 23
2.3.8 Verwendete Modelle 25
3 Daten und Methoden 31
3.1 Datengrundlage und Computer-Hardware 31
3.2 Aufbereitung der Daten 32
3.2.1 Bearbeitung der Meilerdaten 32
3.2.2 Vorverarbeitung der DGM-Bilder 33
3.2.3 Aufteilung in Trainings-, Test- und Validierungsdatensatz 34
3.2.4 Datenaugmentierung des Trainingsdatensatzes 35
3.2.5 Verwendete DGM-Visualisierungstechniken 37
3.2.6 COCO-Format und Normalisierung 38
3.3 Experimentelles Vorgehen 39
3.3.1 Experiment 1: Verschiedene Eingangsdaten 39
3.3.2 Experiment 2: Verschiedene Bounding Box-Größen 40
3.3.3 Experiment 3: Verschiedene Hyperparameter 41
3.3.4 Experiment 4: Verschiedene Modelle 41
3.4 Verwendete Bewertungsmetriken 42
4 Ergebnisse 44
4.1 Experiment 1: Verschiedene Eingangsdaten 44
4.2 Experiment 2: Verschiedene Bounding Box-Größen 48
4.3 Experiment 3: Verschiedene Hyperparameter 52
4.4 Experiment 4: Verschiedene Modelle 56
4.5 Inferenz des besten Modells auf ein unbekanntes Gebiet 61
5 Diskussion 63
5.1 Interpretation der Ergebnisse 63
5.2 Vergleich der Ergebnisse mit anderen Studien 66
5.3 Bewertung der Modelleistung in einem gut und schlecht zu kartierendem Gebiet 68
6 Fazit und Ausblick 71
7 Literaturverzeichnis 73
Anhang 78 / The historical production of charcoal played a significant role in the industrial development. Traditionally, charcoal was produced in so-called kilns, upright ovens. This practice led to extensive deforestation and changed the vegetation composition. In order to better understand historical forest cover and historical land use practices, it is necessary to analyze the spatial distribution of the charcoal kilns. However, manual mapping of the kilns remains using DTM visualization techniques is very time-consuming and labour-intensive. Therefore, this study examines the use of deep learning for the automatic detection of charcoal kiln sites based on LiDAR data products. Pre-trained models from the MMDetection toolbox were trained with DTM images to develop a model specifically adapted to the charcoal kilns. A total of four experiments were conducted to analyze the impact of different DTM visualizations, bounding box sizes, and hyperparameters using the FoveaBox detector as well as the performance of different models (FoveaBox, ATSS, VFNet, RetinaNet). The results show that a 3-band image consisting of hill shading, Sky-View factor, and slope, and a bounding box size of 50 m, is ideal for the detection of kilns. The FoveaBox detector achieved the best performance with the RAdam optimizer and a learning rate of 0.0001, while the ATSS model performed the most consistent results with an accuracy of 93 % and missing only 7 % of the kilns. The ATSS model shows up to 10 % better performance compared to other studies. Key factors for these improvements were the used dataset of the 3-band images, the size of the bounding boxes, and the more extensive data augmentation, particularly the complementary use of radiometric techniques. Through the experimental approach, detection accuracy was improved by 13 %. Compared to manual mapping, the model could identify many additional kilns, although it sometimes led to confusion with accumulated soil on slopes and false detections in uneven terrain with small height differences. The suitability of the algorithm for improved detection of charcoal kiln sites instead of manual mapping is considered efficient but not necessarily more accurate.:Selbständigkeitserklärung II
Weitergabe der Arbeit II
Kurzfassung IV
Abstract V
Abbildungsverzeichnis VIII
Tabellenverzeichnis X
Abkürzungsverzeichnis XI
1 Einleitung 1
1.1 Problemstellung und Zielsetzung 1
1.2 Aufbau der Arbeit 2
2 Grundlagen 3
2.1 Historischer und archäologischer Kontext von Meilerplätzen 3
2.1.1 Holzkohleproduktion und ihre Auswirkungen auf die Umwelt 3
2.1.2 Wichtigkeit der Erforschung von Meilerplätzen 4
2.1.3 Aussehen der Meilerüberreste 5
2.2 Einsatz von LiDAR-Daten für die Detektion von Meilerplätzen 6
2.2.1 Einführung in LiDAR 6
2.2.2 LiDAR in der archäologischen Praxis 8
2.2.3 Visualisierungstechniken von Höhenmodellen 10
2.2.4 Automatisierte Detektion von Meilerplätzen 15
2.3 Objekterkennung mit Deep Learning 16
2.3.1 Einführung in Deep Learning 16
2.3.2 Bildbasierte Objekterkennung von kleinen Objekten 17
2.3.3 Training eines Deep Learning-Modells 18
2.3.4 Datenaugmentierung 19
2.3.5 Hyperparameter 21
2.3.6 Bewertungsmetriken 21
2.3.7 Kategorisierung von Deep Learning-Modellen 23
2.3.8 Verwendete Modelle 25
3 Daten und Methoden 31
3.1 Datengrundlage und Computer-Hardware 31
3.2 Aufbereitung der Daten 32
3.2.1 Bearbeitung der Meilerdaten 32
3.2.2 Vorverarbeitung der DGM-Bilder 33
3.2.3 Aufteilung in Trainings-, Test- und Validierungsdatensatz 34
3.2.4 Datenaugmentierung des Trainingsdatensatzes 35
3.2.5 Verwendete DGM-Visualisierungstechniken 37
3.2.6 COCO-Format und Normalisierung 38
3.3 Experimentelles Vorgehen 39
3.3.1 Experiment 1: Verschiedene Eingangsdaten 39
3.3.2 Experiment 2: Verschiedene Bounding Box-Größen 40
3.3.3 Experiment 3: Verschiedene Hyperparameter 41
3.3.4 Experiment 4: Verschiedene Modelle 41
3.4 Verwendete Bewertungsmetriken 42
4 Ergebnisse 44
4.1 Experiment 1: Verschiedene Eingangsdaten 44
4.2 Experiment 2: Verschiedene Bounding Box-Größen 48
4.3 Experiment 3: Verschiedene Hyperparameter 52
4.4 Experiment 4: Verschiedene Modelle 56
4.5 Inferenz des besten Modells auf ein unbekanntes Gebiet 61
5 Diskussion 63
5.1 Interpretation der Ergebnisse 63
5.2 Vergleich der Ergebnisse mit anderen Studien 66
5.3 Bewertung der Modelleistung in einem gut und schlecht zu kartierendem Gebiet 68
6 Fazit und Ausblick 71
7 Literaturverzeichnis 73
Anhang 78
|
79 |
Hierarchical Slow Feature Analysis on visual stimuli and top-down reconstructionWilbert, Niko 24 May 2012 (has links)
In dieser Dissertation wird ein Modell des visuellen Systems untersucht, basierend auf dem Prinzip des unüberwachten Langsamkeitslernens und des SFA-Algorithmus (Slow Feature Analysis). Dieses Modell wird hier für die invariante Objekterkennung und verwandte Probleme eingesetzt. Das Modell kann dabei sowohl die zu Grunde liegenden diskreten Variablen der Stimuli extrahieren (z.B. die Identität des gezeigten Objektes) als auch kontinuierliche Variablen (z.B. Position und Rotationswinkel). Dabei ist es in der Lage, mit komplizierten Transformationen umzugehen, wie beispielsweise Tiefenrotation. Die Leistungsfähigkeit des Modells wird zunächst mit Hilfe von überwachten Methoden zur Datenanalyse untersucht. Anschließend wird gezeigt, dass auch die biologisch fundierte Methode des Verstärkenden Lernens (reinforcement learning) die Ausgabedaten unseres Modells erfolgreich verwenden kann. Dies erlaubt die Anwendung des Verstärkenden Lernens auf hochdimensionale visuelle Stimuli. Im zweiten Teil der Arbeit wird versucht, das hierarchische Modell mit Top-down Prozessen zu erweitern, speziell für die Rekonstruktion von visuellen Stimuli. Dabei setzen wir die Methode der Vektorquantisierung ein und verbinden diese mit einem Verfahren zum Gradientenabstieg. Die wesentlichen Komponenten der für unsere Simulationen entwickelten Software wurden in eine quelloffene Programmbibliothek integriert, in das ``Modular toolkit for Data Processing'''' (MDP). Diese Programmkomponenten werden im letzten Teil der Dissertation vorgestellt. / This thesis examines a model of the visual system, which is based on the principle of unsupervised slowness learning and using Slow Feature Analysis (SFA). We apply this model to the task of invariant object recognition and several related problems. The model not only learns to extract the underlying discrete variables of the stimuli (e.g., identity of the shown object) but also to extract continuous variables (e.g., position and rotational angles). It is shown to be capable of dealing with complex transformations like in-depth rotation. The performance of the model is first measured with the help of supervised post-processing methods. We then show that biologically motivated methods like reinforcement learning are also capable of processing the high-level output from the model. This enables reinforcement learning to deal with high-dimensional visual stimuli. In the second part of this thesis we try to extend the model with top-down processes, centered around the task of reconstructing visual stimuli. We utilize the method of vector quantization and combine it with gradient descent. The key components of our simulation software have been integrated into an open-source software library, the Modular toolkit for Data Processing (MDP). These components are presented in the last part of the thesis.
|
80 |
Multilevel Datenfusion konkurrierender Sensoren in der FahrzeugumfelderfassungHaberjahn, Mathias 21 November 2013 (has links)
Mit der vorliegenden Dissertation soll ein Beitrag zur Steigerung der Genauigkeit und Zuverlässigkeit einer sensorgestützten Objekterkennung im Fahrzeugumfeld geleistet werden. Aufbauend auf einem Erfassungssystem, bestehend aus einer Stereokamera und einem Mehrzeilen-Laserscanner, werden teils neu entwickelte Verfahren für die gesamte Verarbeitungskette vorgestellt. Zusätzlich wird ein neuartiges Framework zur Fusion heterogener Sensordaten eingeführt, welches über eine Zusammenführung der Fusionsergebnisse aus den unterschiedlichen Verarbeitungsebenen in der Lage ist, die Objektbestimmung zu verbessern. Nach einer Beschreibung des verwendeten Sensoraufbaus werden die entwickelten Verfahren zur Kalibrierung des Sensorpaares vorgestellt. Bei der Segmentierung der räumlichen Punktdaten werden bestehende Verfahren durch die Einbeziehung von Messgenauigkeit und Messspezifik des Sensors erweitert. In der anschließenden Objektverfolgung wird neben einem neuartigen berechnungsoptimierten Ansatz zur Objektassoziierung ein Modell zur adaptiven Referenzpunktbestimmung und –Verfolgung beschrieben. Durch das vorgestellte Fusions-Framework ist es möglich, die Sensordaten wahlweise auf drei unterschiedlichen Verarbeitungsebenen (Punkt-, Objekt- und Track-Ebene) zu vereinen. Hierzu wird ein sensorunabhängiger Ansatz zur Fusion der Punktdaten dargelegt, der im Vergleich zu den anderen Fusionsebenen und den Einzelsensoren die genaueste Objektbeschreibung liefert. Für die oberen Fusionsebenen wurden unter Ausnutzung der konkurrierenden Sensorinformationen neuartige Verfahren zur Bestimmung und Reduzierung der Detektions- und Verarbeitungsfehler entwickelt. Abschließend wird beschrieben, wie die fehlerreduzierenden Verfahren der oberen Fusionsebenen mit der optimalen Objektbeschreibung der unteren Fusionsebene für eine optimale Objektbestimmung zusammengeführt werden können. Die Effektivität der entwickelten Verfahren wurde durch Simulation oder in realen Messszenarien überprüft. / With the present thesis a contribution to the increase of the accuracy and reliability of a sensor-supported recognition and tracking of objects in a vehicle’s surroundings should be made. Based on a detection system, consisting of a stereo camera and a laser scanner, novel developed procedures are introduced for the whole processing chain of the sensor data. In addition, a new framework is introduced for the fusion of heterogeneous sensor data. By combining the data fusion results from the different processing levels the object detection can be improved. After a short description of the used sensor setup the developed procedures for the calibration and mutual orientation are introduced. With the segmentation of the spatial point data existing procedures are extended by the inclusion of measuring accuracy and specificity of the sensor. In the subsequent object tracking a new computation-optimized approach for the association of the related object hypotheses is presented. In addition, a model for a dynamic determination and tracking of an object reference point is described which exceeds the classical tracking of the object center in the track accuracy. By the introduced fusion framework it is possible to merge the sensor data at three different processing levels (point, object and track level). A sensor independent approach for the low fusion of point data is demonstrated which delivers the most precise object description in comparison to the other fusion levels and the single sensors. For the higher fusion levels new procedures were developed to discover and clean up the detection and processing mistakes benefiting from the competing sensor information. Finally it is described how the fusion results of the upper and lower levels can be brought together for an ideal object description. The effectiveness of the newly developed methods was checked either by simulation or in real measurement scenarios.
|
Page generated in 0.0598 seconds