Global ETD Search

1	Towards Efficient Convolutional Neural Architecture Design Richter, Mats L. 10 May 2022 (has links) The design and adjustment of convolutional neural network architectures is an opaque and mostly trial and error-driven process. The main reason for this is the lack of proper paradigms beyond general conventions for the development of neural networks architectures and lacking effective insights into the models that can be propagated back to design decision. In order for the task-specific design of deep learning solutions to become more efficient and goal-oriented, novel design strategies need to be developed that are founded on an understanding of convolutional neural network models. This work develops tools for the analysis of the inference process in trained neural network models. Based on these tools, characteristics of convolutional neural network models are identified that can be linked to inefficiencies in predictive and computational performance. Based on these insights, this work presents methods for effectively diagnosing these design faults before and during training with little computational overhead. These findings are empirically tested and demonstrated on architectures with sequential and multi-pathway structures, covering all the common types of convolutional neural network architectures used for classification. Furthermore, this work proposes simple optimization strategies that allow for goal-oriented and informed adjustment of the neural architecture, opening the potential for a less trial-and-error-driven design process. 54.72 - Künstliche Intelligenz 54.74 - Maschinelles Sehen I.2.10 - Vision and Scene Understanding I.5.2 - Design Methodology ddc:004
2	Auswirkung des Rauschens und Rauschen vermindernder Maßnahmen auf ein fernerkundliches Segmentierungsverfahren Gerhards, Karl 31 July 2006 (has links) Zur Verminderung des Rauschens sehr hochauflösender Satellitenbilder existieren eine Vielzahl von Glättungsalgorithmen. Die Wirkung verschiedener Tiefpaß- und kantenerhaltender Filter auf das Verhalten eines objektorientierten Segmentierungsverfahrens wird anhand zweier synthetischer Grauwertbilder und einer IKONOS-Aufnahme untersucht. Als Rauschmaß hat sich ein modifiziertes, ursprünglich von Baltsavias et al. [2001] vorgeschlagenes Verfahren bewährt, in dem je Grauwert nur die Standardabweichungen der gleichförmigsten Gebiete berücksichtigt werden. In Vergleich mit synthetisch verrauschten Bildern zeigt sich jedoch, daß auf diese Weise das Rauschen im Bild systematisch um fast den Faktor zwei unterschätzt wird. Einfache Filter wie Mittelwertfilter und davon abgeleitete Verfahren verschlechtern die Präzision der Objekterkennung dramatisch, kantenerhaltende Filter können bei stärker verrauschten Daten vorteilhaft sein.Als bester Filter, der bei Ansprüchen an präzise Segmentgrenzen im Pixelbereich sinnvoll einzusetzen ist und dabei mit nur einem Parameter gesteuert werden kann, erweist sich der modifizierte EPOS-Filter, ursprünglich vorgestellt von Haag und Sties [1994, 1996]. Die generellen Bildparameter, wie Standardabweichung oder Histogramm werden durch diesen kantenerhaltenden Filter nur unwesentlich beeinflußt. Rauschen Mittelwertfilter Medianfilter Bilateraler Filter eCognition multiresolution segmentation noise estimation mean filter 54.74 - Maschinelles Sehen 31 - Geowissenschaften ddc:520
3	Transparent Object Reconstruction and Registration Confidence Measures for 3D Point Clouds based on Data Inconsistency and Viewpoint Analysis Albrecht, Sven 28 February 2018 (has links) A large number of current mobile robots use 3D sensors as part of their sensor setup. Common 3D sensors, i.e., laser scanners or RGB-D cameras, emit a signal (laser light or infrared light for instance), and its reflection is recorded in order to estimate depth to a surface. The resulting set of measurement points is commonly referred to as 'point clouds'. In the first part of this dissertation an inherent problem of sensors that emit some light signal is addressed, namely that these signals can be reflected and/or refracted by transparent of highly specular surfaces, causing erroneous or missing measurements. A novel heuristic approach is introduced how such objects may nevertheless be identified and their size and shape reconstructed by fusing information from several viewpoints of the scene. In contrast to other existing approaches no prior knowledge about the objects is required nor is the shape of the reconstructed objects restricted to a limited set of geometric primitives. The thesis proceeds to illustrate problems caused by sensor noise and registration errors and introduces mechanisms to address these problems. Finally a quantitative comparison between equivalent directly measured objects, the reconstructions and "ground truth" is provided. The second part of the thesis addresses the problem of automatically determining the quality of the registration for a pair of point clouds. Although a different topic, these two problems are closely related, if modeled in the fashion of this thesis. After illustrating why the output parameters of a popular registration algorithm (ICP) are not suitable to deduce registration quality, several heuristic measures are developed that provide better insight. Experiments performed on different datasets were performed to showcase the applicability of the proposed measures in different scenarios. transparent object reconstruction 3D point clouds evaluation of scan registration 54.74 - Maschinelles Sehen 54.72 - Künstliche Intelligenz I.4.8 - Scene Analysis I.4.5 - Reconstruction ddc:004
4	Tiefes Reinforcement Lernen auf Basis visueller Wahrnehmungen Lange, Sascha 19 May 2010 (has links) Die vorliegende Arbeit widmet sich der Untersuchung und Weiterentwicklung selbständig lernender maschineller Lernverfahren (Reinforcement Lernen) in der Anwendung auf visuelle Wahrnehmungen. Zuletzt wurden mit der Einführung speicherbasierter Methoden in das Reinforcement Lernen große Fortschritte beim Lernen an realen Systemen erzielt, aber der Umgang mit hochkomplexen visuellen Eingabedaten, wie sie z.B. von einer digitalen Kamera aufgezeichnet werden, stellt weiterhin ein ungelöstes Problem dar. Bestehende Methoden sind auf den Umgang mit niedrigdimensionalen Zustandsbeschreibungen beschränkt, was eine Anwendung dieser Verfahren direkt auf den Strom von Bilddaten bisher ausschließt und den vorgeschalteten Einsatz klassischer Methoden des Bildverstehens zur Extraktion und geeigneten Kodierung der relevanten Informationen erfordert. Einen Ausweg bietet der Einsatz von so genannten `tiefen Autoencodern'. Diese mehrschichtigen neuronalen Netze ermöglichen es, selbstorganisiert niedrigdimensionale Merkmalsräume zur Repräsentation hochdimensionaler Eingabedaten zu erlernen und so eine klassische, aufgabenspezifische Bildanalyse zu ersetzen. In typischen Objekterkennungsaufgaben konnten auf Basis dieser erlernten Repräsentationen bereits beeindruckende Ergebnisse erzielt werden. Im Rahmen der vorliegenden Arbeit werden nun die tiefen Autoencodernetze auf ihre grundsätzliche Tauglichkeit zum Einsatz im Reinforcement Lernen untersucht. Mit dem ``Deep Fitted Q''-Algorithmus wird ein neuer Algorithmus entwickelt, der das Training der tiefen Autoencodernetze auf effiziente Weise in den Reinforcement Lernablauf integriert und so den Umgang mit visuellen Wahrnehmungen beim Strategielernen ermöglicht. Besonderes Augenmerk wird neben der Dateneffizienz auf die Stabilität des Verfahrens gelegt. Im Anschluss an eine Diskussion der theoretischen Aspekte des Verfahrens wird eine ausführliche empirische Evaluation der erzeugten Merkmalsräume und der erlernten Strategien an simulierten und realen Systemen durchgeführt. Dabei gelingt es im Rahmen der vorliegenden Arbeit mit Hilfe der entwickelten Methoden erstmalig, Strategien zur Steuerung realer Systeme direkt auf Basis der unvorverarbeiteten Bildinformationen zu erlernen, wobei von außen nur das zu erreichende Ziel vorgegeben werden muss. 54.72 - Künstliche Intelligenz 54.74 - Maschinelles Sehen ddc:500
5	Context-aware anchoring, semantic mapping and active perception for mobile robots Günther, Martin 30 November 2021 (has links) An autonomous robot that acts in a goal-directed fashion requires a world model of the elements that are relevant to the robot's task. In real-world, dynamic environments, the world model has to be created and continually updated from uncertain sensor data. The symbols used in plan-based robot control have to be anchored to detected objects. Furthermore, robot perception is not only a bottom-up and passive process: Knowledge about the composition of compound objects can be used to recognize larger-scale structures from their parts. Knowledge about the spatial context of an object and about common relations to other objects can be exploited to improve the quality of the world model and can inform an active search for objects that are missing from the world model. This thesis makes several contributions to address these challenges: First, a model-based semantic mapping system is presented that recognizes larger-scale structures like furniture based on semantic descriptions in an ontology. Second, a context-aware anchoring process is presented that creates and maintains the links between object symbols and the sensor data corresponding to those objects while exploiting the geometric context of objects. Third, an active perception system is presented that actively searches for a required object while being guided by the robot's knowledge about the environment. Anchoring Semantic Mapping Active Perception Robotics Artificial Intelligence Context Object Search Robotik Künstliche Intelligenz 54.72 - Künstliche Intelligenz 54.74 - Maschinelles Sehen I.2.9 - Robotics I.2.10 - Vision and Scene Understanding ddc:004
6	Effiziente Erstellung aufgabenspezifischer Bilderkennungssysteme Möhrmann, Julia Mandy 29 July 2014 (has links) Die Entwicklung von Bilderkennungssystemen ist ein hochkomplexer Prozess, der derzeit fast ausschließlich von Experten mit entsprechenden Fachkenntnissen bewältigt werden kann. Bilderkennungssysteme haben durch die allgegenwärtige Verfügbarkeit an Bilddaten und ihren kostenneutralen Einsatz das Potential, eine wichtige Rolle in der digitalisierten Gesellschaft zu spielen. Jedoch ist ihr Einsatz effektiv durch den nicht vorhandenen Zugang zu entsprechenden Entwicklungswerkzeugen limitiert. Diese Arbeit verfolgt das Ziel, ein Software-Framework bereitzustellen, das von Anwendern ohne Fachkenntnisse genutzt werden kann. Hierfür werden die einzelnen Schritte des Entwicklungsprozesses betrachtet und an diese Zielgruppe adaptiert. Im Detail bedeutet dies für das in dieser Arbeit präsentierte Software-Framework FOREST (Flexible Object Recognition System), dass - der Entwicklungsprozess größtmöglich automatisiert abläuft, - nicht automatisierbare Komponenten vereinfacht werden - und eine intuitive Benutzungsoberfläche bereitgestellt wird, die keine Einarbeitungszeit und Fachkenntnisse erfordert. Im Gegensatz zu existierenden Entwicklungswerkzeugen ist das Ziel von FOREST nicht die Entwicklung eines speziellen Bilderkennungssystems, sondern die Adaption an die vom Anwender intendierte Erkennungsaufgabe. Allein durch die Auswahl einer Bilddatenquelle und der Annotation der Bilder lernt FOREST einen Klassifikator, der die Erkennungsaufgabe löst. Das resultierende Bilderkennungssystem wird auch als aufgabenspezifisches Bilderkennungssystem bezeichnet, da es speziell auf die gestellte Erkennungsaufgabe trainiert wurde. Beispielsweise kann eine Webcam genutzt werden, um geöffnete Fenster zu detektieren und so Wetterschäden oder einen Einbruch zu vermeiden. Die Bereitstellung eines Entwicklungswerkzeugs für Anwender ohne Fachkenntnisse wird durch die automatische Bildverarbeitung mit einer großen Menge an Operatoren für die Merkmalsdetektion und die Merkmalsextraktion realisiert. Die Auswahl diskriminativer Merkmalsdeskriptoren für die Klassifikation aus dem Merkmalsdatensatz wird während des Trainingsprozesses durch einen Boosting-Klassifikator geleistet. Die modulare und erweiterbare Struktur des Frameworks ist entscheidend für den langfristig erfolgreichen Einsatz des Systems. FOREST stellt spezifizierte Schnittstellen für den Zugriff auf das System durch Benutzungsschnittstellen und die Erweiterung der Erkennungsfunktionalität bereit. Die Komponenten des Systems können zentral bereitgestellt werden und erlauben so die Nutzung ohne eine lokale Installation durch den Anwender. Die Definition der Erkennungsaufgabe findet durch die Annotation der Bilder, also der Zuweisung einer Kategorie zu jedem Bild, statt. Die Annotation ist ein sehr aufwändiger Prozess, da sie manuell durchgeführt werden muss. Die Qualität der Trainingsdaten und die Qualität der Annotationen, also die Korrektheit, haben direkten Einfluss auf die Ergebnisse des resultierenden Bilderkennungssystems. Der Annotationsaufwand wird mit Hilfe eines semi-automatischen Prozesses reduziert, indem Bilder ihrer Ähnlichkeit nach vorsortiert und in einer optimierten Benutzungsoberfläche dargestellt werden. Die Annotation ganzer Cluster in einem Zug ermöglicht eine effiziente Annotation des Datensatzes. Die Vorsortierung stellt aufgrund der unbekannten Natur der Bilder eine große Schwierigkeit dar, die durch die Integration verschiedener Bildmerkmale in einen Bag-of-Features (BoF) Histogramm-Merkmalsvektor gelöst werden kann. Die Vorsortierung der Bilder kann während des Annotationsprozesses weiter verbessert werden, indem partiell verfügbare Annotationen in einem semi-überwachten Lernprozess eingesetzt werden. Anhand partieller Annotationen wird die Gewichtung der Bildmerkmale so angepasst, dass die Ähnlichkeit innerhalb einer Kategorie erhöht wird. Zusätzlich erlaubt die Identifikation diskriminativer Bildmerkmale eine Visualisierung relevanter Bildregionen, die Anwendern als Qualitätsmaß für die neu berechnete Vorsortierung der Bilder dienen kann. Die Benutzungsschnittstellen sind auf eine visuelle Informationsdarstellung ausgelegt. FOREST erlaubt Laien-Anwendern die Entwicklung aufgabenspezifischer Bilderkennungssysteme in einem einfach gehaltenen Entwicklungsprozess, der notwendige Interaktionen auf ein Minimum beschränkt. Dennoch ist FOREST für Experten-Anwender nutzbar. Neue Operatoren können leicht in das System integriert und effizient evaluiert werden. Die Ergebnisse aufgabenspezifischer Erkennungssysteme, die mit FOREST entwickelt wurden, sind mit den Ergebnissen spezialisierter Systeme vergleichbar. Die detaillierte Analyse der Klassifikation zeigt zudem, dass trotz der Annotation ganzer Bilder mit einer Kategorie relevante Objektstrukturen erkannt und automatisiert für die Erkennung herangezogen werden. Der Entwicklungsaufwand für die Erstellung eines aufgabenspezifischen Bilderkennungssystems ist nicht mit der gemeinhin bekannten Entwicklung von Bilderkennungssystemen vergleichbar, da das System keine Programmierkenntnisse, kein Fachwissen und keine Eigenentwicklung erwartet. FOREST bietet daher für fachfremde Anwender ein Entwicklungswerkzeug und ermöglicht die Entwicklung von Bilderkennungssystemen für alltägliche Aufgaben. Damit legt FOREST den Grundstein für einen breiten Einsatz von Bilderkennungsanwendungen im Alltag. Computer Vision Bilderkennung Annotation Ground Truth Daten Semi-überwachtes Lernen 54.74 - Maschinelles Sehen 54.81 - Anwendungssoftware I.4.9 - Applications I.5.3 - Clustering I.4.0 - General H.5.2 - User Interfaces ddc:000
7	Time-Dependent Data: Classification and Visualization Tanisaro, Pattreeya 14 November 2019 (has links) The analysis of the immensity of data in space and time is a challenging task. For this thesis, the time-dependent data has been explored in various directions. The studies focused on data visualization, feature extraction, and data classification. The data that has been used in the studies comes from various well-recognized archives and has been the basis of numerous researches. The data characteristics ranged from the univariate time series to multivariate time series, from hand gestures to unconstrained views of general human movements. The experiments covered more than one hundred datasets. In addition, we also discussed the applications of visual analytics to video data. Two approaches were proposed to create a feature vector for time-dependent data classification. One is designed especially for a bio-inspired model for human motion recognition and the other is a subspace-based approach for arbitrary data characteristics. The extracted feature vectors of the proposed approaches can be easily visualized in two-dimensional space. For the classification, we experimented with various known models and offered a simple model using data in subspaces for light-weight computation. Furthermore, this method allows a data analyst to inspect feature vectors and detect an anomaly from a large collection of data simultaneously. Various classification techniques were compared and the findings were summarized. Hence, the studies can assist a researcher in picking an appropriate technique when setting up a corresponding model for a given characteristic of temporal data, and offer a new perspective for analyzing the time series data. This thesis is comprised of two parts. The first part gives an overview of time-dependent data and of this thesis with its focus on classification; the second part covers the collection of seven publications. Time-Dependent Data Time Series Human Motion Recognitions Classification Visualization 54.72 - Künstliche Intelligenz 54.74 - Maschinelles Sehen I.5.0 - General I.2.10 - Vision and Scene Understanding 42.30.Sy - Pattern recognition ddc:004
8	Interactive 3D Reconstruction / Interaktive 3D-Rekonstruktion Schöning, Julius 23 May 2018 (has links) Applicable image-based reconstruction of three-dimensional (3D) objects offers many interesting industrial as well as private use cases, such as augmented reality, reverse engineering, 3D printing and simulation tasks. Unfortunately, image-based 3D reconstruction is not yet applicable to these quite complex tasks, since the resulting 3D models are single, monolithic objects without any division into logical or functional subparts. This thesis aims at making image-based 3D reconstruction feasible such that captures of standard cameras can be used for creating functional 3D models. The research presented in the following does not focus on the fine-tuning of algorithms to achieve minor improvements, but evaluates the entire processing pipeline of image-based 3D reconstruction and tries to contribute at four critical points, where significant improvement can be achieved by advanced human-computer interaction: (i) As the starting point of any 3D reconstruction process, the object of interest (OOI) that should be reconstructed needs to be annotated. For this task, novel pixel-accurate OOI annotation as an interactive process is presented, and an appropriate software solution is released. (ii) To improve the interactive annotation process, traditional interface devices, like mouse and keyboard, are supplemented with human sensory data to achieve closer user interaction. (iii) In practice, a major obstacle is the so far missing standard for file formats for annotation, which leads to numerous proprietary solutions. Therefore, a uniform standard file format is implemented and used for prototyping the first gaze-improved computer vision algorithms. As a sideline of this research, analogies between the close interaction of humans and computer vision systems and 3D perception are identified and evaluated. (iv) Finally, to reduce the processing time of the underlying algorithms used for 3D reconstruction, the ability of artificial neural networks to reconstruct 3D models of unknown OOIs is investigated. Summarizing, the gained improvements show that applicable image-based 3D reconstruction is within reach but nowadays only feasible by supporting human-computer interaction. Two software solutions, one for visual video analytics and one for spare part reconstruction are implemented. In the future, automated 3D reconstruction that produces functional 3D models can be reached only when algorithms become capable of acquiring semantic knowledge. Until then, the world knowledge provided to the 3D reconstruction pipeline by human computer interaction is indispensable. 3D reconstruction object annotation human-machine-interaction user in the loop computer vision CAD-ready 3D-Rekonstruktion Maschinelles Sehen 54.74 - Maschinelles Sehen 54.72 - Künstliche Intelligenz I.4.5 - Reconstruction I.4.6 - Segmentation I.2.10 - Vision and Scene Understanding 07.05.Wr - Computer interfaces ddc:004 ddc:620
9	Entwicklung eines UAV-basierten Systems zur Rehkitzsuche und Methoden zur Detektion und Georeferenzierung von Rehkitzen in Thermalbildern: Der Fliegende Wildretter Israel, Martin 05 December 2016 (has links) Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines UAV-basierten Systems und der zugehörigen Methodenentwicklung zur automatisierten Rehkitzsuche in Feldern. Jedes Jahr sterben sehr viele Wildtiere -- vor allem Rehkitze -- während dem Mähen von landwirtschaftlich genutzten Wiesen. Mit herkömmlichen Methoden ist es unter vertretbarem Aufwand bisher nicht gelungen, die Zahl der Mähopfer auf ein erträgliches Maß zu reduzieren. Mit der Entwicklung des in dieser Arbeit beschriebenen "Fliegenden Wildretters" könnte sich das in Zukunft ändern. Mit Hilfe einer Wärmebildkamera aus der Vogelperspektive lässt sich ein warmes Tier, wie ein Rehkitz, wesentlich leichter aufspüren, als mit herkömmlichen Methoden. Auslegung und Aufbau des Systems orientieren sich speziell an dem Aspekt, wie eine möglichst hohe Flächenleistung erreicht werden kann, ohne dabei Tiere zu übersehen. Drei Faktoren sind besonders wichtig, um dieses Ziel zu erreichen: Eine hohe Geschwindigkeit des gesamten Suchprozesses, eine zuverlässige Detektion und eine präzise Lokalisierung der Tiere. Durch Automatisierung lassen sich viele Teilaspekte dieser Aufgabe beschleunigen. Deshalb werden im Rahmen dieser Arbeit verschiedene Methoden entwickelt und validiert, unter anderem zur Flugplanung, Flugsteuerung, Bilddaten-Auswertung, Objekt-Detektion und Georeferenzierung. Die Kenntnis der Rehkitz-Merkmale und der Einflussgrößen bei der Thermalbilderfassung helfen, die Qualität der Detektion zu erhöhen, weshalb sie in dieser Arbeit besondere Berücksichtigung finden. Auch die Präzision der Lokalisierung lässt sich durch Kenntnis der Einflussgrößen auf die Positions- und Lagemessung des UAVs erhöhen. Anhand von umfangreichen Messkampagnen wird die Funktion und Qualität des Systems unter realen Bedingungen belegt. UAV MAV Thermal Imaging Computer Vision Animal Welfare Image Processing Camera Calibration Pattern Recognition Drohne Multikopter Detektion Thermal Wildtiere Rehkitze GIS Kalibrierung Georeferenzierung Tierschutz 74.48 - Geoinformationssysteme 74.41 - Luftaufnahmen, Photogrammetrie 33.18 - Optik 54.74 - Maschinelles Sehen 42.30.Sy - Pattern recognition ddc:000 ddc:620 ddc:630 ddc:590

Search results