Machine-Vision-Based Activity, Mobility and Motion Analysis for Assistance Systems in Human Health Care

Richter, Julia 18 April 2019 (has links)
Due to the continuous ageing of our society, both the care and the health sector will encounter challenges in maintaining the quality of human care and health standards. While the number of people with diseases such as dementia and physical illness will be rising, we are simultaneously recording a lack of medical personnel such as caregivers and therapists. One possible approach that tackles the described problem is the employment of technical assistance systems that support both medical personnel and elderly living alone at home. This thesis presents approaches to provide assistance for these target groups. In this work, algorithms that are integrated in prototypical assistance systems for vision-based human daily activity, mobility and motion analysis have been developed. The developed algorithms process 3-D point clouds as well as skeleton joint positions to generate meta information concerning activities and the mobility of elderly persons living alone at home. Such type of information was not accessible so far and is now available for monitoring. By generating this meta information, a basis for the detection of long-term and short-term health changes has been created. Besides monitoring meta information, mobilisation for maintaining physical capabilities, either ambulatory or at home, is a further focus of this thesis. Algorithms for the qualitative assessment of physical exercises were therefore investigated. Thereby, motion sequences in the form of skeleton joint trajectories as well as the heat development in active muscles were considered. These algorithms enable an autonomous physical training under the supervision of a virtual therapist even at home. / Aufgrund der voranschreitenden Überalterung unserer Gesellschaft werden sowohl der Pflege- als auch der Gesundheitssektor vor enorme Herausforderungen gestellt. Während die Zahl an vorrangig altersbedingten Erkrankungen, wie Demenz oder physische Erkrankungen des Bewegungsapparates, weiterhin zunehmen wird, stagniert die Zahl an medizinischem Fachpersonal, wie Therapeuten und Pflegekräften. An dieser Stelle besteht das Ziel, die Qualität medizinischer Leistungen auf hohem Niveau zu halten und dabei die Einhaltung von Pflege- und Gesundheitsstandards sicherzustellen. Ein möglicher Ansatz hierfür ist der Einsatz technischer Assistenzsysteme, welche sowohl das medizinische Personal und Angehörige entlasten als auch ältere, insbesondere allein lebende Menschen zu Hause unterstützen können. Die vorliegende Arbeit stellt Ansätze zur Unterstützung der genannten Zielgruppen vor, die prototypisch in Assistenzsystemen zur visuellen, kamerabasierten Analyse von täglichen Aktivitäten, von Mobilität und von Bewegungen bei Trainingsübungen integriert sind. Die entwickelten Algorithmen verarbeiten dreidimensionale Punktwolken und Gelenkpositionen des menschlichen Skeletts, um sogenannte Meta-Daten über tägliche Aktivitäten und die Mobilität einer allein lebenden Person zu erhalten. Diese Informationen waren bis jetzt nicht verfügbar, können allerdings für den Patienten selbst, für medizinisches Personal und Angehörige aufschlussreich sein, denn diese Meta-Daten liefern die Grundlage für die Detektion kurz- und langfristiger Veränderungen im Verhalten oder in der Mobilität, die ansonsten wahrscheinlich unbemerkt geblieben wären. Neben der Erfassung solcher Meta-Informationen liegt ein weiterer Fokus der Arbeit in der Mobilisierung von Patienten durch angeleitetes Training, um ihre Mobilität und körperliche Verfassung zu stärken. Dabei wurden Algorithmen zur qualitativen Bewertung und Vermittlung von Korrekturhinweisen bei physischen Trainingsübungen entwickelt, die auf Trajektorien von Gelenkpositionen und der Wärmeentwicklung in Muskeln beruhen. Diese Algorithmen ermöglichen aufgrund der Nachahmung eines durch den Therapeuten gegebenen Feedbacks ein autonomes Training.

Interactive 3D Reconstruction / Interaktive 3D-Rekonstruktion

Schöning, Julius 23 May 2018 (has links)
Applicable image-based reconstruction of three-dimensional (3D) objects offers many interesting industrial as well as private use cases, such as augmented reality, reverse engineering, 3D printing and simulation tasks. Unfortunately, image-based 3D reconstruction is not yet applicable to these quite complex tasks, since the resulting 3D models are single, monolithic objects without any division into logical or functional subparts. This thesis aims at making image-based 3D reconstruction feasible such that captures of standard cameras can be used for creating functional 3D models. The research presented in the following does not focus on the fine-tuning of algorithms to achieve minor improvements, but evaluates the entire processing pipeline of image-based 3D reconstruction and tries to contribute at four critical points, where significant improvement can be achieved by advanced human-computer interaction: (i) As the starting point of any 3D reconstruction process, the object of interest (OOI) that should be reconstructed needs to be annotated. For this task, novel pixel-accurate OOI annotation as an interactive process is presented, and an appropriate software solution is released. (ii) To improve the interactive annotation process, traditional interface devices, like mouse and keyboard, are supplemented with human sensory data to achieve closer user interaction. (iii) In practice, a major obstacle is the so far missing standard for file formats for annotation, which leads to numerous proprietary solutions. Therefore, a uniform standard file format is implemented and used for prototyping the first gaze-improved computer vision algorithms. As a sideline of this research, analogies between the close interaction of humans and computer vision systems and 3D perception are identified and evaluated. (iv) Finally, to reduce the processing time of the underlying algorithms used for 3D reconstruction, the ability of artificial neural networks to reconstruct 3D models of unknown OOIs is investigated. Summarizing, the gained improvements show that applicable image-based 3D reconstruction is within reach but nowadays only feasible by supporting human-computer interaction. Two software solutions, one for visual video analytics and one for spare part reconstruction are implemented. In the future, automated 3D reconstruction that produces functional 3D models can be reached only when algorithms become capable of acquiring semantic knowledge. Until then, the world knowledge provided to the 3D reconstruction pipeline by human computer interaction is indispensable.

Context-aware anchoring, semantic mapping and active perception for mobile robots

Günther, Martin 30 November 2021 (has links)
An autonomous robot that acts in a goal-directed fashion requires a world model of the elements that are relevant to the robot's task. In real-world, dynamic environments, the world model has to be created and continually updated from uncertain sensor data. The symbols used in plan-based robot control have to be anchored to detected objects. Furthermore, robot perception is not only a bottom-up and passive process: Knowledge about the composition of compound objects can be used to recognize larger-scale structures from their parts. Knowledge about the spatial context of an object and about common relations to other objects can be exploited to improve the quality of the world model and can inform an active search for objects that are missing from the world model. This thesis makes several contributions to address these challenges: First, a model-based semantic mapping system is presented that recognizes larger-scale structures like furniture based on semantic descriptions in an ontology. Second, a context-aware anchoring process is presented that creates and maintains the links between object symbols and the sensor data corresponding to those objects while exploiting the geometric context of objects. Third, an active perception system is presented that actively searches for a required object while being guided by the robot's knowledge about the environment.

Effiziente Erstellung aufgabenspezifischer Bilderkennungssysteme

Möhrmann, Julia Mandy 29 July 2014 (has links)
Die Entwicklung von Bilderkennungssystemen ist ein hochkomplexer Prozess, der derzeit fast ausschließlich von Experten mit entsprechenden Fachkenntnissen bewältigt werden kann. Bilderkennungssysteme haben durch die allgegenwärtige Verfügbarkeit an Bilddaten und ihren kostenneutralen Einsatz das Potential, eine wichtige Rolle in der digitalisierten Gesellschaft zu spielen. Jedoch ist ihr Einsatz effektiv durch den nicht vorhandenen Zugang zu entsprechenden Entwicklungswerkzeugen limitiert. Diese Arbeit verfolgt das Ziel, ein Software-Framework bereitzustellen, das von Anwendern ohne Fachkenntnisse genutzt werden kann. Hierfür werden die einzelnen Schritte des Entwicklungsprozesses betrachtet und an diese Zielgruppe adaptiert. Im Detail bedeutet dies für das in dieser Arbeit präsentierte Software-Framework FOREST (Flexible Object Recognition System), dass - der Entwicklungsprozess größtmöglich automatisiert abläuft, - nicht automatisierbare Komponenten vereinfacht werden - und eine intuitive Benutzungsoberfläche bereitgestellt wird, die keine Einarbeitungszeit und Fachkenntnisse erfordert. Im Gegensatz zu existierenden Entwicklungswerkzeugen ist das Ziel von FOREST nicht die Entwicklung eines speziellen Bilderkennungssystems, sondern die Adaption an die vom Anwender intendierte Erkennungsaufgabe. Allein durch die Auswahl einer Bilddatenquelle und der Annotation der Bilder lernt FOREST einen Klassifikator, der die Erkennungsaufgabe löst. Das resultierende Bilderkennungssystem wird auch als aufgabenspezifisches Bilderkennungssystem bezeichnet, da es speziell auf die gestellte Erkennungsaufgabe trainiert wurde. Beispielsweise kann eine Webcam genutzt werden, um geöffnete Fenster zu detektieren und so Wetterschäden oder einen Einbruch zu vermeiden. Die Bereitstellung eines Entwicklungswerkzeugs für Anwender ohne Fachkenntnisse wird durch die automatische Bildverarbeitung mit einer großen Menge an Operatoren für die Merkmalsdetektion und die Merkmalsextraktion realisiert. Die Auswahl diskriminativer Merkmalsdeskriptoren für die Klassifikation aus dem Merkmalsdatensatz wird während des Trainingsprozesses durch einen Boosting-Klassifikator geleistet. Die modulare und erweiterbare Struktur des Frameworks ist entscheidend für den langfristig erfolgreichen Einsatz des Systems. FOREST stellt spezifizierte Schnittstellen für den Zugriff auf das System durch Benutzungsschnittstellen und die Erweiterung der Erkennungsfunktionalität bereit. Die Komponenten des Systems können zentral bereitgestellt werden und erlauben so die Nutzung ohne eine lokale Installation durch den Anwender. Die Definition der Erkennungsaufgabe findet durch die Annotation der Bilder, also der Zuweisung einer Kategorie zu jedem Bild, statt. Die Annotation ist ein sehr aufwändiger Prozess, da sie manuell durchgeführt werden muss. Die Qualität der Trainingsdaten und die Qualität der Annotationen, also die Korrektheit, haben direkten Einfluss auf die Ergebnisse des resultierenden Bilderkennungssystems. Der Annotationsaufwand wird mit Hilfe eines semi-automatischen Prozesses reduziert, indem Bilder ihrer Ähnlichkeit nach vorsortiert und in einer optimierten Benutzungsoberfläche dargestellt werden. Die Annotation ganzer Cluster in einem Zug ermöglicht eine effiziente Annotation des Datensatzes. Die Vorsortierung stellt aufgrund der unbekannten Natur der Bilder eine große Schwierigkeit dar, die durch die Integration verschiedener Bildmerkmale in einen Bag-of-Features (BoF) Histogramm-Merkmalsvektor gelöst werden kann. Die Vorsortierung der Bilder kann während des Annotationsprozesses weiter verbessert werden, indem partiell verfügbare Annotationen in einem semi-überwachten Lernprozess eingesetzt werden. Anhand partieller Annotationen wird die Gewichtung der Bildmerkmale so angepasst, dass die Ähnlichkeit innerhalb einer Kategorie erhöht wird. Zusätzlich erlaubt die Identifikation diskriminativer Bildmerkmale eine Visualisierung relevanter Bildregionen, die Anwendern als Qualitätsmaß für die neu berechnete Vorsortierung der Bilder dienen kann. Die Benutzungsschnittstellen sind auf eine visuelle Informationsdarstellung ausgelegt. FOREST erlaubt Laien-Anwendern die Entwicklung aufgabenspezifischer Bilderkennungssysteme in einem einfach gehaltenen Entwicklungsprozess, der notwendige Interaktionen auf ein Minimum beschränkt. Dennoch ist FOREST für Experten-Anwender nutzbar. Neue Operatoren können leicht in das System integriert und effizient evaluiert werden. Die Ergebnisse aufgabenspezifischer Erkennungssysteme, die mit FOREST entwickelt wurden, sind mit den Ergebnissen spezialisierter Systeme vergleichbar. Die detaillierte Analyse der Klassifikation zeigt zudem, dass trotz der Annotation ganzer Bilder mit einer Kategorie relevante Objektstrukturen erkannt und automatisiert für die Erkennung herangezogen werden. Der Entwicklungsaufwand für die Erstellung eines aufgabenspezifischen Bilderkennungssystems ist nicht mit der gemeinhin bekannten Entwicklung von Bilderkennungssystemen vergleichbar, da das System keine Programmierkenntnisse, kein Fachwissen und keine Eigenentwicklung erwartet. FOREST bietet daher für fachfremde Anwender ein Entwicklungswerkzeug und ermöglicht die Entwicklung von Bilderkennungssystemen für alltägliche Aufgaben. Damit legt FOREST den Grundstein für einen breiten Einsatz von Bilderkennungsanwendungen im Alltag.

Time-Dependent Data: Classification and Visualization

Tanisaro, Pattreeya 14 November 2019 (has links)
The analysis of the immensity of data in space and time is a challenging task. For this thesis, the time-dependent data has been explored in various directions. The studies focused on data visualization, feature extraction, and data classification. The data that has been used in the studies comes from various well-recognized archives and has been the basis of numerous researches. The data characteristics ranged from the univariate time series to multivariate time series, from hand gestures to unconstrained views of general human movements. The experiments covered more than one hundred datasets. In addition, we also discussed the applications of visual analytics to video data. Two approaches were proposed to create a feature vector for time-dependent data classification. One is designed especially for a bio-inspired model for human motion recognition and the other is a subspace-based approach for arbitrary data characteristics. The extracted feature vectors of the proposed approaches can be easily visualized in two-dimensional space. For the classification, we experimented with various known models and offered a simple model using data in subspaces for light-weight computation. Furthermore, this method allows a data analyst to inspect feature vectors and detect an anomaly from a large collection of data simultaneously. Various classification techniques were compared and the findings were summarized. Hence, the studies can assist a researcher in picking an appropriate technique when setting up a corresponding model for a given characteristic of temporal data, and offer a new perspective for analyzing the time series data. This thesis is comprised of two parts. The first part gives an overview of time-dependent data and of this thesis with its focus on classification; the second part covers the collection of seven publications.

UAV Vermessung im Bergbau - Stand der Forschung und Ausblick

Tscharf, Alexander, Rumpler, Markus, Mayer, Gerhard, Fraundorfer, Friedrich, Bischof, Horst 29 July 2016 (has links)
Die Herstellung von optisch realistischen und hochgenauen 3D Modellen stellt eine zentrale Frage im Bereich der geodätischen und markscheiderischen Forschung dar. Mit dem zusehenden Aufkommen unbemannter Flugsysteme haben sich photogrammetrische Messsysteme als erschwingliche und flexible Alternative etabliert, wobei zur Gewährleistung definierter Genauigkeiten und somit zur Verwendung vergleichbarer Systeme für vermessungstechnische Anwendungen eine sorgfältige Flugplanung, Durchführung und Auswertung unbedingte Erfordernisse sind. Im vorliegenden Beitrag wird einerseits auf die laufenden Forschungen zu Genauigkeit und Anwendbarkeit der UAV-basierten Vermessung im Bergbau eingegangen und andererseits werden zukünftige Forschungstendenzen aufgezeigt, wodurch in neue, bislang nicht erreichbare Anwendungsfelder, vorgedrungen werden könnte. / Creating and visualizing realistic and accurate 3D models is a central ambition of research in the field of geodesy and mine surveying. Due to the increasing affordability of un-manned aerial vehicles (UAVs) photogrammetric systems have been well established as affordable and flexible alternative. In order to ensure a certain accuracy and thus to enable the usage for surveying applications, careful flight planning, implementation and evaluation are of special importance. This paper discusses the ongoing research on accuracy and applicability of UAV-based mine surveying as well as future research tendencies, whereby new, currently not achievable fields of application could be investigated.

Towards Dense Visual SLAM

Pietzsch, Tobias 07 June 2011 (has links)
Visual Simultaneous Localisation and Mapping (SLAM) is concerned with simultaneously estimating the pose of a camera and a map of the environment from a sequence of images. Traditionally, sparse maps comprising isolated point features have been employed, which facilitate robust localisation but are not well suited to advanced applications. In this thesis, we present map representations that allow a more dense description of the environment. In one approach, planar features are used to represent textured planar surfaces in the scene. This model is applied within a visual SLAM framework based on the Extended Kalman Filter. We presents solutions to several challenges which arise from this approach.

A Novel Approach for Spherical Stereo Vision / Ein Neuer Ansatz für Sphärisches Stereo Vision

Findeisen, Michel 27 April 2015 (has links) (PDF)
The Professorship of Digital Signal Processing and Circuit Technology of Chemnitz University of Technology conducts research in the field of three-dimensional space measurement with optical sensors. In recent years this field has made major progress. For example innovative, active techniques such as the “structured light“-principle are able to measure even homogeneous surfaces and find its way into the consumer electronic market in terms of Microsoft’s Kinect® at the present time. Furthermore, high-resolution optical sensors establish powerful, passive stereo vision systems in the field of indoor surveillance. Thereby they induce new application domains such as security and assistance systems for domestic environments. However, the constraint field of view can be still considered as an essential characteristic of all these technologies. For instance, in order to measure a volume in size of a living space, two to three deployed 3D sensors have to be applied nowadays. This is due to the fact that the commonly utilized perspective projection principle constrains the visible area to a field of view of approximately 120°. On the contrary, novel fish-eye lenses allow the realization of omnidirectional projection models. Therewith, the visible field of view can be enlarged up to more than 180°. In combination with a 3D measurement approach, thus, the number of required sensors for entire room coverage can be reduced considerably. Motivated by the requirements of the field of indoor surveillance, the present work focuses on the combination of the established stereo vision principle and omnidirectional projection methods. The entire 3D measurement of a living space by means of one single sensor can be considered as major objective. As a starting point for this thesis chapter 1 discusses the underlying requirement, referring to various relevant fields of application. Based on this, the distinct purpose for the present work is stated. The necessary mathematical foundations of computer vision are reflected in Chapter 2 subsequently. Based on the geometry of the optical imaging process, the projection characteristics of relevant principles are discussed and a generic method for modeling fish-eye cameras is selected. Chapter 3 deals with the extraction of depth information using classical (perceptively imaging) binocular stereo vision configurations. In addition to a complete recap of the processing chain, especially occurring measurement uncertainties are investigated. In the following, Chapter 4 addresses special methods to convert different projection models. The example of mapping an omnidirectional to a perspective projection is employed, in order to develop a method for accelerating this process and, hereby, for reducing the computational load associated therewith. Any errors that occur, as well as the necessary adjustment of image resolution, are an integral part of the investigation. As a practical example, an application for person tracking is utilized in order to demonstrate to which extend the usage of “virtual views“ can increase the recognition rate for people detectors in the context of omnidirectional monitoring. Subsequently, an extensive search with respect to omnidirectional imaging stereo vision techniques is conducted in chapter 5. It turns out that the complete 3D capture of a room is achievable by the generation of a hemispherical depth map. Therefore, three cameras have to be combined in order to form a trinocular stereo vision system. As a basis for further research, a known trinocular stereo vision method is selected. Furthermore, it is hypothesized that, applying a modified geometric constellation of cameras, more precisely in the form of an equilateral triangle, and using an alternative method to determine the depth map, the performance can be increased considerably. A novel method is presented, which shall require fewer operations to calculate the distance information and which is to avoid a computational costly step for depth map fusion as necessary in the comparative method. In order to evaluate the presented approach as well as the hypotheses, a hemispherical depth map is generated in Chapter 6 by means of the new method. Simulation results, based on artificially generated 3D space information and realistic system parameters, are presented and subjected to a subsequent error estimate. A demonstrator for generating real measurement information is introduced in Chapter 7. In addition, the methods that are applied for calibrating the system intrinsically as well as extrinsically are explained. It turns out that the calibration procedure utilized cannot estimate the extrinsic parameters sufficiently. Initial measurements present a hemispherical depth map and thus con.rm the operativeness of the concept, but also identify the drawbacks of the calibration used. The current implementation of the algorithm shows almost real-time behaviour. Finally, Chapter 8 summarizes the results obtained along the studies and discusses them in the context of comparable binocular and trinocular stereo vision approaches. For example the results of the simulations carried out produced a saving of up to 30% in terms of stereo correspondence operations in comparison with a referred trinocular method. Furthermore, the concept introduced allows the avoidance of a weighted averaging step for depth map fusion based on precision values that have to be calculated costly. The achievable accuracy is still comparable for both trinocular approaches. In summary, it can be stated that, in the context of the present thesis, a measurement system has been developed, which has great potential for future application fields in industry, security in public spaces as well as home environments.

Entwicklung eines UAV-basierten Systems zur Rehkitzsuche und Methoden zur Detektion und Georeferenzierung von Rehkitzen in Thermalbildern: Der Fliegende Wildretter

Israel, Martin 05 December 2016 (has links)
Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines UAV-basierten Systems und der zugehörigen Methodenentwicklung zur automatisierten Rehkitzsuche in Feldern. Jedes Jahr sterben sehr viele Wildtiere -- vor allem Rehkitze -- während dem Mähen von landwirtschaftlich genutzten Wiesen. Mit herkömmlichen Methoden ist es unter vertretbarem Aufwand bisher nicht gelungen, die Zahl der Mähopfer auf ein erträgliches Maß zu reduzieren. Mit der Entwicklung des in dieser Arbeit beschriebenen "Fliegenden Wildretters" könnte sich das in Zukunft ändern. Mit Hilfe einer Wärmebildkamera aus der Vogelperspektive lässt sich ein warmes Tier, wie ein Rehkitz, wesentlich leichter aufspüren, als mit herkömmlichen Methoden. Auslegung und Aufbau des Systems orientieren sich speziell an dem Aspekt, wie eine möglichst hohe Flächenleistung erreicht werden kann, ohne dabei Tiere zu übersehen. Drei Faktoren sind besonders wichtig, um dieses Ziel zu erreichen: Eine hohe Geschwindigkeit des gesamten Suchprozesses, eine zuverlässige Detektion und eine präzise Lokalisierung der Tiere. Durch Automatisierung lassen sich viele Teilaspekte dieser Aufgabe beschleunigen. Deshalb werden im Rahmen dieser Arbeit verschiedene Methoden entwickelt und validiert, unter anderem zur Flugplanung, Flugsteuerung, Bilddaten-Auswertung, Objekt-Detektion und Georeferenzierung. Die Kenntnis der Rehkitz-Merkmale und der Einflussgrößen bei der Thermalbilderfassung helfen, die Qualität der Detektion zu erhöhen, weshalb sie in dieser Arbeit besondere Berücksichtigung finden. Auch die Präzision der Lokalisierung lässt sich durch Kenntnis der Einflussgrößen auf die Positions- und Lagemessung des UAVs erhöhen. Anhand von umfangreichen Messkampagnen wird die Funktion und Qualität des Systems unter realen Bedingungen belegt.

