Return to search

Improving Deep Learning-based Object Detection Algorithms for Omnidirectional Images by Simulated Data

Perception, primarily through vision, is a vital human ability that informs decision-making and interactions with the world. Computer Vision, the field dedicated to emulating this human capability in computers, has witnessed transformative progress with the advent of artificial intelligence, particularly neural networks and deep learning. These technologies enable automatic feature learning, eliminating the need for laborious hand-crafted features. The increasing global demand for artificial intelligence applications across various industries, however, raises concerns about data privacy and access. This dissertation addresses these challenges by proposing solutions that leverage synthetic data to preserve privacy and enhance the robustness of computer vision algorithms. The primary objective of this dissertation is to reduce the dependence on real data for modern image processing algorithms by utilizing synthetic data generated through computer simulations. Synthetic data serves as a privacy-preserving alternative, enabling the generation of data in scenarios that are difficult or unsafe to replicate in the real world. While purely simulated data falls short of capturing the full complexity of reality, the dissertation explores methods to bridge the gap between synthetic and real data. The dissertation encompasses a comprehensive evaluation of the synthetic THEODORE dataset, focusing on object detection using Convolutional Neural Networks. Fine-tuning CNN architectures with synthetic data demonstrates remarkable performance improvements over relying solely on real-world data. Extending beyond person recognition, these architectures exhibit the ability to recognize various objects in real-world settings. This work also investigates real-time performance and the impact of barrel distortion in omnidirectional images, underlining the potential of using synthetic data. Furthermore, the dissertation introduces two unsupervised domain adaptation methods tailored for anchorless object detection within the CenterNet architecture. The methods effectively reduce the domain gap when synthetic omnidirectional images serve as the source domain, and real images act as the target domain. Qualitative assessments highlight the advantages of these methods in reducing noise and enhancing detection accuracy. The dissertation concludes with creating an application within the Ambient Assisted Living context to realize the concepts. This application encompasses indoor localization heatmaps, human pose estimation, and activity recognition. The methodology leverages synthetically generated data, unique object identifiers, and rotated bounding boxes to enhance tracking in omnidirectional images. Importantly, the system is designed to operate without compromising privacy or using sensitive images, aligning with the growing concerns of data privacy and access in artificial intelligence applications. / Die Wahrnehmung, insbesondere durch das Sehen, ist eine entscheidende menschliche Fähigkeit, die die Entscheidungsfindung und die Interaktion mit der Welt beeinflusst. Die Computer Vision, das Fachgebiet, das sich der Nachahmung dieser menschlichen Fähigkeit in Computern widmet, hat mit dem Aufkommen künstlicher Intelligenz, insbesondere neuronaler Netzwerke und tiefem Lernen, eine transformative Entwicklung erlebt. Diese Technologien ermöglichen das automatische Erlernen von Merkmalen und beseitigen die Notwendigkeit mühsamer, handgefertigter Merkmale. Die steigende weltweite Nachfrage nach Anwendungen künstlicher Intelligenz in verschiedenen Branchen wirft jedoch Bedenken hinsichtlich des Datenschutzes und des Datenzugriffs auf. Diese Dissertation begegnet diesen Herausforderungen, indem sie Lösungen vorschlägt, die auf synthetischen Daten basieren, um die Privatsphäre zu wahren und die Robustheit von Computer-Vision Algorithmen zu steigern. Das Hauptziel dieser Dissertation besteht darin, die Abhängigkeit von realen Daten für moderne Bildverarbeitungsalgorithmen durch die Verwendung von synthetischen Daten zu reduzieren, die durch Computersimulationen generiert werden. Synthetische Daten dienen als datenschutzfreundliche Alternative und ermöglichen die Generierung von Daten in Szenarien, die schwer oder unsicher in der realen Welt nachzustellen sind. Obwohl rein simulierte Daten die volle Komplexität der Realität nicht erfassen, erforscht die Dissertation Methoden zur Überbrückung der Kluft zwischen synthetischen und realen Daten. Die Dissertation umfasst eine Evaluation des synthetischen THEODORE-Datensatzes mit dem Schwerpunkt auf der Objekterkennung mithilfe von Convolutional Neural Networks. Das Feinabstimmen dieser Architekturen mit synthetischen Daten zeigt bemerkenswerte Leistungssteigerungen im Vergleich zur ausschließlichen Verwendung von realen Daten. Über die Erkennung von Personen hinaus zeigen diese Architekturen die Fähigkeit, verschiedene Objekte in realen Umgebungen zu erkennen. Untersucht wird auch die Echtzeit-Performance und der Einfluss der tonnenförmigen Verzerrung in omnidirektionalen Bildern und betont das Potenzial der Verwendung synthetischer Daten. Darüber hinaus führt die Dissertation zwei nicht überwachte Domänenanpassungsmethoden ein, die speziell für die ankerlose Objekterkennung in der CenterNetArchitektur entwickelt wurden. Die Methoden reduzieren effektiv die Domänenlücke, wenn synthetische omnidirektionale Bilder als Quelldomäne und reale Bilder als Zieldomäne dienen. Qualitative Bewertungen heben die Vorteile dieser Methoden bei der Reduzierung von Störungen und der Verbesserung der Erkennungsgenauigkeit hervor. Die Dissertation schließt mit der Entwicklung einer Anwendung im Kontext von Ambient Assisted Living zur Umsetzung der Konzepte. Diese Anwendung umfasst Innenlokalisierungskarten, die Schätzung der menschlichen Körperhaltung und die Erkennung von Aktivitäten. Die Methodologie nutzt synthetisch generierte Daten, eindeutige Objektidentifikatoren und rotierte Begrenzungsrahmen, um die Verfolgung in omnidirektionalen Bildern zu verbessern. Wichtig ist, dass das System entwickelt wurde, um ohne Beeinträchtigung der Privatsphäre oder Verwendung sensibler Bilder zu arbeiten, was den wachsenden Bedenken hinsichtlich des Datenschutzes und des Zugriffs auf Daten in Anwendungen künstlicher Intelligenz entspricht.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:92804
Date08 August 2024
CreatorsScheck, Tobias
ContributorsHirtz, Gangolf, Masrur, Alejandro, Technische Universität Chemnitz
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageEnglish
Detected LanguageGerman
Typeinfo:eu-repo/semantics/acceptedVersion, doc-type:doctoralThesis, info:eu-repo/semantics/doctoralThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0029 seconds