Die Entwicklung von Bilderkennungssystemen ist ein hochkomplexer Prozess, der derzeit
fast ausschließlich von Experten mit entsprechenden Fachkenntnissen bewältigt werden kann. Bilderkennungssysteme haben durch die allgegenwärtige Verfügbarkeit an Bilddaten und ihren kostenneutralen Einsatz das Potential, eine wichtige Rolle in der digitalisierten Gesellschaft zu spielen. Jedoch ist ihr Einsatz effektiv durch den nicht vorhandenen Zugang zu entsprechenden Entwicklungswerkzeugen limitiert. Diese Arbeit verfolgt das Ziel, ein Software-Framework bereitzustellen, das von Anwendern ohne Fachkenntnisse genutzt werden kann. Hierfür werden die einzelnen Schritte des Entwicklungsprozesses betrachtet und an diese Zielgruppe adaptiert. Im Detail bedeutet dies für das in dieser Arbeit präsentierte Software-Framework FOREST (Flexible Object Recognition System), dass
- der Entwicklungsprozess größtmöglich automatisiert abläuft,
- nicht automatisierbare Komponenten vereinfacht werden
- und eine intuitive Benutzungsoberfläche bereitgestellt wird, die keine Einarbeitungszeit und Fachkenntnisse erfordert. Im Gegensatz zu existierenden Entwicklungswerkzeugen ist das Ziel von FOREST nicht die Entwicklung eines speziellen Bilderkennungssystems, sondern die Adaption an die vom Anwender intendierte Erkennungsaufgabe. Allein durch die Auswahl einer Bilddatenquelle und der Annotation der Bilder lernt FOREST einen Klassifikator, der die Erkennungsaufgabe löst. Das resultierende Bilderkennungssystem wird auch als aufgabenspezifisches Bilderkennungssystem bezeichnet, da es speziell auf die gestellte Erkennungsaufgabe trainiert wurde. Beispielsweise kann eine Webcam genutzt werden, um geöffnete Fenster zu detektieren und so Wetterschäden oder einen Einbruch zu vermeiden. Die Bereitstellung eines Entwicklungswerkzeugs für Anwender ohne Fachkenntnisse wird durch die automatische Bildverarbeitung mit einer großen Menge an Operatoren für die Merkmalsdetektion und die Merkmalsextraktion realisiert. Die Auswahl diskriminativer Merkmalsdeskriptoren für die Klassifikation aus dem Merkmalsdatensatz wird während des Trainingsprozesses durch einen Boosting-Klassifikator geleistet. Die modulare und erweiterbare Struktur des Frameworks ist entscheidend für den langfristig erfolgreichen Einsatz des Systems. FOREST stellt spezifizierte Schnittstellen für den Zugriff auf das System durch Benutzungsschnittstellen und die Erweiterung der Erkennungsfunktionalität bereit. Die Komponenten des Systems können zentral bereitgestellt werden und erlauben so die Nutzung ohne eine lokale Installation durch den Anwender. Die Definition der Erkennungsaufgabe findet durch die Annotation der Bilder, also der Zuweisung einer Kategorie zu jedem Bild, statt. Die Annotation ist ein sehr aufwändiger Prozess, da sie manuell durchgeführt werden muss. Die Qualität der Trainingsdaten und die Qualität der Annotationen, also die Korrektheit, haben direkten Einfluss auf die Ergebnisse
des resultierenden Bilderkennungssystems. Der Annotationsaufwand wird mit Hilfe
eines semi-automatischen Prozesses reduziert, indem Bilder ihrer Ähnlichkeit nach vorsortiert und in einer optimierten Benutzungsoberfläche dargestellt werden. Die Annotation ganzer Cluster in einem Zug ermöglicht eine effiziente Annotation des Datensatzes. Die Vorsortierung stellt aufgrund der unbekannten Natur der Bilder eine große Schwierigkeit dar, die durch die Integration verschiedener Bildmerkmale in einen Bag-of-Features (BoF) Histogramm-Merkmalsvektor gelöst werden kann. Die Vorsortierung der Bilder kann während
des Annotationsprozesses weiter verbessert werden, indem partiell verfügbare Annotationen in einem semi-überwachten Lernprozess eingesetzt werden. Anhand partieller Annotationen wird die Gewichtung der Bildmerkmale so angepasst, dass die Ähnlichkeit innerhalb einer Kategorie erhöht wird. Zusätzlich erlaubt die Identifikation diskriminativer Bildmerkmale eine Visualisierung relevanter Bildregionen, die Anwendern als Qualitätsmaß für die neu berechnete Vorsortierung der Bilder dienen kann. Die Benutzungsschnittstellen sind auf eine visuelle Informationsdarstellung ausgelegt. FOREST erlaubt Laien-Anwendern die Entwicklung aufgabenspezifischer Bilderkennungssysteme in einem einfach gehaltenen Entwicklungsprozess, der notwendige Interaktionen auf ein Minimum beschränkt. Dennoch ist FOREST für Experten-Anwender nutzbar. Neue Operatoren können leicht in das System integriert und effizient evaluiert werden. Die Ergebnisse aufgabenspezifischer Erkennungssysteme, die mit FOREST entwickelt wurden, sind mit den Ergebnissen spezialisierter Systeme vergleichbar. Die detaillierte Analyse der Klassifikation zeigt zudem, dass trotz der Annotation ganzer Bilder mit einer Kategorie
relevante Objektstrukturen erkannt und automatisiert für die Erkennung herangezogen werden. Der Entwicklungsaufwand für die Erstellung eines aufgabenspezifischen Bilderkennungssystems ist nicht mit der gemeinhin bekannten Entwicklung von Bilderkennungssystemen vergleichbar, da das System keine Programmierkenntnisse, kein Fachwissen und keine Eigenentwicklung erwartet. FOREST bietet daher für fachfremde Anwender ein Entwicklungswerkzeug und ermöglicht die Entwicklung von Bilderkennungssystemen für alltägliche Aufgaben. Damit legt FOREST den Grundstein für einen breiten Einsatz von Bilderkennungsanwendungen im Alltag.
Identifer | oai:union.ndltd.org:uni-osnabrueck.de/oai:repositorium.ub.uni-osnabrueck.de:urn:nbn:de:gbv:700-2014072912641 |
Date | 29 July 2014 |
Creators | Möhrmann, Julia Mandy |
Contributors | Prof. Dr. Gunther Heidemann, Prof. Dr. Daniel Weiskopf, Prof. Dr. Kai-Uwe Kühnberger |
Source Sets | Universität Osnabrück |
Language | German |
Detected Language | German |
Type | doc-type:doctoralThesis |
Format | application/pdf, application/zip |
Rights | Attribution-NonCommercial-NoDerivatives 4.0 International, http://creativecommons.org/licenses/by-nc-nd/4.0/ |
Page generated in 0.0031 seconds