Spelling suggestions: "subject:"objektdetektering""
21 |
Entwicklung und Validierung methodischer Konzepte einer kamerabasierten Durchfahrtshöhenerkennung für NutzfahrzeugeHänert, Stephan 03 July 2020 (has links)
Die vorliegende Arbeit beschäftigt sich mit der Konzeptionierung und Entwicklung eines neuartigen Fahrerassistenzsystems für Nutzfahrzeuge, welches die lichte Höhe von vor dem Fahrzeug befindlichen Hindernissen berechnet und über einen Abgleich mit der einstellbaren Fahrzeughöhe die Passierbarkeit bestimmt. Dabei werden die von einer Monokamera aufgenommenen Bildsequenzen genutzt, um durch indirekte und direkte Rekonstruktionsverfahren ein 3D-Abbild der Fahrumgebung zu erschaffen. Unter Hinzunahme einer Radodometrie-basierten Eigenbewegungsschätzung wird die erstellte 3D-Repräsentation skaliert und eine Prädiktion der longitudinalen und lateralen Fahrzeugbewegung ermittelt. Basierend auf dem vertikalen Höhenplan der Straßenoberfläche, welcher über die Aneinanderreihung mehrerer Ebenen modelliert wird, erfolgt die Klassifizierung des 3D-Raums in Fahruntergrund, Struktur und potentielle Hindernisse.
Die innerhalb des Fahrschlauchs liegenden Hindernisse werden hinsichtlich ihrer Entfernung und Höhe bewertet. Ein daraus abgeleitetes Warnkonzept dient der optisch-akustischen Signalisierung des Hindernisses im Kombiinstrument des Fahrzeugs. Erfolgt keine entsprechende Reaktion durch den Fahrer, so wird bei kritischen Hindernishöhen eine Notbremsung durchgeführt.
Die geschätzte Eigenbewegung und berechneten Hindernisparameter werden mithilfe von Referenzsensorik bewertet. Dabei kommt eine dGPS-gestützte Inertialplattform sowie ein terrestrischer und mobiler Laserscanner zum Einsatz. Im Rahmen der Arbeit werden verschiedene Umgebungssituationen und Hindernistypen im urbanen und ländlichen Raum untersucht und Aussagen zur Genauigkeit und Zuverlässigkeit des Verfahrens getroffen. Ein wesentlicher Einflussfaktor auf die Dichte und Genauigkeit der 3D-Rekonstruktion ist eine gleichmäßige Umgebungsbeleuchtung innerhalb der Bildsequenzaufnahme. Es wird in diesem Zusammenhang zwingend auf den Einsatz einer Automotive-tauglichen Kamera verwiesen. Die durch die Radodometrie bestimmte Eigenbewegung eignet sich im langsamen Geschwindigkeitsbereich zur Skalierung des 3D-Punktraums. Dieser wiederum sollte durch eine Kombination aus indirektem und direktem Punktrekonstruktionsverfahren erstellt werden. Der indirekte Anteil stützt dabei die Initialisierung des Verfahrens zum Start der Funktion und ermöglicht eine robuste Kameraschätzung. Das direkte Verfahren ermöglicht die Rekonstruktion einer hohen Anzahl an 3D-Punkten auf den Hindernisumrissen, welche zumeist die Unterkante beinhalten. Die Unterkante kann in einer Entfernung bis zu 20 m detektiert und verfolgt werden. Der größte Einflussfaktor auf die Genauigkeit der Berechnung der lichten Höhe von Hindernissen ist die Modellierung des Fahruntergrunds. Zur Reduktion von Ausreißern in der Höhenberechnung eignet sich die Stabilisierung des Verfahrens durch die Nutzung von zeitlich vorher zur Verfügung stehenden Berechnungen. Als weitere Maßnahme zur Stabilisierung wird zudem empfohlen die Hindernisausgabe an den Fahrer und den automatischen Notbremsassistenten mittels einer Hysterese zu stützen.
Das hier vorgestellte System eignet sich für Park- und Rangiervorgänge und ist als kostengünstiges Fahrerassistenzsystem interessant für Pkw mit Aufbauten und leichte Nutzfahrzeuge. / The present work deals with the conception and development of a novel advanced driver assistance system for commercial vehicles, which estimates the clearance height of obstacles in front of the vehicle and determines the passability by comparison with the adjustable vehicle height. The image sequences captured by a mono camera are used to create a 3D representation of the driving environment using indirect and direct reconstruction methods. The 3D representation is scaled and a prediction of the longitudinal and lateral movement of the vehicle is determined with the aid of a wheel odometry-based estimation of the vehicle's own movement. Based on the vertical elevation
plan of the road surface, which is modelled by attaching several surfaces together, the 3D space is classified into driving surface, structure and potential obstacles. The obstacles within the predicted driving tube are evaluated with regard to their distance and height. A warning concept derived from this serves to visually and acoustically signal the obstacle in the vehicle's instrument cluster. If the driver does not respond accordingly, emergency braking will be applied at critical obstacle heights. The estimated vehicle movement and calculated obstacle parameters are evaluated with the aid of reference sensors. A dGPS-supported inertial measurement unit and a terrestrial as well as a mobile laser scanner are used. Within the scope of the work, different environmental situations and obstacle types in urban and rural areas are investigated and statements on the accuracy and reliability of the implemented function are made.
A major factor influencing the density and accuracy of 3D reconstruction is uniform ambient lighting within the image sequence. In this context, the use of an automotive camera is mandatory. The inherent motion determined by wheel odometry is suitable for scaling the 3D point space in the slow speed range. The 3D representation however, should be created by a combination of indirect and direct point reconstruction methods. The indirect part supports the initialization phase of the function and enables a robust camera estimation. The direct method enables the reconstruction of a large number of 3D points on the obstacle outlines, which usually contain the lower edge. The lower edge can be detected and tracked up to 20 m away. The biggest factor influencing the accuracy of the calculation of the clearance height of obstacles is the modelling of the driving surface. To reduce outliers in the height calculation, the method can be stabilized by using calculations from older time steps. As a further stabilization measure, it is also recommended to support the obstacle output to the driver and the automatic emergency brake assistant by means of hysteresis. The system presented here is suitable for parking and maneuvering operations and is interesting as a cost-effective driver assistance system for cars with superstructures and light commercial vehicles.
|
22 |
Optimierung von Algorithmen zur Videoanalyse: Ein Analyseframework für die Anforderungen lokaler FernsehsenderRitter, Marc 02 February 2015 (has links)
Die Datenbestände lokaler Fernsehsender umfassen oftmals mehrere zehntausend Videokassetten. Moderne Verfahren werden benötigt, um derartige Datenkollektionen inhaltlich automatisiert zu erschließen. Das Auffinden relevanter Objekte spielt dabei eine übergeordnete Rolle, wobei gesteigerte Anforderungen wie niedrige Fehler- und hohe Detektionsraten notwendig sind, um eine Korruption des Suchindex zu verhindern und erfolgreiche Recherchen zu ermöglichen. Zugleich müssen genügend Objekte indiziert werden, um Aussagen über den tatsächlichen Inhalt zu treffen.
Diese Arbeit befasst sich mit der Anpassung und Optimierung bestehender Detektionsverfahren. Dazu wird ein auf die hohen Leistungsbedürfnisse der Videoanalyse zugeschnittenes holistisches Workflow- und Prozesssystem mit der Zielstellung implementiert, die Entwicklung von Bilderkennungsalgorithmen, die Visualisierung von Zwischenschritten sowie deren Evaluation zu ermöglichen. Im Fokus stehen Verfahren zur strukturellen Zerlegung von Videomaterialien und zur inhaltlichen Analyse im Bereich der Gesichtsdetektion und Fußgängererkennung.:1. Motivation . . . 1
1.1. Einordnung in den Retrievalprozess . . . . . . . . . . . . . . . . . . . 2
1.2. Infrastruktur zur Optimierung von Verfahren zur Videoanalyse . . . . 4
1.3. Herausforderungen der Bilderkennung . . . . . . . . . . . . . . . . . . 6
1.4. Wissenschaftliche Ergebnisse dieser Arbeit . . . . . . . . . . . . . . . 9
1.5. Kapitelübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Methoden und Strategien der Videoanalyse . . . 15
2.1. Fachgebiete der Bilderkennung . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1. Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Maschinelles Sehen . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4. Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Strukturelle Analyse von generischen Mustererkennungsystemen . . . 22
2.2.1. Datenakquisition . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2. Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3. Musterklassifizierung . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.4. Bilderkennungssysteme . . . . . . . . . . . . . . . . . . . . . . 28
2.2.5. Wissensentdeckung in Datenbanken . . . . . . . . . . . . . . . 28
2.3. Bilderkennung in der inhaltsbasierten Bildsuche . . . . . . . . . . . . 29
2.3.1. Paradigmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2. Bildsignaturen . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3. Signaturtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.4. Lerntechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4. Holistische Bilderkennungssysteme im Überblick . . . . . . . . . . . . 44
2.4.1. Ein segment- und konturbasiertes CBIR-System . . . . . . . . 45
2.4.2. Biologisch inspirierte Systeme . . . . . . . . . . . . . . . . . . 48
2.4.3. Lernen aus wenigen Beispielen . . . . . . . . . . . . . . . . . . 51
2.5. Objekterkennung im Szenenkontext . . . . . . . . . . . . . . . . . . . 55
2.6. Aktuelle Grenzen der Muster- und Objekterkennung . . . . . . . . . . 60
2.7. Konzept eines generischen Workflows zur Objekterkennung in Videos . . . 64
2.7.1. Strukturelle Analyse . . . . . . . . . . . . . . . . . . . . . . . 64
2.7.2. Inhaltliche Analyse . . . . . . . . . . . . . . . . . . . . . . . . 66
2.7.3. Erweiterung des klassischen Paradigmas zur Objekterkennung . . . 67
2.7.4. Anwendungsdomänen . . . . . . . . . . . . . . . . . . . . . . . 68
2.8. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3. Systemarchitektur zur Optimierung von Bilderkennungsverfahren . . . 71
3.1. Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Softwaretechnische Anforderungen . . . . . . . . . . . . . . . . 72
3.1.2. Bewertung der Systemleistung . . . . . . . . . . . . . . . . . . 75
3.1.3. Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.4. Modellierung von Domänenwissen . . . . . . . . . . . . . . . . 90
3.1.5. Diskriminierbarkeit von Merkmalen . . . . . . . . . . . . . . . 92
3.1.6. Zusammenfassende Darstellung . . . . . . . . . . . . . . . . . 95
3.2. Architektur des Gesamtsystems . . . . . . . . . . . . . . . . . . . . . 95
3.3. Struktureller Aufbau von AMOPA . . . . . . . . . . . . . . . . . . . 97
3.3.1. Verwendung von Prozessketten . . . . . . . . . . . . . . . . . 101
3.3.2. Bild- und Videoverarbeitung . . . . . . . . . . . . . . . . . . . 106
3.4. Annotation von Bildern und Videos . . . . . . . . . . . . . . . . . . . 107
3.4.1. Ein Annotationswerkzeug für Videos . . . . . . . . . . . . . . 108
3.4.2. Ein Ansatz zu Annotation, Klassifikation und Evaluation . . . 111
3.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4. Videosegmentierung . . . 119
4.1. Schnitterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.1. Struktureller Aufbau von Videos . . . . . . . . . . . . . . . . 121
4.1.2. Klassische Verfahren . . . . . . . . . . . . . . . . . . . . . . . 124
4.1.3. TRECVid: Evaluationskampagne und Datensätze . . . . . . . 125
4.1.4. Das Verfahren von AT&T . . . . . . . . . . . . . . . . . . . . 130
4.2. Schnittkomposition und Ähnlichkeit . . . . . . . . . . . . . . . . . . . 137
4.2.1. Dominant-Color-Deskriptor . . . . . . . . . . . . . . . . . . . 140
4.2.2. Color-Layout-Deskriptor . . . . . . . . . . . . . . . . . . . . . 140
4.2.3. Scalable-Color-Deskriptor . . . . . . . . . . . . . . . . . . . . 141
4.2.4. Edge-Histogram-Deskriptor . . . . . . . . . . . . . . . . . . . 142
4.3. Konzeption und Implementierung . . . . . . . . . . . . . . . . . . . . 143
4.3.1. Einbindung in das Prozesskonzept von AMOPA . . . . . . . . 144
4.3.2. Auswahl des Farbraums . . . . . . . . . . . . . . . . . . . . . 148
4.3.3. Bewegungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 151
4.3.4. Bestimmung und Verifikation von Schnittkandidaten . . . . . 159
4.3.5. Ergebnisdarstellung und -speicherung . . . . . . . . . . . . . . 171
4.4. Evaluation und Optimierung der harten Schnitterkennung . . . . . . 173
4.4.1. Die TRECVid Evaluationsmethodologie . . . . . . . . . . . . 174
4.4.2. Optimierung von Recall und Laufzeit . . . . . . . . . . . . . . 176
4.4.3. Optimierung der Precision . . . . . . . . . . . . . . . . . . . . 181
4.4.4. Validierung der Ergebnisse . . . . . . . . . . . . . . . . . . . . 183
4.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5. Gesichtsdetektion . . . 187
5.1. Stand der Technik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.1.1. Verfahrensklassen und Datensätze . . . . . . . . . . . . . . . . 189
5.1.2. Boosting-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2. Realisierung eines Systems zur Musterklassifizierung . . . . . . . . . . 200
5.2.1. Trainingsphase . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.2.2. Klassifikation mit Hilfe von Detektorketten . . . . . . . . . . . 203
5.2.3. Erlernen eines geboosteten Gesichtsklassifikators . . . . . . . . 206
5.2.4. Exkurs: Gesichtslokalisation mittels Schwarmintelligenz . . . . 210
5.3. Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.1. Datensatz TS100 . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.2. Annotation von Gesichtern in unbeschränkten Domänen . . . 217
5.3.3. Evaluationsmethodik und Ergebnisdiskussion . . . . . . . . . . 218
5.4. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6. Erkennung weiterer Objektklassen am Beispiel von Personen . . . 229
6.1. Merkmale für die Personenerkennung . . . . . . . . . . . . . . . . . . 230
6.2. Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
6.3. Evaluation von Merkmalen auf verschiedenen Datensätzen . . . . . . 234
6.3.1. Evaluationsmethodik . . . . . . . . . . . . . . . . . . . . . . . 235
6.3.2. Auswertung und Ergebnisdiskussion . . . . . . . . . . . . . . . 238
6.4. Evaluation eines kaskadierten Klassifikationssystems . . . . . . . . . . 242
6.4.1. Systemarchitektur und Training . . . . . . . . . . . . . . . . . 242
6.4.2. Klassifikation und Evaluation . . . . . . . . . . . . . . . . . . 244
6.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7. Zusammenfassung und Ausblick . . . 251
Anhang . . . 257
A. Übersicht zu den Experimenten zur Schnitterkennung . . . . . . . . . 259
A.1. Konfiguration und Laufzeiten der Experimente . . . . . . . . . 259
A.2. Stufe I: Farbraum und Bewegungsschätzung . . . . . . . . . . 261
A.3. Stufe II: Optimierung der Precision . . . . . . . . . . . . . . . 261
A.4. Echtzeitfähige Datenvisualisierung . . . . . . . . . . . . . . . . 267
A.5. Visualisierung einzelner Komponenten an Beispielen . . . . . . 269
B. Ergänzungen zu den Experimenten zur Gesichtsdetektion . . . . . . . 273
B.1. Trainingsverlauf des Klassifikators TUC FD . . . . . . . . . . 273
B.2. Übersicht zu den Mindestdetektionsgrößen auf TS100 . . . . . 273
B.3. Visualisierung der Detektionen auf TS100 . . . . . . . . . . . 279
C. Systemkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Verzeichnis der Abkürzungen und Begriffe . . . v
Literaturverzeichnis . . . vii / The data collections of local television stations often consist of multiples of ten thousand video tapes. Modern methods are needed to exploit the content of such archives. While the retrieval of objects plays a fundamental role, essential requirements incorporate low false and high detection rates in order to prevent the corruption of the search index. However, a sufficient number of objects need to be found to make assumptions about the content explored.
This work focuses on the adjustment and optimization of existing detection techniques. Therefor, the author develops a holistic framework that directly reflects on the high demands of video analysis with the aim to facilitate the development of image processing algorithms, the visualization of intermediate results, and their evaluation and optimization. The effectiveness of the system is demonstrated on the structural decomposition of video footage and on content-based detection of faces and pedestrians.:1. Motivation . . . 1
1.1. Einordnung in den Retrievalprozess . . . . . . . . . . . . . . . . . . . 2
1.2. Infrastruktur zur Optimierung von Verfahren zur Videoanalyse . . . . 4
1.3. Herausforderungen der Bilderkennung . . . . . . . . . . . . . . . . . . 6
1.4. Wissenschaftliche Ergebnisse dieser Arbeit . . . . . . . . . . . . . . . 9
1.5. Kapitelübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Methoden und Strategien der Videoanalyse . . . 15
2.1. Fachgebiete der Bilderkennung . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1. Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Maschinelles Sehen . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4. Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Strukturelle Analyse von generischen Mustererkennungsystemen . . . 22
2.2.1. Datenakquisition . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2. Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3. Musterklassifizierung . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.4. Bilderkennungssysteme . . . . . . . . . . . . . . . . . . . . . . 28
2.2.5. Wissensentdeckung in Datenbanken . . . . . . . . . . . . . . . 28
2.3. Bilderkennung in der inhaltsbasierten Bildsuche . . . . . . . . . . . . 29
2.3.1. Paradigmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2. Bildsignaturen . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3. Signaturtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.4. Lerntechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4. Holistische Bilderkennungssysteme im Überblick . . . . . . . . . . . . 44
2.4.1. Ein segment- und konturbasiertes CBIR-System . . . . . . . . 45
2.4.2. Biologisch inspirierte Systeme . . . . . . . . . . . . . . . . . . 48
2.4.3. Lernen aus wenigen Beispielen . . . . . . . . . . . . . . . . . . 51
2.5. Objekterkennung im Szenenkontext . . . . . . . . . . . . . . . . . . . 55
2.6. Aktuelle Grenzen der Muster- und Objekterkennung . . . . . . . . . . 60
2.7. Konzept eines generischen Workflows zur Objekterkennung in Videos . . . 64
2.7.1. Strukturelle Analyse . . . . . . . . . . . . . . . . . . . . . . . 64
2.7.2. Inhaltliche Analyse . . . . . . . . . . . . . . . . . . . . . . . . 66
2.7.3. Erweiterung des klassischen Paradigmas zur Objekterkennung . . . 67
2.7.4. Anwendungsdomänen . . . . . . . . . . . . . . . . . . . . . . . 68
2.8. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3. Systemarchitektur zur Optimierung von Bilderkennungsverfahren . . . 71
3.1. Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Softwaretechnische Anforderungen . . . . . . . . . . . . . . . . 72
3.1.2. Bewertung der Systemleistung . . . . . . . . . . . . . . . . . . 75
3.1.3. Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.4. Modellierung von Domänenwissen . . . . . . . . . . . . . . . . 90
3.1.5. Diskriminierbarkeit von Merkmalen . . . . . . . . . . . . . . . 92
3.1.6. Zusammenfassende Darstellung . . . . . . . . . . . . . . . . . 95
3.2. Architektur des Gesamtsystems . . . . . . . . . . . . . . . . . . . . . 95
3.3. Struktureller Aufbau von AMOPA . . . . . . . . . . . . . . . . . . . 97
3.3.1. Verwendung von Prozessketten . . . . . . . . . . . . . . . . . 101
3.3.2. Bild- und Videoverarbeitung . . . . . . . . . . . . . . . . . . . 106
3.4. Annotation von Bildern und Videos . . . . . . . . . . . . . . . . . . . 107
3.4.1. Ein Annotationswerkzeug für Videos . . . . . . . . . . . . . . 108
3.4.2. Ein Ansatz zu Annotation, Klassifikation und Evaluation . . . 111
3.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4. Videosegmentierung . . . 119
4.1. Schnitterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.1. Struktureller Aufbau von Videos . . . . . . . . . . . . . . . . 121
4.1.2. Klassische Verfahren . . . . . . . . . . . . . . . . . . . . . . . 124
4.1.3. TRECVid: Evaluationskampagne und Datensätze . . . . . . . 125
4.1.4. Das Verfahren von AT&T . . . . . . . . . . . . . . . . . . . . 130
4.2. Schnittkomposition und Ähnlichkeit . . . . . . . . . . . . . . . . . . . 137
4.2.1. Dominant-Color-Deskriptor . . . . . . . . . . . . . . . . . . . 140
4.2.2. Color-Layout-Deskriptor . . . . . . . . . . . . . . . . . . . . . 140
4.2.3. Scalable-Color-Deskriptor . . . . . . . . . . . . . . . . . . . . 141
4.2.4. Edge-Histogram-Deskriptor . . . . . . . . . . . . . . . . . . . 142
4.3. Konzeption und Implementierung . . . . . . . . . . . . . . . . . . . . 143
4.3.1. Einbindung in das Prozesskonzept von AMOPA . . . . . . . . 144
4.3.2. Auswahl des Farbraums . . . . . . . . . . . . . . . . . . . . . 148
4.3.3. Bewegungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 151
4.3.4. Bestimmung und Verifikation von Schnittkandidaten . . . . . 159
4.3.5. Ergebnisdarstellung und -speicherung . . . . . . . . . . . . . . 171
4.4. Evaluation und Optimierung der harten Schnitterkennung . . . . . . 173
4.4.1. Die TRECVid Evaluationsmethodologie . . . . . . . . . . . . 174
4.4.2. Optimierung von Recall und Laufzeit . . . . . . . . . . . . . . 176
4.4.3. Optimierung der Precision . . . . . . . . . . . . . . . . . . . . 181
4.4.4. Validierung der Ergebnisse . . . . . . . . . . . . . . . . . . . . 183
4.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5. Gesichtsdetektion . . . 187
5.1. Stand der Technik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.1.1. Verfahrensklassen und Datensätze . . . . . . . . . . . . . . . . 189
5.1.2. Boosting-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2. Realisierung eines Systems zur Musterklassifizierung . . . . . . . . . . 200
5.2.1. Trainingsphase . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.2.2. Klassifikation mit Hilfe von Detektorketten . . . . . . . . . . . 203
5.2.3. Erlernen eines geboosteten Gesichtsklassifikators . . . . . . . . 206
5.2.4. Exkurs: Gesichtslokalisation mittels Schwarmintelligenz . . . . 210
5.3. Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.1. Datensatz TS100 . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.2. Annotation von Gesichtern in unbeschränkten Domänen . . . 217
5.3.3. Evaluationsmethodik und Ergebnisdiskussion . . . . . . . . . . 218
5.4. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6. Erkennung weiterer Objektklassen am Beispiel von Personen . . . 229
6.1. Merkmale für die Personenerkennung . . . . . . . . . . . . . . . . . . 230
6.2. Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
6.3. Evaluation von Merkmalen auf verschiedenen Datensätzen . . . . . . 234
6.3.1. Evaluationsmethodik . . . . . . . . . . . . . . . . . . . . . . . 235
6.3.2. Auswertung und Ergebnisdiskussion . . . . . . . . . . . . . . . 238
6.4. Evaluation eines kaskadierten Klassifikationssystems . . . . . . . . . . 242
6.4.1. Systemarchitektur und Training . . . . . . . . . . . . . . . . . 242
6.4.2. Klassifikation und Evaluation . . . . . . . . . . . . . . . . . . 244
6.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7. Zusammenfassung und Ausblick . . . 251
Anhang . . . 257
A. Übersicht zu den Experimenten zur Schnitterkennung . . . . . . . . . 259
A.1. Konfiguration und Laufzeiten der Experimente . . . . . . . . . 259
A.2. Stufe I: Farbraum und Bewegungsschätzung . . . . . . . . . . 261
A.3. Stufe II: Optimierung der Precision . . . . . . . . . . . . . . . 261
A.4. Echtzeitfähige Datenvisualisierung . . . . . . . . . . . . . . . . 267
A.5. Visualisierung einzelner Komponenten an Beispielen . . . . . . 269
B. Ergänzungen zu den Experimenten zur Gesichtsdetektion . . . . . . . 273
B.1. Trainingsverlauf des Klassifikators TUC FD . . . . . . . . . . 273
B.2. Übersicht zu den Mindestdetektionsgrößen auf TS100 . . . . . 273
B.3. Visualisierung der Detektionen auf TS100 . . . . . . . . . . . 279
C. Systemkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Verzeichnis der Abkürzungen und Begriffe . . . v
Literaturverzeichnis . . . vii
|
23 |
From Pixels to Predators: Wildlife Monitoring with Machine Learning / Från Pixlar till Rovdjur: Viltövervakning med MaskininlärningEriksson, Max January 2024 (has links)
This master’s thesis investigates the application of advanced machine learning models for the identification and classification of Swedish predators using camera trap images. With the growing threats to biodiversity, there is an urgent need for innovative and non-intrusive monitoring techniques. This study focuses on the development and evaluation of object detection models, including YOLOv5, YOLOv8, YOLOv9, and Faster R-CNN, aiming to enhance the surveillance capabilities of Swedish predatory species such as bears, wolves, lynxes, foxes, and wolverines. The research leverages a dataset from the NINA database, applying data preprocessing and augmentation techniques to ensure robust model training. The models were trained and evaluated using various dataset sizes and conditions, including day and night images. Notably, YOLOv8 and YOLOv9 underwent extended training for 300 epochs, leading to significant improvements in performance metrics. The performance of the models was evaluated using metrics such as mean Average Precision (mAP), precision, recall, and F1-score. YOLOv9, with its innovative Programmable Gradient Information (PGI) and GELAN architecture, demonstrated superior accuracy and reliability, achieving an F1-score of 0.98 on the expanded dataset. The research found that training models on images captured during both day and night jointly versus separately resulted in only minor differences in performance. However, models trained exclusively on daytime images showed slightly better performance due to more consistent and favorable lighting conditions. The study also revealed a positive correlation between the size of the training dataset and model performance, with larger datasets yielding better results across all metrics. However, the marginal gains decreased as the dataset size increased, suggesting diminishing returns. Among the species studied, foxes were the least challenging for the models to detect and identify, while wolves presented more significant challenges, likely due to their complex fur patterns and coloration blending with the background.
|
Page generated in 0.0841 seconds