41 |
Descripteurs d'images pour les systèmes de vision routiers en situations atmosphériques dégradées et caractérisation des hydrométéores / Image descriptors for road computer vision systems in adverse weather conditions and hydrometeors caracterisationDuthon, Pierre 01 December 2017 (has links)
Les systèmes de vision artificielle sont de plus en plus présents en contexte routier. Ils sont installés sur l'infrastructure, pour la gestion du trafic, ou placés à l'intérieur du véhicule, pour proposer des aides à la conduite. Dans les deux cas, les systèmes de vision artificielle visent à augmenter la sécurité et à optimiser les déplacements. Une revue bibliographique retrace les origines et le développement des algorithmes de vision artificielle en contexte routier. Elle permet de démontrer l'importance des descripteurs d'images dans la chaîne de traitement des algorithmes. Elle se poursuit par une revue des descripteurs d'images avec une nouvelle approche source de nombreuses analyses, en les considérant en parallèle des applications finales. En conclusion, la revue bibliographique permet de déterminer quels sont les descripteurs d'images les plus représentatifs en contexte routier. Plusieurs bases de données contenant des images et les données météorologiques associées (ex : pluie, brouillard) sont ensuite présentées. Ces bases de données sont innovantes car l'acquisition des images et la mesure des conditions météorologiques sont effectuées en même temps et au même endroit. De plus, des capteurs météorologiques calibrés sont utilisés. Chaque base de données contient différentes scènes (ex: cible noir et blanc, piéton) et divers types de conditions météorologiques (ex: pluie, brouillard, jour, nuit). Les bases de données contiennent des conditions météorologiques naturelles, reproduites artificiellement et simulées numériquement. Sept descripteurs d'images parmi les plus représentatifs du contexte routier ont ensuite été sélectionnés et leur robustesse en conditions de pluie évaluée. Les descripteurs d'images basés sur l'intensité des pixels ou les contours verticaux sont sensibles à la pluie. A l'inverse, le descripteur de Harris et les descripteurs qui combinent différentes orientations sont robustes pour des intensités de pluie de 0 à 30 mm/h. La robustesse des descripteurs d'images en conditions de pluie diminue lorsque l'intensité de pluie augmente. Finalement, les descripteurs les plus sensibles à la pluie peuvent potentiellement être utilisés pour des applications de détection de la pluie par caméra.Le comportement d'un descripteur d'images en conditions météorologiques dégradées n'est pas forcément relié à celui de la fonction finale associée. Pour cela, deux détecteurs de piéton ont été évalués en conditions météorologiques dégradées (pluie, brouillard, jour, nuit). La nuit et le brouillard sont les conditions qui ont l'impact le plus important sur la détection des piétons. La méthodologie développée et la base de données associée peuvent être utilisées à nouveau pour évaluer d'autres fonctions finales (ex: détection de véhicule, détection de signalisation verticale).En contexte routier, connaitre les conditions météorologiques locales en temps réel est essentiel pour répondre aux deux enjeux que sont l'amélioration de la sécurité et l'optimisation des déplacements. Actuellement, le seul moyen de mesurer ces conditions le long des réseaux est l'installation de stations météorologiques. Ces stations sont coûteuses et nécessitent une maintenance particulière. Cependant, de nombreuses caméras sont déjà présentes sur le bord des routes. Une nouvelle méthode de détection des conditions météorologiques utilisant les caméras de surveillance du trafic est donc proposée. Cette méthode utilise des descripteurs d'images et un réseau de neurones. Elle répond à un ensemble de contraintes clairement établies afin de pouvoir détecter l'ensemble des conditions météorologiques en temps réel, mais aussi de pourvoir proposer plusieurs niveaux d'intensité. La méthode proposée permet de détecter les conditions normales de jour, de nuit, la pluie et le brouillard. Après plusieurs phases d'optimisation, la méthode proposée obtient de meilleurs résultats que ceux obtenus dans la littérature, pour des algorithmes comparables. / Computer vision systems are increasingly being used on roads. They can be installed along infrastructure for traffic monitoring purposes. When mounted in vehicles, they perform driver assistance functions. In both cases, computer vision systems enhance road safety and streamline travel.A literature review starts by retracing the introduction and rollout of computer vision algorithms in road environments, and goes on to demonstrate the importance of image descriptors in the processing chains implemented in such algorithms. It continues with a review of image descriptors from a novel approach, considering them in parallel with final applications, which opens up numerous analytical angles. Finally the literature review makes it possible to assess which descriptors are the most representative in road environments.Several databases containing images and associated meteorological data (e.g. rain, fog) are then presented. These databases are completely original because image acquisition and weather condition measurement are at the same location and the same time. Moreover, calibrated meteorological sensors are used. Each database contains different scenes (e.g. black and white target, pedestrian) and different kind of weather (i.e. rain, fog, daytime, night-time). Databases contain digitally simulated, artificial and natural weather conditions.Seven of the most representative image descriptors in road context are then selected and their robustness in rainy conditions is evaluated. Image descriptors based on pixel intensity and those that use vertical edges are sensitive to rainy conditions. Conversely, the Harris feature and features that combine different edge orientations remain robust for rainfall rates ranging in 0 – 30 mm/h. The robustness of image features in rainy conditions decreases as the rainfall rate increases. Finally, the image descriptors most sensitive to rain have potential for use in a camera-based rain classification application.The image descriptor behaviour in adverse weather conditions is not necessarily related to the associated final function one. Thus, two pedestrian detectors were assessed in degraded weather conditions (rain, fog, daytime, night-time). Night-time and fog are the conditions that have the greatest impact on pedestrian detection. The methodology developed and associated database could be reused to assess others final functions (e.g. vehicle detection, traffic sign detection).In road environments, real-time knowledge of local weather conditions is an essential prerequisite for addressing the twin challenges of enhancing road safety and streamlining travel. Currently, the only mean of quantifying weather conditions along a road network requires the installation of meteorological stations. Such stations are costly and must be maintained; however, large numbers of cameras are already installed on the roadside. A new method that uses road traffic cameras to detect weather conditions has therefore been proposed. This method uses a combination of a neural network and image descriptors applied to image patches. It addresses a clearly defined set of constraints relating to the ability to operate in real-time and to classify the full spectrum of meteorological conditions and grades them according to their intensity. The method differentiates between normal daytime, rain, fog and normal night-time weather conditions. After several optimisation steps, the proposed method obtains better results than the ones reported in the literature for comparable algorithms.
|
42 |
A new approach for pedestrian tracking and status analysisJiang, Pingge January 2013 (has links)
Indiana University-Purdue University Indianapolis (IUPUI) / Pedestrian and vehicle interaction analysis in a naturalistic driving environment can provide useful information for designing vehicle-pedestrian crash warning/mitigation systems. Many researchers have used crash data to understand and study pedestrian behaviors and interactions between vehicles and pedestrian during crash. However, crash data may not provide detailed pedestrian-vehicle interaction information for us.
In this thesis, we designed an automatic pedestrian tracking and status analysis method to process and study pedestrian and vehicle interactions. The proposed pedestrian tracking and status analysis method includes pedestrian detection, pedestrian tracking and pedestrian status analysis modules.
The main contributions of this thesis are: we designed a new pedestrian tracking method by learning the pedestrian appearance and also their motion pattern. We designed a pedestrian status estimation method by using our tracking results and thus helped estimate the possibility of collision.
Our preliminary experiment results using naturalistic driving data showed promising results.
|
43 |
Optimierung von Algorithmen zur Videoanalyse: Ein Analyseframework für die Anforderungen lokaler FernsehsenderRitter, Marc 02 February 2015 (has links)
Die Datenbestände lokaler Fernsehsender umfassen oftmals mehrere zehntausend Videokassetten. Moderne Verfahren werden benötigt, um derartige Datenkollektionen inhaltlich automatisiert zu erschließen. Das Auffinden relevanter Objekte spielt dabei eine übergeordnete Rolle, wobei gesteigerte Anforderungen wie niedrige Fehler- und hohe Detektionsraten notwendig sind, um eine Korruption des Suchindex zu verhindern und erfolgreiche Recherchen zu ermöglichen. Zugleich müssen genügend Objekte indiziert werden, um Aussagen über den tatsächlichen Inhalt zu treffen.
Diese Arbeit befasst sich mit der Anpassung und Optimierung bestehender Detektionsverfahren. Dazu wird ein auf die hohen Leistungsbedürfnisse der Videoanalyse zugeschnittenes holistisches Workflow- und Prozesssystem mit der Zielstellung implementiert, die Entwicklung von Bilderkennungsalgorithmen, die Visualisierung von Zwischenschritten sowie deren Evaluation zu ermöglichen. Im Fokus stehen Verfahren zur strukturellen Zerlegung von Videomaterialien und zur inhaltlichen Analyse im Bereich der Gesichtsdetektion und Fußgängererkennung.:1. Motivation . . . 1
1.1. Einordnung in den Retrievalprozess . . . . . . . . . . . . . . . . . . . 2
1.2. Infrastruktur zur Optimierung von Verfahren zur Videoanalyse . . . . 4
1.3. Herausforderungen der Bilderkennung . . . . . . . . . . . . . . . . . . 6
1.4. Wissenschaftliche Ergebnisse dieser Arbeit . . . . . . . . . . . . . . . 9
1.5. Kapitelübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Methoden und Strategien der Videoanalyse . . . 15
2.1. Fachgebiete der Bilderkennung . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1. Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Maschinelles Sehen . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4. Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Strukturelle Analyse von generischen Mustererkennungsystemen . . . 22
2.2.1. Datenakquisition . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2. Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3. Musterklassifizierung . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.4. Bilderkennungssysteme . . . . . . . . . . . . . . . . . . . . . . 28
2.2.5. Wissensentdeckung in Datenbanken . . . . . . . . . . . . . . . 28
2.3. Bilderkennung in der inhaltsbasierten Bildsuche . . . . . . . . . . . . 29
2.3.1. Paradigmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2. Bildsignaturen . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3. Signaturtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.4. Lerntechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4. Holistische Bilderkennungssysteme im Überblick . . . . . . . . . . . . 44
2.4.1. Ein segment- und konturbasiertes CBIR-System . . . . . . . . 45
2.4.2. Biologisch inspirierte Systeme . . . . . . . . . . . . . . . . . . 48
2.4.3. Lernen aus wenigen Beispielen . . . . . . . . . . . . . . . . . . 51
2.5. Objekterkennung im Szenenkontext . . . . . . . . . . . . . . . . . . . 55
2.6. Aktuelle Grenzen der Muster- und Objekterkennung . . . . . . . . . . 60
2.7. Konzept eines generischen Workflows zur Objekterkennung in Videos . . . 64
2.7.1. Strukturelle Analyse . . . . . . . . . . . . . . . . . . . . . . . 64
2.7.2. Inhaltliche Analyse . . . . . . . . . . . . . . . . . . . . . . . . 66
2.7.3. Erweiterung des klassischen Paradigmas zur Objekterkennung . . . 67
2.7.4. Anwendungsdomänen . . . . . . . . . . . . . . . . . . . . . . . 68
2.8. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3. Systemarchitektur zur Optimierung von Bilderkennungsverfahren . . . 71
3.1. Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Softwaretechnische Anforderungen . . . . . . . . . . . . . . . . 72
3.1.2. Bewertung der Systemleistung . . . . . . . . . . . . . . . . . . 75
3.1.3. Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.4. Modellierung von Domänenwissen . . . . . . . . . . . . . . . . 90
3.1.5. Diskriminierbarkeit von Merkmalen . . . . . . . . . . . . . . . 92
3.1.6. Zusammenfassende Darstellung . . . . . . . . . . . . . . . . . 95
3.2. Architektur des Gesamtsystems . . . . . . . . . . . . . . . . . . . . . 95
3.3. Struktureller Aufbau von AMOPA . . . . . . . . . . . . . . . . . . . 97
3.3.1. Verwendung von Prozessketten . . . . . . . . . . . . . . . . . 101
3.3.2. Bild- und Videoverarbeitung . . . . . . . . . . . . . . . . . . . 106
3.4. Annotation von Bildern und Videos . . . . . . . . . . . . . . . . . . . 107
3.4.1. Ein Annotationswerkzeug für Videos . . . . . . . . . . . . . . 108
3.4.2. Ein Ansatz zu Annotation, Klassifikation und Evaluation . . . 111
3.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4. Videosegmentierung . . . 119
4.1. Schnitterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.1. Struktureller Aufbau von Videos . . . . . . . . . . . . . . . . 121
4.1.2. Klassische Verfahren . . . . . . . . . . . . . . . . . . . . . . . 124
4.1.3. TRECVid: Evaluationskampagne und Datensätze . . . . . . . 125
4.1.4. Das Verfahren von AT&T . . . . . . . . . . . . . . . . . . . . 130
4.2. Schnittkomposition und Ähnlichkeit . . . . . . . . . . . . . . . . . . . 137
4.2.1. Dominant-Color-Deskriptor . . . . . . . . . . . . . . . . . . . 140
4.2.2. Color-Layout-Deskriptor . . . . . . . . . . . . . . . . . . . . . 140
4.2.3. Scalable-Color-Deskriptor . . . . . . . . . . . . . . . . . . . . 141
4.2.4. Edge-Histogram-Deskriptor . . . . . . . . . . . . . . . . . . . 142
4.3. Konzeption und Implementierung . . . . . . . . . . . . . . . . . . . . 143
4.3.1. Einbindung in das Prozesskonzept von AMOPA . . . . . . . . 144
4.3.2. Auswahl des Farbraums . . . . . . . . . . . . . . . . . . . . . 148
4.3.3. Bewegungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 151
4.3.4. Bestimmung und Verifikation von Schnittkandidaten . . . . . 159
4.3.5. Ergebnisdarstellung und -speicherung . . . . . . . . . . . . . . 171
4.4. Evaluation und Optimierung der harten Schnitterkennung . . . . . . 173
4.4.1. Die TRECVid Evaluationsmethodologie . . . . . . . . . . . . 174
4.4.2. Optimierung von Recall und Laufzeit . . . . . . . . . . . . . . 176
4.4.3. Optimierung der Precision . . . . . . . . . . . . . . . . . . . . 181
4.4.4. Validierung der Ergebnisse . . . . . . . . . . . . . . . . . . . . 183
4.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5. Gesichtsdetektion . . . 187
5.1. Stand der Technik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.1.1. Verfahrensklassen und Datensätze . . . . . . . . . . . . . . . . 189
5.1.2. Boosting-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2. Realisierung eines Systems zur Musterklassifizierung . . . . . . . . . . 200
5.2.1. Trainingsphase . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.2.2. Klassifikation mit Hilfe von Detektorketten . . . . . . . . . . . 203
5.2.3. Erlernen eines geboosteten Gesichtsklassifikators . . . . . . . . 206
5.2.4. Exkurs: Gesichtslokalisation mittels Schwarmintelligenz . . . . 210
5.3. Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.1. Datensatz TS100 . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.2. Annotation von Gesichtern in unbeschränkten Domänen . . . 217
5.3.3. Evaluationsmethodik und Ergebnisdiskussion . . . . . . . . . . 218
5.4. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6. Erkennung weiterer Objektklassen am Beispiel von Personen . . . 229
6.1. Merkmale für die Personenerkennung . . . . . . . . . . . . . . . . . . 230
6.2. Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
6.3. Evaluation von Merkmalen auf verschiedenen Datensätzen . . . . . . 234
6.3.1. Evaluationsmethodik . . . . . . . . . . . . . . . . . . . . . . . 235
6.3.2. Auswertung und Ergebnisdiskussion . . . . . . . . . . . . . . . 238
6.4. Evaluation eines kaskadierten Klassifikationssystems . . . . . . . . . . 242
6.4.1. Systemarchitektur und Training . . . . . . . . . . . . . . . . . 242
6.4.2. Klassifikation und Evaluation . . . . . . . . . . . . . . . . . . 244
6.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7. Zusammenfassung und Ausblick . . . 251
Anhang . . . 257
A. Übersicht zu den Experimenten zur Schnitterkennung . . . . . . . . . 259
A.1. Konfiguration und Laufzeiten der Experimente . . . . . . . . . 259
A.2. Stufe I: Farbraum und Bewegungsschätzung . . . . . . . . . . 261
A.3. Stufe II: Optimierung der Precision . . . . . . . . . . . . . . . 261
A.4. Echtzeitfähige Datenvisualisierung . . . . . . . . . . . . . . . . 267
A.5. Visualisierung einzelner Komponenten an Beispielen . . . . . . 269
B. Ergänzungen zu den Experimenten zur Gesichtsdetektion . . . . . . . 273
B.1. Trainingsverlauf des Klassifikators TUC FD . . . . . . . . . . 273
B.2. Übersicht zu den Mindestdetektionsgrößen auf TS100 . . . . . 273
B.3. Visualisierung der Detektionen auf TS100 . . . . . . . . . . . 279
C. Systemkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Verzeichnis der Abkürzungen und Begriffe . . . v
Literaturverzeichnis . . . vii / The data collections of local television stations often consist of multiples of ten thousand video tapes. Modern methods are needed to exploit the content of such archives. While the retrieval of objects plays a fundamental role, essential requirements incorporate low false and high detection rates in order to prevent the corruption of the search index. However, a sufficient number of objects need to be found to make assumptions about the content explored.
This work focuses on the adjustment and optimization of existing detection techniques. Therefor, the author develops a holistic framework that directly reflects on the high demands of video analysis with the aim to facilitate the development of image processing algorithms, the visualization of intermediate results, and their evaluation and optimization. The effectiveness of the system is demonstrated on the structural decomposition of video footage and on content-based detection of faces and pedestrians.:1. Motivation . . . 1
1.1. Einordnung in den Retrievalprozess . . . . . . . . . . . . . . . . . . . 2
1.2. Infrastruktur zur Optimierung von Verfahren zur Videoanalyse . . . . 4
1.3. Herausforderungen der Bilderkennung . . . . . . . . . . . . . . . . . . 6
1.4. Wissenschaftliche Ergebnisse dieser Arbeit . . . . . . . . . . . . . . . 9
1.5. Kapitelübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Methoden und Strategien der Videoanalyse . . . 15
2.1. Fachgebiete der Bilderkennung . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1. Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Maschinelles Sehen . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4. Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Strukturelle Analyse von generischen Mustererkennungsystemen . . . 22
2.2.1. Datenakquisition . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2. Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3. Musterklassifizierung . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.4. Bilderkennungssysteme . . . . . . . . . . . . . . . . . . . . . . 28
2.2.5. Wissensentdeckung in Datenbanken . . . . . . . . . . . . . . . 28
2.3. Bilderkennung in der inhaltsbasierten Bildsuche . . . . . . . . . . . . 29
2.3.1. Paradigmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2. Bildsignaturen . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3. Signaturtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.4. Lerntechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4. Holistische Bilderkennungssysteme im Überblick . . . . . . . . . . . . 44
2.4.1. Ein segment- und konturbasiertes CBIR-System . . . . . . . . 45
2.4.2. Biologisch inspirierte Systeme . . . . . . . . . . . . . . . . . . 48
2.4.3. Lernen aus wenigen Beispielen . . . . . . . . . . . . . . . . . . 51
2.5. Objekterkennung im Szenenkontext . . . . . . . . . . . . . . . . . . . 55
2.6. Aktuelle Grenzen der Muster- und Objekterkennung . . . . . . . . . . 60
2.7. Konzept eines generischen Workflows zur Objekterkennung in Videos . . . 64
2.7.1. Strukturelle Analyse . . . . . . . . . . . . . . . . . . . . . . . 64
2.7.2. Inhaltliche Analyse . . . . . . . . . . . . . . . . . . . . . . . . 66
2.7.3. Erweiterung des klassischen Paradigmas zur Objekterkennung . . . 67
2.7.4. Anwendungsdomänen . . . . . . . . . . . . . . . . . . . . . . . 68
2.8. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3. Systemarchitektur zur Optimierung von Bilderkennungsverfahren . . . 71
3.1. Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Softwaretechnische Anforderungen . . . . . . . . . . . . . . . . 72
3.1.2. Bewertung der Systemleistung . . . . . . . . . . . . . . . . . . 75
3.1.3. Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.4. Modellierung von Domänenwissen . . . . . . . . . . . . . . . . 90
3.1.5. Diskriminierbarkeit von Merkmalen . . . . . . . . . . . . . . . 92
3.1.6. Zusammenfassende Darstellung . . . . . . . . . . . . . . . . . 95
3.2. Architektur des Gesamtsystems . . . . . . . . . . . . . . . . . . . . . 95
3.3. Struktureller Aufbau von AMOPA . . . . . . . . . . . . . . . . . . . 97
3.3.1. Verwendung von Prozessketten . . . . . . . . . . . . . . . . . 101
3.3.2. Bild- und Videoverarbeitung . . . . . . . . . . . . . . . . . . . 106
3.4. Annotation von Bildern und Videos . . . . . . . . . . . . . . . . . . . 107
3.4.1. Ein Annotationswerkzeug für Videos . . . . . . . . . . . . . . 108
3.4.2. Ein Ansatz zu Annotation, Klassifikation und Evaluation . . . 111
3.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4. Videosegmentierung . . . 119
4.1. Schnitterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.1. Struktureller Aufbau von Videos . . . . . . . . . . . . . . . . 121
4.1.2. Klassische Verfahren . . . . . . . . . . . . . . . . . . . . . . . 124
4.1.3. TRECVid: Evaluationskampagne und Datensätze . . . . . . . 125
4.1.4. Das Verfahren von AT&T . . . . . . . . . . . . . . . . . . . . 130
4.2. Schnittkomposition und Ähnlichkeit . . . . . . . . . . . . . . . . . . . 137
4.2.1. Dominant-Color-Deskriptor . . . . . . . . . . . . . . . . . . . 140
4.2.2. Color-Layout-Deskriptor . . . . . . . . . . . . . . . . . . . . . 140
4.2.3. Scalable-Color-Deskriptor . . . . . . . . . . . . . . . . . . . . 141
4.2.4. Edge-Histogram-Deskriptor . . . . . . . . . . . . . . . . . . . 142
4.3. Konzeption und Implementierung . . . . . . . . . . . . . . . . . . . . 143
4.3.1. Einbindung in das Prozesskonzept von AMOPA . . . . . . . . 144
4.3.2. Auswahl des Farbraums . . . . . . . . . . . . . . . . . . . . . 148
4.3.3. Bewegungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 151
4.3.4. Bestimmung und Verifikation von Schnittkandidaten . . . . . 159
4.3.5. Ergebnisdarstellung und -speicherung . . . . . . . . . . . . . . 171
4.4. Evaluation und Optimierung der harten Schnitterkennung . . . . . . 173
4.4.1. Die TRECVid Evaluationsmethodologie . . . . . . . . . . . . 174
4.4.2. Optimierung von Recall und Laufzeit . . . . . . . . . . . . . . 176
4.4.3. Optimierung der Precision . . . . . . . . . . . . . . . . . . . . 181
4.4.4. Validierung der Ergebnisse . . . . . . . . . . . . . . . . . . . . 183
4.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5. Gesichtsdetektion . . . 187
5.1. Stand der Technik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.1.1. Verfahrensklassen und Datensätze . . . . . . . . . . . . . . . . 189
5.1.2. Boosting-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2. Realisierung eines Systems zur Musterklassifizierung . . . . . . . . . . 200
5.2.1. Trainingsphase . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.2.2. Klassifikation mit Hilfe von Detektorketten . . . . . . . . . . . 203
5.2.3. Erlernen eines geboosteten Gesichtsklassifikators . . . . . . . . 206
5.2.4. Exkurs: Gesichtslokalisation mittels Schwarmintelligenz . . . . 210
5.3. Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.1. Datensatz TS100 . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.3.2. Annotation von Gesichtern in unbeschränkten Domänen . . . 217
5.3.3. Evaluationsmethodik und Ergebnisdiskussion . . . . . . . . . . 218
5.4. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6. Erkennung weiterer Objektklassen am Beispiel von Personen . . . 229
6.1. Merkmale für die Personenerkennung . . . . . . . . . . . . . . . . . . 230
6.2. Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
6.3. Evaluation von Merkmalen auf verschiedenen Datensätzen . . . . . . 234
6.3.1. Evaluationsmethodik . . . . . . . . . . . . . . . . . . . . . . . 235
6.3.2. Auswertung und Ergebnisdiskussion . . . . . . . . . . . . . . . 238
6.4. Evaluation eines kaskadierten Klassifikationssystems . . . . . . . . . . 242
6.4.1. Systemarchitektur und Training . . . . . . . . . . . . . . . . . 242
6.4.2. Klassifikation und Evaluation . . . . . . . . . . . . . . . . . . 244
6.5. Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7. Zusammenfassung und Ausblick . . . 251
Anhang . . . 257
A. Übersicht zu den Experimenten zur Schnitterkennung . . . . . . . . . 259
A.1. Konfiguration und Laufzeiten der Experimente . . . . . . . . . 259
A.2. Stufe I: Farbraum und Bewegungsschätzung . . . . . . . . . . 261
A.3. Stufe II: Optimierung der Precision . . . . . . . . . . . . . . . 261
A.4. Echtzeitfähige Datenvisualisierung . . . . . . . . . . . . . . . . 267
A.5. Visualisierung einzelner Komponenten an Beispielen . . . . . . 269
B. Ergänzungen zu den Experimenten zur Gesichtsdetektion . . . . . . . 273
B.1. Trainingsverlauf des Klassifikators TUC FD . . . . . . . . . . 273
B.2. Übersicht zu den Mindestdetektionsgrößen auf TS100 . . . . . 273
B.3. Visualisierung der Detektionen auf TS100 . . . . . . . . . . . 279
C. Systemkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Verzeichnis der Abkürzungen und Begriffe . . . v
Literaturverzeichnis . . . vii
|
44 |
Deep Convolutional Neural Networks for Real-Time Single Frame Monocular Depth EstimationSchennings, Jacob January 2017 (has links)
Vision based active safety systems have become more frequently occurring in modern vehicles to estimate depth of the objects ahead and for autonomous driving (AD) and advanced driver-assistance systems (ADAS). In this thesis a lightweight deep convolutional neural network performing real-time depth estimation on single monocular images is implemented and evaluated. Many of the vision based automatic brake systems in modern vehicles only detect pre-trained object types such as pedestrians and vehicles. These systems fail to detect general objects such as road debris and roadside obstacles. In stereo vision systems the problem is resolved by calculating a disparity image from the stereo image pair to extract depth information. The distance to an object can also be determined using radar and LiDAR systems. By using this depth information the system performs necessary actions to avoid collisions with objects that are determined to be too close. However, these systems are also more expensive than a regular mono camera system and are therefore not very common in the average consumer car. By implementing robust depth estimation in mono vision systems the benefits from active safety systems could be utilized by a larger segment of the vehicle fleet. This could drastically reduce human error related traffic accidents and possibly save many lives. The network architecture evaluated in this thesis is more lightweight than other CNN architectures previously used for monocular depth estimation. The proposed architecture is therefore preferable to use on computationally lightweight systems. The network solves a supervised regression problem during the training procedure in order to produce a pixel-wise depth estimation map. The network was trained using a sparse ground truth image with spatially incoherent and discontinuous data and output a dense spatially coherent and continuous depth map prediction. The spatially incoherent ground truth posed a problem of discontinuity that was addressed by a masked loss function with regularization. The network was able to predict a dense depth estimation on the KITTI dataset with close to state-of-the-art performance.
|
Page generated in 0.1255 seconds