Cette thèse a pour but de proposer de nouvelles méthodes d'indexation des bases de données vidéo de type archive culturelle à partir des actions humaines qu'elles contiennent. Les actions humaines, représentent un aspect important des contenus multimédia, à côté des sons, images ou de la parole. L'interrogation technique principale à laquelle nous répondons est ``Comment détecter et localiser précisément et rapidement dans une vidéo une action humaine, à partir de quelques exemples de cette même action?''. Le défi relevé par cette interrogation se trouve dans la satisfaction de ces deux critères: qualité de détection et rapidité.Nous avons traité, dans une première partie, l'adaptation des mesures de similarité aux contraintes de temps de calcul et mémoire nécessaires pour avoir un système rapide de détection d'actions. Nous avons montré qu'une approche de type "alignement de séquences" couplée avec une sélection de variables permet de répondre rapidement à des requêtes et obtient une bonne qualité des résultats. L'ajout d'un filtrage préliminaire permet d'améliorer encore les performances.Dans une seconde partie de la thèse nous avons crée une méthode d'accélération de l'étage de filtrage pour obtenir une complexité de recherche sous-linéaire dans la taille de la base. Nous nous sommes basés sur le hachage sensible à la similarité et sur une nouvelle approche à l'exploration dans l'espace de hachage, adaptée à la << requête-par-détecteur >>.Nous avons testé les méthodes proposées sur une nouvelle base annotée de vidéos de grande taille destinée à la détection et localisation d'actions humaines. Nous avons montré que nos approches donnent des résultats de bonne qualité et qu'elles peuvent passer à l'échelle. / This thesis proposes new methods for indexing video collections with varied content, such as cultural archives. We focus on human actions, which represent an important cultural aspect, together with sound, images and speech. Our main technical challenge is 'How to quickly detect and precisely localize human actions in a large video collection, when these actions are given as a query through example video clips?'. Thus, the difficulty of the task is due to criteria: quality of detection and search response time.
Identifer | oai:union.ndltd.org:theses.fr/2016CNAM1034 |
Date | 15 January 2016 |
Creators | Stoian, Andrei |
Contributors | Paris, CNAM, Crucianu, Michel |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0029 seconds