Les techniques habituelles d'indexation de vidéos passent généralement par une phase d'apprentissage qui nécessite préalablement la constitution d'une base d'apprentissage. Même si la taille de cette base est souvent réduite, la phase d'annotation réalisée par un expert de l'application est souvent longue et fastidieuse. Dans le cadre de cette thèse, nous avons développé un dispositif qui permet de pré-sélectionner un ensemble de prototypes susceptibles de contenir le concept qui doit apparaître dans la base d'apprentissage. Cette base réduite de prototypes sera ensuite annotée par l'expert. Nous nous sommes intéressés à des concepts temporels, ce qui nous a amené à étudier particulièrement des caractéristiques liées au mouvement, comme les points d'intérêt spatio-temporels (STIP Spatial Temporal Interest Points). D'autres caractéristiques ont aussi été utilisées concernant la couleur et la présence de formes particulières. Ces caractéristiques sont ensuite exploitées pour structurer la base de vidéos en briques spatio-temporelles homogènes. Cette structuration correspond à une sorte de segmentation de la base en fonction de chacune des caractéristiques. La liaison entre le concept à définir et les briques extraites de la base est en lien avec le fossé sémantique bien connu dans la problématique d'indexation automatique. La création de ce lien nécessite l'utilisation de la connaissance de l'expert de l'application sur le concept. Nous avons développé un système dans lequel cette connaissance est extraite par un système de questions/réponses. Les couples de questions/réponses permettent de sélectionner des briques répondant à la contrainte, de définir des relations entre certaines briques, et en- fin de naviguer dans l'arborescence des questions. Des tests ont été réalisés sur des bases de vidéos de provenances diverses telles que des vidéos provenant d'émissions de télévision, de films d'animation, ou encore des vidéos de laboratoire disponibles sur le net, ou réalisées par nos soins. Ces tests montrent les performances satisfaisantes mais aussi les limites de l'approche et ouvrent des perspectives intéressantes, particulièrement sur les aspects collaboratifs et les aspects adaptatifs qui permettraient de capitaliser les connaissances des experts applicatifs et rendraient le système plus efficient.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00614010 |
Date | 14 June 2011 |
Creators | Simac, Alain |
Publisher | Université de Grenoble |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds