Les techniques habituelles d'indexation de vidéos passent généralement par une phase d'apprentissage qui nécessite préalablement la constitution d'une base d'apprentissage. Même si la taille de cette base est souvent réduite, la phase d'annotation réalisée par un expert de l'application est souvent longue et fastidieuse. Dans le cadre de cette thèse, nous avons développé un dispositif qui permet de pré-sélectionner un ensemble de prototypes susceptibles de contenir le concept qui doit apparaître dans la base d'apprentissage. Cette base réduite de prototypes sera ensuite annotée par l'expert. Nous nous sommes intéressés à des concepts temporels, ce qui nous a amené à étudier particulièrement des caractéristiques liées au mouvement, comme les points d'intérêt spatio-temporels (STIP Spatial Temporal Interest Points). D'autres caractéristiques ont aussi été utilisées concernant la couleur et la présence de formes particulières. Ces caractéristiques sont ensuite exploitées pour structurer la base de vidéos en briques spatio-temporelles homogènes. Cette structuration correspond à une sorte de segmentation de la base en fonction de chacune des caractéristiques. La liaison entre le concept à définir et les briques extraites de la base est en lien avec le fossé sémantique bien connu dans la problématique d'indexation automatique. La création de ce lien nécessite l'utilisation de la connaissance de l'expert de l'application sur le concept. Nous avons développé un système dans lequel cette connaissance est extraite par un système de questions/réponses. Les couples de questions/réponses permettent de sélectionner des briques répondant à la contrainte, de définir des relations entre certaines briques, et enfin de naviguer dans l'arborescence des questions. Des tests ont été réalisés sur des bases de vidéos de provenances diverses telles que des vidéos provenant d'émissions de télévision, de films d'animation, ou encore des vidéos de laboratoire disponibles sur le net, ou réalisées par nos soins. Ces tests montrent les performances satisfaisantes mais aussi les limites de l'approche et ouvrent des perspectives intéressantes, particulièrement sur les aspects collaboratifs et les aspects adaptatifs qui permettraient de capitaliser les connaissances des experts applicatifs et rendraient le système plus efficient. / The usual techniques of video indexing generally go through a learning phase that requires the prior establishment of a training database. Even if the size of the database is often reduced, the annotation phase by an expert of the application is often long and tedious. In this thesis, we developed a system that allows pre-selecting a set of prototypes that can contain the concept that must appear in the training set. This reduced base of prototypes will then be annotated by the expert. We are interested in time concepts, which led us to study particular features related to movement, such as Spatial Temporal Interest Points (STIP). Other features have also been used concerning the color and the presence of particular shapes. These characteristics are then used to structure the video database in homogeneous space-time blocks. This structure corresponds to segmentation related to each characteristic. The link between the concept to define and blocks extracted from the base corresponds to the well known problem of automatic indexing, the semantic gap. The definition of this link requires the introduction of the application expert's knowledge. We developed a system in which this knowledge is extracted by a questions/answers system. The couples of questions/answers allow the system to select blocks corresponding to the constraint, to define relationships between some blocks, and finally to navigate on the questions/answers tree. Tests were performed on video databases from various sources such as videos from tele- vision shows, animated films, laboratory videos available on the net, or made by us. These tests show the satisfying performances but also the limitations of the approach and open interesting perspectives, particularly on the collaborative and adaptive aspects that would capitalize in the application expert knowledge and would make the system more efficient.
Identifer | oai:union.ndltd.org:theses.fr/2011GRENA009 |
Date | 14 June 2011 |
Creators | Simac, Alain |
Contributors | Grenoble, Lambert, Patrick, Rombaut, Michèle |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French, English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text, Image |
Page generated in 0.0021 seconds