Je présente mes activités de recherche en indexation video et en reconnaissance d'actions, et je propose un programme de recherche permettant d'aborder ensemble ces deux questions au cours des prochaines années. Je décris d'abord une série de travaux réalisés dans le cadre du groupe MPEG et des projets DIVAN à l'INA (1998-2000), puis VIBES à l'INRIA (2001-2004), et qui visent à aborder l'indexation video à travers la reconnaissance des styles et conventions de la prise de vues et du montage. Cette première partie est illustrée par deux applications - le découpage d'un journal télévisé en sujets, et l'indexation d'un film de cinéma par son script. Je présente ensuite des travaux réalisés à l'INRIA en 2005-2008 au sein de l'équipe MOVI. Je montre comment nous avons utilisé l'infrastructure GRIMAGE pour (1) apprendre des modèles statistiques 3D d'un petit répertoire d'actions humaines permettant de les reconnaitre lorsqu'elles sont exécutées par d'autres acteurs, sous d'autres points de vue ; (2) découper une séquence d'images 3D en actions primitives reconnaissables; et (3) reconnaître ces mêmes actions selon le point de vue d'une seule caméra. Enfin, je propose quelques pistes pour étendre les résultats précédents afin d'aborder simultanément les deux problèmes de la reconnaissance des actions et des styles de mise en scène dans les films. Je présente les avantages et les difficultés d'une approche unifiée de ces deux problèmes, ainsi que des applications possibles dans les domaines de la fiction interactive, du jeu vidéo et du machinima.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00450230 |
Date | 02 December 2009 |
Creators | Ronfard, Remi |
Publisher | Université de Grenoble |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | habilitation ࠤiriger des recherches |
Page generated in 0.0018 seconds