Return to search

Structuration multimodale des vidéos de tennis en utilisant des modèles segmentaux

L'analyse automatique du contenu de la vidéo est un sujet de recherche émergent avec de nombreuses applications pratiques sur de grandes bases de données de vidéo ou sur les enregistreurs vidéo personnels. Le centre de cette étude est la construction automatique de la table des matières d'une émission de tennis en utilisant les modèles markoviens et la programmation dynamique. Motivés par le besoin de représentations multimodales plus efficaces, nous proposons l'utilisation des caractéristiques segmentales dans le cadre des modèles de segment, au lieu des caractéristiques en trames des modèles de Markov cachés. En considérant chaque scène de la vidéo comme un segment, les points de synchronisation entre différentes modalités sont étendus aux frontières de la scène, qui est l'unité thématique de base de la vidéo. Les caractéristiques visuelles venant de la vidéo diffusée et les caractéristiques auditives enregistrées dans le court sont traitées avant fusion dans leurs propres segments, avec leurs propres modèles et fréquences d'échantillonnage. Diverses techniques pour modéliser les segments sont examinées, y compris les modèles de Markov cachés de densité discrète ou continue, les modèles bigrames ou des approches connexionnistes, fonctionnant sur les caractéristiques audiovisuelles automatiquement extraites. Des modèles de segments et des modèles de Markov cachés, avec des topologies hiérarchiques ou ergodiques, sont établis et comparés sur un corpus de 15 heures de vidéos de tennis. Les paramètres des modèles sont estimés sur des données étiquetées. Selon le modèle segmentale utilisé, la fusion asynchrone avec des modèles de segments peut atteindre le même niveau de performance que les modèles de Markov cachés. La fusion des ressources textuelles de la vidéo, c'est-à-dire les annonces de points, est également considérée. Pour exploiter entièrement leur contenu sémantique sur l'évolution réelle du jeu et tenir compte des événements non reconnus, un arrangement original du décodage de Viterbi a été développé. Il produit des solutions qui sont conformes aux annonces de points et apporte ainsi une nette amélioration de la performance du système.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00524285
Date23 October 2006
CreatorsDelakis, Emmanouil
PublisherUniversité Rennes 1
Source SetsCCSD theses-EN-ligne, France
LanguageEnglish
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0021 seconds