Ce travail de thèse porte sur l'indexation, normalisée par MPEG7, de séquences vidéos. A partir d'un flux MPEG1-2, ou de tout autre codec basé sur la prédiction de mouvement et la DCT, sans totalement le décompresser, nous exploitons l'analyse effectuée lors du codage. Ainsi de façon non-supervisée et en quasi temps réel, nous proposons une méthode d'estimation du mouvement de la caméra ainsi que d'extraction des objets en déplacement. Pour l'estimation du mouvement de la caméra, nous utilisons les vecteurs de prédiction temporelle présents dans le flux. L'étude des images d'erreur nous permet d'en évaluer la pertinence. Pour la détection des objets en mouvement, nous segmentons tout d'abord la séquence en zones de couleur uniforme directement sur les coefficients DCT. Nous établissons une distance colorimétrique, non seulement entre deux pixels voisins d'une image, mais aussi entre deux images successives, ce qui définit une zone en trois dimensions. Afin de segmenter plus précisément et de régulariser les contours sur chaque image, nous utilisons les B-Splines. Chaque objet candidat est déformé par la présence de tous ses voisins à partir d'un potentiel de couleur, ce qui, itérativement, permet d'éliminer les zones trop réduites. En combinant le mouvement de la caméra, les vecteurs de prédiction et les zones de couleur 2D+t, nous réalisons une fusion adaptative de façon à obtenir une bonne représentation des objets.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00214113 |
Date | 30 March 2004 |
Creators | Brunel, Lionel |
Publisher | Université de Nice Sophia-Antipolis |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0022 seconds