Spelling suggestions: "subject:"indexation vidéo"" "subject:"indexation idéo""
1 |
Analyse et indexation des flux vidéos dans le domaine compressé H. 264 / Compressed domain indexing and analysis of H. 264 streamsKäs, Christian 22 March 2010 (has links)
Dans cet étude, nous nous concentrons sur l'analyse et l'indexation automatique des séquences vidéo. Cela permet une récupération et un accès efficace aux données. Les vidéos étant généralement stockées et transmises sous forme encodées, notre approche se base sur l'analyse dans le domaine compressé. Ce domaine présente un compromis raisonnable entre cout de calcul et qualité des résultats. Les informations les plus pertinentes encodées dans le flux H.264 sont les vecteurs de mouvement (VM). Ces vecteurs sont associés aux macroblocs dans les images prédites (de type B et P). Nous présentons diverses techniques non-supervisés pour déterminer le mouvement de la caméra, détecter et suivre les objets en mouvement dans les vidéos. Ces analyses sont basées sur les champs de VM. Nous démontrons le potentiel de l'analyse dans le domaine compressé avec plusieurs exemples d'applications, notamment la surveillance de trafic routier et la détection de copies. / The amount of generated audiovisual content continues to increase. In this work, we concentrate on the challenge of automatic video analysis and indexing, which builds the basis for efficient information access and retrieval. Taking advantage of the fact that video in most cases is stored and transmitted in encoded form, we pursue the approach of compressed domain processing, which represents a reasonable trade-off between computational complexity and quality of analysis results. The most valuable information encoded in H.264 streams is the motion vectors (MVs) that are associated with macroblocks in temporally predicted frames of type B and P. We present a number of completely unsupervised techniques to determine the camera motion and to detect and track moving objects from the extracted MV fields. We furthermore present the potential of compressed domain processing through several example applications, including traffic surveillance and video copy detection.
|
2 |
Décompositions spatio-temporelles pour l'étude des textures dynamiques : contribution à l'indexation vidéoDubois, Sloven 19 November 2010 (has links) (PDF)
Nous nous intéresserons dans cette thèse à l'étude et la caractérisation des Textures Dynamiques (TDs), avec comme application visée l'indexation dans de grandes bases de vidéos. Ce thème de recherche étant émergent, nous proposons une définition des TDs, une taxonomie de celles-ci, ainsi qu'un état de l'art. La classe de TD la plus représentative est décrite par un modèle formel qui considère les TDs comme la superposition d'ondes porteuses et de phénomènes locaux. La construction d'outils d'analyse spatio-temporelle adaptés aux TDs est notre principale contribution. D'une part, nous montrons que la transformée en curvelets 2D+T est pertinente pour la représentation de l'onde porteuse. D'autre part, dans un objectif de décomposition des séquences vidéos, nous proposons d'utiliser l'approche par Analyse en Composantes Morphologiques. Notre contribution consiste en l'apport et l'étude de nouvelles stratégies de seuillage. Ces méthodes sont testées sur plusieurs applications: segmentation spatio-temporelle, décomposition de TDs, estimation du mouvement global d'une TD, ... Nous avons de plus montré que l'Analyse en Composantes Morphologiques et les approches multi-échelles donnent des résultats significatifs pour la recherche par le contenu et l'indexation de Textures Dynamiques de la base de données DynTex. Cette thèse constitue ainsi un premier pas vers l'indexation automatique de textures dynamiques dans des séquences d'images, et ouvre la voie à de nombreux développements sur ce sujet nouveau. Enfin, le caractère générique des approches proposées permet d'envisager leurs applications dans un cadre plus large mettant en jeu par exemple des données 3D.
|
3 |
Structuration automatique de flux vidéos de télévisionNaturel, Xavier 17 April 2007 (has links) (PDF)
La structuration automatique de flux de télévision est un nouveau sujet de recherche, dont l'apparition est liée à l'augmentation de volume des archives de vidéos numériques de télévision. Cette thèse propose une chaîne complète de structuration, qui permet de segmenter et d'étiqueter automatiquement un flux télévisé. Les travaux présentés se divisent en quatre parties : la définition d'outils, la segmentation, l'étiquetage, et la mise à jour. Un flux de télévision est intrinsèquement répétitif. L'une des idées directrices de la thèse est de considérer les répétitions comme une aide essentielle pour la structuration, en particulier pour réaliser la distinction entre les programmes et les inter-programmes. Une méthode rapide de détection des répétitions dans des flux vidéos est proposée, permettant de gérer d'importants volumes vidéos, à partir d'une base de vidéos de référence, étiquetée manuellement. Grâce à un outil, ainsi qu'à la détection des séparations entre publicités, une segmentation en programmes/inter-programmes est réalisée. Les segments sont alors étiquetés à partir du guide des programmes, en réalisant un alignement global par dynamic time warping. Enfin, une étape de mise à jour permet de réduire la dépendance à une base de Référence manuelle, ainsi que de réduire la baisse de qualité des résultats de structuration au cours du temps.
|
4 |
Décompositions spatio-temporelles pour l'étude des textures dynamiques : contribution à l'indexation vidéo / Spatio-temporal decompositions for the study of Dynamic Textures : contribution to video indexingDubois, Sloven 19 November 2010 (has links)
Nous nous intéresserons dans cette thèse à l'étude et la caractérisation des Textures Dynamiques (TDs), avec comme application visée l'indexation dans de grandes bases de vidéos. Ce thème de recherche étant émergent, nous proposons une définition des TDs, une taxonomie de celles-ci, ainsi qu'un état de l'art. La classe de TD la plus représentative est décrite par un modèle formel qui considère les TDs comme la superposition d'ondes porteuses et de phénomènes locaux. La construction d'outils d'analyse spatio-temporelle adaptés aux TDs est notre principale contribution. D'une part, nous montrons que la transformée en curvelets 2D+T est pertinente pour la représentation de l'onde porteuse. D'autre part, dans un objectif de décomposition des séquences vidéos, nous proposons d'utiliser l'approche par Analyse en Composantes Morphologiques. Notre contribution consiste en l'apport et l'étude de nouvelles stratégies de seuillage. Ces méthodes sont testées sur plusieurs applications: segmentation spatio-temporelle, décomposition de TDs, estimation du mouvement global d'une TD, ... Nous avons de plus montré que l'Analyse en Composantes Morphologiques et les approches multi-échelles donnent des résultats significatifs pour la recherche par le contenu et l'indexation de Textures Dynamiques de la base de données DynTex. Cette thèse constitue ainsi un premier pas vers l'indexation automatique de textures dynamiques dans des séquences d'images, et ouvre la voie à de nombreux développements sur ce sujet nouveau. Enfin, le caractère générique des approches proposées permet d'envisager leurs applications dans un cadre plus large mettant en jeu par exemple des données 3D. / This report is focused on the study and the characterization of Dynamic Textures (DTs), with the aim of video indexing in large databases. This research topic being new and emerging, we propose a taxonomy, a definition of DTs and a state of the art. The most representative DT class is described by a model that considers DTs as the superposition of several wavefronts and local oscillating phenomena. The design of spatio-temporal analysis tools adapted to DT is our main contribution. We first show that the 2D+T curvelet transform is relevant for representing wavefronts. In order to analyse and better understand the DTs, we propose in a second step to adapt the Morphological Component Analysis approach using new thresholding strategies. These methods are tested on several applications: decomposition of DTs, spatio-temporal segmentation, global motion estimation of a DT, ... We have shown that Morphological Component Analysis and multi-scale approaches enable significant results for content-based retrieval applications and dynamic texture indexing on the DynTex database. This thesis constitutes a first step towards automatic indexing of DTs in image sequences and opens the way for many new developments in this topic. Moreover, the proposed approaches are generic and could be applied in a broader context, for instance the processing of 3D data.
|
5 |
Structuration multimodale des vidéos de sport par modèles stochastiquesKijak, Ewa 22 December 2003 (has links) (PDF)
Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. Le cadre général de la modélisation est celui des modèles de Markov cachés. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. L'approche est validée dans le cadre des vidéos de tennis, ce dernier présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document vidéo.
|
6 |
Analyse automatique de film - Des séquences d'images aux séquences d'actions.Ronfard, Remi 02 December 2009 (has links) (PDF)
Je présente mes activités de recherche en indexation video et en reconnaissance d'actions, et je propose un programme de recherche permettant d'aborder ensemble ces deux questions au cours des prochaines années. Je décris d'abord une série de travaux réalisés dans le cadre du groupe MPEG et des projets DIVAN à l'INA (1998-2000), puis VIBES à l'INRIA (2001-2004), et qui visent à aborder l'indexation video à travers la reconnaissance des styles et conventions de la prise de vues et du montage. Cette première partie est illustrée par deux applications - le découpage d'un journal télévisé en sujets, et l'indexation d'un film de cinéma par son script. Je présente ensuite des travaux réalisés à l'INRIA en 2005-2008 au sein de l'équipe MOVI. Je montre comment nous avons utilisé l'infrastructure GRIMAGE pour (1) apprendre des modèles statistiques 3D d'un petit répertoire d'actions humaines permettant de les reconnaitre lorsqu'elles sont exécutées par d'autres acteurs, sous d'autres points de vue ; (2) découper une séquence d'images 3D en actions primitives reconnaissables; et (3) reconnaître ces mêmes actions selon le point de vue d'une seule caméra. Enfin, je propose quelques pistes pour étendre les résultats précédents afin d'aborder simultanément les deux problèmes de la reconnaissance des actions et des styles de mise en scène dans les films. Je présente les avantages et les difficultés d'une approche unifiée de ces deux problèmes, ainsi que des applications possibles dans les domaines de la fiction interactive, du jeu vidéo et du machinima.
|
7 |
Indexation de la Vidéo Portée : Application à l'Étude Épidémiologique des Maladies Liées à l'ÂgeKaraman, Svebor 12 December 2011 (has links) (PDF)
Le travail de recherche de cette thèse de doctorat s'inscrit dans le cadre du suivi médical des patients atteints de démences liées à l'âge à l'aide des caméras videos portées par les patients. L'idée est de fournir aux médecins un nouvel outil pour le diagnostic précoce de démences liées à l'âge telles que la maladie d'Alzheimer. Plus précisément, les Activités Instrumentales du Quotidien (IADL : Instrumental Activities of Daily Living en anglais) doivent être indexées automatiquement dans les vidéos enregistrées par un dispositif d'enregistrement portable. Ces vidéos présentent des caractéristiques spécifiques comme de forts mouvements ou de forts changements de luminosité. De plus, la tâche de reconnaissance visée est d'un très haut niveau sémantique. Dans ce contexte difficile, la première étape d'analyse est la définition d'un équivalent à la notion de " plan " dans les contenus vidéos édités. Nous avons ainsi développé une méthode pour le partitionnement d'une vidéo tournée en continu en termes de " points de vue " à partir du mouvement apparent. Pour la reconnaissance des IADL, nous avons développé une solution selon le formalisme des Modèles de Markov Cachés (MMC). Un MMC hiérarchique à deux niveaux a été introduit, modélisant les activités sémantiques ou des états intermédiaires. Un ensemble complexe de descripteurs (dynamiques, statiques, de bas niveau et de niveau intermédiaire) a été exploité et les espaces de description joints optimaux ont été identifiés expérimentalement. Dans le cadre de descripteurs de niveau intermédiaire pour la reconnaissance d'activités nous nous sommes particulièrement intéressés aux objets sémantiques que la personne manipule dans le champ de la caméra. Nous avons proposé un nouveau concept pour la description d'objets ou d'images faisant usage des descripteurs locaux (SURF) et de la structure topologique sous-jacente de graphes locaux. Une approche imbriquée pour la construction des graphes où la même scène peut être décrite par plusieurs niveaux de graphes avec un nombre de nœuds croissant a été introduite. Nous construisons ces graphes par une triangulation de Delaunay sur des points SURF, préservant ainsi les bonnes propriétés des descripteurs locaux c'est-à-dire leur invariance vis-à-vis de transformations affines dans le plan image telles qu'une rotation, une translation ou un changement d'échelle. Nous utilisons ces graphes descripteurs dans le cadre de l'approche Sacs-de-Mots-Visuels. Le problème de définition d'une distance, ou dissimilarité, entre les graphes pour la classification non supervisée et la reconnaissance est nécessairement soulevé. Nous proposons une mesure de dissimilarité par le Noyau Dépendant du Contexte (Context-Dependent Kernel : CDK) proposé par H. Sahbi et montrons sa relation avec la norme classique L2 lors de la comparaison de graphes triviaux (les points SURF). Pour la reconnaissance d'activités par MMC, les expériences sont conduites sur le premier corpus au monde de vidéos avec caméra portée destiné à l'observation des d'IADL et sur des bases de données publiques comme SIVAL et Caltech-101 pour la reconnaissance d'objets.
|
Page generated in 0.1271 seconds