• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 40
  • 29
  • 1
  • Tagged with
  • 71
  • 26
  • 20
  • 15
  • 14
  • 14
  • 13
  • 13
  • 10
  • 9
  • 9
  • 9
  • 9
  • 9
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Automatic recognition of low-level and high-level surgical tasks in the Operating Room from video images

Lalys, Florent 03 May 2012 (has links) (PDF)
La besoin d'une meilleure intégration des nouveaux systèmes de chirurgie assistée par ordinateur dans les salles d'opération à récemment été souligné. Une nécessité pour atteindre cet objectif est de récupérer des données dans les salles d'opérations avec différents capteurs, puis à partir de ces données de créer des modèles de processus chirurgicaux. Récemment, l'utilisation de vidéos dans la salle d'opération a démontré son efficacité pour aider à la création de systèmes de CAO sensibles au contexte. Le but de cette thèse était de présenter une nouvelle méthode pour la détection automatique de tâches haut niveaux (i.e. phases chirurgicales) et bas-niveaux (i.e. activités chirurgicales) à partir des vidéos des microscopes uniquement. La première étape a consisté à reconnaitre automatiquement les phases chirurgicales. L'idée fut de combiner des techniques récentes de vision par ordinateur avec une analyse temporelle. Des classifieurs furent tout d'abord mis en œuvre pour extraire des attributs visuels et ainsi caractériser chaque image, puis des algorithmes de classification de séries temporelles furent utilisés pour reconnaitre les phases. La deuxième étape a consisté à reconnaitre les activités chirurgicales. Des informations concernant des outils chirurgicaux et des structures anatomiques furent détectées et combinées avec l'information de la phase précédemment obtenu au sein d'un système de reconnaissance intelligent. Après des validations croisées sur des vidéos de neurochirurgie et de chirurgie de l'œil, nous avons obtenu des taux de reconnaissance de l'ordre de 94% pour la reconnaissance des phases et 64% pour la reconnaissance des activités. Ces systèmes de reconnaissance pourraient être utiles pour générer automatiquement des rapports post-opératoires, pour l'enseignement, l'apprentissage, mais aussi pour les futurs systèmes sensibles au contexte.
42

Structuration multimodale des vidéos de sport par modèles stochastiques

Kijak, Ewa 22 December 2003 (has links) (PDF)
Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. Le cadre général de la modélisation est celui des modèles de Markov cachés. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. L'approche est validée dans le cadre des vidéos de tennis, ce dernier présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document vidéo.
43

Modèles de saillance visuelle par fusion d'informations sur la luminance, le mouvement et les visages pour la prédiction de mouvements oculaires lors de l'exploration de vidéos.

Marat, Sophie 22 February 2010 (has links) (PDF)
Lorsque nous explorons une scène visuelle nous focalisons notre attention et notre regard sur certaines régions de la scène dites saillantes an d'étudier ces régions plus en détail. L'objectif de cette thèse était de mieux comprendre les processus attentionnels qui guident le regard lorsque nous regardons une vidéo et de modéliser ces processus. Deux approches complémentaires ont été adoptées : une approche comportementale, à l'aide d'expériences d'oculométrie, pour mieux comprendre comment les personnes regardent une vidéo et une approche de modélisation afin de proposer un modèle, inspiré du système visuel humain, permettant de mettre en évidence les régions saillantes dans des vidéos. Deux modèles ont été proposés. Le premier modèle de saillance à deux voies, extrait des cartes statiques et dynamiques à partir des informations sur la luminance et le mouvement. Les traitements de ces deux voies, bien que relativement indépendants, sont réalisés par des modules communs (filtre "rétinien" et filtres "corticaux") à l'instar de ce qui est fait dans le système visuel. Un deuxième modèle de saillance, à trois voies, intègre au modèle précédent une voie dédiée à la détection des visages, les visages étant connus pour attirer les regards. Des expériences d'oculométrie ont permis d'étudier et d'évaluer ces modèles de saillance en détail.
44

Analyse d'images en vidéosurveillance embarquée dans les véhicules de transport en commun.

Harasse, Sebastien 07 December 2006 (has links) (PDF)
Ce travail s'inscrit dans le cadre d'une thèse Cifre autour de la conception d'un système d'enregistrement vidéo embarqué destiné à la surveillance dans les véhicules de transport en commun.<br />Parmi les applications visées, nous nous sommes concentrés sur la détection d'anomalies de fonctionnement des caméras, la compression sélective et le comptage de personnes.<br />Elles sont basées sur une analyse des images issues des caméras de surveillance embarquées dans les véhicules.<br />L'analyse vidéo dans ce contexte très spécifique est un problème complexe à cause des différentes variations en illumination et en mouvement qui perturbent les algorithmes classiques, ainsi que de part la grande variabilité des objets d'intérêt que sont les personnes.<br />Deux familles d'algorithmes sont considérées dans cette thèse.<br /><br /> Dans une première partie, nous nous intéressons à l'analyse de l'état du système d'acquisition, en terme de netteté des images, de bon positionnement de la caméra et de bonne visibilité de la scène filmée.<br />Les méthodes définies, robustes et efficaces, permettent de construire des applications surveillant en continu le bon fonctionnement des caméras, ainsi que des applications aidant à l'installation des caméras.<br /><br /> Dans une deuxième partie, nous abordons la détection et le suivi de personnes dans cet environnement dynamique.<br />Le schéma général du système permet la fusion de différentes sources d'information dans un cadre probabiliste.<br />Nous avons en particulier développé un modèle d'arrière-plan permettant une détection robuste des pixels d'avant-plan.<br />La détection de personnes est basée sur la combinaison de sources d'information telle que le mouvement ou la peau au sein d'un modèle de personne adapté au problème posé.<br />Ces outils ont ensuite été utilisés pour réaliser la compression sélective des vidéos en fonction de l'intérêt porté aux différents objets extraits, ainsi que dans une application de comptage de personnes.
45

Suivi des parties cachées dans une séquence vidéo et autres problèmes soulevés par la reconstruction tridimensionelle d'un environnement urbain

Dupont, Romain 12 1900 (has links) (PDF)
La thèse se place dans le cadre de la reconstruction de l'environnement urbain via l'utilisation de caméras et d'un télémètre laser. En premier lieu, nous nous intéressons à la segmentation spatiotemporelle des séquences vidéos en vue de traiter les données photographiques fournies par les caméras. Nous présentons une nouvelle technique de segmentation en couches qui extrait les régions de même mouvement paramétrique d'une séquence vidéo. Elle s'appuie sur les contraintes temporelles définies et optimisées sur toutes les images simultanément et non successivement, sans a priori sur la scène. De surcroît, nous considérons dorénavant les parties cachées des couches (parties qui disparaissent et qui réapparaissent). Notre algorithme les extrait et les suit explicitement tout au long de la séquence en s'appuyant sur l'utilisation des graph cuts et de l'alpha-expansion. Les résultats obtenus sont très satisfaisants: la segmentation est cohérente temporellement et spatialement et robuste aux difficultés inhérentes à l'analyse du mouvement (ambiguités, présence de surfaces non lambertiennes, etc.). En second lieu, nous nous intéressons à l'utilisation des données hétérogènes, ici télémétriques et photographiques, dans un même référentiel afin d'obtenir un modèle tridimensionnel texturé de l'environnement urbain. Le télémètre laser 2D, embarqué sur un véhicule en déplacement, fournit un nuage de points de la structure extérieure de la scène urbaine observée. Les photographies ont, quand à elles, deux finalités: 1) texturer le nuage de points et 2) en faciliter sa segmentation via l'extraction des couches afin d'obtenir un modèle de qualité. Ce dernier doit notamment être correctement triangulé et exempt d'objets indésirables tels que les piétons, voitures, etc. Nous proposons ainsi une nouvelle technique de calibration des capteurs afin de projeter avec précision les données photographiques sur le nuage de points.
46

METHODES DE RESUME DE VIDEO A PARTIR D'INFORMATIONS BAS NIVEAU, DU MOUVEMENT DE CAMERA OU DE L'ATTENTION VISUELLE

Guironnet, Mickael 12 October 2006 (has links) (PDF)
Le volume grandissant de vidéos a suscité le besoin de nouveaux outils d'aide à l'indexation. Un des outils possibles est le résumé de vidéo qui permet de fournir un aperçu rapide à l'usager. L'objectif de cette thèse est d'extraire, à partir d'informations visuelles, un résumé de vidéo contenant le « message » de la vidéo. Nous avons choisi d'étudier trois nouvelles méthodes de résumé de vidéo utilisant différentes informations visuelles.<br />La première méthode de résumé repose sur des caractéristiques de bas niveau (couleur, orientation et mouvement). La combinaison de ces index qui s'appuie sur un système d'inférence floue a permis de construire un résumé hiérarchique. Nous avons montré l'intérêt d'un tel résumé dans une application de la recherche par l'exemple.<br />La deuxième méthode de résumé est construite à partir du mouvement de caméra. Cette caractéristique de plus haut niveau sémantique est réfléchie par le réalisateur et induit une information sur le contenu. Une méthode de classification des mouvements basée sur le Modèle des Croyances Transférables est élaborée. La méthode de résumé est alors établie selon des règles sur l'amplitude et l'enchaînement des mouvements de caméra identifiés.<br />La troisième méthode de résumé est développée à partir de l'attention visuelle. Connaître les endroits où le regard se porte lors du visionnage de la vidéo est une information de plus haut niveau sémantique et pertinente pour créer le résumé. Un modèle spatio-temporel d'attention visuelle est proposé, puis utilisé pour détecter le changement de contenu au cours du temps afin de construire le résumé.
47

Structure d'une image : de la réalité augmentée à la stylisation d'images

Chen, Jiazhou 12 July 2012 (has links) (PDF)
Dans cette thèse, nous nous intéressons aux structures d'une image en général, et plus particulièrement aux gradients et aux contours. Ces dernières se sont révélées très importantes ces dernières années pour de nombreuses applications en infographie,telles que la réalité augmentée et la stylisation d'images et de vidéos. Le but de toute analyse des structures d'une image est de décrire à un haut-niveau la compréhension que l'on peut avoir de son contenu et de fournir les bases nécessaires à l'amélioration de la qualité des applications citées au-dessus, notamment la lisibilité, la précision, la cohérence spatiale et temporelle.Dans une premier temps, nous démontrons le rôle important que ces structures jouent pour des applications de type composition "Focus+Context". Une telle approche est utilisée en réalité augmentée pour permettre la visualisation de parties d'une scènes qui sont normalement derrières ce que l'on peut observer dans un flux vidéo. L'utilisation d'une segmentation et de lignes caractéristiques permettent de mettre en avant et/ou de révéler les relations d'ordre entre les différents objets de la scène. Pour la synthèse d'images guidée par une fonction d'importance, de multiples styles de rendu sont combinés de manière cohérente grâce à l'utilisation d'une carte de gradients et une de saillance.Dans un deuxième temps, nous introduisons une nouvelle techniques qui permet de reconstruire de manière continue un champ de gradient, et ceci sans trop lisser les détails originaux contenus dans l'image. Pour cela, nous développons une nouvelle méthode d'approximation locale et de plus haut-degré pour des champs de gradients discrets et non-orientés. Cette méthode est basée sur le formalisme"moving least square" (MLS). Nous démontrons que notre approximation isotrope et linéaire est de meilleure qualité que le classique tenseur de structure : les détails sont mieux préservés et les instabilités sont réduites de manière significative. Nous démontrons aussi que notre nouveau champ de gradients apporte des améliorations à de nombreuses techniques de stylisation.Finalement, nous démontrons que l'utilisation d'une technique d'analyse de profil caractéristique par approximation polynomiale permet de distinguer les variations douces des zones dures. Les paramètres du profil sont utilisés comme des paramètres de stylisation tels que l'orientation des coups de pinceau, leur taille et leur opacité. Cela permet la création d'une large variété de styles de ligne.
48

Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos / Motion in action : optical flow estimation and action localization in videos

Weinzaepfel, Philippe 23 September 2016 (has links)
Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis. / With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations.
49

A storytelling machine ? : automatic video summarization : the case of TV series / Une machine à raconter des histoires ? : Analyse et modélisation des processus de ré-éditorialisation de vidéos

Bost, Xavier 23 November 2016 (has links)
Ces dix dernières années, les séries télévisées sont devenues de plus en plus populaires. Par opposition aux séries TV classiques composées d’épisodes autosuffisants d’un point de vue narratif, les séries TV modernes développent des intrigues continues sur des dizaines d’épisodes successifs. Cependant, la continuité narrative des séries TV modernes entre directement en conflit avec les conditions usuelles de visionnage : en raison des technologies modernes de visionnage, les nouvelles saisons des séries TV sont regardées sur de courtes périodes de temps. Par conséquent, les spectateurs sur le point de visionner de nouvelles saisons sont largement désengagés de l’intrigue, à la fois d’un point de vue cognitif et affectif. Une telle situation fournit au résumé de vidéos des scénarios d’utilisation remarquablement réalistes, que nous détaillons dans le Chapitre 1. De plus, le résumé automatique de films, longtemps limité à la génération de bande-annonces à partir de descripteurs de bas niveau, trouve dans les séries TV une occasion inédite d’aborder dans des conditions bien définies ce qu’on appelle le fossé sémantique : le résumé de médias narratifs exige des approches orientées contenu, capables de jeter un pont entre des descripteurs de bas niveau et le niveau humain de compréhension. Nous passons en revue dans le Chapitre 2 les deux principales approches adoptées jusqu’ici pour aborder le problème du résumé automatique de films de fiction. Le Chapitre 3 est consacré aux différentes sous-tâches requises pour construire les représentations intermédiaires sur lesquelles repose notre système de génération de résumés : la Section 3.2 se concentre sur la segmentation de vidéos,tandis que le reste du chapitre est consacré à l’extraction de descripteurs de niveau intermédiaire,soit orientés saillance (échelle des plans, musique de fond), soit en relation avec le contenu (locuteurs). Dans le Chapitre 4, nous utilisons l’analyse des réseaux sociaux comme une manière possible de modéliser l’intrigue des séries TV modernes : la dynamique narrative peut être adéquatement capturée par l’évolution dans le temps du réseau des personnages en interaction. Cependant, nous devons faire face ici au caractère séquentiel de la narration lorsque nous prenons des vues instantanées de l’état des relations entre personnages. Nous montrons que les approches classiques par fenêtrage temporel ne peuvent pas traiter convenablement ce cas, et nous détaillons notre propre méthode pour extraire des réseaux sociaux dynamiques dans les médias narratifs.Le Chapitre 5 est consacré à la génération finale de résumés orientés personnages,capables à la fois de refléter la dynamique de l’intrigue et de ré-engager émotionnellement les spectateurs dans la narration. Nous évaluons notre système en menant à une large échelle et dans des conditions réalistes une enquête auprès d’utilisateurs. / These past ten years, TV series became increasingly popular. In contrast to classicalTV series consisting of narratively self-sufficient episodes, modern TV seriesdevelop continuous plots over dozens of successive episodes. However, thenarrative continuity of modern TV series directly conflicts with the usual viewing conditions:due to modern viewing technologies, the new seasons of TV series are beingwatched over short periods of time. As a result, viewers are largely disengaged fromthe plot, both cognitively and emotionally, when about to watch new seasons. Sucha situation provides video summarization with remarkably realistic use-case scenarios,that we detail in Chapter 1. Furthermore, automatic movie summarization, longrestricted to trailer generation based on low-level features, finds with TV series a unprecedentedopportunity to address in well-defined conditions the so-called semanticgap: summarization of narrative media requires content-oriented approaches capableto bridge the gap between low-level features and human understanding. We review inChapter 2 the two main approaches adopted so far to address automatic movie summarization.Chapter 3 is dedicated to the various subtasks needed to build the intermediaryrepresentations on which our summarization framework relies: Section 3.2focuses on video segmentation, whereas the rest of Chapter 3 is dedicated to the extractionof different mid-level features, either saliency-oriented (shot size, backgroundmusic), or content-related (speakers). In Chapter 4, we make use of social network analysisas a possible way to model the plot of modern TV series: the narrative dynamicscan be properly captured by the evolution over time of the social network of interactingcharacters. Nonetheless, we have to address here the sequential nature of thenarrative when taking instantaneous views of the state of the relationships between thecharacters. We show that standard time-windowing approaches can not properly handlethis case, and we detail our own method for extracting dynamic social networksfrom narrative media. Chapter 5 is dedicated to the final generation and evaluation ofcharacter-oriented summaries, both able to reflect the plot dynamics and to emotionallyre-engage viewers into the narrative. We evaluate our framework by performing alarge-scale user study in realistic conditions.
50

Reconnaissance perceptuelle des objets d’Intérêt : application à l’interprétation des activités instrumentales de la vie quotidienne pour les études de démence / Perceptual object of interest recognition : application to the interpretation of instrumental activities of daily living for dementia studies

Buso, Vincent 30 November 2015 (has links)
Cette thèse est motivée par le diagnostic, l’évaluation, la maintenance et la promotion de l’indépendance des personnes souffrant de maladies démentielles pour leurs activités de la vie quotidienne. Dans ce contexte nous nous intéressons à la reconnaissance automatique des activités de la vie quotidienne.L’analyse des vidéos de type égocentriques (où la caméra est posée sur une personne) a récemment gagné beaucoup d’intérêt en faveur de cette tâche. En effet de récentes études démontrent l’importance cruciale de la reconnaissance des objets actifs (manipulés ou observés par le patient) pour la reconnaissance d’activités et les vidéos égocentriques présentent l’avantage d’avoir une forte différenciation entre les objets actifs et passifs (associés à l’arrière plan). Une des approches récentes envers la reconnaissance des éléments actifs dans une scène est l’incorporation de la saillance visuelle dans les algorithmes de reconnaissance d’objets. Modéliser le processus sélectif du système visuel humain représente un moyen efficace de focaliser l’analyse d’une scène vers les endroits considérés d’intérêts ou saillants,qui, dans les vidéos égocentriques, correspondent fortement aux emplacements des objets d’intérêt. L’objectif de cette thèse est de permettre au systèmes de reconnaissance d’objets de fournir une détection plus précise des objets d’intérêts grâce à la saillance visuelle afin d’améliorer les performances de reconnaissances d’activités de la vie de tous les jours. Cette thèse est menée dans le cadre du projet Européen Dem@care.Concernant le vaste domaine de la modélisation de la saillance visuelle, nous étudions et proposons une contribution à la fois dans le domaine "Bottom-up" (regard attiré par des stimuli) que dans le domaine "Top-down" (regard attiré par la sémantique) qui ont pour but d’améliorer la reconnaissance d’objets actifs dans les vidéos égocentriques. Notre première contribution pour les modèles Bottom-up prend racine du fait que les observateurs d’une vidéo sont normalement attirés par le centre de celle-ci. Ce phénomène biologique s’appelle le biais central. Dans les vidéos égocentriques cependant, cette hypothèse n’est plus valable.Nous proposons et étudions des modèles de saillance basés sur ce phénomène de biais non central.Les modèles proposés sont entrainés à partir de fixations d’oeil enregistrées et incorporées dans des modèles spatio-temporels. Lorsque comparés à l’état-de-l’art des modèles Bottom-up, ceux que nous présentons montrent des résultats prometteurs qui illustrent la nécessité d’un modèle géométrique biaisé non-centré dans ce type de vidéos. Pour notre contribution dans le domaine Top-down, nous présentons un modèle probabiliste d’attention visuelle pour la reconnaissance d’objets manipulés dans les vidéos égocentriques. Bien que les bras soient souvent source d’occlusion des objets et considérés comme un fardeau, ils deviennent un atout dans notre approche. En effet nous extrayons à la fois des caractéristiques globales et locales permettant d’estimer leur disposition géométrique. Nous intégrons cette information dans un modèle probabiliste, avec équations de mise a jour pour optimiser la vraisemblance du modèle en fonction de ses paramètres et enfin générons les cartes d’attention visuelle pour la reconnaissance d’objets manipulés. [...] / The rationale and motivation of this PhD thesis is in the diagnosis, assessment,maintenance and promotion of self-independence of people with dementia in their InstrumentalActivities of Daily Living (IADLs). In this context a strong focus is held towardsthe task of automatically recognizing IADLs. Egocentric video analysis (cameras worn by aperson) has recently gained much interest regarding this goal. Indeed recent studies havedemonstrated how crucial is the recognition of active objects (manipulated or observedby the person wearing the camera) for the activity recognition task and egocentric videospresent the advantage of holding a strong differentiation between active and passive objects(associated to background). One recent approach towards finding active elements in a sceneis the incorporation of visual saliency in the object recognition paradigms. Modeling theselective process of human perception of visual scenes represents an efficient way to drivethe scene analysis towards particular areas considered of interest or salient, which, in egocentricvideos, strongly corresponds to the locus of objects of interest. The objective of thisthesis is to design an object recognition system that relies on visual saliency-maps to providemore precise object representations, that are robust against background clutter and, therefore,improve the recognition of active object for the IADLs recognition task. This PhD thesisis conducted in the framework of the Dem@care European project.Regarding the vast field of visual saliency modeling, we investigate and propose a contributionin both Bottom-up (gaze driven by stimuli) and Top-down (gaze driven by semantics)areas that aim at enhancing the particular task of active object recognition in egocentricvideo content. Our first contribution on Bottom-up models originates from the fact thatobservers are attracted by a central stimulus (the center of an image). This biological phenomenonis known as central bias. In egocentric videos however this hypothesis does not alwayshold. We study saliency models with non-central bias geometrical cues. The proposedvisual saliency models are trained based on eye fixations of observers and incorporated intospatio-temporal saliency models. When compared to state of the art visual saliency models,the ones we present show promising results as they highlight the necessity of a non-centeredgeometric saliency cue. For our top-down model contribution we present a probabilisticvisual attention model for manipulated object recognition in egocentric video content. Althougharms often occlude objects and are usually considered as a burden for many visionsystems, they become an asset in our approach, as we extract both global and local featuresdescribing their geometric layout and pose, as well as the objects being manipulated. We integratethis information in a probabilistic generative model, provide update equations thatautomatically compute the model parameters optimizing the likelihood of the data, and designa method to generate maps of visual attention that are later used in an object-recognitionframework. This task-driven assessment reveals that the proposed method outperforms thestate-of-the-art in object recognition for egocentric video content. [...]

Page generated in 0.4077 seconds