• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 213
  • 149
  • 39
  • Tagged with
  • 404
  • 404
  • 404
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Action Representation and Recognition

Weinland, Daniel 20 October 2008 (has links) (PDF)
La reconnaissance d'actions et d'activités humaines est un thème de recherche ambitieux en vision par ordinateur, avec d'importantes et nombreuses applications, notamment pour la vidéo surveillance et les environnements interactifs et intelligents. D'un point de vue computationel une action peut être définie comme une entité de dimension 4 dans le l'espace et le temps. Plusieurs représentations peuvent alors être envisagées qui diffèrent par les informations considérées, par exemple : la forme ou l'apparence, la représentation explicite ou implicite du déroulement d'une action - la dynamique, l'invariance du modèle au genre, taille et corpulence et l'invariance au point de vue qui permet d'apprendre et de reconnaître une action avec des configurations de caméras différentes. Dans cette thèse, nous étudions ces représentations et leurs impacts sur la reconnaissance d'actions. Nous nous intéressons en particulier à l'invariance des représentations, à la modélisation de la dynamique d'une action et à la manière de segmenter une action. Nos resultats démontrent que la reconnaissance d'actions simples, par exemple se lever ou courir, peut s'effectuer independamment de point de vue, des caractéristiques propres du corps observé et de la dynamique de l'action.
102

Contribution à la détection et à la reconnaissance d'objets dans les images

Harzallah, Hedi 16 September 2011 (has links) (PDF)
Cette thèse s'intéresse au problème de la reconnaissance d'objets dans les images vidéo et plus particulièrement à celui de leur localisation. Elle a été conduite dans le contexte d'une collaboration scientifique entre l'INRIA Rhône-Alpes et MBDA France. De ce fait, une attention particulière a été accordée à l'applicabilité des approches proposées aux images infra-rouges. La méthode de localisation proposée repose sur l'utilisation d'une fenêtre glissante incluant une cascade à deux étages qui, malgré sa simplicité, permet d'allier rapidité et précision. Le premier étage est un étage de filtrage rejetant la plupart des faux positifs au moyen d'un classifieur SVM linéaire. Le deuxième étage élimine les fausses détections laissées par le premier étage avec un classifieur SVM non-linéaire plus lent, mais plus performant. Les fenêtres sont représentées par des descripteurs HOG et Bag-of-words. La seconde contribution de la thèse réside dans une méthode permettant de combiner localisation d'objets et catégorisation d'images. Ceci permet, d'une part, de prendre en compte le contexte de l'image lors de la localisation des objets, et d'autre part de s'appuyer sur la structure géométrique des objets lors de la catégorisation des images. Cette méthode permet d'améliorer les performances pour les deux tâches et produit des détecteurs et classifieurs dont la performance dépasse celle de l'état de l'art. Finalement, nous nous penchons sur le problème de localisation de catégories d'objets similaires et proposons de décomposer la tâche de localisation d'objets en deux étapes. Une première étape de détection permet de trouver les objets sans déterminer leurs positions tandis qu'une seconde étape d'identification permet de prédire la catégorie de l'objet. Nous montrons que cela permet de limiter les confusions entre les classes, principal problème observé pour les catégories d'objets visuellement similaires. La thèse laisse une place importante à la validation expérimentale, conduites sur la base PASCAL VOC ainsi que sur des bases d'images spécifiquement réalisées pour la thèse.
103

VOCUS a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index.
104

VOCUS a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph. D.)--University of Bonn, Germany. / Includes bibliographical references and index.
105

Estimation géométrique et appariement en modélisation automatique /

Tarel, Jean-Philippe. January 1900 (has links)
Th. doct.--Math. appl.--Paris 9, 1996. / Bibliogr. p. 209-221. Résumé. 1996 d'après la déclaration de dépôt légal.
106

Recalage rigide, non rigide et projectif d'images médicales tridimensionnelles /

Feldmar, Jacques. January 1900 (has links)
Th. doct.--Informatique--Palaiseau--Éc. polytech., 1995. / Bibliogr. p. 179-190. Résumé en français et en anglais. 1997 d'après la déclaration de dépôt légal.
107

Methods and tools for rapid and efficient parallel implementation of computer vision algorithms on embedded multiprocessors / Méthodes et outils pour l'implémentation rapide et efficace d'algorithmes de vision par ordinateur sur des multiprocesseurs embarqués

Schwambach, Vítor 30 March 2016 (has links)
Les applications de vision par ordinateur embarquées demandent une forte capacité decalcul et poussent le développement des systèmes multi- et many-cores spécifiques à l’application. Les choix au départ de la conception du système peuvent impacter sa performance parallèle finale – parmi lesquelles la granularité de la parallélisation, le nombre de processeurs et l’équilibre entre calculs et l’acheminement des données. L’impact de ces choix est difficile à estimer dans les phases initiales de conception et il y a peu d’outils et méthodes pour aider les concepteurs dans cette tâche. Les contributions de cette thèse consistent en deux méthodes et les outils associés qui visent à faciliter la sélection des paramètres architecturaux d’un multiprocesseur embarqué et les stratégies de parallélisation des applications de vision embarquée. La première est une méthode d’exploration de l’espace de conception qui repose sur Parana, un outil fournissant une estimation rapide et précise de la performance parallèle. Parana permet l’évaluation de différents scénarios de parallélisation et peut déterminer la limite maximale de performance atteignable. La seconde contribution est une méthode pour l’optimisation du dimensionnement des tuiles d’images 2D utilisant la programmation par contraintes dans l’outil Tilana. La méthode proposée intègre pour plus de précision des facteurs non-linéaires comme les temps des transferts DMA et les surcoûts de l’ordonnancement parallèle. / Embedded computer vision applications demand high system computational power and constitute one of the key drivers for application-specific multi- and many-core systems. A number of early system design choices can impact the system’s parallel performance – among which the parallel granularity, the number of processors and the balance between computation and communication. Their impact in the final system performance is difficult to assess in early design stages and there is a lack for tools that support designers in this task. The contributions of this thesis consist in two methods and associated tools that facilitate the selection of embedded multiprocessor’s architectural parameters and computer vision application parallelization strategies. The first consists of a Design Space Exploration (DSE) methodology that relies on Parana, a fast and accurate parallel performance estimation tool. Parana enables the evaluation of what-if parallelization scenarios and can determine their maximum achievable performance limits. The second contribution consists of a method for optimal 2D image tile sizing using constraint programming within the Tilana tool. The proposed method integrates non-linear DMA data transfer times and parallel scheduling overheads for increased accuracy.
108

Identification de personnes dans un flux vidéo par l’apparence et la démarche / People identification in video sequences by appearance and gait

Derbel, Ahmed 08 September 2014 (has links)
Avec l’installation généralisée de caméras de surveillance dans les zones urbaines, l’enjeu de cette thèse est la reconnaissance automatique de piétons par l’apparence et la démarche. Cette reconnaissance nécessite des descripteurs robustes pour caractériser et identifier une personne au-delà des modifications d’apparence induites par un changement de point de vue, d’éclairage ou des variations de déplacement. La première partie propose une nouvelle mesure de similarité exploitant l’information intra et inter-personnes dans les histogrammes régionaux couleur. Une étude comparative montre l’intérêt de cette modélisation pour s’affranchir des variations de luminosité et de pose. Une fusion pondérée des descripteurs d’apparence les plus performants permet ensuite d’améliorer le taux d’identification. La seconde partie étudie la reconnaissance par la démarche selon un point de vue latéral puis frontal. Pour une observation latérale du piéton, la dynamique de la marche est modélisée par les variations spatiotemporelles des points d’articulation des deux jambes. Tandis qu’en vue frontale, on analyse la distribution des mouvements dans les silhouettes soit par une carte binaire de l’enveloppe (RED), soit par une carte en niveaux de gris des fréquences (RFD). L’étude expérimentale démontre que les descripteurs proposés font preuve de bonnes performances face à l’état de l’art, et qu’une fusion de plusieurs descripteurs permet toujours d’améliorer notablement les taux de reconnaissance. Enfin, la dernière partie de la thèse introduit un système d’identification complet associant l’apparence et la démarche. Cette approche mixte est évaluée sur une base de séquences vidéo intégrant de fortes variations de point de vue et d’éclairage. Elle offre un bon compromis entre efficacité et temps de calcul pour une application en vidéo surveillance. / With the wide-spread installation of cameras in urban areas, this thesis deals with an automatic people identification by appearance and gait. This recognition requires robust descriptors to represent and discriminate each person despite the appearance variations caused by changing view point, lighting or way of moving (speed, carrying a bag…). The first part, dedicated to appearance identification, proposes a new similarity measure using intra and inter-person information with regional color histograms. A comparative study shows the efficiency of this representation to overcome the lighting and pose variations. The recognition rate is then improved by merging the most robust appearance descriptors. The second part is focused on gait recognition by distinguishing lateral and frontal points of view. For lateral observation, a pedestrian is characterized by several spatio-temporal variations of some articulated points of the legs. While, the motion of global silhouette is analyzed using a binary envelope map (RED) and a gray levels frequency map (RFD) in frontal point of view. Experimental test prove that those descriptors provide good performances compared to other state-of-art approaches, and that merging descriptors always improves the recognition rate. The last part introduces an identification system coupling appearance and gait. This merging approach is evaluated on a video sequences database including large points of view and lighting variations. It provides a good compromise between efficiency and processing time for application in video surveillance.
109

Catégorisation par le contenu sémantique d'objets vidéo : recherche et reconnaissance d'acteurs dans les films / Content-Based Video Semantic Object Categorization : actor Retrieval and Recognition in Movies

Zhao, Shuji 10 June 2011 (has links)
Dans cette thèse, nous proposons un nouveau système de recherche par le contenu de catégories sémantiques d'objets vidéo.A partir des séquences vidéo, nous détectons et extrayons les régions contenant le même objet (visage d'une personne, un modèle de voiture, etc.) au cours d'un plan-séquence. A partir de ce volume, appelé Track, nous extrayons un ensemble de caractéristiques visuelles spatio-temporellement cohérentes qui forme ainsi un Tube Spatio-Temporel représentant l'objet.Pour évaluer la similarité entre Tubes Spatio-Temporels, nous concevons des fonctions noyaux dédiées. À partir de ces noyaux, nous proposons des stratégies d'apprentissage supervisé et interactif, intégrées dans un cadre Machine à Vecteurs de Supports.Notre approche est évaluée sur des bases de données de films réels. Elle surpasse les méthodes de l'état de l'art pour la reconnaissance d'acteurs multi-classes. Notre méthode est également testée pour la recherche interactive d'un acteur dans une base de vidéo et sur une base de données de voitures, illustrant ainsi la généricité de la méthode et ses possibles extensions à tout type d'objets vidéo. / In this thesis, we propose a new video object retrieval and recognition system based on visual content.From video sequences, we detect, then extract video objects such as face and car, and define the continuous content made of regions containing this object in successive frames. From this volume, called Track, we extract spatio-temporally consistent visual features to define the video object representation: Spatio-Temporal Tube.To evaluate the similarity between complex tube objects, we design a Spatio-Temporal Tube Kernel (STTK) function. Based on this kernel similarity we present both supervised and active learning strategies embedded in Support Vector Machine framework. Additionally, we propose a multi-class classification framework dealing with highly unbalanced datasets.Our approach is successfully evaluated on real movie databases. Our machine learning approach outperforms the state of the art methods for multi-class actor recognition. Our method is also evaluated for actor retrieval task and on a car database showing hence promising results for car identification task and the potential of extension to any category of video objects.
110

Shape grammar parsing : application to image-based modeling / Grammaires de formes pour analyse d'images : application à la modélisation automatique

Teboul, Olivier 01 June 2011 (has links)
L’objectif de cette thèse était de résoudre le problème d’analyse d’image de façade avec a priori de forme procédurale en vue de l’appliquer à la modélisation 3D d’immeuble à partir d’une seule image. Le cadre de cette thèse se situe à la frontière de l’informatique graphique et de la vision par ordinateur, tant d’un point de vue des méthodes employées que des applications potentielles.Deux approches complémentaires ont été proposées: une méthode dite ascendante qui cherche à regrouper des régions similaires de l’image afin de révéler la structure sous-jacente de la façade ; et une méthode dite descendante basée sur les puissants principes de l’apprentissage par renforcement. Ce nouvel algorithme combine des mesures locales issues de méthodes d’apprentissage supervisé dans une optimisation globale d’un Processus de Décision Markovien, qui découvre la grammaire du bâtiment au fil des itérations.Ces deux méthodes ont été évaluées qualitativement et quantitativement. Les résultats ainsi obtenus, se sont avérés bien meilleurs que l’état de l’art sur le plan de la rapidité, de la qualité de segmentation, mais également au niveau de la flexibilité de la méthode et de ses extensions éventuelles. Cet algorithme a été abondamment testé sur différents types de grammaires de formes, sur différents styles architecturaux, avec différentes mesures sur les images, et s’est avéré particulièrement robuste aux conditions d’illuminations et aux occlusions.En conclusion, les grammaires de formes peuvent être utilisées comme une pierre de Rosette afin de déchiffrer le langage de l’architecture et permettent ainsi de modéliser un bâtiment 3D à partir d’une unique image, à travers un nouvel algorithme issu de l’apprentissage par renforcement. D’une part la méthode développée apporte une réponse au problème de reconstruction urbaine 3D à large échelle à partir d’images, et d’autre part elle laisse entrevoir de potentielles applications de l’apprentissage par renforcement en vision par ordinateur, domaine qui jusqu’alors ne s’y était que très peu intéressé. / The purpose of this thesis was to perform facade image parsing with shape grammars in order to tackle single-view image-based 3D building modeling. The scope of the thesis was lying at the border of Computer Graphics and Computer Vision, both in terms of methods and applications.Two different and complementary approaches have been proposed: a bottom-up parsing algorithm that aimed at grouping similar regions of a facade image so as to retrieve the underlying layout, and a top-down parsing algorithm based on a very powerful framework: Reinforcement Learning. This novel parsing algorithm uses pixel-wise image supports based on supervised learning in a global optimization of a Markov Decision Process.Both methods were evaluated quantitatively and qualitatively. The second one was proved to support various architectures, several shape grammars and image supports, and showed robustness to challenging viewing conditions; illumination and large occlusions. The second method outperformed the state-of-the-art both in terms of segmentation and speed performances. It also provides a much more flexible framework, in which many extensions may be envisioned.The conclusion of this work was that the problem of single-view image-based 3D building modeling could be solved elegantly by using shape grammar as a Rosetta stone to decipher the language of Architecture through a well-suited Reinforcement Learning formulation. This solution was a potential answer to large-scale reconstruction of urban environments from images, but also suggested the possibility of introducing Reinforcement Learning in other vision tasks such as generic image parsing, where it have been barely explored so far.

Page generated in 0.0732 seconds