Global ETD Search

11	Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes Béchet, Nicolas 08 December 2009 (has links) (PDF) Les mots constituent l'un des fondements des langues naturelles de type indo-européenne. Des corpus rédigés avec ces langues sont alors naturellement décrits avec des mots. Cependant, l'information qu'ils véhiculent seuls est assez réduite d'un point de vue sémantique. Il est en effet primordial de prendre en compte la complexité de ces langues comme par exemple leurs propriétés syntaxiques, lexicales et sémantiques. Nous proposons dans cette thèse de prendre en considération ces propriétés en décrivant un corpus par le biais d'informations syntaxiques permettant de découvrir des connaissances sémantiques. Nous présentons dans un premier temps un modèle de sélection de descripteurs SelDe. Ce dernier se fonde sur les objets issus des relations syntaxiques d'un corpus. Le modèle SelDe a été évalué pour des tâches de classification de données textuelles. Pour cela, nous présentons une approche d'expansion de corpus, nommée ExpLSA, dont l'objectif est de combiner les informations syntaxiques fournies par SelDe et la méthode numérique LSA. Le modèle SelDe, bien que fournissant des descripteurs de bonne qualité, ne peut être appliqué avec tous types de données textuelles. Ainsi, nous décrivons dans cette thèse un ensemble d'approches adaptées aux données textuelles dites complexes. Nous étudions la qualité de ces méthodes avec des données syntaxiquement mal formulées et orthographiées, des données bruitées ou incomplètes et finalement des données dépourvues de syntaxe. Finalement un autre modèle de sélection de descripteurs, nommé SelDeF, est proposé. Ce dernier permet de valider de manière automatique des relations syntaxiques dites “induites”. Notre approche consiste à combiner deux méthodes. Une première approche fondée sur des vecteurs sémantiques utilise les ressources d'un thésaurus. Une seconde s'appuie sur les connaissances du Web et des mesures statistiques afin de valider les relations syntaxiques. Nous avons expérimenté SelDeF pour une tâche de construction et d'enrichissement de classes conceptuelles. Les résultats expérimentaux montrent la qualité des approches de validation et reflètent ainsi la qualité des classes conceptuelles construites. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre TAL fouille de textes descripteur syntaxe classification
12	Spatio-temporal descriptors for human action recognition / Reconnaissance d’action à partir de descripteurs spatio-temporels Megrhi, Sameh 15 December 2014 (has links) L'analyse et l’interprétation de contenus visuels et plus particulièrement la vidéo est un domaine de recherche de plus en plus attractif en raison du nombre important d'applications telles que la vidéo-surveillance, le résumé de films, l'indexation, les jeux vidéo, la robotique et la domotique. Dans cette thèse nous nous intéressons à la détection et à la reconnaissance d'actions humaines dans des séquences vidéo. Pour la partie détection des actions, nous avons introduit deux approches basées sur les points d'intérêts locaux. La première proposition est une méthode simple et efficace qui vise à détecter les mouvements humains ensuite contribuer à extraire des séquences vidéo décrivant des actions importantes. Afin d'atteindre cet objectif, les premières séquences vidéo sont segmentées en volumes de trames et groupes de points d’intérêts. Dans cette méthode, nous nous basons sur le suivi du mouvement des points d'intérêts. Nous avons utilisé, dans un premier lieu, des vidéos simples puis nous avons progressivement augmenté la complexité des vidéos en optant pour des scènes réalistes. Les jeux de données simples présentent généralement un arrière-plan statique avec un Seul acteur qui effectue une seule action unique ou bien la même action mais d'une manière répétitive. Nous avons ensuite testé la robustesse de la détection d'action proposée dans des jeux de données plus complexes réalistes recueillis à partir des réseaux sociaux. Nous avons introduit une approche de détection d'actions efficace pour résoudre le problème de la reconnaissance d'actions humaines dans les vidéos réalistes contenant des mouvements de caméra. Le mouvement humain est donc segmenté d'une manière spatio-temporelle afin de détecter le nombre optimal de trames suffisant pour effectuer une description vidéo. Les séquences sont décrites au moyen de descripteurs spatio-temporels. Nous avons proposé dans cette thèse deux nouveaux descripteurs spatio-temporels basés sur le suivi de la trajectoire des points d'intérêts. Les suivis et la description vidéo sont effectués sur les patchs vidéo qui contiennent un mouvement ou une partie d'un mouvement détecté par la segmentation réalisée lors de l'étape précédente. Nous nous sommes basés sur le descripteur SURF non seulement pour sa précision et mais surtout pour la rapidité. Le premier descripteur proposé est appelé ST-SURF basé sur une nouvelle combinaison du (SURF) et du flot optique. Le ST-SURF permet le suivi de la trajectoire des points d'intérêts tout en gardant les informations spatiales, pertinentes, provenant du SURF. Le deuxième descripteur proposé dans le cadre de cette thèse est un histogramme du mouvement de la trajectoire (HMTO). HMTO est basé sur la position ainsi que l'échelle relative à un SURF. Ainsi, pour chaque SURF détecté, nous définissons une région du voisinage du point d'intérêt en nous basant sur l'échelle. Pour le patch détecté, nous extrayons le flot optique d'une manière dense. Les trajectoires de mouvement sont ensuite générées pour chaque pixel en exploitant les composantes horizontale et verticale de flot optique (u, v). La précision de la description de la vidéo proposée est testée sur un ensemble de données complexes et un plus grand ensemble de données réalistes. Les descripteurs de vidéo proposés sont testés d'une manière simple puis en les fusionnants avec d'autres descripteurs. Les descripteurs vidéo ont été introduits dans un processus de classification basé sur le sac de mots et ont démontré une amélioration des taux de reconnaissance par rapport aux approches précédemment proposés dans l'état-de-l ‘art. / Due to increasing demand for video analysis systems in recent years, human action de-tection/recognition is being targeted by the research community in order to make video description more accurate and faster, especially for big datasets. The ultimate purpose of human action recognition is to discern automatically what is happening in any given video. This thesis aims to achieve this purpose by contributing to both action detection and recognition tasks. We thus have developed new description methods for human action recognition.For the action detection component we introduce two novel approaches for human action detection. The ﬁrst proposition is a simple yet eﬀective method that aims at detecting human movements. First, video sequences are segmented into Frame Packets (FPs) and Group of Interest Points (GIP). In this method we track the movements of Interest Points in simple controlled video datasets and then in videos of gradually increasing complexity. The controlled datasets generally contain videos with a static background and simple ac-tions performed by one actor. The more complex realistic datasets are collected from social networks.The second approach for action detection attempts to address the problem of human ac-tion recognition in realistic videos captured by moving cameras. This approach works by segmenting human motion, thus investigating the optimal suﬃcient frame number to per-form action recognition. Using this approach, we detect object edges using the canny edge detector. Next, we apply all the steps of the motion segmentation process to each frame. Densely distributed interest points are detected and extracted based on dense SURF points with a temporal step of N frames. Then, optical ﬂows of the detected key points between two frames are computed by the iterative Lucas and Kanade optical ﬂow technique, using pyramids. Since we are dealing with scenes captured by moving cameras, the motion of objects necessarily involves the background and/or the camera motion. Hence, we propose to compensate for the camera motion. To do so, we must ﬁrst assume that camera motion exists if most points move in the same direction. Then, we cluster optical ﬂow vectors using a KNN clustering algorithm in order to determine if the camera motion exists. If it does, we compensate for it by applying the aﬃne transformation to each frame in which camera motion is detected, using as input parameters the camera ﬂow magnitude and deviation. Finally, after camera motion compensation, moving objects are segmented using temporal diﬀerencing and a bounding box is drawn around each detected moving object. The action recognition framework is applied to moving persons in the bounding box. Our goal is to reduce the amount of data involved in motion analysis while preserving the most important structural features. We believe that we have performed action detection in the spatial and temporal domain in order to obtain better action detection and recognition while at the same time considerably reducing the processing time... SURF Flot optique Descripteur spatio-temporel Sac de mots SURF Optical flow Spatio-temporal descriptors
13	Representing 3D models for alignment and recognition / Représentations de modèles 3D pour l’alignement et la reconnaissance Aubry, Mathieu 08 May 2015 (has links) Cette thèse explore différentes représentations de modèles 3D pour la mise en correspondance de formes 3D, l’alignement d’une instance 2D et de son modèle 3D et l’alignement de modèles 3D à une image 2D pour toute une catégorie d’objets. La géométrie d’une forme 3D est presque entièrement encodée par les fonctions et valeurs propres de l’opérateur de Laplace-Beltrami sur cette forme. Nous utilisons cette représentation mathématiquement élégante pour caractériser les points d’une forme en développant une nouvelle notion d’échelle. Nous montrons que cette signature présente plusieurs avantages. Un élément clé de la compréhension d’une image est l’alignement des objets qu’elle contient à leur modèle 3D. Nous considérons ce problème d’alignement 2D-3D pour une représentation 2D arbitraire, telle un dessin ou une peinture. Nous représentons le modèle d’un site architectural par un ensemble d’elements visuels discriminants. Nous développons ensuite une procédure pour mettre ces éléments en correspondance avec une représentation 2D du site. Nous validons notre méthode sur une nouvelle base de données de représentations historiques et non-photographiques. Nous étendons cette approche pour décrire non pas un unique site architectural, mais une catégorie entière d’objets, représentée par une grande collection de modèles 3D. Notre méthode d’alignement 2D-3D pour une catégorie d’objets non seulement détecte les instances, mais identifie une approximation de leur style et de leur point de vue. Nous évaluons notre approche sur un sous-ensemble de la difficile base de donnée “Pascal VOC 2007” pour la catégorie des chaises, que nous représentons pas une base de donnée de 1394 modèles 3D. / Thanks to the success of 3D reconstruction algorithms and the development of online tools for computer-aided design (CAD) the number of publicly available 3D models has grown significantly in recent years, and will continue to do so. This thesis investigates representations of 3D models for 3D shape matching, instance-level 2D-3D alignment, and category-level 2D-3D recognition. The geometry of a 3D shape can be represented almost completely by the eigen-functions and eigen-values of the Laplace-Beltrami operator on the shape. We use this mathematically elegant representation to characterize points on the shape, with a new notion of scale. This 3D point signature can be interpreted in the framework of quantum mechanics and we call it the Wave Kernel Signature (WKS). We show that it has advantages with respect to the previous state-of-the-art shape descriptors, and can be used for 3D shape matching, segmentation and recognition. A key element for understanding images is the ability to align an object depicted in an image to its given 3D model. We tackle this instance level 2D-3D alignment problem for arbitrary 2D depictions including drawings, paintings, and historical photographs. This is a tremendously diffcult task as the appearance and scene structure in the 2D depictions can be very different from the appearance and geometry of the 3D model, e.g., due to the specific rendering style, drawing error, age, lighting or change of seasons. We represent the 3D model of an entire architectural site by a set of visual parts learned from rendered views of the site. We then develop a procedure to match those scene parts that we call 3D discriminative visual elements to the 2D depiction of the architectural site. We validate our method on a newly collected dataset of non-photographic and historical depictions of three architectural sites. We extend this approach to describe not only a single architectural site but an entire object category, represented by a large collection of 3D CAD models. We develop a category-level 2D-3D alignment method that not only detects objects in cluttered images but also identifies their approximate style and viewpoint. We evaluate our approach both qualitatively and quantitatively on a subset of the challenging Pascal VOC 2012 images of the \chair" category using a reference library of 1394 CAD models downloaded from the Internet. 3D Alignement Reconnaissance Descripteur Computer graphics Descriptor Computer vision Alignment Recognition 004
14	Détection, suivi et ré-identification de personnes à travers un réseau de caméra vidéo Souded, Malik 20 December 2013 (has links) (PDF) Cette thèse CIFRE est effectuée dans un contexte industriel et présente un framework complet pour la détection, le suivi mono-caméra et de la ré-identification de personnes dans le contexte multi-caméras. Les performances élevés et le traitement en temps réel sont les deux contraintes critiques ayant guidé ce travail. La détection de personnes vise à localiser/délimiter les gens dans les séquences vidéo. Le détecteur proposé est basé sur une cascade de classifieurs de type LogitBoost appliqué sur des descripteurs de covariances. Une approche existante a fortement été optimisée, la rendant applicable en temps réel et fournissant de meilleures performances. La méthode d'optimisation est généralisable à d'autres types de détecteurs d'objets. Le suivi mono-caméra vise à fournir un ensemble d'images de chaque personne observée par chaque caméra afin d'extraire sa signature visuelle, ainsi qu'à fournir certaines informations du monde réel pour l'amélioration de la ré-identification. Ceci est réalisé par le suivi de points SIFT à l'aide d'une filtre à particules, ainsi qu'une méthode d'association de données qui infère le suivi des objets et qui gère la majorité des cas de figures possible, notamment les occultations. Enfin, la ré-identification de personnes est réalisée avec une approche basée sur l'apparence globale en améliorant grandement une approche existante, obtenant de meilleures performances tout en étabt applicable en temps réel. Une partie "conscience du contexte" est introduite afin de gérer le changement d'orientation des personnes, améliorant les performances dans le cas d'applications réelles. Détection de personnes Suivi d'objets Ré-identification de personnes Descripteur de covariances Descripteur SIFT LogitBoost Filtrage particulaire
15	Détection, suivi et ré-identification de personnes à travers un réseau de caméra vidéo / People detection, tracking and re-identification through a video camera network Souded, Malik 20 December 2013 (has links) Cette thèse CIFRE est effectuée dans un contexte industriel et présente un framework complet pour la détection, le suivi mono-caméra et de la ré-identification de personnes dans le contexte multi-caméras. Les performances élevés et le traitement en temps réel sont les deux contraintes critiques ayant guidé ce travail. La détection de personnes vise à localiser/délimiter les gens dans les séquences vidéo. Le détecteur proposé est basé sur une cascade de classifieurs de type LogitBoost appliqué sur des descripteurs de covariances. Une approche existante a fortement été optimisée, la rendant applicable en temps réel et fournissant de meilleures performances. La méthode d'optimisation est généralisable à d'autres types de détecteurs d'objets. Le suivi mono-caméra vise à fournir un ensemble d'images de chaque personne observée par chaque caméra afin d'extraire sa signature visuelle, ainsi qu'à fournir certaines informations du monde réel pour l'amélioration de la ré-identification. Ceci est réalisé par le suivi de points SIFT à l'aide d'une filtre à particules, ainsi qu'une méthode d'association de données qui infère le suivi des objets et qui gère la majorité des cas de figures possible, notamment les occultations. Enfin, la ré-identification de personnes est réalisée avec une approche basée sur l'apparence globale en améliorant grandement une approche existante, obtenant de meilleures performances tout en étabt applicable en temps réel. Une partie "conscience du contexte" est introduite afin de gérer le changement d'orientation des personnes, améliorant les performances dans le cas d'applications réelles. / This thesis is performed in industrial context and presents a whole framework for people detection and tracking in a camera network. It addresses the main process steps: people detection, people tracking in mono-camera context, and people re-identification in multi-camera context. High performances and real-time processing are considered as strong constraints. People detection aims to localise and delimits people in video sequences. The proposed people detection is performed using a cascade of classifiers trained using LogitBoost algorithm on region covariance descriptors. A state of the art approach is strongly optimized to process in real time and to provide better detection performances. The optimization scheme is generalizable to many other kind of detectors where all possible weak classifiers cannot be reasonably tested. People tracking in mono-camera context aims to provide a set of reliable images of every observed person by each camera, to extract his visual signature, and it provides some useful real world information for re-identification purpose. It is achieved by tracking SIFT features using a specific particle filter in addition to a data association framework which infer object tracking from SIFT points one, and which deals with most of possible cases, especially occlusions. Finally, people re-identification is performed using an appearance based approach by improving a state of the art approach, providing better performances while keeping the real-time processing advantage. A context-aware part is introduced to robustify the visual signature against people orientations, ensuring better re-identification performances in real application case. Détection de personnes Suivi d'objets Ré-identification de personnes Descripteur de covariances Descripteur SIFT LogitBoost Filtrage particulaire People detection Object tracking People re-identification Region covariance descriptors SIFT descriptor Logitboost Particle filters
16	Contributions to generic and affective visual concept recognition / Contribution à la reconnaissance de concepts visuels génériques et émotionnels Liu, Ningning 22 November 2013 (has links) Cette thèse de doctorat est consacrée à la reconnaissance de concepts visuels (VCR pour "Visual Concept Recognition"). En raison des nombreuses difficultés qui la caractérisent, cette tâche est toujours considérée comme l’une des plus difficiles en vision par ordinateur et reconnaissance de formes. Dans ce contexte, nous avons proposé plusieurs contributions, particulièrement dans le cadre d’une approche de reconnaissance multimodale combinant efficacement les informations visuelles et textuelles. Tout d’abord, nous avons étudié différents types de descripteurs visuels de bas-niveau sémantique pour la tâche de VCR incluant des descripteurs de couleur, de texture et de forme. Plus précisément, nous pensons que chaque concept nécessite différents descripteurs pour le caractériser efficacement pour permettre sa reconnaissance automatique. Ainsi, nous avons évalué l’efficacité de diverses représentations visuelles, non seulement globales comme la couleur, la texture et la forme, mais également locales telles que SIFT, Color SIFT, HOG, DAISY, LBP et Color LBP. Afin de faciliter le franchissement du fossé sémantique entre les descripteurs bas-niveau et les concepts de haut niveau sémantique, et particulièrement ceux relatifs aux émotions, nous avons proposé des descripteurs visuels de niveau intermédiaire basés sur l’harmonie visuelle et le dynamisme exprimés dans les images. De plus, nous avons utilisé une décomposition spatiale pyramidale des images pour capturer l’information locale et spatiale lors de la construction des descripteurs d’harmonie et de dynamisme. Par ailleurs, nous avons également proposé une nouvelle représentation reposant sur les histogrammes de couleur HSV en utilisant un modèle d’attention visuelle pour identifier les régions d’intérêt dans les images. Ensuite, nous avons proposé un nouveau descripteur textuel dédié au problème de VCR. En effet, la plupart des photos publiées sur des sites de partage en ligne (Flickr, Facebook, ...) sont accompagnées d’une description textuelle sous la forme de mots-clés ou de légende. Ces descriptions constituent une riche source d’information sur la sémantique contenue dans les images et il semble donc particulièrement intéressant de les considérer dans un système de VCR. Ainsi, nous avons élaboré des descripteurs HTC ("Histograms of Textual Concepts") pour capturer les liens sémantiques entre les concepts. L’idée générale derrière HTC est de représenter un document textuel comme un histogramme de concepts textuels selon un dictionnaire (ou vocabulaire), pour lequel chaque valeur associée à un concept est l’accumulation de la contribution de chaque mot du texte pour ce concept, en fonction d’une mesure de distance sémantique. Plusieurs variantes de HTC ont été proposées qui se sont révélées être très efficaces pour la tâche de VCR. Inspirés par la démarche de l’analyse cepstrale de la parole, nous avons également développé Cepstral HTC pour capturer à la fois l’information de fréquence d’occurrence des mots (comme TF-IDF) et les liens sémantiques entre concepts fournis par HTC à partir des mots-clés associés aux images. Enfin, nous avons élaboré une méthode de fusion (SWLF pour "Selective Weighted Later Fusion") afin de combiner efficacement différentes sources d’information pour le problème de VCR. Cette approche de fusion est conçue pour sélectionner les meilleurs descripteurs et pondérer leur contribution pour chaque concept à reconnaître. SWLF s’est révélé être particulièrement efficace pour fusion des modalités visuelles et textuelles, par rapport à des schémas de fusion standards. [...] / This Ph.D thesis is dedicated to visual concept recognition (VCR). Due to many realistic difficulties, it is still considered to be one of the most challenging problems in computer vision and pattern recognition. In this context, we have proposed some innovative contributions for the task of VCR, particularly in building multimodal approaches that efficiently combine visual and textual information. Firstly, we have proposed semantic features for VCR and have investigated the efficiency of different types of low-level visual features for VCR including color, texture and shape. Specifically, we believe that different concepts require different features to efficiently characterize them for the recognition. Therefore, we have investigated in the context of VCR various visual representations, not only global features including color, shape and texture, but also the state-of-the-art local visual descriptors such as SIFT, Color SIFT, HOG, DAISY, LBP, Color LBP. To help bridging the semantic gap between low-level visual features and high level semantic concepts, and particularly those related to emotions and feelings, we have proposed mid-level visual features based on the visual harmony and dynamism semantics using Itten’s color theory and psychological interpretations. Moreover, we have employed a spatial pyramid strategy to capture the spatial information when building our mid-level features harmony and dynamism. We have also proposed a new representation of color HSV histograms by employing a visual attention model to identify the regions of interest in images. Secondly, we have proposed a novel textual feature designed for VCR. Indeed, most of online-shared photos provide textual descriptions in the form of tags or legends. In fact, these textual descriptions are a rich source of semantic information on visual data that is interesting to consider for the purpose of VCR or multimedia information retrieval. We propose the Histograms of Textual Concepts (HTC) to capture the semantic relatedness of concepts. The general idea behind HTC is to represent a text document as a histogram of textual concepts towards a vocabulary or dictionary, whereas its value is the accumulation of the contribution of each word within the text document toward the underlying concept according to a predefined semantic similarity measure. Several variants of HTC have been proposed that revealed to be very efficient for VCR. Inspired by the Cepstral speech analysis process, we have also developed Cepstral HTC to capture both term frequency-based information (like TF-IDF) and the relatedness of semantic concepts in the sparse image tags, which overcomes the HTC’s shortcoming of ignoring term frequency-based information. Thirdly, we have proposed a fusion scheme to combine different sources of Later Fusion, (SWLF) is designed to select the best features and to weight their scores for each concept to be recognized. SWLF proves particularly efficient for fusing visual and textual modalities in comparison with some other standard fusion schemes. While a late fusion at score level is reputed as a simple and effective way to fuse features of different nature for machine-learning problems, the proposed SWLF builds on two simple insights. First, the score delivered by a feature type should be weighted by its intrinsic quality for the classification problem at hand. Second, in a multi-label scenario where several visual concepts may be assigned to an image, different visual concepts may require different features which best recognize them. In addition to SWLF, we also propose a novel combination approach based on Dempster-Shafer’s evidence theory, whose interesting properties allow fusing different ambiguous sources of information for visual affective recognition. [...] Descripteur visuel Descripteur textuel Classification multimodale Fusion de descripteurs Generic visual concept recognition Affective visual concept recognition Visual features Textual features Classification Feature fusion
17	Gestion de la variabilité morphologique pour la reconnaissance de gestes naturels à partir de données 3D / Addressing morphological variability for natural gesture recognition from 3D data Sorel, Anthony 06 December 2012 (has links) La reconnaissance de mouvements naturels est de toute première importance dans la mise en oeuvre d’Interfaces Homme-Machine intelligentes et efficaces, utilisables de manière intuitive en environnement virtuel. En effet, elle permet à l’utilisateur d’agir de manière naturelle et au système de reconnaitre les mouvements corporel effectués tels qu’ils seraient perçu par un humain. Cette tâche est complexe, car elle demande de relever plusieurs défis : prendre en compte les spécificités du dispositif d’acquisition des données de mouvement, gérer la variabilité cinématique dans l’exécution du mouvement, et enfin gérer les différences morphologiques inter-individuelles, de sorte que les mouvements de tout nouvel utilisateur puissent être reconnus. De plus, de part la nature interactive des environnements virtuels, cette reconnaissancedoit pouvoir se faire en temps-réel, sans devoir attendre la fin du mouvement. La littérature scientifique propose de nombreuses méthodes pour répondre aux deux premiers défis mais la gestion de la variabilité morphologique est peu abordée. Dans cette thèse, nous proposons une description du mouvement permettant de répondre à cette problématique et évaluons sa capacité à reconnaitre les mouvements naturels d’un utilisateur inconnu. Enfin, nous proposons unenouvelle méthode permettant de tirer partie de cette représentation dans une reconnaissance précoce du mouvement / Recognition of natural movements is of utmost importance in the implementation of intelligent and effective Human-Machine Interfaces for virtual environments. It allows the user to behave naturally and the system to recognize its body movements in the same way a human might perceive it. This task is complex, because it addresses several challenges : take account of the specificities of the motion capture system, manage kinematic variability in motion performance, and finally take account of the morphological differences between individuals, so that actions of any new user can be recognized. Moreover, due to the interactive nature of virtual environments, this recognition must be achieved in real-time without waiting for the motion end. The literature offers many methods to meet the first two challenges. But the management of the morphological variability is not dealt. In this thesis, we propose a description of the movement to address this issue and we evaluate its ability to recognize the movements of an unknown user. Finally, we propose a new method to take advantage of this representation in early motion recognition Reconnaissance automatique Mouvements naturels Vecteur descripteur Modèles de Markov cachés (HMM) Automatic recognition Natural gesture Feature vector Hidden Markov model (HMM)
18	Une nouvelle méthode d’appariement de points d’intérêt pour la mise en correspondance d’images / A new descriptor of points of interest for matching images Palomares, Jean-Louis 25 October 2012 (has links) Ce mémoire de thèse traite de la mise en correspondance d'images pour des applications de vision stéréoscopique ou de stabilisation d'images de caméras vidéo. les méthodes de mise en correspondance reposent généralement sur l'utilisation de points d'intérêts dans les images, c'est-à-dire de points qui présentent de fortes discontinuités d'intensité lumineuse. Nous présentons tout d'abord un nouveau descripteur de points d'intérêt, obtenu au moyen d'un filtre anisotropique rotatif qui délivre en chaque point d'intérêt une signature mono-dimensionnelle basée sur un gradient d'intensité. Invariant à la rotationpar construction, ce descripteur possède de trés bonnes propriétés de robustesse et de discrimination. Nous proposons ensuite une nouvelle méthode d'appariement invariante aux transformations euclidiennes et affines. Cette méthode exploite la corrélation des signatures sous l'hypothèse de faibles déformations, et définit une mesure de distance nécessaire à l'appariement de points. Les résultats obtenus sur des images difficiles laissent envisager des prolongements prometteurs de cette méthode. / This thesis adresses the issue of image matching for stereoscopic vison applications and image stabilization of video cameras. Methods of mapping are generally based on the use of interest points in the images, i.e. of points which have strong discontinuities in light intensity. We first present a new descriptor of points of interest, obtained by means of an anisotropic rotary filter which delivers at each point of interest a one-dimensional signature based on an intensity gradient. Invariant to rotation by construction, thisdescriptor has very good properties of robustness and discrimination. We then propose a new matching method invariant to Euclidean and affine transformations. This method exploits the correlation of the signatures subject to moderate warping, and defines a distance measure, necesssary for the matching of points. the results obtained on difficult images augur promising extentions to this method. Stéréovision Stabilisation Points d’intérêts Descripteur Mise en correspondance Appariement Stereoscopic vision Camera stabilization Interest point Feature descriptor Mapping Matching
19	Vers une description efficace du contenu visuel pour l'annotation automatique d'images Hervé, Nicolas 08 June 2009 (has links) (PDF) Les progrès technologiques récents en matière d'acquisition de données multimédia ont conduit à une croissance exponentielle du nombre de contenus numériques disponibles. Pour l'utilisateur de ce type de bases de données, la recherche d'informations est très problématique car elle suppose que les contenus soient correctement annotés. Face au rythme de croissance de ces volumes, l'annotation manuelle présente aujourd'hui un coût prohibitif. Dans cette thèse, nous nous intéressons aux approches produisant des annotations automatiques qui tentent d'apporter une réponse à ce problème. Nous nous intéressons aux bases d'images généralistes (agences photo, collections personnelles), c'est à dire que nous ne disposons d'aucun a priori sur leur contenu visuel. Contrairement aux nombreuses bases spécialisées (médicales, satellitaires, biométriques, ...) pour lesquelles il est important de tenir compte de leur spécificité lors de l'élaboration d'algorithmes d'annotation automatique, nous restons dans un cadre générique pour lequel l'approche choisie est facilement extensible à tout type de contenu.<br /><br />Pour commencer, nous avons revisité une approche standard basée sur des SVM et examiné chacune des étapes de l'annotation automatique. Nous avons évalué leur impact sur les performances globales et proposé plusieurs améliorations. La description visuelle du contenu et sa représentation sont sans doute les étapes les plus importantes puisqu'elles conditionnent l'ensemble du processus. Dans le cadre de la détection de concepts visuels globaux, nous montrons la qualité des descripteurs de l'équipe Imedia et proposons le nouveau descripteur de formes LEOH. D'autre part, nous utilisons une représentation par sacs de mots visuels pour décrire localement les images et détecter des concepts plus fins. Nous montrons que, parmi les différentes stratégies existantes de sélection de patches, l'utilisation d'un échantillonnage dense est plus efficace. Nous étudions différents algorithmes de création du vocabulaire visuel nécessaire à ce type d'approche et observons les liens existants avec les descripteurs utilisés ainsi que l'impact de l'introduction de connaissance à cette étape. Dans ce cadre, nous proposons une nouvelle approche utilisant des paires de mots visuels permettant ainsi la prise en compte de contraintes géométriques souples qui ont été, par nature, ignorées dans les approches de type sacs de mots. Nous utilisons une stratégie d'apprentissage statistique basée sur des SVM. Nous montrons que l'utilisation d'un noyau triangulaire offre de très bonnes performances et permet, de plus, de réduire les temps de calcul lors des phases d'apprentissage et de prédiction par rapport aux noyaux plus largement utilisés dans la littérature. La faisabilité de l'annotation automatique n'est envisageable que s'il existe une base suffisamment annotée pour l'apprentissage des modèles. Dans le cas contraire, l'utilisation du bouclage de pertinence, faisant intervenir l'utilisateur, est une approche efficace pour la création de modèles sur des concepts visuels inconnus jusque là, ou en vue de l'annotation de masse d'une base. Dans ce cadre, nous introduisons une nouvelle stratégie permettant de mixer les descriptions visuelles globales et par sac de mots.<br /><br />Tous ces travaux ont été évalués sur des bases d'images qui correspondent aux conditions d'utilisation réalistes de tels systèmes dans le monde professionnel. Nous avons en effet montré que la plupart des bases d'images utilisées par les académiques de notre domaine sont souvent trop simples et ne reflètent pas la diversité des bases réelles. Ces expérimentations ont mis en avant la pertinence des améliorations proposées. Certaines d'entre elles ont permis à notre approche d'obtenir les meilleures performances lors de la campagne d'évaluation ImagEVAL. annotation automatique descripteur visuel analyse d'image sac de mots SVM apprentissage statistique imageval
20	Une nouvelle méthode d'appariement de points d'intérêt pour la mise en correspondance d'images Palomares, Jean-Louis 25 October 2012 (has links) (PDF) Ce mémoire de thèse traite de la mise en correspondance d'images pour des applications de vision stéréoscopique ou de stabilisation d'images de caméras vidéo. Les méthodes de mise en correspondance reposent généralement sur l'utilisation de points d'intérêt dans les images, c'est-à-dire de points qui présentent de fortes discontinuités d'intensité lumineuse. Nous présentons tout d'abord un nouveau descripteur de points d'intérêt, obtenu au moyen d'un fi ltre anisotropique rotatif qui délivre en chaque point d'intérêt une signature mono-dimensionnelle basée sur un gradient d'intensité. Invariant à la rotation par construction, ce descripteur possède de très bonnes propriétés de robustesse et de discrimination. Nous proposons ensuite une nouvelle méthode d'appariement invariante aux transformations euclidiennes et affines. Cette méthode exploite la corrélation des signatures sous l'hypothèse de faibles déformations, et dé finit une mesure de distance nécessaire à l'appariement de points. Les résultats obtenus sur des images difficiles laissent envisager des prolongements prometteurs à cette méthode. Stéréovision stabilisation descripteur mise en correspondance

Search results