Global ETD Search

711	Algorithmes d'extraction de modèles géométriques discrets pour la représentation robuste des formes / Recognition algorithms of digital geometric patterns for robust shape representation Roussillon, Tristan 19 November 2009 (has links) Cette thèse se situe à l'interface entre l'analyse d'images, dont l'objectif est la description automatique du contenu visuel, et la géométrie discrète, qui est l'un des domaines dédiés au traitement des images numériques. Pour être stocké et manipulé sur un ordinateur, un signal observé est régulièrement échantillonné. L'image numérique, qui est le résultat de ce processus d'acquisition, est donc constituée d'un ensemble fini d'éléments distincts. La géométrie discrète se propose d'étudier les propriétés géométriques d'un tel espace dépourvu de continuité. Dans ce cadre, nous avons considéré les régions homogènes et porteuses de sens d'une image, avec l'objectif de représenter leur contour au moyen de modèles géométriques ou de les décrire à l'aide de mesures. L'étendue des applications de ce travail en analyse d'images est vaste, que ce soit au cours du processus de segmentation, ou en vue de la reconnaissance d'un objet. Nous nous sommes concentrés sur trois modèles géométriques discrets définis par la discrétisation de Gauss : la partie convexe ou concave, l'arc de cercle discret et le segment de droite discrète. Nous avons élaboré des algorithmes dynamiques (mise à jour à la volée de la décision et du paramétrage), exacts (calculs en nombres entiers sans erreur d'approximation) et rapides (calculs simplifiés par l'exploitation de propriétés arithmétiques et complexité en temps linéaire) qui détectent ces modèles sur un contour. L'exécution de ces algorithmes le long d'un contour aboutit à des décompositions ou à des polygonalisations réversibles. De plus, nous avons défini des mesures de convexité, linéarité et circularité, qui vérifient un ensemble de propriétés fondamentales : elles sont robustes aux transformations rigides, elles s'appliquent à des parties de contour et leur valeur maximale est atteinte pour le modèle de forme qui sert de comparaison et uniquement sur celui-ci. Ces mesures servent à l'introduction de nouveaux modèles dotés d'un paramètre variant entre 0 et 1. Le paramètre est fixé à 1 quand on est sûr de la position du contour, mais fixé à une valeur inférieure quand le contour est susceptible d'avoir été déplacé par un bruit d'acquisition. Cette approche pragmatique permet de décomposer de manière robuste un contour en segments de droite ou en parties convexes et concaves. / The work presented in this thesis concerns the fields of image analysis and discrete geometry. Image analysis aims at automatically describing the visual content of a digital image and discrete geometry provides tools devoted to digital image processing. A two-dimensional analog signal is regularly sampled in order to be handled on computers. This acquisition process results in a digital image, which is made up of a finite set of discrete elements. The topic of discrete geometry is to study the geometric properties of such kind of discrete spaces. In this work, we consider homogeneous regions of an image having a meaning for a user. The objective is to represent their digital contour by means of geometric patterns and compute measures. The scope of applications is wide in image analysis. For instance, our results would be of great interest for segmentation or object recognition. We focus on three discrete geometric patterns defined by Gauss digitization: the convex or concave part, the digital straight segment and the digital circular arc. We present several algorithms that detect or recognize these patterns on a digital contour. These algorithms are on-line, exact (integer-only computations without any approximation error) and fast (simplified computations thanks to arithmetic properties and linear-time complexity). They provide a way for segmenting a digital contour or for representing a digital contour by a reversible polygon. Moreover, we define a measure of convexity, a measure of straightness and a measure of circularity. These measures fulfil the following important properties: they are robust to rigid transformations, they may be applied on any part of a digital contour, they reach their maximal value for the template with which the data are compared to. From these measures, we introduce new patterns having a parameter that ranges from 0 to 1. The parameter is set to 1 when the localisation of the digital contour is reliable, but is set to a lower value when the digital contour is expected to have been shifted because of some acquisition noise. This measure-based approach provides a way for robustly decomposing a digital contour into convex, concave or straight parts. Algorithmes de reconnaissance Polygonalisation réversible Convexité discrète Circularité discrète Recognition algorithms Reversible polygonalisation Digital convexity Digital circularity Digital straightness
712	Reconstruction de modèles CAO de scènes complexes à partir de nuages de points basés sur l’utilisation de connaissances a priori / Reconstruction of CAD model of industrial scenes using a priori knowledge Bey, Aurélien 25 June 2012 (has links) Certaines opérations de maintenance sur sites industriels nécessitent une planification à partir de modèles numériques 3D des scènes où se déroulent les interventions. Pour permettre la simulation de ces opérations, les modèles 3D utilisés doivent représenter fidèlement la réalité du terrain. Ces représentations virtuelles sont habituellement construites à partir de nuages de points relevés sur le site, constituant une description métrologique exacte de l’environnement sans toutefois fournir une description géométrique de haut niveau.Il existe une grande quantité de travaux abordant le problème de la reconstruction de modèles 3D à partir de nuages de points, mais peu sont en mesure de fournir des résultats suffisamment fiables dans un contexte industriel et cette tâche nécessite en pratique l’intervention d’opérateurs humains.Les travaux réalisés dans le cadre de cette thèse visent l’automatisation de la reconstruction,avec comme principal objectif la fiabilité des résultats obtenus à l’issu du processus. Au vu de la complexité de ce problème, nous proposons d’exploiter des connaissances et données a priori pour guider la reconstruction. Le premier a priori concerne la compositiondes modèles 3D : en Conception Assistée par Ordinateur (CAO), les scènes industrielles sont couramment décrites comme des assemblages de primitives géométriques simples telles que les plans, sphères, cylindres, cônes, tores, etc. Nous hiérarchisons l’analyse en traitant dans un premier temps les plans et les cylindres, comme un préalable à la détection de stores. On obtient ainsi une description fiable des principaux composants d’intérêt dans les environnements industriels. Nous proposons en outre d’exploiter un certain nombre de règles régissant la manière dont ces primitives s’assemblent en un modèle CAO, basées surdes connaissances ”métier” caractérisant les scènes industrielles que nous traitons. De plus,nous tirons parti d’un modèle CAO existant d´ecrivant une scène similaire à celle que nous souhaitons reconstruire, provenant typiquement de la reconstruction antérieure d’un site semblable au site d’intérêt. Bien que semblables en théorie, ces scènes peuvent présenterdes différences significatives qui s’accentuent au cours de leur exploitation.La méthode que nous développons se fonde sur une formulation Bayésienne du problème de reconstruction : il s’agit de retrouver le modèle CAO le plus probable vis à visdes différentes attentes portées par les données et les a priori sur le modèle à reconstruire. Les diverses sources d’a priori s’expriment naturellement dans cette formulation. Pour permettre la recherche du modèle CAO optimal, nous proposons une approche basée surdes tentatives d’insertion d’objets générés aléatoirement. L’acceptation ou le rejet de ces objets repose ensuite sur l’am´elioration systématique de la solution en cours de construction. Le modèle CAO se construit ainsi progressivement, par ajout et suppression d’objets, jusqu’à obtention d’une solution localement optimale. / 3D models are often used in order to plan the maintenance of industrial environments.When it comes to the simulation of maintenance interventions, these 3D models have todescribe accurately the actual state of the scenes they stand for. These representationsare usually built from 3D point clouds that are huge set of 3D measurements acquiredin industrial sites, which guarantees the accuracy of the resulting 3D model. Althoughthere exists many works addressing the reconstruction problem, there is no solution toour knowledge which can provide results that are reliable enough to be further used inindustrial applications. Therefore this task is in fact handled by human experts nowadays.This thesis aims at providing a solution automating the reconstruction of industrialsites from 3D point clouds and providing highly reliable results. For that purpose, ourapproach relies on some available a priori knowledge and data about the scene to beprocessed. First, we consider that the 3D models of industrial sites are made of simpleprimitive shapes. Indeed, in the Computer Aided Design (CAD) field, this kind of scenesare described as assemblies of shapes such as planes, spheres, cylinders, cones, tori, . . . Ourown work focuses on planes, cylinders and tori since these three kind of shapes allow thedescription of most of the main components in industrial environment. Furthermore, weset some a priori rules about the way shapes should be assembled in a CAD model standingfor an industrial facility, which are based on expert knowledge about these environments.Eventually, we suppose that a CAD model standing for a scene which is similar to theone to be processed is available. This a priori CAO model typically comes from the priorreconstruction of a scene which looks like the one we are interested in. Despite the factthat they are similar theoretically, there may be significant differences between the sitessince each one has its own life cycle.Our work first states the reconstruction task as a Bayesian problem in which we haveto find the most probable CAD Model with respect to both the point cloud and the a prioriexpectations. In order to reach the CAD model maximizing the target probability, wepropose an iterative approach which improves the solution under construction each time anew randomly generated shape is tried to be inserted in it. Thus, the CAD model is builtstep by step by adding and removing shapes, until the algorithm gets to a local maximumof the target probability. Reconstruction Modèle CAO Reconnaissance de formes Nuage de points Optimisation stochastique Reconstruction CAD Model Shapes recognition Point cloud Stochastic optimization 006.4
713	Détection de personnes pour des systèmes de videosurveillance multi-caméra intelligents / People detection methods for intelligent multi-Camera surveillance systems Mehmood, Muhammad Owais 28 September 2015 (has links) La détection de personnes dans les vidéos est un défi bien connu du domaine de la vision par ordinateur avec un grand nombre d'applications telles que le développement de systèmes de surveillance visuels. Même si les détecteurs monoculaires sont plus simples à mettre en place, ils sont dans l’incapacité de gérer des scènes complexes avec des occultations, une grande densité de personnes ou des scènes avec beaucoup de profondeur de champ menant à une grande variabilité dans la taille des personnes. Dans cette thèse, nous étudions la détection de personnes multi-vues et notamment l'utilisation de cartes d'occupation probabilistes créées en fusionnant les différentes vues grâce à la connaissance de la géométrie du système. La détection à partir de ces cartes d'occupation amène cependant des fausses détections (appelées « fantômes ») dues aux différentes projections. Nous proposons deux nouvelles techniques afin de remédier à ce phénomène et améliorer la détection des personnes. La première utilise une déconvolution par un noyau dont la forme varie spatialement tandis que la seconde est basée sur un principe de validation d’hypothèse. Ces deux approches n'utilisent volontairement pas l'information temporelle qui pourra être réintroduite par la suite dans des algorithmes de suivi. Les deux approches ont été validées dans des conditions difficiles présentant des occultations, une densité de personnes plus ou moins élevée et de fortes variations dans les réponses colorimétriques des caméras. Une comparaison avec d'autres méthodes de l’état de l'art a également été menée sur trois bases de données publiques, validant les méthodes proposées pour la surveillance d'une gare et d'un aéroport / People detection is a well-studied open challenge in the field of Computer Vision with applications such as in the visual surveillance systems. Monocular detectors have limited ability to handle occlusion, clutter, scale, density. Ubiquitous presence of cameras and computational resources fuel the development of multi-camera detection systems. In this thesis, we study the multi-camera people detection; specifically, the use of multi-view probabilistic occupancy maps based on the camera calibration. Occupancy maps allow multi-view geometric fusion of several camera views. Detection with such maps create several false detections and we study this phenomenon: ghost pruning. Further, we propose two novel techniques in order to improve multi-view detection based on: (a) kernel deconvolution, and (b) occupancy shape modeling. We perform non-temporal, multi-view reasoning in occupancy maps to recover accurate positions of people in challenging conditions such as of occlusion, clutter, lighting, and camera variations. We show improvements in people detections across three challenging datasets for visual surveillance including comparison with state-of-the-art techniques. We show the application of this work in exigent transportation scenarios i.e. people detection for surveillance at a train station and at an airport Géométrie multi-Vues Fusion de capteurs Reconnaissance des Formes Détection d'objects Surveillance Multi-View Geometry Sensor Fusion Pattern Recognition Object Detection Surveillance
714	Automated fish detection and identification / Détection et identification automatique de poissons Wong, Poh Lee 04 September 2015 (has links) L’utilisation de techniques informatiques pour la reconnaissance et l'identification des poissons est devenue assez populaire parmi les chercheurs. Ces nouvelles approches sont importantes, puisque les informations extraites sur les poissons telles que leurs trajectoires, leurs positions ou leurs couleurs, permettent de déterminer si les poissons sont en bonne santé ou en état de stress. Les méthodes existantes ne sont pas assez précises notamment lorsque des éléments tels que les bulles ou des zones éclairées peuvent être identifiées comme étant des poissons. De plus, les taux de reconnaissance et d'identification des systèmes existants peuvent encore être améliorés afin d’obtenir des résultats à la fois meilleurs et plus précis. Afin d’obtenir de meilleurs taux de reconnaissance et d'identification, un système amélioré a été construit en combinant plusieurs méthodes de détection et d’analyse. Tout d'abord, la première étape a consisté à proposer une méthode de suivi d'objets dans le but de localiser en temps réel la position des poissons à partir de vidéos. Celle-ci inclut le suivi automatisé multi-cibles de poissons dans un aquarium. Les performances en termes de détection et d’identification risquaient d’être faibles notamment en raison du processus de suivi dans un environnement temps réel. Une méthode de suivi des poissons plus précise est donc proposée ainsi qu'une méthode complète pour identifier et détecter les modèles de nage des poissons. Dans ces travaux, nous proposons, pour le suivi des poissons, une amélioration de l’algorithme du filtre particulaire en l’associant à un algorithme de détection de mouvement. Un système doté de deux caméras est également proposé afin d'obtenir un meilleur taux de détection. La seconde étape comprend la conception et le développement d'une méthode améliorée pour le recadrage et la segmentation dynamique des images dans un environnement temps réel. Ce procédé est proposé pour extraire de la vidéo les images représentant les poissons en éliminant les éléments provenant de l’arrière-plan. La troisième étape consiste à caractériser les objets (les poissons). La méthode proposée est basée sur des descripteurs utilisant la couleur pour caractériser les poissons. Ces descripteurs sont ensuite utilisés dans la suite des traitements. Dans nos travaux, les descripteurs couleurs généralisés de Fourier (GCFD : Generalized Color Fourier Descriptor) sont utilisés et une adaptation basée sur la détection de l’environnement est proposée afin d’obtenir une identification plus précise des poissons. Une méthode de mise en correspondance basée sur un calcul de distance est utilisée pour comparer les vecteurs de caractéristiques des images segmentées afin de classifier les poissons présents dans la vidéo. Un prototype dont le but est de modéliser les profils de nage des poissons a été développé. Celui-ci intègre toutes les méthodes proposées et a permis d’évaluer la validité de notre approche. Les résultats montrent que les méthodes proposées améliorent la reconnaissance et l’identification en temps réel des poissons. La méthode de suivi proposée montre une amélioration par rapport au procédé basé sur le filtre particulaire classique. Le recadrage dynamique et la méthode de segmentation temps-réel présentent en termes de précision un pourcentage moyen de 84,71%. La méthode de caractérisation des objets développée pour reconnaitre et identifier en temps réel les poissons montre également une amélioration par rapport aux descripteurs couleurs classiques. Le travail réalisé peut trouver une application directe auprès des aquaculteurs afin de suivre en temps réel et de manière automatique le comportement des poissons et éviter ainsi un suivi « visuel » tel qu’il est réalisé actuellement. / Recognition and identification of fish using computational methods have increasingly become a popular research endeavour among researchers. The methods are important as the information displayed by the fish such as trajectory patterns, location and colour could determine whether the fish are healthy or under stress. Current methods are not accurate especially when there exist thresholds such as bubbles and some lighted areas which might be identified as fish. Besides, the recognition and identification rate of the existing systems can still be improved to obtain better and more accurate results. In order to achieve a better recognition and identification rate, an improved scheme consisting of a combination of several methods is constructed. First of all, the first approach is to propose an object tracking method for the purpose of locating the position of fish for real-time videos. This includes the consideration of tracking multiple fish in a single tank in an automated way. The detection and identification rate may be slow due to the on-going tracking process especially in a real-time environment. A more accurate fish tracking method is proposed as well as a systematic method to identify and detect fish swimming patterns. In this research, the particle filter algorithm is enhanced and further combined with the motion detection algorithm for fish tracking. A dual camera system is also proposed to obtain better detection rate. The second approach includes the design and development of an enhanced method for dynamically cropping and segmenting images in real-time environment. This method is proposed to extract each image of the fish from every successive video frame to reduce the tendency of detecting the background as an object. The third approach includes an adapted object characterisation method which utilises colour feature descriptors to represent the fish in a computational form for further processing. In this study, an object characterisation method, GCFD (Generalized Colour Fourier Descriptor) is adapted to suit the environment for more accurate identification of the fish. A feature matching method based on distance matching is used to match the feature vectors of the segmented images for classifying the specific fish in the recorded video. In addition, a real-time prototype system which models the fish swimming pattern incorporating all the proposed methods is developed to evaluate the methods proposed in this study. Based on the results, the proposed methods show improvements which result in a better real-time fish recognition and identification system. The proposed object tracking method shows improvement over the original particle filter method. Based on the average percentage in terms of the accuracy for the dynamic cropping and segmentation method in real time, an acceptable value of 84.71% was recorded. The object characterisation method which is adapted for fish recognition and identification in real time shows an improvement over existing colour feature descriptors. As a whole, the main output of this research could be used by aquaculturist to track and monitor fish in the water computationally in real-time instead of manually. Segmentation Descripteurs Analyse d’image couleur Reconnaissance Identification temps-réel de poissons Segmentation Descriptors Color image analysis Recognition Real-time identification of fish
715	Contributions à la détection de concepts et d'événements dans les documents vidéos / Contributions for the concepts and events detection in videos documents Derbas, Nadia 30 September 2014 (has links) L'explosion de la quantité de documents multimédias, suite à l'essor des technologies numériques, a rendu leur indexation très coûteuse et manuellement impossible. Par conséquent, le besoin de disposer de systèmes d'indexation capables d'analyser, de stocker et de retrouver les documents multimédias automatiquement, et en se basant sur leur contenu (audio, visuel), s'est fait ressentir dans de nombreux domaines applicatifs. Cependant, les techniques d'indexation actuelles rencontrent encore des problèmes de faisabilité ou de qualité. Leur performance reste très limitée et est dépendante de plusieurs facteurs comme la variabilité et la quantité de données à traiter. En effet, les systèmes d'indexation cherchent à reconnaître des concepts statiques, comme des objets (vélo, chaise,...), ou des événements (mariage, manifestation,...). Ces systèmes se heurtent donc au problème de variabilité de formes, de positions, de poses, d'illuminations, d'orientations des objets. Le passage à l'échelle pour pouvoir traiter de très grands volumes de données tout en respectant des contraintes de temps de calcul et de stockage est également une contrainte.Dans cette thèse, nous nous intéressons à l'amélioration de la performance globale de ces systèmes d'indexation de documents multimédias par le contenu. Pour cela nous abordons le problème sous différents angles et apportons quatre contributions à divers stades du processus d'indexation. Nous proposons tout d'abord une nouvelle méthode de fusion "doublement précoce " entre différentes modalités ou différentes sources d'informations afin d'exploiter au mieux la corrélation entre les modalités. Cette méthode est ensuite appliquée à la détection de scènes violentes dans les films. Nous développons ensuite une méthode faiblement supervisée pour la localisation des concepts basiques (comme les objets) dans les images qui pourra être utilisé plus tard comme un descripteur et une information supplémentaire pour la détection de concepts plus complexes (comme des événements). Nous traitons également la problématique de réduction du bruit généré par des annotations ambiguës sur les données d'apprentissage en proposant deux méthodes: une génération de nouvelles annotations au niveau des plans et une méthode de pondération des plans. Enfin, nous avons mis en place une méthode d'optimisation des représentations du contenu multimédia qui combine une réduction de dimension basée sur une ACP et des transformations non linéaires.Les quatre contributions sont testées et évaluées sur les collections de données faisant référence dans le domaine, comme TRECVid ou MediaEval. Elles ont participé au bon classement de nos soumissions dans ces campagnes. / A consequence of the rise of digital technology is that the quantity of available collections of multimedia documents is permanently and strongly increasing. The indexing of these documents became both very costly and impossible to do manually. In order to be able to analyze, classify and search multimedia documents, indexing systems have been defined. However, most of these systems suffer quality or practicability issues. Their performance is limited and depends on the data volume and data variability. Indexing systems analyze multimedia documents, looking for static concepts (bicycle, chair,...), or events (wedding, protest,...). Therefore, the variability in shapes, positions, lighting or orientation of objects hinders the process. Another aspect is that systems must be scalable. They should be able to handle big data while using reasonable amount of computing time and memory.The aim of this thesis is to improve the general performance of content-based multimedia indexing systems. Four main contributions are brought in this thesis for improving different stages of the indexing process. The first one is an "early-early fusion method" that merges different information sources in order to extract their deep correlations. This method is used for violent scenes detection in movies. The second contribution is a weakly supervised method for basic concept (objects) localization in images. This can be used afterwards as a new descriptor to help detecting complex concepts (events). The third contribution tackles the noise reduction problem on ambiguously annotated data. Two methods are proposed: a shot annotation generator, and a shot weighing method. The last contribution is a generic descriptor optimization method, based on PCA and non-linear transforms.These four contributions are tested and evaluated using reference data collections, including TRECVid and MediaEval. These contributions helped our submissions achieving very good rankings in those evaluation campaigns. Reconnaissance d’événements Indexation multimédia Analyse du contenu Détection de concepts Event recognition Multimedia indexing Content analysis Concept detection 004
716	La représentation des documents par réseaux de neurones pour la compréhension de documents parlés / Neural network representations for spoken documents understanding Janod, Killian 27 November 2017 (has links) Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles. / Application of spoken language understanding aim to extract relevant items of meaning from spoken signal. There is two distinct types of spoken language understanding : understanding of human/human dialogue and understanding in human/machine dialogue. Given a type of conversation, the structure of dialogues and the goal of the understanding process varies. However, in both cases, most of the time, automatic systems have a step of speech recognition to generate the textual transcript of the spoken signal. Speech recognition systems in adverse conditions, even the most advanced one, produce erroneous or partly erroneous transcript of speech. Those errors can be explained by the presence of information of various natures and functions such as speaker and ambience specificities. They can have an important adverse impact on the performance of the understanding process. The first part of the contribution in this thesis shows that using deep autoencoders produce a more abstract latent representation of the transcript. This latent representation allow spoken language understanding system to be more robust to automatic transcription mistakes. In the other part, we propose two different approaches to generate more robust representation by combining multiple views of a given dialogue in order to improve the results of the spoken language understanding system. The first approach combine multiple thematic spaces to produce a better representation. The second one introduce new autoencoders architectures that use supervision in the denoising autoencoders. These contributions show that these architectures reduce the difference in performance between a spoken language understanding using automatic transcript and one using manual transcript. Réseaux de neurones artificiels Traitement du langage naturel Reconnaissance de la parole Automatic speech recognition Natural language processing Deep neural network
717	Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes / Structured Models for Action Recognition in Real-word Videos Gaidon, Adrien 25 October 2012 (has links) Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. / This dissertation introduces novel models to recognize broad action categories --- like "opening a door" and "running" --- in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich --- in order to correctly differentiate between different action categories --- and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features --- such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos. Reconnaissance d'Actions Analyse de Vidéos Vision par Ordinateur Apprentissage Statistique Action Recognition Video Analysis Computer Vision Machine Learning
718	Processing and analysis of 2.5D face models for non-rigid mapping based face recognition using differential geometry tools / Traitement et analyse des modèles 2.5 de visage utilisant les outils de la géométrie différentielle pour la reconnaissance faciale basée sur l'appariement non rigide Szeptycki, Przemyslaw 06 July 2011 (has links) Ce travail de thèse concerne l’analyse de surfaces faciales en 3D, ainsi que leur traitement, dans le récent cadre de la modalité de reconnaissance de visages en 3D,basé sur des techniques d’appariement. Le traitement de la surface faciale et son analyse constituent une étape importante dans les algorithmes de reconnaissance de visage en 3D. La localisation de points d’intérêt anthropométriques du visage joue par ailleurs un rôle important dans les techniques de localisation du visage, de reconnaissance d’expression, de recalage, etc. Ainsi, leur localisation automatique joue un rôle crucial dans les algorithmes de traitement du visage 3D. Dans ce travail, nous avons mis l’accent sur la localisation précise et invariante en rotation des points d’intérêt, qui seront utilisés plus tard pour la reconnaissance de visages. Ces points d’intérêt sont localisés en combinant les propriétés locales de la surface faciale, exprimées en termes de géométrie différentielle, et un modèle global et générique du visage. Etant donné que la sensibilité des courbures, qui sont des propriétés de géométrie différentielle, au bruit, une des contributions de cette thèse est la modification d’une méthode de calcul de courbures. Cette modification incorpore le bruit de la surface dans la méthode de calcul, et permet de contrôler la progressivité des courbures. Par conséquent, nous pouvons localiser les points d’intérêt de la surface faciale avec précision et fiabilité (100% de bonnes localisation du bout du nez avec une erreur maximale de 8mmpar exemple) y compris en présence de rotations et de bruit. La modification de la méthode de calcul de courbure a été également testée pour différentes résolutions de visage, présentant des valeurs de courbure stables. Enfin, étant donné que donné que l’analyse de courbures mène à de nombreux candidats de points d’intérêt du visage, dont la validation est coûteuse, nous proposons de localiser les points d’intérêt grâce à une méthode d’apprentissage. Cette méthode permet de rejeter précocement des faux candidats avec une grande confiance, accélérant d’autant la localisation des points d’intérêt. La reconnaissance de visages à l’aide de modèles 3D est un sujet relativement nouveau, qui a été propose pour palier aux insuffisantes de la modalité de reconnaissance de visages en 2D. Cependant, les algorithmes de reconnaissance de visage en 3D sont généralement plus complexes. De plus, étant donné que les modèles de visage 3D décrivent la géométrie du visage, ils sont plus sensibles que les images 2Dde texture aux expressions faciales. Notre contribution est de réduire la dimensionnalité des données de départ en appariant les modèles de visage 3D au domaine 2Dà l’aide de méthodes, non rigides, d’appariement conformal. L’existence de modèles2D représentant les visages permet alors d’utiliser les techniques précédemment développées dans le domaine de la reconnaissance de visages en 2D. Dans nos travaux, nous avons utilisé les cartes conformales de visages 3D en conjonction avec l’algorithme2D2 PCA, atteignant le score de 86% en reconnaissance de rang 1 sur la base de données FRGC. L’efficacité de toutes les méthodes a été évaluée sur les bases FRGC et Bosphorus. / This Ph.D thesis work is dedicated to 3D facial surface analysis, processing as well as to the newly proposed 3D face recognition modality, which is based on mapping techniques. Facial surface processing and analysis is one of the most important steps for 3Dface recognition algorithms. Automatic anthropometric facial features localization also plays an important role for face localization, face expression recognition, face registration ect., thus its automatic localization is a crucial step for 3D face processing algorithms. In this work we focused on precise and rotation invariant landmarks localization, which are later used directly for face recognition. The landmarks are localized combining local surface properties expressed in terms of differential geometry tools and global facial generic model, used for face validation. Since curvatures, which are differential geometry properties, are sensitive to surface noise, one of the main contributions of this thesis is a modification of curvatures calculation method. The modification incorporates the surface noise into the calculation method and helps to control smoothness of the curvatures. Therefore the main facial points can be reliably and precisely localized (100% nose tip localization using 8 mm precision)under the influence of rotations and surface noise. The modification of the curvatures calculation method was also tested under different face model resolutions, resulting in stable curvature values. Finally, since curvatures analysis leads to many facial landmark candidates, the validation of which is time consuming, facial landmarks localization based on learning technique was proposed. The learning technique helps to reject incorrect landmark candidates with a high probability, thus accelerating landmarks localization. Face recognition using 3D models is a relatively new subject, which has been proposed to overcome shortcomings of 2D face recognition modality. However, 3Dface recognition algorithms are likely more complicated. Additionally, since 3D face models describe facial surface geometry, they are more sensitive to facial expression changes. Our contribution is reducing dimensionality of the input data by mapping3D facial models on to 2D domain using non-rigid, conformal mapping techniques. Having 2D images which represent facial models, all previously developed 2D face recognition algorithms can be used. In our work, conformal shape images of 3Dfacial surfaces were fed in to 2D2 PCA, achieving more than 86% recognition rate rank-one using the FRGC data set. The effectiveness of all the methods has been evaluated using the FRGC and Bosphorus datasets. Landmarking de visages 3D Reconnaissance de visage 3D Classification de courbures Appariement conformal 3D face landmarking 3D face recognition Curvatures classification Conformal mapping
719	Reconnaissance d'actions en temps réel à partir d'exemples / Real time actions recognition from examplars Barnachon, Mathieu 22 April 2013 (has links) Le développement de l'image numérique et des outils associés ces dernières années a entraîné une évolution dans les attentes des utilisateurs et des changements dans leurs habitudes de travail. Cette évolution apporte de nouvelles possibilités d'utilisation ouvrant l'usage à un public très large, allant des interactions gestuelles aux jeux vidéo, en passant par le suivi d'activités à domicile, la surveillance, ... Pour qu'elles puissent être performantes et attractives, ces nouvelles technologies nécessitent la mise en œuvre d'outils de reconnaissance et d'interprétation des gestes humains, par des méthodes efficaces, rapides et ouvertes. Actuellement, les méthodes proposées en reconnaissance d'actions peuvent être regroupées en trois catégories principales : les approches de type apprentissage automatique (Machine Learning), les modélisations stochastique ou encore les méthodes utilisant le paradigme des examplars. Les travaux développés dans cette thèse se rattachent à cette dernière catégorie : " méthodes à base d'exemples " (examplar-based) où l'apprentissage peut être fait à partir de quelques instances représentatives. Nous avons fait le choix d'une démarche qui limite le recours à des grandes bases de données, et qui permet la reconnaissance d'action de façon anticipée, c'est-à-dire avant que cette dernière ne soit finie. Pour ce faire, nos travaux ont été menés selon deux visions complémentaires, avec le soucis constant d'aboutir à des traitements qui soient temps réel, précis et ouverts à la reconnaissance de nouvelles actions / With the success of new interactive solution, like the Wii-Remote or the Sony Eyetoy, and more recently the Microsoft Kinect, we work on new interactions between game and gamers, with a video-based system. The motion recognition will be used to control the game character or the interaction inside a game, an application, etc. My subject concerns interaction between real and virtual characters. We try to enlarge game actions, with movements - spontaneous or not - from gamers, for example. We working on two points. First, we release constraint on the learning of action, i.e. an action has to be learnt quickly (one shot learning), even in uncontrolled environment: person's living room, cybercafes, etc. Second is understanding motions with new solutions. The more motion capture techniques are reliable, the more new metaphors could be invented linking real actions to virtual ones. These new interactions will allow access to gestural applications by an larger public, usually not interested in, or not familiar with. We propose new interaction video-based: full body motion capture in uncontrolled environment; motion understanding; intention transfer to an avatar and new controls production. The possibilities will be wider than only video games or home entertainment Reconnaissance d'actions Interprétation de gestes Paradigme Examplar Capture de mouvements Action recognition Action interpretation Examplars paradigm Capture of movements 006.4
720	Apprentissages et transmission des savoir-faire dans une entreprise nationale de production d'électricité : L'ENERCA en République Centrafricaine Ngouflo, Jean Bruno 16 December 2011 (has links) La République Centrafricaine est l’un des pays de l’Afrique centrale le plus touché par une crise énergétique d’une grande gravité. Les pannes récurrentes des installations héritées de la colonisation et les coupures intempestives de courant électrique hypothèquent le développement social et la sécurité des citoyens centrafricains. Dans ce contexte de crise politique, technologique et institutionnelle, ma thèse questionne en particulier les problèmes de gestion, de production et de transmission des savoir-faire au sein des équipes de maintenance des centrales électriques de l’entreprise ENERCA. À partir de nouveaux concepts, théories et méthodes de l’anthropologie des connaissances, cette étude s’attèle à décrypter les dynamiques qui structurent la production, l’échange et les rapports au savoir tout autant que les enjeux d’accès à ces savoirs techniques et les possibilités de leur promotion en faveur d’un service public responsable. / The Central African Republic is one of the countries in Central Africa the most affected by a serious energy crisis. Recurrent failures of facilities inherited from colonization and untimely cuts in electrical power endanger the social development and security of Central African citizens. In this context of political, technological and institutional crisis, my thesis questions in particular problems in the management, production and transmission of skills within the maintenance crews of electrical power plants owned by the ENERCA energy company. On the basis of new concepts, theories and methods in the anthropology of knowledge, this study focuses on deciphering the dynamics that structure production, trade and the relationships with knowledge as well as issues of access to such technical knowledge and the possibilities for their promotion to benefit a responsible public service. Anthropologie Savoir Transmission Entreprise Technologie Apprentissage Innovation Travail Reconnaissance Électricité Anthropology Knowledge Transmission Enterprise Technology Apprenticeship Innovation Work Recognition Electricity

Search results