Global ETD Search

91	Learning Hierarchical Feature Extractors For Image Recognition Boureau, Y-Lan 01 September 2012 (has links) (PDF) Telling cow from sheep is effortless for most animals, but requires much engineering for computers. In this thesis, we seek to tease out basic principles that underlie many recent advances in image recognition. First, we recast many methods into a common unsu- pervised feature extraction framework based on an alternation of coding steps, which encode the input by comparing it with a collection of reference patterns, and pooling steps, which compute an aggregation statistic summarizing the codes within some re- gion of interest of the image. Within that framework, we conduct extensive comparative evaluations of many coding or pooling operators proposed in the literature. Our results demonstrate a robust superiority of sparse coding (which decomposes an input as a linear combination of a few visual words) and max pooling (which summarizes a set of inputs by their maximum value). We also propose macrofeatures, which import into the popu- lar spatial pyramid framework the joint encoding of nearby features commonly practiced in neural networks, and obtain significantly improved image recognition performance. Next, we analyze the statistical properties of max pooling that underlie its better perfor- mance, through a simple theoretical model of feature activation. We then present results of experiments that confirm many predictions of the model. Beyond the pooling oper- ator itself, an important parameter is the set of pools over which the summary statistic is computed. We propose locality in feature configuration space as a natural criterion for devising better pools. Finally, we propose ways to make coding faster and more powerful through fast convolutional feedforward architectures, and examine how to incorporate supervision into feature extraction schemes. Overall, our experiments offer insights into what makes current systems work so well, and state-of-the-art results on several image recognition benchmarks. computer vision object recognition feature extraction
92	Modeling and visual recognition of human actions and interactions Laptev, Ivan 03 July 2013 (has links) (PDF) This work addresses the problem of recognizing actions and interactions in realistic video settings such as movies and consumer videos. The first contribution of this thesis (Chapters 2 and 4) is concerned with new video representations for action recognition. We introduce local space-time descriptors and demonstrate their potential to classify and localize actions in complex settings while circumventing the difficult intermediate steps of person detection, tracking and human pose estimation. The material on bag-of-features action recognition in Chapter 2 is based on publications [L14, L22, L23] and is related to other work by the author [L6, L7, L8, L11, L12, L13, L16, L21]. The work on object and action localization in Chapter 4 is based on [L9, L10, L13, L15] and relates to [L1, L17, L19, L20]. The second contribution of this thesis is concerned with weakly-supervised action learning. Chap- ter 3 introduces methods for automatic annotation of action samples in video using readily-available video scripts. It addresses the ambiguity of action expressions in text and the uncertainty of tem- poral action localization provided by scripts. The material presented in Chapter 3 is based on publications [L4, L14, L18]. Finally Chapter 5 addresses interactions of people with objects and concerns modeling and recognition of object function. We exploit relations between objects and co-occurring human poses and demonstrate object recognition improvements using automatic pose estimation in challenging videos from YouTube. This part of the thesis is based on the publica- tion [L2] and relates to other work by the author [L3, L5]. computer vision action recognition video analysis
93	Évaluation de système biométrique El Abed, Mohamad 09 December 2011 (has links) (PDF) Les systèmes biométriques sont de plus en plus utilisés pour vérifier ou déterminer l'identité d'un individu. Compte tenu des enjeux liés à leur utilisation, notamment pour des applications dans le domaine de commerce électronique, il est particulièrement important de disposer d'une méthodologie d'évaluation de tels systèmes. Le problème traité dans cette thèse réside dans la conception d'une méthodologie générique visant à évaluer un système biométrique. Trois méthodes ont été proposées dans cette thèse: 1) une méthode de qualité sans référence pour prédire la qualité d'une donnée biométrique, 2) une méthode d'usage pour évaluer l'acceptabilité et la satisfaction des usagers lors de l'utilisation des systèmes biométriques et 3) une méthode d'analyse sécuritaire d'un système biométrique afin de mesurer sa robustesse aux attaques EVALUATION RECONNAISSANCE DE FORMES (INFORMATIQUE) TRAITEMENT D'IMAGES TECHNIQUES NUMERIQUES CLASSIFICATION
94	Fusion multimodale pour la reconnaissance d'espèces d'arbres / Multimodal fusion for leaf species recognition Ben Ameur, Rihab 04 June 2018 (has links) Les systèmes de fusion d’informations permettent de combiner des données issues de différentes sources d’informations tout en tenant compte de leur qualité. La combinaison de données issues de sources hétérogènes permet de profiter de la complémentarité des données et donc d’avoir potentiellement des performances plus élevées que celles obtenues en utilisant une seule source d’informations. L’utilisation de ces systèmes s’avère intéressante dans le cadre de la reconnaissance d’espèces d’arbres à travers la fusion d’informations issues de deux modalités : les feuilles et les écorces.Une seule modalité représente éventuellement différentes sources d’informations décrivant chacune une des caractéristiques les plus pertinentes. Ceci permet de reproduire la stratégie adoptée par les botanistes qui se basent sur ces même critères lors de la reconnaissance. L’adoption de cette stratégie entre dans la mise en valeur de l’aspect éducatif. Dans ce cadre, un système de fusion est envisageable afin de combiner les données issues d’une même modalité ainsi que les différentes modalités disponibles. Dans le contexte de la reconnaissance d’espèces d’arbres, il s’agit d’un problème réel où les photos des feuilles et des écorces sont prises en milieu naturel. Le traitement de ce type de données est compliqué vue leurs spécificités dues d’une part à la nature des objets à reconnaître (âge, similarité inter-espèces et variabilité intra-espèce) et d’autre part à l’environnement.Des erreurs peuvent s’accumuler tout au long du processus précédant la fusion. L’intérêt de la fusion est de prendre en compte toutes les imperfections pouvant entacher les données disponibles et essayer de bien les modéliser. La fusion est d’autant plus efficace que les données sont bien modélisées. La théorie des fonctions de croyance représente l’un des cadres théoriques les plus aptes à gérer et représenter l’incertitude, l’imprécision, le conflit, etc. Cette théorie tire son importance de sa richesse en termes d’outils permettant de gérer les différentes sources d’imperfections ainsi que les spécificités des données disponibles. Dans le cadre de cette théorie, il est possible de modéliser les données à travers la construction de fonctions de masse. Il est également possible de gérer la complexité calculatoire grâce aux approximations permettant de réduire le nombre d’éléments focaux. Le conflit étant l’une des sources d’imperfections les plus présentes, peut être traité à travers la sélection de la règle de combinaison la mieux adaptée.En fusionnant des sources d’informations ayant des degrés de fiabilité différents, il est possible que la source la moins fiable affecte les données issues de la source la plus fiable. Une des solutions pour ce problème est de chercher à améliorer les performances de la source la moins fiable. Ainsi, en la fusionnant avec d’autres sources, elle apportera des informations utiles et contribuera à son tour à l’amélioration des performances du système de fusion. L’amélioration des performances d’une source d’informations peut s’effectuer à travers la correction des fonctions de masse. Dans ce cadre, la correction peut se faire en se basant sur des mesures de la pertinence ou de la sincérité de la source étudiée. Les matrices de confusion présentent une source de données à partir desquelles des méta-connaissances caractérisant l’état d’une source peuvent être extraites.Dans ce manuscrit, le système de fusion proposé est un système de fusion hiérarchique mis en place dans le cadre de la théorie des fonctions de croyance. Il permet de fusionner les données issues des feuilles et des écorces et propose à l’utilisateur une liste des espèces les plus probables tout en respectant l’objectif éducatif de l’application. La complexité calculatoire de ce système de fusion est assez réduite permettant, à long termes, d’implémenter l’application sur un Smart-phone. / Information fusion systems allow the combination of data issued from different sources of information while considering their quality. Combining data from heterogeneous sources makes it possible to take advantage of the complementarity of the data and thus potentially have higher performances than those obtained when using a single source of information.The use of these systems is interesting in the context of tree species recognition through the fusion of information issued from two modalities : leaves and barks. A single modality may represent different sources of information, each describing one of its most relevant characteristics. This makes it possible to reproduce the strategy adopted by botanists who base themselves on these same criteria. The adoption of this strategy is part of the enhancement of the educational aspect. In this context, a merger system is conceivable in order to combine the data issued from one modality as well as the data issued from different modalities. In the context of tree species recognition, we treat a real problem since the photos of leaves and bark are taken in the natural environment. The processing of this type of data is complicated because of their specificities due firstly to the nature of the objects to be recognized (age, inter-species similarity and intra-species variability) and secondly to the environment.Errors can be accumulated during the pre-fusion process. The merit of the fusion is to take into account all the imperfections that can taint the available data and try to model them well. The fusion is more effective if the data is well modeled. The theory of belief functions represents one of the best theoretical frameworks able to manage and represent uncertainty, inaccuracy, conflict, etc. This theory is important because of its wealth of tools to manage the various sources of imperfections as well as the specificities of the available data. In the framework of this theory, it is possible to model the data through the construction of mass functions. It is also possible to manage the computational complexity thanks to the approximations allowing to reduce the number of focal elements. Conflict being one of the most present sources of imperfections, can be dealt through the selection of the best combination rule.By merging sources of information with different degrees of reliability, it is possible that the least reliable source affects the data issued from the most reliable one. One of the solutions for this problem is to try to improve the performances of the least reliable source. Thus, by merging with other sources, it will provide useful information and will in turn contribute in improving the performance of the fusion system.The performance improvement of an information source can be effected through the correction of mass functions. In this context, the correction can be made based on measures of the relevance or sincerity of the studied source. The confusion matrices present a data source from which meta-knowledge characterizing the state of a source can be extracted. In this manuscript, the proposed fusion system is a hierarchical fusion system set up within the framework of belief function theory. It allows to merge data from leaves and barks and provides the user with a list of the most likely species while respecting the educational purpose of the application. The computational complexity of this fusion system is quite small allowing, in the long term, to implement the application on a Smart-phone. Fusion d'informations Reconnaissance de formes Classification Multi modalités Théorie des fonctions de croyance Information fusion Pattern recognition Classification Multimodalities Belief function theory 004
95	Améliorations de la Transformée de Hough en traitement d'images / Enhanced Hough transforms for image processing Tu, Chunling 23 September 2014 (has links) Les travaux effectués dans le cadre de la présente thèse concernent l'analyse et les améliorations apportées à la transformée de Hough Standard (SHT), utilisée en traitement d'image comme simple outil de détection de segments de lignes droites. La transformée de Hough a reçu, depuis sa proposition en 1962, une attention particulière de la part de la communauté. La HT est considérée comme une méthode robuste, dont le principe repose sur la transformation le problème initial de détection de segments de lignes droites en un problème de section de sommets dans l'espace des paramètres, appelé aussi espace HT ou espace de Hough. Les points candidats dans l'espace image sont mis en correspondance points dans l'espace de Hough, en utilisant Le principe avancé par la transformée de Hough est qu'il existe un nombre infini de lignes qui passent par un point, dont la seule différence est l'orientation (l'angle). La transformée de Hough permet de déterminer lesquelles de ces lignes passent au plus près du domaine d'intérêt. Les cellules dans l'espace de Hough échantillonné obtiennent des votes des points candidats. Les maxima locaux, correspondant aux sommets sont construit lorsque les cellules considérées obtiennent plus de votes que les cellules voisines. Les sommets détectés alors dans l'espace des paramètres sont transformée dans l'espace image pour validation. Malheureusement, les opérations les opérations de transformation directe, de l'espace image vers l'espace des paramètres, et inverse engendrent des opérations d'approximation, ce qui est la source de plusieurs problèmes de la transformée de Hough, qui affectent les aspects de robustesse, précision et résolution. On se propose de résoudre ces problèmes dans le cadre des travaux engagés dans le cadre de la thèse. Les contributions, détaillées ci-dessous, ont pu être proposées. A) Pour adresser le problème de limitation en termes de résolution de la SHT, les points concernent la sélection d'une bonne résolution, l'extension de la résolution de la SHT et l'utilisation des techniques de super-résolution pour la HT ont été couverts et de nouvelles propositions ont été faites et qui sont d'une utilité certaine pour les applications de traitement d'image.- la relation entre la performance de la HT et la résolution est proposée, ce qui permet de garantir le bon choix.- Une technique de super-résolution ets proposée en s'appuyant sur le principe de la HT- Une auto-similarité dans les échantillons HT a été découverte et a été utilisée pour obtenir une résolution supérieure de la HT avec un grande fidélité. B) Pour adresser le problème de la précision de la SHT, les erreurs de la HT ont été analysées, lorsque l'on fait subir des transformations géométriques à l'image source. Les erreurs ainsi détectées ont été utilisées pour compenser le manque de précision de la SHT, aboutissant ainsi à une HT plus précise. Afin de permettre l'évaluation de performance des approches proposées dan sel cadre de la thèse, une transformée de Hough idéale est proposée comme référence / The thesis addresses the improvements of the Standard Hough Transform (SHT) for image processing applications. As a common tool for straight line segment detection, the Hough Transform (HT) has received extensive attention since its proposal in 1962. HT is robust since it converts the straight line detection problem to a peak seeking problem in the parameter space (also called HT space or Hough space). Feature points in the image space are mapped to the parameter space, according to the normal formulation of the possible straight lines crossing them. The cells in the digitalised parameter space obtain votes from the feature points. The local maxima, corresponding to peaks are built when corresponding cells obtain more votes than the ones around them. The peaks detected in the parameter space are then mapped back to the image space for validation. Unfortunately, when mapping feature points in the image space to the parameter space in conjunction with the voting process, rounding operations are employed, which leads to several problems of HT. The robustness, accuracy and resolution are all affected. This thesis aims to solve these problems, and the following contributions were made towards this goal : A) Because of the resolution limitation of SHT, the topics of how to select a “good” resolution, how to extend the resolutions of SHT and how to employ the super-resolution technique in HT are covered. In the research of these topics, several outputs are obtained, which are helpful to image processing applications. These include:- The map of HT performance versus resolutions is drawn, according to which “good” choices of resolutions can be found.- HT resolutions are extended by geometrical analysis of the HT butterflies.- Super resolution HT is proposed with consideration to the features of HT.- Self-similarity of the HT butterflies is discovered and employed to obtain high resolution HT with high reliability. B) For the accuracy defect of SHT, the error system of HT is studied when the image is shifted in the image space. The detection errors are employed to compensate for the defect, and an accurate HT is proposed. In order to evaluate existing HT varieties, an ideal HT is proposed as a standard Haute resolution d'images Tranformee de Hough Reconnaissance de formes Butterfly shape Super Resolution Hough Transform Pattern Recognition Butterfly shape
96	Modélisation probabiliste de classifieurs d’ensemble pour des problèmes à deux classes / Probabilistic modeling of ensemble classifiers for two classes problems Dong, Yuan 08 July 2013 (has links) L'objectif de cette thèse est d'améliorer ou de préserver les performances d'un système décisionnel quand l’environnement peut impacter certains attributs de l'espace de représentation à un instant donné ou en fonction de la position géographique de l’observation. S'inspirant des méthodes d'ensemble, notre approche a consisté à prendre les décisions dans des sous-espaces de représentation résultant de projections de l'espace initial, espérant ainsi travailler dans des sous-espaces non impactés. La décision finale est alors prise par fusion des décisions individuelles. Dans ce contexte, trois méthodes de classification (one-class SVM, Kernel PCA et Kernel ECA) ont été testées en segmentation d'images texturées qui constitue un support applicatif parfaitement adéquat en raison des ruptures de modèle de texture aux frontières entre deux régions. Ensuite, nous avons proposé une nouvelle règle de fusion reposant sur un test du rapport de vraisemblance pour un ensemble de classifieurs indépendants. Par rapport au vote majoritaire, cette règle de fusion a montré de meilleures performances face à l'altération de l'espace de représentation. Enfin, nous avons établi un modèle conjoint pour l’ensemble des variables décisionnelles de Bernoulli corrélées associées aux décisions des classifieurs individuels. Cette modélisation doit permettre de lier les performances des classifieurs individuels à la performance de la règle de décision globale et d’étudier et de maîtriser l'impact des changements de l'espace initial sur la performance globale / The objective of this thesis is to improve or maintain the performance of a decision-making system when the environment can impact some attributes of the feature space at a given time or depending on the geographical location of the observation. Inspired by ensemble methods, our approach has been to make decisions in representation sub-spaces resulting of projections of the initial space, expecting that most of the subspaces are not impacted. The final decision is then made by fusing the individual decisions. In this context, three classification methods (one-class SVM, Kernel PCA and Kernel ECA) were tested on a textured images segmentation problem which is a perfectly adequate application support because of texture pattern changes at the border between two regions. Then, we proposed a new fusion rule based on a likelihood ratio test for a set of independent classifiers. Compared to the majority vote, this fusion rule showed better performance against the alteration of the performance space. Finally, we modeled the decision system using a joint model for all decisions based on the assumption that decisions of individual classifiers follow a correlated Bernoulli law. This model is intended to link the performance of individual classifiers to the performance of the overall decision rule and to investigate and control the impact of changes in the original space on the overall performance Apprentissage automatique Classification Fusion multicapteurs Reconnaissance des formes (informatique) Machine learning Classification Multisensor data fusion Pattern recognition 003
97	Système d'identification à partir de l'image d'iris et détermination de la localisation des informations / Iris identification system and determination of characteristics location Hilal, Alaa 21 October 2013 (has links) Le système d’identification d’iris est considéré comme l’une des meilleures technologies biométriques. Toutefois, des problèmes liés à la segmentation de l’iris et à la normalisation de la texture de l’iris sont généralement signalés comme principales origines des reconnaissances incorrectes. Dans notre travail, trois contributions principales sont proposées pour améliorer le système d’identification d’iris. Une nouvelle méthode de segmentation est développée. Elle détecte la frontière externe de l’iris par un contour circulaire et la pupille, d’une manière précise, à l’aide d’un modèle de contour actif. Ensuite, une nouvelle méthode de normalisation est proposée. Elle assure une représentation plus robuste et un meilleur échantillonnage de la texture de l’iris comparée aux méthodes traditionnelles. Enfin en utilisant le système d’identification d’iris proposé, la localisation des caractéristiques discriminantes dans une région d’iris est identifiée. Nous vérifions que l’information la plus importante de la région de l’iris se trouve à proximité de la pupille et que la capacité discriminante de la texture diminue avec la distance à la pupille. Les méthodes de segmentation et de normalisation développées sont testées et comparées à un système de référence sur une base de données contenant 2639 images d’iris. Une amélioration des performances de reconnaissance valide l’efficacité du système proposé / Iris identification system is considered among the best biometric technologies. However problems related to the segmentation of the iris and to the normalization of iris templates are generally reported and induce loss of recognition performance. In this work three main contributions are made to the progress of the iris identification system. A new segmentation method is developed. It approximates the outer iris boundary with a circle and segments accurately the inner boundary of the iris by use of an active contour model. Next, a new normalization method is proposed. It leads to a more robust characterization and a better sampling of iris textures compared to traditional normalization methods. Finally using the proposed iris identification system, the location of discriminant characteristics along iris templates is identified. It appears that the most discriminant iris characteristics are located in inner regions of the iris (close to the pupil boundary) and that the discriminant capabilities of these characteristics decreases as outer regions of the iris are considered. The developed segmentation and normalization methods are tested and compared to a reference iris identification system over a database of 2639 iris images. Improvement in recognition performance validates the effectiveness of the proposed system Identification biométrique Reconnaissance des formes (informatique) Biometric identification Pattern recognition systems Image processing -- digital techniques 006.4
98	Reconstruction de modèles CAO de scènes complexes à partir de nuages de points basés sur l’utilisation de connaissances a priori / Reconstruction of CAD model of industrial scenes using a priori knowledge Bey, Aurélien 25 June 2012 (has links) Certaines opérations de maintenance sur sites industriels nécessitent une planification à partir de modèles numériques 3D des scènes où se déroulent les interventions. Pour permettre la simulation de ces opérations, les modèles 3D utilisés doivent représenter fidèlement la réalité du terrain. Ces représentations virtuelles sont habituellement construites à partir de nuages de points relevés sur le site, constituant une description métrologique exacte de l’environnement sans toutefois fournir une description géométrique de haut niveau.Il existe une grande quantité de travaux abordant le problème de la reconstruction de modèles 3D à partir de nuages de points, mais peu sont en mesure de fournir des résultats suffisamment fiables dans un contexte industriel et cette tâche nécessite en pratique l’intervention d’opérateurs humains.Les travaux réalisés dans le cadre de cette thèse visent l’automatisation de la reconstruction,avec comme principal objectif la fiabilité des résultats obtenus à l’issu du processus. Au vu de la complexité de ce problème, nous proposons d’exploiter des connaissances et données a priori pour guider la reconstruction. Le premier a priori concerne la compositiondes modèles 3D : en Conception Assistée par Ordinateur (CAO), les scènes industrielles sont couramment décrites comme des assemblages de primitives géométriques simples telles que les plans, sphères, cylindres, cônes, tores, etc. Nous hiérarchisons l’analyse en traitant dans un premier temps les plans et les cylindres, comme un préalable à la détection de stores. On obtient ainsi une description fiable des principaux composants d’intérêt dans les environnements industriels. Nous proposons en outre d’exploiter un certain nombre de règles régissant la manière dont ces primitives s’assemblent en un modèle CAO, basées surdes connaissances ”métier” caractérisant les scènes industrielles que nous traitons. De plus,nous tirons parti d’un modèle CAO existant d´ecrivant une scène similaire à celle que nous souhaitons reconstruire, provenant typiquement de la reconstruction antérieure d’un site semblable au site d’intérêt. Bien que semblables en théorie, ces scènes peuvent présenterdes différences significatives qui s’accentuent au cours de leur exploitation.La méthode que nous développons se fonde sur une formulation Bayésienne du problème de reconstruction : il s’agit de retrouver le modèle CAO le plus probable vis à visdes différentes attentes portées par les données et les a priori sur le modèle à reconstruire. Les diverses sources d’a priori s’expriment naturellement dans cette formulation. Pour permettre la recherche du modèle CAO optimal, nous proposons une approche basée surdes tentatives d’insertion d’objets générés aléatoirement. L’acceptation ou le rejet de ces objets repose ensuite sur l’am´elioration systématique de la solution en cours de construction. Le modèle CAO se construit ainsi progressivement, par ajout et suppression d’objets, jusqu’à obtention d’une solution localement optimale. / 3D models are often used in order to plan the maintenance of industrial environments.When it comes to the simulation of maintenance interventions, these 3D models have todescribe accurately the actual state of the scenes they stand for. These representationsare usually built from 3D point clouds that are huge set of 3D measurements acquiredin industrial sites, which guarantees the accuracy of the resulting 3D model. Althoughthere exists many works addressing the reconstruction problem, there is no solution toour knowledge which can provide results that are reliable enough to be further used inindustrial applications. Therefore this task is in fact handled by human experts nowadays.This thesis aims at providing a solution automating the reconstruction of industrialsites from 3D point clouds and providing highly reliable results. For that purpose, ourapproach relies on some available a priori knowledge and data about the scene to beprocessed. First, we consider that the 3D models of industrial sites are made of simpleprimitive shapes. Indeed, in the Computer Aided Design (CAD) field, this kind of scenesare described as assemblies of shapes such as planes, spheres, cylinders, cones, tori, . . . Ourown work focuses on planes, cylinders and tori since these three kind of shapes allow thedescription of most of the main components in industrial environment. Furthermore, weset some a priori rules about the way shapes should be assembled in a CAD model standingfor an industrial facility, which are based on expert knowledge about these environments.Eventually, we suppose that a CAD model standing for a scene which is similar to theone to be processed is available. This a priori CAO model typically comes from the priorreconstruction of a scene which looks like the one we are interested in. Despite the factthat they are similar theoretically, there may be significant differences between the sitessince each one has its own life cycle.Our work first states the reconstruction task as a Bayesian problem in which we haveto find the most probable CAD Model with respect to both the point cloud and the a prioriexpectations. In order to reach the CAD model maximizing the target probability, wepropose an iterative approach which improves the solution under construction each time anew randomly generated shape is tried to be inserted in it. Thus, the CAD model is builtstep by step by adding and removing shapes, until the algorithm gets to a local maximumof the target probability. Reconstruction Modèle CAO Reconnaissance de formes Nuage de points Optimisation stochastique Reconstruction CAD Model Shapes recognition Point cloud Stochastic optimization 006.4
99	Détection de personnes pour des systèmes de videosurveillance multi-caméra intelligents / People detection methods for intelligent multi-Camera surveillance systems Mehmood, Muhammad Owais 28 September 2015 (has links) La détection de personnes dans les vidéos est un défi bien connu du domaine de la vision par ordinateur avec un grand nombre d'applications telles que le développement de systèmes de surveillance visuels. Même si les détecteurs monoculaires sont plus simples à mettre en place, ils sont dans l’incapacité de gérer des scènes complexes avec des occultations, une grande densité de personnes ou des scènes avec beaucoup de profondeur de champ menant à une grande variabilité dans la taille des personnes. Dans cette thèse, nous étudions la détection de personnes multi-vues et notamment l'utilisation de cartes d'occupation probabilistes créées en fusionnant les différentes vues grâce à la connaissance de la géométrie du système. La détection à partir de ces cartes d'occupation amène cependant des fausses détections (appelées « fantômes ») dues aux différentes projections. Nous proposons deux nouvelles techniques afin de remédier à ce phénomène et améliorer la détection des personnes. La première utilise une déconvolution par un noyau dont la forme varie spatialement tandis que la seconde est basée sur un principe de validation d’hypothèse. Ces deux approches n'utilisent volontairement pas l'information temporelle qui pourra être réintroduite par la suite dans des algorithmes de suivi. Les deux approches ont été validées dans des conditions difficiles présentant des occultations, une densité de personnes plus ou moins élevée et de fortes variations dans les réponses colorimétriques des caméras. Une comparaison avec d'autres méthodes de l’état de l'art a également été menée sur trois bases de données publiques, validant les méthodes proposées pour la surveillance d'une gare et d'un aéroport / People detection is a well-studied open challenge in the field of Computer Vision with applications such as in the visual surveillance systems. Monocular detectors have limited ability to handle occlusion, clutter, scale, density. Ubiquitous presence of cameras and computational resources fuel the development of multi-camera detection systems. In this thesis, we study the multi-camera people detection; specifically, the use of multi-view probabilistic occupancy maps based on the camera calibration. Occupancy maps allow multi-view geometric fusion of several camera views. Detection with such maps create several false detections and we study this phenomenon: ghost pruning. Further, we propose two novel techniques in order to improve multi-view detection based on: (a) kernel deconvolution, and (b) occupancy shape modeling. We perform non-temporal, multi-view reasoning in occupancy maps to recover accurate positions of people in challenging conditions such as of occlusion, clutter, lighting, and camera variations. We show improvements in people detections across three challenging datasets for visual surveillance including comparison with state-of-the-art techniques. We show the application of this work in exigent transportation scenarios i.e. people detection for surveillance at a train station and at an airport Géométrie multi-Vues Fusion de capteurs Reconnaissance des Formes Détection d'objects Surveillance Multi-View Geometry Sensor Fusion Pattern Recognition Object Detection Surveillance
100	Segmentation and indexation of complex objects in comic book images / Segmentation et indexation d'objets complexes dans les images de bandes dessinées Rigaud, Christophe 11 December 2014 (has links) Dans ce manuscrit de thèse, nous détaillons et illustrons les différents défis scientifiques liés à l'analyse automatique d'images de bandes dessinées, de manière à donner au lecteur tous les éléments concernant les dernières avancées scientifiques en la matière ainsi que les verrous scientifiques actuels. Nous proposons trois approches pour l'analyse d'image de bandes dessinées. La première approche est dite "séquentielle'' car le contenu de l'image est décrit progressivement et de manière intuitive. Dans cette approche, les extractions se succèdent, en commençant par les plus simples comme les cases, le texte et les bulles qui servent ensuite à guider l'extraction d'éléments plus complexes tels que la queue des bulles et les personnages au sein des cases. La seconde approche propose des extractions indépendantes les unes des autres de manière à éviter la propagation d'erreur due aux traitements successifs. D'autres éléments tels que la classification du type de bulle et la reconnaissance de texte y sont aussi abordés. La troisième approche introduit un système fondé sur une base de connaissance a priori du contenu des images de bandes dessinées. Ce système permet de construire une description sémantique de l'image, dirigée par les modèles de connaissances. Il combine les avantages des deux approches précédentes et permet une description sémantique de haut niveau pouvant inclure des informations telles que l'ordre de lecture, la sémantique des bulles, les relations entre les bulles et leurs locuteurs ainsi que les interactions entre les personnages. / In this thesis, we review, highlight and illustrate the challenges related to comic book image analysis in order to give to the reader a good overview about the last research progress in this field and the current issues. We propose three different approaches for comic book image analysis that are composed by several processing. The first approach is called "sequential'' because the image content is described in an intuitive way, from simple to complex elements using previously extracted elements to guide further processing. Simple elements such as panel text and balloon are extracted first, followed by the balloon tail and then the comic character position in the panel. The second approach addresses independent information extraction to recover the main drawback of the first approach : error propagation. This second method is called “independent” because it is composed by several specific extractors for each elements of the image without any dependence between them. Extra processing such as balloon type classification and text recognition are also covered. The third approach introduces a knowledge-driven and scalable system of comics image understanding. This system called “expert system” is composed by an inference engine and two models, one for comics domain and another one for image processing, stored in an ontology. This expert system combines the benefits of the two first approaches and enables high level semantic description such as the reading order of panels and text, the relations between the speech balloons and their speakers and the comic character identification. Traitement d'images Reconnaissance de formes Analyse de documents Compréhension de bandes dessinées Image processing Pattern recognition Document analysis Comics understanding

Search results