Global ETD Search

51	Contribution à l'analyse de scènes par vision active : utilisation de réseaux bayesiens / Djian, David. January 1900 (has links) Th. doct.--Informatique temps réel, robotique-automatique--Paris--Éc. natl. supér. mines, 1997. / Bibliogr. p. 159-164. Résumé en anglais et en français. 1997 d'après la déclaration de dépôt légal.
52	Étude et réalisation d'un extracteur rapide de caractéristiques d'image vidéo. Rakhodai, Issa, January 1900 (has links) Th. doct.-ing.--Électronique, électrotechn., autom.--Toulouse--I.N.P., 1979. N°: 68.
53	Analyse et interprétation d'images à l'usage des personnes non-voyantes : application à la génération automatique d'images en relief à partir d'équipements banalisés / Analysis and interpretation of images for use by blind people : application to the automatic generation of relief images from commoditized equipment Chen, Yong 27 November 2015 (has links) L’information visuelle est une source d’information très riche à laquelle les non-voyants et mal voyants (ou Personnes Aveugles et Malvoyantes : PAM) n’ont pas toujours accès. La présence des images constitue un réel handicap pour les PAM. Une transcription de ces images en relief peut augmenter leur accessibilité aux PAM. En prenant en compte les aspects de la cognition tactile chez les non-voyants, les règles, et les recommandations de la conception d’une image en relief, nous avons orienté notre travail sur les analyses et les comparaisons des techniques de traitement d’image numérique pour trouver les méthodes adaptées afin de créer une procédure automatique de création d’images en relief. A la fin de ce travail, nous avons testé les images en relief créées avec des non-voyants. Deux points importants ont été évalués :  Le taux de compréhension d’une image en relief ; Le temps d’exploration nécessaire.Les résultats suggèrent que les images faites par ce système sont accessibles pour les non-voyants braillistes. Le système implémenté peut être considéré comme un outil efficace de création d’image en relief :  Le système propose une possibilité de généraliser et formaliser la procédure de création d'image en relief ;  Le système donne une solution très rapide et facile.Le système peut traiter des images pédagogiques avec du contenu sémantique simplifié. Il peut donc être utilisé dans de nombreux cas d’utilisation. Par exemple, il peut être utilisé comme un outil pratique pour rendre accessible les images numériques. Il permet aussi la coopération avec d’autres modalités de présentation d’image au non-voyant, par exemple avec une carte interactive classique. / Visual information is a very rich source of information to which blind and visually impaired people (BVI) not always have access. The presence of images is a real handicap for the BVI. The transcription into an embossed image may increase the accessibility of an image to BVI. Our work takes into account the aspects of tactile cognition, the rules and the recommendations for the design of an embossed image. We focused our work on the analysis and comparison of digital image processing techniques in order to find the suitable methods to create an automatic procedure for embossing images. At the end of this research, we tested the embossed images created by our system with users with blindness. In the tests, two important points were evaluated:  The degree of understanding of an embossed image; The time required for exploration.The results suggest that the images made by this system are accessible to blind users who know braille. The implemented system can be regarded as an effective tool for the creation of an embossed image. The system offers an opportunity to generalize and formalize the procedure for creating an embossed image. The system gives a very quick and easy solution.The system can process pedagogical images with simplified semantic contents. It can be used as a practical tool for making digital images accessible. It also offers the possibility of cooperation with other modalities of presentation of the image to blind people, for example a traditional interactive map. Accessibilite des images Segmentation de l’image Reconnaissance de formes Reconnaissance de texte Transcription en image tactile
54	Recherche de motifs dans des images : apport des graphes plans / Searching for patterns in images : what plane graphs can bring Samuel, Emilie 06 June 2011 (has links) La reconnaissance de formes s'intéresse à la détection automatique de motifs dans des données d'entrée, afin de pouvoir, par exemple, les classer en catégories. La matière première de ces techniques est bien souvent l'image numérique. Cette dernière, dans sa forme la plus courante, est codée sous la forme d'une matrice de pixels. Néanmoins, la question du développement de représentations plus riches se pose. Ainsi, la structuration de l'information contenue dans l'image devrait permettre la mise en évidence des différents objets représentés, et des liens les unissant. C'est pourquoi nous proposons de modéliser les images numériques sous forme de graphes, pour leur richesse et expressivité d'une part, et pour exploiter les résultats de la théorie des graphes en reconnaissance de formes d'autre part. Nous développons pour cela une méthode d'extraction de graphes plans à partir d'images, basée sur le respect de la sémantique. Nous montrons que nous pouvons, étant donné un graphe, reconstruire avec perte limitée l'image d'origine. Par la suite, nous introduisons les graphes plans à trous, graphes dont les faces peuvent être visibles ou invisibles. Leur justification trouve sa place dans la recherche de motifs notamment, pour laquelle les éléments constituant l'arrière-plan d'une image ne doivent pas être retrouvés. En dirigeant notre attention sur la planarité de ces graphes, nous proposons des algorithmes polynomiaux d'isomorphisme de graphes plans et de motifs ; nous traitons également leur équivalence, qui se trouve être un isomorphisme aux faces invisibles près / Pattern recognition deals with automatically detecting patterns in input values, so as to, for example, classify them into categories. Digital images often constitute the raw material for these applications. The term digital images usually refers to bitmap images, i. e. images represented as matrices of pixels. However, alternative representations can be considered. Thus, structuring the information contained in the image should underline the different objects depected in the image, as well as the links existing between them. This is the reason why we propose to use graph-based representations. Indeed, on the one hand, graphs are complex data structures with important expressive power and, on the other hand, we should benefit from graphs theory result and apply them to pattern recognition tasks. To this extent, we develop a method for extracting semantically well- founded plane graphs from images. We show that it is possible to rebuild the original image from this kind of graphs, with limited loss. Furthermore, we introduce open plane graphs, i. e. graphs whose faces can be visible or invisible. These graphs are useful in pattern recognition, when it is needed to search for patterns independently of the background. Focusing on the planarity of these graphs, we propose polynomial algorithms for plane graphs isomorphism and subgraphs isomorphism. We also address the equivalence issue, which is an isomorphism variant not taking into account visible faces Graphes plans Isomorphisme de graphes Appariements de graphes Représentation structurée d'images Reconnaissance de formes Classification d'images
55	Transformée de Radon discrète généralisée multidirectionnelle, formalisme théorique et aplications en reconnaissance de formes / Generalized multi directional discrete Radon transform, theoretical formalism and applications on pattern recognition Elouedi, Inès 09 December 2015 (has links) La transformée de Radon généralisée est une extension de la transformée de Radon qui généralise ses courbes de projection. Ce mémoire présente de nouveaux formalismes théoriques à la transformée de Radon Généralisée discrète. Les approches proposées dans ce mémoire ont différentes propriétés. Nous citons principalement : l'aspect modèle où chaque point dans l'espace de Radon correspond à un modèle dans l'espace spatial. Il est le résultat de la somme des pixels appartenant au modèle, la projection multidirectionnelle dans le sens que le domaine transformé de Radon se constituera au fur et à mesure que les courbes effectuent une rotation, selon le même principe utilisé dans la transformée de Radon classique et l'inversion exacte qui signifie la reconstruction exacte de l'image initiale à partir de l'espace de Radon de telle sorte que l'image reconstruite à partir de l'espace de Radon est égale en tout point à l'image initiale. La première approche proposée, appelée la transformée de Radon Généralisée Discrète multidirectionnelle est basée sur un formalisme algébrique défini par une multiplication matricielle entre des matrices de projection et l'image. Cette transformée permet une projection multidirectionnelle vu que les matrices de projection sont définies pour sélectionner des courbes épousant différentes directions. Cette transformée a l'avantage de ne poser aucune contrainte sur la nature des courbes projetées tout en permettant une inversion exacte. Nous avons appliqué la nouvelle transformée dans le domaine de la reconnaissance de formes, plus précisément dans la reconnaissance des bâtiments de forme rectangulaire dans des images satellitaire de haute résolution. En partant du principe qu'une courbe est transformée en un point de forte intensité dans l'espace de Radon, notre méthode de reconnaissance adoptée est basée sur l'étude de l'espace de Radon dans le but d'en extraire les pics. Ces derniers portent les informations cherchées sur la forme à identifier, à savoir ses paramètres, sa localisation et son orientation. Une deuxième approche appelée transformée de radon discrète polynomiale a été également proposée. Cette transformée projette une image discrète suivant des courbes polynômiales de différents degrés et orientations. Cette approche, fondée sur des propriétés arithmétiques, est également exactement inversible et multi directionnelle. Nous avons appliqué cette approche dans la reconnaissance des empreintes digitales. Les résultats montrent la précision de la méthode pour la détection de la position et de la direction des courbes polynomiales. Des propriétés intéressantes comme l'invariance aux transformations comme la rotation, la translation et le bruit caractérisent cette approche / The Generalized Radon transform is an extension of the Radon transform which generalizes its projection curves. This paper presents new theoretical formalism to the generalized discrete radon transform. The approaches proposed in this paper have different properties. We mainly cite: the model aspect where each point in Radon space corresponds to a model in spatial space. It is the result of the sum of the pixels belonging to the model, the multi-projection which means that the Radon transform domain will be constructed as the curves are rotated according to the same principle used in the classical Radon transform and exact inversion which means the exact reconstruction of the original image from Radon space so that the reconstructed image is equal in all pixels to the original image. The first proposed approach, called the Generalized Discrete Radon transform is based on an algebraic formalism defined by a matrix multiplication between the projection matrices and the image. This transform allows multidirectional projection since the projection matrices are defined to select curves following different directions. This transform has the advantage of not posing any constraints on the nature of the projected curves while allowing an exact inversion. We applied the new transformed in the field of pattern recognition, specifically in recognition of rectangular buildings in satellite images of high resolution. Assuming that a curve is transformed into an intensive point in the Radon space, our adopted recognition method is based on the study of Radon space in order to extract the peaks. These point out the needed information to identify the pattern, i.e., its parameters, its location and orientation. A second approach called polynomial discrete Radon transform was also proposed. This transform projects a discrete image following polynomial curves of different degrees and directions. This approach, based on arithmetic properties, is exactly reversible and multi-directional. We applied this approach to fingerprint recognition. The results show the precision of the method on detecting the position and direction of polynomial curves but also interesting properties such as invariance transformations such as rotation, translation and noise Transformée de Radon Discrète Généralisée Multidirectionnelle Reconnaissance de formes Radon Transform Discrete Multi Directions Generalized Pattern recognition
56	Estimation d'états pour le pistage par lidar à faible résolution angulaire Blanchard-Lapierre, Alexia 29 May 2024 (has links) Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2017-2018 / Ce mémoire présente des estimateurs d'états dans le but de pister des cibles devant un lidar dont la résolution angulaire est faible. D'abord, la transformée de Hough est adaptée à la configuration polaire du lidar et au bruit de mesure qui est gaussien en distance radiale et uniforme en position angulaire. La transformée de Hough développée permet d'estimer la trajectoire de la cible en évaluant la meilleure droite passant par les détections les plus récentes et cette estimation s'approche du maximum de vraisemblance. Ensuite, le résultat de la transformée de Hough est intégré à un filtre de Kalman, classique, étendu ou non parfumé. Deux stratégies sont employées : transformer le bruit uniforme en bruit gaussien en projetant les mesures de position angulaire sur la droite ou ajouter la droite comme une contrainte relaxée dans les observations du filtre de Kalman. Des simulations montrent que le filtre de Kalman non parfumé avec contrainte relaxée est celui qui offre les meilleures performances d'estimation en moyenne. Particulièrement, le gain de l'utilisation de cette méthode par rapport au filtre non parfumé ordinaire augmente dans les situations suivantes : lorsque la cible s'éloigne, plus elle est loin du lidar, plus la cible est petite par rapport à la largeur d'un élément lidar. Les simulations sont analysées pour difiérentes trajectoires linéaires et courbes, pour des cibles de deux tailles (piéton ou voiture) et trois configurations lidars (16 éléments de 2:8° chaque, 8 éléments de 5° chaque et 9 éléments de 10° chaque). Des résultats expérimentaux pour des piétons et une configuration de 16 éléments sont aussi illustrés. / In this master's thesis, state estimators are designed to track targets seen by a lidar with very low angular resolution. The Hough transform is modified in order to consider the polar configuration of the lidar detections, the gaussian noise on their distance measurements and the uniform noise on their angular position measurements. The designed Hough transform estimates the trajectory of a target by evaluating the best line passing on the most recent detections. This estimation approaches the maximum likelihood. Some methods to reduce the computational complexity are also shown. The results of the Hough transform are then combined with Kalman filters (classic, extended and unscented). Two main strategies are developed : transforming the uniform noise into gaussian noise by projecting the angular position on the estimated line, or adding the line as soft constraints in the observation vector of the Kalman filter. Simulations show that the unscented Kalman filter with soft constraints has the lowest mean square error on the state estimation on average. Moreover, this method's improvement in accuracy, in comparaison to a regular unscented Kalman filter, is significant in the following cases : when the target moves away, when the target is far away or when the target is smaller than the width of a lidar element. Simulations are done for different linear and curved trajectories, for two sizes of targets (pedestrian and car) and for three lidar configurations (16 elements of 2:8° each, 8 elements of 5° each et 9 elements of 10° each). Experimental results for pedestrians and a 16 elements lidar are also discussed. TK 7.5 UL 2018 Lidar. Filtre de Kalman. Reconnaissance des formes (Informatique) Cibles radars.
57	Approche non supervisée de segmentation de bas niveau dans un cadre de surveillance vidéo d'environnements non contrôlés Martel-Brisson, Nicolas 18 April 2018 (has links) La présente thèse propose un algorithme de segmentation de bas niveau pour des environnements complexes, allant de scènes intérieures peuplées aux scènes extérieures dynamiques. Basé sur des méthodes d'apprentissage développées pour une séquence vidéo où la caméra est fixe, le système est en mesure d'identifier les sections de l'image appartenant aux objets ou personnes d'avant-plan et ce, en dépit de perturbations temporelles de l'image de l'arrière-plan causées par les ombres, éléments naturels, changements d'illumination, etc. Nous proposons un cadre statistique d'estimation de densité de probabilité basé sur des kernels (KDE). Méthode polyvalente, les KDE requièrent toutefois des séquences d'entraînement où l'activité de l'avant-plan est minimale afin d'obtenir une bonne description initiale de la distribution de l'arrière-plan. Afin d'augmenter la flexibilité de ce type d'approche, nous exploitons la cohérence spatiale des événements d'avant-plan : en minimisant une fonction d'énergie globale par coupure de graphe, nous estimons les probabilités à priori et les densités associées à l'avant et l'arrière-plan pour chaque pixel de la scène. Pour y arriver, des indices tels la dispersion des données, la probabilité associée aux modes dans l'espace RGB, la persistance spatiale des événements et l'entropie relative des régions dans l'image sont utilisés dans un cadre statistique cohérent. Les ombres projetées qui sont détectées lors du processus de soustraction d'arrière-plan induisent des perturbations, tels la distorsion et la fusion des silhouettes, qui nuisent à la performance générale d'algorithmes de plus haut niveau dans un contexte de surveillance vidéo. Deux stratégies sont alors proposées afin de d'éliminer l'ombre projetée de la région d'intérêt. La première méthode utilise la capacité d'apprentissage de l'algorithme de Mixtures de Gaussiennes (GMM) dans le but de caractériser le comportement des ombres projetées sur les surfaces composant l'arrière-plan. La deuxième méthode s'appuie sur les propriétés physiques de l'ombre projetée et d'une mesure de gradient dans un cadre statistique non paramétrique afin d'estimer les valeurs d'atténuation des surfaces ombragées. La méthode permet la différenciation des ombres et de l'avant-plan lorsque ceux-ci partagent des valeurs de chromaticité similaire. Les résultats démontrent que notre approche est efficace dans une multitude de scénarios complexes. TK 7.5 UL 2012 M376 Vidéosurveillance Reconnaissance des formes (Informatique) Apprentissage automatique
58	Une méthode de machine à état liquide pour la classification de séries temporelles : A new liquid state machine method for temporal classification / New liquid state machine method for temporal classification Rhéaume, François 19 April 2018 (has links) L'intérêt envers la neuroscience informatique pour les applications d'intelligence arti- cielle est motivé par plusieurs raisons. Parmi elles se retrouve la rapidité avec laquelle le domaine evolue, promettant de nouvelles capacités pour l'ingénieur. Dans cette thèse, une méthode exploitant les récents avancements en neuroscience informatique est présentée: la machine à état liquide (\liquid state machine"). Une machine à état liquide est un modèle de calcul de données inspiré de la biologie qui permet l'apprentissage sur des ux de données. Le modèle représente un outil prometteur de reconnaissance de formes temporelles. Déjà, il a démontré de bons résultats dans plusieurs applications. En particulier, la reconnaissance de formes temporelles est un problème d'intérêt dans les applications militaires de surveillance telle que la reconnaissance automatique de cibles. Jusqu'à maintenant, la plupart des machines à état liquide crées pour des problèmes de reconnaissance de formes sont demeurées semblables au modèle original. D'un point de vue ingénierie, une question se dégage: comment les machines à état liquide peuvent-elles être adaptées pour améliorer leur aptitude à solutionner des problèmes de reconnaissance de formes temporelles ? Des solutions sont proposées. La première solution suggèrée se concentre sur l'échantillonnage de l'état du liquide. À ce sujet, une méthode qui exploite les composantes fréquentielles du potentiel sur les neurones est définie. La combinaison de différents types de vecteurs d'état du liquide est aussi discutée. Deuxièmement, une méthode pour entrâner le liquide est développée. La méthode utilise la plasticité synaptique à modulation temporelle relative pour modeler le liquide. Une nouvelle approche conditionnée par classe de données est proposée, où différents réseaux de neurones sont entraînés exclusivement sur des classes particuli ères de données. Concernant cette nouvelle approche ainsi que celle concernant l'échantillonnage du liquide, des tests comparatifs ont été effectués avec l'aide de jeux de données simulées et réelles. Les tests permettent de constater que les méthodes présentées surpassent les méthodes conventionnelles de machine à état liquide en termes de taux de reconnaissance. Les résultats sont encore plus encourageants par le fait qu'ils ont été obtenus sans l'optimisation de plusieurs paramètres internes pour les differents jeux de données testés. Finalement, des métriques de l'état du liquide ont été investiguées pour la prédiction de la performance d'une machine à état liquide. / There are a number of reasons that motivate the interest in computational neuroscience for engineering applications of artificial intelligence. Among them is the speed at which the domain is growing and evolving, promising further capabilities for artificial intelligent systems. In this thesis, a method that exploits the recent advances in computational neuroscience is presented: the liquid state machine. A liquid state machine is a biologically inspired computational model that aims at learning on input stimuli. The model constitutes a promising temporal pattern recognition tool and has shown to perform very well in many applications. In particular, temporal pattern recognition is a problem of interest in military surveillance applications such as automatic target recognition. Until now, most of the liquid state machine implementations for spatiotemporal pattern recognition have remained fairly similar to the original model. From an engineering perspective, a challenge is to adapt liquid state machines to increase their ability for solving practical temporal pattern recognition problems. Solutions are proposed. The first one concentrates on the sampling of the liquid state. In this subject, a method that exploits frequency features of neurons is defined. The combination of different liquid state vectors is also discussed. Secondly, a method for training the liquid is developed. The method implements synaptic spike-timing dependent plasticity to shape the liquid. A new class-conditional approach is proposed, where different networks of neurons are trained exclusively on particular classes of input data. For the suggested liquid sampling methods and the liquid training method, comparative tests were conducted with both simulated and real data sets from different application areas. The tests reveal that the methods outperform the conventional liquid state machine approach. The methods are even more promising in that the results are obtained without optimization of many internal parameters for the different data sets. Finally, measures of the liquid state are investigated for predicting the performance of the liquid state machine. TK 7.5 UL 2012 Reconnaissance des formes (Informatique) Flux de données (Informatique) Apprentissage automatique
59	Human shape modelling for carried object detection and segmentation Ghadiri, Farnoosh 14 May 2024 (has links) La détection des objets transportés est un des prérequis pour développer des systèmes qui cherchent à comprendre les activités impliquant des personnes et des objets. Cette thèse présente de nouvelles méthodes pour détecter et segmenter les objets transportés dans des vidéos de surveillance. Les contributions sont divisées en trois principaux chapitres. Dans le premier chapitre, nous introduisons notre détecteur d’objets transportés, qui nous permet de détecter un type générique d’objets. Nous formulons la détection d’objets transportés comme un problème de classification de contours. Nous classifions le contour des objets mobiles en deux classes : objets transportés et personnes. Un masque de probabilités est généré pour le contour d’une personne basé sur un ensemble d’exemplaires (ECE) de personnes qui marchent ou se tiennent debout de différents points de vue. Les contours qui ne correspondent pas au masque de probabilités généré sont considérés comme des candidats pour être des objets transportés. Ensuite, une région est assignée à chaque objet transporté en utilisant la Coupe Biaisée Normalisée (BNC) avec une probabilité obtenue par une fonction pondérée de son chevauchement avec l’hypothèse du masque de contours de la personne et du premier plan segmenté. Finalement, les objets transportés sont détectés en appliquant une Suppression des Non-Maxima (NMS) qui élimine les scores trop bas pour les objets candidats. Le deuxième chapitre de contribution présente une approche pour détecter des objets transportés avec une méthode innovatrice pour extraire des caractéristiques des régions d’avant-plan basée sur leurs contours locaux et l’information des super-pixels. Initiallement, un objet bougeant dans une séquence vidéo est segmente en super-pixels sous plusieurs échelles. Ensuite, les régions ressemblant à des personnes dans l’avant-plan sont identifiées en utilisant un ensemble de caractéristiques extraites de super-pixels dans un codebook de formes locales. Ici, les régions ressemblant à des humains sont équivalentes au masque de probabilités de la première méthode (ECE). Notre deuxième détecteur d’objets transportés bénéficie du nouveau descripteur de caractéristiques pour produire une carte de probabilité plus précise. Les compléments des super-pixels correspondants aux régions ressemblant à des personnes dans l’avant-plan sont considérés comme une carte de probabilité des objets transportés. Finalement, chaque groupe de super-pixels voisins avec une haute probabilité d’objets transportés et qui ont un fort support de bordure sont fusionnés pour former un objet transporté. Finalement, dans le troisième chapitre, nous présentons une méthode pour détecter et segmenter les objets transportés. La méthode proposée adopte le nouveau descripteur basé sur les super-pixels pour iii identifier les régions ressemblant à des objets transportés en utilisant la modélisation de la forme humaine. En utilisant l’information spatio-temporelle des régions candidates, la consistance des objets transportés récurrents, vus dans le temps, est obtenue et sert à détecter les objets transportés. Enfin, les régions d’objets transportés sont raffinées en intégrant de l’information sur leur apparence et leur position à travers le temps avec une extension spatio-temporelle de GrabCut. Cette étape finale sert à segmenter avec précision les objets transportés dans les séquences vidéo. Nos méthodes sont complètement automatiques, et font des suppositions minimales sur les personnes, les objets transportés, et les les séquences vidéo. Nous évaluons les méthodes décrites en utilisant deux ensembles de données, PETS 2006 et i-Lids AVSS. Nous évaluons notre détecteur et nos méthodes de segmentation en les comparant avec l’état de l’art. L’évaluation expérimentale sur les deux ensembles de données démontre que notre détecteur d’objets transportés et nos méthodes de segmentation surpassent de façon significative les algorithmes compétiteurs. / Detecting carried objects is one of the requirements for developing systems that reason about activities involving people and objects. This thesis presents novel methods to detect and segment carried objects in surveillance videos. The contributions are divided into three main chapters. In the first, we introduce our carried object detector which allows to detect a generic class of objects. We formulate carried object detection in terms of a contour classification problem. We classify moving object contours into two classes: carried object and person. A probability mask for person’s contours is generated based on an ensemble of contour exemplars (ECE) of walking/standing humans in different viewing directions. Contours that are not falling in the generated hypothesis mask are considered as candidates for carried object contours. Then, a region is assigned to each carried object candidate contour using Biased Normalized Cut (BNC) with a probability obtained by a weighted function of its overlap with the person’s contour hypothesis mask and segmented foreground. Finally, carried objects are detected by applying a Non-Maximum Suppression (NMS) method which eliminates the low score carried object candidates. The second contribution presents an approach to detect carried objects with an innovative method for extracting features from foreground regions based on their local contours and superpixel information. Initially, a moving object in a video frame is segmented into multi-scale superpixels. Then human-like regions in the foreground area are identified by matching a set of extracted features from superpixels against a codebook of local shapes. Here the definition of human like regions is equivalent to a person’s probability map in our first proposed method (ECE). Our second carried object detector benefits from the novel feature descriptor to produce a more accurate probability map. Complement of the matching probabilities of superpixels to human-like regions in the foreground are considered as a carried object probability map. At the end, each group of neighboring superpixels with a high carried object probability which has strong edge support is merged to form a carried object. Finally, in the third contribution we present a method to detect and segment carried objects. The proposed method adopts the new superpixel-based descriptor to identify carried object-like candidate regions using human shape modeling. Using spatio-temporal information of the candidate regions, consistency of recurring carried object candidates viewed over time is obtained and serves to detect carried objects. Last, the detected carried object regions are refined by integrating information of their appearances and their locations over time with a spatio-temporal extension of GrabCut. This final stage is used to accurately segment carried objects in frames. Our methods are fully automatic, and make minimal assumptions about a person, carried objects and videos. We evaluate the aforementioned methods using two available datasets PETS 2006 and i-Lids AVSS. We compare our detector and segmentation methods against a state-of-the-art detector. Experimental evaluation on the two datasets demonstrates that both our carried object detection and segmentation methods significantly outperform competing algorithms. TK 7.5 UL 2018 Reconnaissance des formes (Informatique) Vidéosurveillance.
60	Classification fine par réseau de neurones à convolution Carpentier, Mathieu 15 March 2024 (has links) L’intelligence artificielle est un domaine de recherche relativement récent. Grâce à lui, plusieurs percées ont été faites sur une série de problèmes qui étaient autrefois considérés comme très difficiles. La classification fine est l’un de ces problèmes. Cependant, même si résoudre cette tâche pourrait représenter des avancées tant au niveau scientifique qu’au niveau industriel, peu de recherche y a été effectué. Dans ce mémoire, nous abordons la problématique de l’application de la classification fine sur des problèmes concrets, soit la classification d’essence d’arbres uniquement grâce à des images de l’écorce et la classification visuelle des moisissures en culture. Nous commençons par présenter plusieurs concepts sur lesquels se basent l’apprentissage profond, à la base de notre solution ainsi que plusieurs expériences qui ont été menées afin de tenter de résoudre le problème de classification d’essence d’arbres à partir d’images de l’écorce. Par la suite, nous détaillons le jeu de données nommé BarkNet 1. 0 que nous avons construit dans le cadre de ce projet. Grâce à celui-ci, nous avons été en mesure de développer une méthode permettant d’obtenir une précision de 93,88% en utilisant une seule crop aléatoire dans une image et une précision de 97,81% en utilisant un vote de majorité sur toutes les images d’un arbre. Finalement, nous concluons en démontrant la faisabilité d’appliquer notre méthode dans d’autres contextes en montrant quelques applications concrètes sur lesquelles nous l’avons essayée, soit la classification d’essence d’arbres en industrie et la classification de moisissures. / Artificial intelligence is a relatively recent research domain. With it, many breakthroughs were made on a number of problems that were considered very hard. Fine-grained classification is one of those problems. However, a relatively small amount of research has been done on this task even though itcould represent progress on a scientific, commercial and industrial level. In this work, we talk about applying fine-grained classification on concrete problems such as tree bark classification and mould classification in culture. We start by presenting fundamental deep learning concepts at the root of our solution. Then, we present multiple experiments made in order to try to solve the tree bark classification problem and we detail the novel dataset BarkNet 1.0 that we made for this project. With it, we were able to develop a method that obtains an accuracy of 93.88% on singlecrop in a single image, and an accuracy of 97.81% using a majority voting approach on all the images of a tree. We conclude by demonstrating the feasibility of applying our method on new problems by showing two concrete applications on which we tried our approach, industrial tree classification and mould classification. QA 76.05 UL 2019 Reconnaissance des formes (Informatique) Classification -- Informatique. Arbres. Écorce. Moisissures. Trois-mâts.

Search results