Spelling suggestions: "subject:"reconnaissance De conormes"" "subject:"reconnaissance De coformes""
71 |
Classification fine par réseau de neurones à convolutionCarpentier, Mathieu 15 March 2024 (has links)
L’intelligence artificielle est un domaine de recherche relativement récent. Grâce à lui, plusieurs percées ont été faites sur une série de problèmes qui étaient autrefois considérés comme très difficiles. La classification fine est l’un de ces problèmes. Cependant, même si résoudre cette tâche pourrait représenter des avancées tant au niveau scientifique qu’au niveau industriel, peu de recherche y a été effectué. Dans ce mémoire, nous abordons la problématique de l’application de la classification fine sur des problèmes concrets, soit la classification d’essence d’arbres uniquement grâce à des images de l’écorce et la classification visuelle des moisissures en culture. Nous commençons par présenter plusieurs concepts sur lesquels se basent l’apprentissage profond, à la base de notre solution ainsi que plusieurs expériences qui ont été menées afin de tenter de résoudre le problème de classification d’essence d’arbres à partir d’images de l’écorce. Par la suite, nous détaillons le jeu de données nommé BarkNet 1. 0 que nous avons construit dans le cadre de ce projet. Grâce à celui-ci, nous avons été en mesure de développer une méthode permettant d’obtenir une précision de 93,88% en utilisant une seule crop aléatoire dans une image et une précision de 97,81% en utilisant un vote de majorité sur toutes les images d’un arbre. Finalement, nous concluons en démontrant la faisabilité d’appliquer notre méthode dans d’autres contextes en montrant quelques applications concrètes sur lesquelles nous l’avons essayée, soit la classification d’essence d’arbres en industrie et la classification de moisissures. / Artificial intelligence is a relatively recent research domain. With it, many breakthroughs were made on a number of problems that were considered very hard. Fine-grained classification is one of those problems. However, a relatively small amount of research has been done on this task even though itcould represent progress on a scientific, commercial and industrial level. In this work, we talk about applying fine-grained classification on concrete problems such as tree bark classification and mould classification in culture. We start by presenting fundamental deep learning concepts at the root of our solution. Then, we present multiple experiments made in order to try to solve the tree bark classification problem and we detail the novel dataset BarkNet 1.0 that we made for this project. With it, we were able to develop a method that obtains an accuracy of 93.88% on singlecrop in a single image, and an accuracy of 97.81% using a majority voting approach on all the images of a tree. We conclude by demonstrating the feasibility of applying our method on new problems by showing two concrete applications on which we tried our approach, industrial tree classification and mould classification.
|
72 |
Partial shape matching using CCP map and weighted graph transformation matchingNikjoo Soukhtabandani, Ali 20 April 2018 (has links)
La détection de la similarité ou de la différence entre les images et leur mise en correspondance sont des problèmes fondamentaux dans le traitement de l'image. Pour résoudre ces problèmes, on utilise, dans la littérature, différents algorithmes d'appariement. Malgré leur nouveauté, ces algorithmes sont pour la plupart inefficaces et ne peuvent pas fonctionner correctement dans les situations d’images bruitées. Dans ce mémoire, nous résolvons la plupart des problèmes de ces méthodes en utilisant un algorithme fiable pour segmenter la carte des contours image, appelée carte des CCPs, et une nouvelle méthode d'appariement. Dans notre algorithme, nous utilisons un descripteur local qui est rapide à calculer, est invariant aux transformations affines et est fiable pour des objets non rigides et des situations d’occultation. Après avoir trouvé le meilleur appariement pour chaque contour, nous devons vérifier si ces derniers sont correctement appariés. Pour ce faire, nous utilisons l'approche « Weighted Graph Transformation Matching » (WGTM), qui est capable d'éliminer les appariements aberrants en fonction de leur proximité et de leurs relations géométriques. WGTM fonctionne correctement pour les objets à la fois rigides et non rigides et est robuste aux distorsions importantes. Pour évaluer notre méthode, le jeu de données ETHZ comportant cinq classes différentes d'objets (bouteilles, cygnes, tasses, girafes, logos Apple) est utilisé. Enfin, notre méthode est comparée à plusieurs méthodes célèbres proposées par d'autres chercheurs dans la littérature. Bien que notre méthode donne un résultat comparable à celui des méthodes de référence en termes du rappel et de la précision de localisation des frontières, elle améliore significativement la précision moyenne pour toutes les catégories du jeu de données ETHZ. / Matching and detecting similarity or dissimilarity between images is a fundamental problem in image processing. Different matching algorithms are used in literature to solve this fundamental problem. Despite their novelty, these algorithms are mostly inefficient and cannot perform properly in noisy situations. In this thesis, we solve most of the problems of previous methods by using a reliable algorithm for segmenting image contour map, called CCP Map, and a new matching method. In our algorithm, we use a local shape descriptor that is very fast, invariant to affine transform, and robust for dealing with non-rigid objects and occlusion. After finding the best match for the contours, we need to verify if they are correctly matched. For this matter, we use the Weighted Graph Transformation Matching (WGTM) approach, which is capable of removing outliers based on their adjacency and geometrical relationships. WGTM works properly for both rigid and non-rigid objects and is robust to high order distortions. For evaluating our method, the ETHZ dataset including five diverse classes of objects (bottles, swans, mugs, giraffes, apple-logos) is used. Finally, our method is compared to several famous methods proposed by other researchers in the literature. While our method shows a comparable result to other benchmarks in terms of recall and the precision of boundary localization, it significantly improves the average precision for all of the categories in the ETHZ dataset.
|
73 |
Détection d'objets multi-parties par algorithme adaptatif et optimiséVilleneuve, Guillaume 19 April 2018 (has links)
Dans ce mémoire, nous proposons des améliorations à une méthode existante de dé- tection d'objets de forme inconnue à partir de primitives simples. Premièrement, avec un algorithme adaptatif, nous éliminons les cas où on n'obtenait aucun résultat avec certaines images en retirant la plupart des seuils fixes, ce qui assure un certain nombre de groupes de primitives à chaque étape. Ensuite, l'ajout de certaines optimisations et d'une version parallèle de la méthode permettent de rendre le temps d'exécution raisonnable pour ce nouvel algorithme. Nous abordons ensuite le problème des solutions trop semblables en ajoutant une nouvelle étape de structuration qui réduira leur nombre sans en affecter la variété grâce au regroupement hiérarchique. Finalement, nous ajustons certains paramètres et des résultats sont produits avec trois ensembles de 10 images. Nous réussissons à prouver de manière objective que les résultats obtenus sont meilleurs qu'avec la méthode précédente. / In this thesis, we propose improvements to an existing unknown shape object detection method that uses simple primitives. Firstly, we eliminate cases where no results were obtained with some images using an adaptive algorithm by removing most of the fixed thresholds, assuring a certain number of primitive groups at each step. Secondly, adding some optimizations and a parallel version of the algorithm make the running time of this new algorithm reasonable. Thirdly, we approach the problem of the redundant solutions by adding a new structuring step that will reduce their number without affecting their variety using hierarchical clustering. Finally, we adjust some parameters and results are produced using three sets of 10 images. We prove in an objective manner that the obtained results are better than those of the previous method.
|
74 |
Approche non supervisée de segmentation de bas niveau dans un cadre de surveillance vidéo d'environnements non contrôlésMartel-Brisson, Nicolas 18 April 2018 (has links)
La présente thèse propose un algorithme de segmentation de bas niveau pour des environnements complexes, allant de scènes intérieures peuplées aux scènes extérieures dynamiques. Basé sur des méthodes d'apprentissage développées pour une séquence vidéo où la caméra est fixe, le système est en mesure d'identifier les sections de l'image appartenant aux objets ou personnes d'avant-plan et ce, en dépit de perturbations temporelles de l'image de l'arrière-plan causées par les ombres, éléments naturels, changements d'illumination, etc. Nous proposons un cadre statistique d'estimation de densité de probabilité basé sur des kernels (KDE). Méthode polyvalente, les KDE requièrent toutefois des séquences d'entraînement où l'activité de l'avant-plan est minimale afin d'obtenir une bonne description initiale de la distribution de l'arrière-plan. Afin d'augmenter la flexibilité de ce type d'approche, nous exploitons la cohérence spatiale des événements d'avant-plan : en minimisant une fonction d'énergie globale par coupure de graphe, nous estimons les probabilités à priori et les densités associées à l'avant et l'arrière-plan pour chaque pixel de la scène. Pour y arriver, des indices tels la dispersion des données, la probabilité associée aux modes dans l'espace RGB, la persistance spatiale des événements et l'entropie relative des régions dans l'image sont utilisés dans un cadre statistique cohérent. Les ombres projetées qui sont détectées lors du processus de soustraction d'arrière-plan induisent des perturbations, tels la distorsion et la fusion des silhouettes, qui nuisent à la performance générale d'algorithmes de plus haut niveau dans un contexte de surveillance vidéo. Deux stratégies sont alors proposées afin de d'éliminer l'ombre projetée de la région d'intérêt. La première méthode utilise la capacité d'apprentissage de l'algorithme de Mixtures de Gaussiennes (GMM) dans le but de caractériser le comportement des ombres projetées sur les surfaces composant l'arrière-plan. La deuxième méthode s'appuie sur les propriétés physiques de l'ombre projetée et d'une mesure de gradient dans un cadre statistique non paramétrique afin d'estimer les valeurs d'atténuation des surfaces ombragées. La méthode permet la différenciation des ombres et de l'avant-plan lorsque ceux-ci partagent des valeurs de chromaticité similaire. Les résultats démontrent que notre approche est efficace dans une multitude de scénarios complexes.
|
75 |
Une méthode de machine à état liquide pour la classification de séries temporelles : A new liquid state machine method for temporal classification / New liquid state machine method for temporal classificationRhéaume, François 19 April 2018 (has links)
L'intérêt envers la neuroscience informatique pour les applications d'intelligence arti- cielle est motivé par plusieurs raisons. Parmi elles se retrouve la rapidité avec laquelle le domaine evolue, promettant de nouvelles capacités pour l'ingénieur. Dans cette thèse, une méthode exploitant les récents avancements en neuroscience informatique est présentée: la machine à état liquide (\liquid state machine"). Une machine à état liquide est un modèle de calcul de données inspiré de la biologie qui permet l'apprentissage sur des ux de données. Le modèle représente un outil prometteur de reconnaissance de formes temporelles. Déjà, il a démontré de bons résultats dans plusieurs applications. En particulier, la reconnaissance de formes temporelles est un problème d'intérêt dans les applications militaires de surveillance telle que la reconnaissance automatique de cibles. Jusqu'à maintenant, la plupart des machines à état liquide crées pour des problèmes de reconnaissance de formes sont demeurées semblables au modèle original. D'un point de vue ingénierie, une question se dégage: comment les machines à état liquide peuvent-elles être adaptées pour améliorer leur aptitude à solutionner des problèmes de reconnaissance de formes temporelles ? Des solutions sont proposées. La première solution suggèrée se concentre sur l'échantillonnage de l'état du liquide. À ce sujet, une méthode qui exploite les composantes fréquentielles du potentiel sur les neurones est définie. La combinaison de différents types de vecteurs d'état du liquide est aussi discutée. Deuxièmement, une méthode pour entrâner le liquide est développée. La méthode utilise la plasticité synaptique à modulation temporelle relative pour modeler le liquide. Une nouvelle approche conditionnée par classe de données est proposée, où différents réseaux de neurones sont entraînés exclusivement sur des classes particuli ères de données. Concernant cette nouvelle approche ainsi que celle concernant l'échantillonnage du liquide, des tests comparatifs ont été effectués avec l'aide de jeux de données simulées et réelles. Les tests permettent de constater que les méthodes présentées surpassent les méthodes conventionnelles de machine à état liquide en termes de taux de reconnaissance. Les résultats sont encore plus encourageants par le fait qu'ils ont été obtenus sans l'optimisation de plusieurs paramètres internes pour les differents jeux de données testés. Finalement, des métriques de l'état du liquide ont été investiguées pour la prédiction de la performance d'une machine à état liquide. / There are a number of reasons that motivate the interest in computational neuroscience for engineering applications of artificial intelligence. Among them is the speed at which the domain is growing and evolving, promising further capabilities for artificial intelligent systems. In this thesis, a method that exploits the recent advances in computational neuroscience is presented: the liquid state machine. A liquid state machine is a biologically inspired computational model that aims at learning on input stimuli. The model constitutes a promising temporal pattern recognition tool and has shown to perform very well in many applications. In particular, temporal pattern recognition is a problem of interest in military surveillance applications such as automatic target recognition. Until now, most of the liquid state machine implementations for spatiotemporal pattern recognition have remained fairly similar to the original model. From an engineering perspective, a challenge is to adapt liquid state machines to increase their ability for solving practical temporal pattern recognition problems. Solutions are proposed. The first one concentrates on the sampling of the liquid state. In this subject, a method that exploits frequency features of neurons is defined. The combination of different liquid state vectors is also discussed. Secondly, a method for training the liquid is developed. The method implements synaptic spike-timing dependent plasticity to shape the liquid. A new class-conditional approach is proposed, where different networks of neurons are trained exclusively on particular classes of input data. For the suggested liquid sampling methods and the liquid training method, comparative tests were conducted with both simulated and real data sets from different application areas. The tests reveal that the methods outperform the conventional liquid state machine approach. The methods are even more promising in that the results are obtained without optimization of many internal parameters for the different data sets. Finally, measures of the liquid state are investigated for predicting the performance of the liquid state machine.
|
76 |
Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligneQuiniou, Solen 17 December 2007 (has links) (PDF)
L'objectif de ces travaux de thèse est de construire un système de reconnaissance de phrases, en se basant sur un système de reconnaissance de mots existant. Pour cela, deux axes de recherche sont abordés : la segmentation des phrases en mots ainsi que l'intégration de connaissances linguistiques pour prendre en compte le contexte des phrases. Nous avons étudié plusieurs types de modèles de langage statistiques, en comparant leurs impacts respectifs sur les performances du système de reconnaissance. Nous avons également recherché la meilleure stratégie pour les intégrer efficacement dans le système de reconnaissance global. Une des orginalités de cette étude est l'ajout d'une représentation des différentes hypothèses de phrases sous forme d'un réseau de confusion, afin de pouvoir détecter et corriger les erreurs de reconnaissance restantes. L'utilisation des technique présentées permet de réduire de façon importante le nombre d'erreurs de reconnaissance, parmi les mots des phrases.
|
77 |
Reconnaissance de structures bidimensionnelles : Application aux expressions mathématiques manuscrites en-ligneAwal, Ahmad-Montaser 12 November 2010 (has links) (PDF)
Les travaux présentés dans le cadre de cette thèse portent sur l'étude, la conception, le développement et le test d'un système de reconnaissance de structures manuscrites bidimensionnelles. Le système proposé se base sur une architecture globale qui considère le problème de reconnaissance en tant qu'optimisation simultanée de la segmentation, de la reconnaissance de symboles, et de l'interprétation. Le premier cadre d'applications a été celui d'un système de reconnaissance d'expressions mathématiques manuscrites. La difficulté du problème se situe aux trois niveaux évoqués. La segmentation est complexe du fait de la grande liberté de composition d'une expression, avec notamment la possibilité de symboles multi-traits non séquentiels ; la reconnaissance doit affronter un nombre élevé de classes et en particulier, gérer les situations de formes non-apprises ; l'interprétation peut-être ambiguë du fait du positionnement spatial approximatif. La solution proposée repose sur la minimisation d'une fonction de coût global qui met en compétition des coûts de reconnaissance et des coûts structurels pour explorer un vaste espace de solutions. Les résultats obtenus sont très compétitifs et prometteurs comparés à ceux de la littérature. Nous avons finalement montré la généricité de notre approche en l'adaptant à la reconnaissance d'un autre type de langage 2D, celui des représentations graphiques de type organigramme.
|
78 |
Recherche de motifs dans des images : apport des graphes plansSamuel, Emilie 06 June 2011 (has links) (PDF)
La reconnaissance de formes s'intéresse à la détection automatique de motifs dans des données d'entrée, afin de pouvoir, par exemple, les classer en catégories. La matière première de ces techniques est bien souvent l'image numérique. Cette dernière, dans sa forme la plus courante, est codée sous la forme d'une matrice de pixels. Néanmoins, la question du développement de représentations plus riches se pose. Ainsi, la structuration de l'information contenue dans l'image devrait permettre la mise en évidence des différents objets représentés, et des liens les unissant. C'est pourquoi nous proposons de modéliser les images numériques sous forme de graphes, pour leur richesse et expressivité d'une part, et pour exploiter les résultats de la théorie des graphes en reconnaissance de formes d'autre part. Nous développons pour cela une méthode d'extraction de graphes plans à partir d'images, basée sur le respect de la sémantique. Nous montrons que nous pouvons, étant donné un graphe, reconstruire avec perte limitée l'image d'origine. Par la suite, nous introduisons les graphes plans à trous, graphes dont les faces peuvent être visibles ou invisibles. Leur justification trouve sa place dans la recherche de motifs notamment, pour laquelle les éléments constituant l'arrière-plan d'une image ne doivent pas être retrouvés. En dirigeant notre attention sur la planarité de ces graphes, nous proposons des algorithmes polynomiaux d'isomorphisme de graphes plans et de motifs ; nous traitons également leur équivalence, qui se trouve être un isomorphisme aux faces invisibles près
|
79 |
Representations en Scattering pour la ReconaissanceBruna, Joan 06 February 2013 (has links) (PDF)
Ma thèse étudie le problème de la reconnaissance des objets et des textures. Dans ce cadre, il est nécessaire de construire des représentations de signaux avec des propriétés d'invariance et de stabilité qui ne sont pas satisfaites par des approches linéaires. Les opérateurs de Scattering itèrent des décompositions en ondelettes et rectifications avec des modules complexes. Ces opérateurs définissent une transformée non-linéaire avec des propriétés remarquables ; en particulier, elle est localement invariante par translation et Lipschitz continue par rapport à l'action des difféomorphismes. De plus, les opérateurs de Scattering définissent une représentation des processus stationnaires qui capture les moments d'ordre supérieur, et qui peut être estimée avec faible variance à partir d'un petit nombre de réalisations. Dans cette thèse, nous obtenons des nouvelles propriétés mathématiques de la représentation en scattering, et nous montrons leur efficacité pour la reconnaissance des objets et textures. Grâce à sa continuité Lipschitz par rapport à l'action des difféomorphismes, la transformée en scattering est capable de linéariser les petites déformations. Cette propriété peut être exploitée en pratique avec un classificateur génératif affine, qui nous permet d'obtenir l'état de l'art sur la reconnaissance des chiffres manuscrites. Nous étudions ensuite les représentations en Scattering des textures dans le cadre des images et du son. Nous montrons leur capacité à discriminer des phénomènes non-gaussiens avec des estimateurs à faible variance, ce qui nous permet d'obtenir de l'état de l'art pour la reconnaissance des textures. Finalement, nous nous intéressons aux propriétés du Scattering pour l'analyse multifractale. Nous introduisons une renormalisation des coéfficients en Scattering qui permet d'identifier de façon efficace plusieurs paramètres multifractales; en particulier, nous obtenons une nouvelle caractérisation de l'intermittence à partir des coefficients de Scattering ré-normalisés, qui peuvent s'estimer de façon consistante.
|
80 |
Modélisation des environnements dynamiques pour la localisationDecrouez, Marion 07 May 2013 (has links) (PDF)
Les travaux effectués dans cette thèse s'inscrivent dans les problématiques de modélisation d'environnement pour la localisation par vision monoculaire. Nous nous intéressons tout particulièrement à la modélisation des environnements intérieurs dynamiques. Les environnements intérieurs sont constitués d'une multitude d'objets susceptibles d'être déplacés. Ces déplacements modifient de façon notable la structure et l'apparence de l'environnement et perturbent les méthodes actuelles de localisation par vision. Nous présentons dans ces travaux une nouvelle approche pour la modélisation d'un environnement et son évolution au fil du temps. Dans cette approche, nous définissons la scène explicitement comme une structure statique et un ensemble d'objets dynamiques. L'objet est défini comme une entité rigide qu'un utilisateur peut prendre et déplacer et qui est repérable visuellement. Nous présentons tout d'abord comment détecter et apprendre automatiquement les objets d'un environnement dynamique. Alors que les méthodes actuelles de localisation filtrent les incohérences dues aux modifications de la scène, nous souhaitons analyser ces modifications pour extraire des informations supplémentaires. Sans aucune connaissance a priori, un objet est défini comme une structure rigide ayant un mouvement cohérent par rapport à la structure statique de la scène. En associant deux méthodes de localisation par vision reposant sur des paradigmes différents, nous comparons les multiples passages d'une caméra dans un même environnement. La comparaison permet de détecter des objets ayant bougé entre deux passages. Nous pouvons alors, pour chaque objet détecté, apprendre un modèle géométrique et un modèle d'apparence et retenir les positions occupées par l'objet dans les différentes explorations. D'autre part, à chaque nouveau passage, la connaissance de l'environnement est enrichie en mettant à jour les cartes métrique et topologique de la structure statique de la scène. La découverte d'objet par le mouvement repose en grande partie sur un nouvel algorithme de détection de multiples structures entre deux vues que nous proposons dans ces travaux. Etant donné un ensemble de correspondances entre deux vues similaires, l'algorithme, reposant sur le RANSAC, segmente les structures correspondant aux différentes paramétrisations d'un modèle mathématique. La méthode est appliquée à la détection de multiples homographies pour détecter les plans de la scène et à la détection de multiples matrices fondamentales pour détecter les objets rigides en mouvement. La modélisation de l'environnement que nous proposons est utilisée dans une nouvelle formulation de reconnaissance de lieu prenant en compte la connaissance d'objets dynamiques susceptibles d'être présents dans l'environnement. Le modèle du lieu est constitué de l'apparence de la structure statique observée dans ce lieu. Une base de données d'objets est apprise à partir des précédentes observations de l'environnement avec la méthode de découverte par le mouvement. La méthode proposée permet à la fois de détecter les objets mobiles présents dans le lieu et de rejeter les erreurs de détection dues à la présence de ces objets. L'ensemble des approches proposées sont évaluées sur des données synthétiques et réelles. Des résultats qualitatifs et quantitatifs sont présentés tout au long du mémoire.
|
Page generated in 0.0586 seconds