1 |
Boosting hierarchique et construction de filtresLaBarre, Marc-Olivier January 2007 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Segmentation et classification dans les images de documents numérisésOuji, Asma 01 June 2012 (has links) (PDF)
Les travaux de cette thèse ont été effectués dans le cadre de l'analyse et du traitement d'images de documents imprimés afin d'automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou intervention humaine. Ainsi, pour les caractériser, nous présentons un système d'analyse de documents composites couleur qui réalise une segmentation en zones colorimétriquement homogènes et qui adapte les algorithmes d'extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l'objet d'une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l'expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l'utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l'ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu.
|
3 |
Segmentation et classification dans les images de documents numérisés / Segmentation and classification of digitized document imagesOuji, Asma 01 June 2012 (has links)
Les travaux de cette thèse ont été effectués dans le cadre de l'analyse et du traitement d'images de documents imprimés afin d'automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou intervention humaine. Ainsi, pour les caractériser, nous présentons un système d'analyse de documents composites couleur qui réalise une segmentation en zones colorimétriquement homogènes et qui adapte les algorithmes d'extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l'objet d'une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l'expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l'utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l'ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu. / In this thesis, we deal with printed document images processing and analysis to automate the press reviews. The scanner output images are processed without any prior knowledge nor human intervention. Thus, to characterize them, we present a scalable analysis system for complex documents. This characterization is based on a hybrid color segmentation suited to noisy document images. The color analysis customizes text extraction algorithms to fit the local image properties. The provided color and text information is used to perform layout segmentation in press images and to compute features on the resulting blocks. These elements are classified to detect advertisements. In the second part of this thesis, we deal with a more general purpose: clusternig and classification. We present a new clustering approach, named ACPP, which is completely automated, fast and easy to use. This approach's main features are its independence of prior knowledge about the data and theoretical parameters that should be determined by the user. Color analysis, layout segmentation and the ACPP classification method are combined to create a complete processing chain for press images.
|
4 |
Appariement de formes basé sur une squelettisation hiérarchique / Shape matching based on a hierarchical skeletonizationLeborgne, Aurélie 11 July 2016 (has links)
Les travaux effectués durant cette thèse portent sur l’appariement de formes planes basé sur une squelettisation hiérarchique. Dans un premier temps, nous avons abordé la création d’un squelette de forme grâce à un algorithme associant des outils de la géométrie discrète et des filtres. Cette association permet d’acquérir un squelette regroupant les propriétés désirées dans le cadre de l’appariement. Néanmoins, le squelette obtenu reste une représentation de la forme ne différenciant pas les branches représentant l’allure générale de celles représentant un détail de la forme. Or, lors de l’appariement, il semble plus intéressant d’associer des branches ayant le même ordre d’importance, mais aussi de donner plus de poids aux associations décrivant un aspect global des formes. Notre deuxième contribution porte sur la résolution de ce problème. Elle concerne donc la hiérarchisation des branches du squelette, précédemment créé, en leur attribuant une pondération reflétant leur importance dans la forme. À cet effet, nous lissons progressivement une forme et étudions la persistance des branches pour leur attribuer un poids. L’ultime étape consiste donc à apparier les formes grâce à leur squelette hiérarchique modélisé par un hypergraphe. En d’autres termes, nous associons les branches deux à deux pour déterminer une mesure de dissimilarité entre deux formes. Pour ce faire, nous prenons en compte la géométrie des formes, la position relative des différentes parties des formes ainsi que de leur importance. / The works performed during this thesis focuses on the matching of planar shapes based on a hierarchical skeletonisation. First, we approached the creation of a shape skeleton using an algorithm combining the tools of discrete geometry and filters. This combination allows to acquire a skeleton gathering the desired properties in the context of matching. Nevertheless, the resulting skeleton remains a representation of the shape, which does not differentiate branches representing the general shape of those coming from a detail of the shape. But when matching, it seems more interesting to pair branches of the same order of importance, but also to give more weight to associations describing an overall appearance of shapes. Our second contribution focuses on solving this problem. It concerns the prioritization of skeletal branches, previously created by assigning a weight reflecting their importance in shape. To this end, we gradually smooth a shape and study the persistence of branches to assign a weight. The final step is to match the shapes with their hierarchical skeleton modeled as a hypergraph. In other words, we associate the branches two by two to determine a dissimilarity measure between two shapes. To do this, we take into account the geometry of the shapes, the relative position of different parts of the shapes and their importance.
|
5 |
Atlas intelligent pour guider le diagnostic en endomicroscopie : une application clinique de la reconnaissance d'images par le contenuAndré, Barbara 12 October 2011 (has links) (PDF)
L'Endomicrocopie Confocale par Minisondes (ECM) permet l'observation dynamique des tissus au niveau cellulaire, in vivo et in situ, pendant une endoscopie. Grâce à ce nouveau système d'imagerie, les médecins endoscopistes ont la possibilité de réaliser des "biopsies optiques" non invasives. Les biopsies traditionnelles impliquent le diagnostic ex vivo d'images histologiques par des médecins pathologistes. Le diagnostic in vivo d'images ECM est donc un véritable challenge pour les endoscopistes, qui ont en général seulement un peu d'expertise en anatomopathologie. Les images ECM sont néanmoins de nouvelles images, qui ressemblent visuellement aux images histologiques. Cette thèse a pour but principal d'assister les endoscopistes dans l'interprétation in vivo des séquences d'images ECM. Lors de l'établissement d'un diagnostic, les médecins s'appuient sur un raisonnement par cas. Afin de mimer ce processus, nous explorons les méthodes de Reconnaissance d'Images par le Contenu (CBIR) pour l'aide au diagnostique. Notre premier objectif est le développement d'un système capable d'extraire de manière automatique un certain nombre de vidéos ECM qui sont visuellement similaires à la vidéo requête, mais qui ont en plus été annotées avec des métadonnées comme par exemple un diagnostic textuel. Un tel système de reconnaissance devrait aider les endoscopistes à prendre une décision éclairée, et par là-même, à établir un diagnostic ECM plus précis. Pour atteindre notre but, nous étudions la méthode des Sacs de Mots Visuels, utilisée en vision par ordinateur. L'analyse des propriétés des données ECM nous conduit à ajuster la méthode standard. Nous mettons en œuvre la reconnaissance de vidéos ECM complètes, et pas seulement d'images ECM isolées, en représentant les vidéos par des ensembles de mosaïques. Afin d'évaluer les méthodes proposées dans cette thèse, deux bases de données ECM ont été construites, l'une sur les polypes du colon, et l'autre sur l'œsophage de Barrett. En raison de l'absence initiale d'une vérité terrain sur le CBIR appliquée à l'ECM, nous avons d'abord réalisé des évaluations indirectes des méthodes de reconnaissance, au moyen d'une classification par plus proches voisins. La génération d'une vérité terrain éparse, contenant les similarités perçues entre des vidéos par des experts en ECM, nous a ensuite permis d'évaluer directement les méthodes de reconnaissance, en mesurant la corrélation entre la distance induite par la reconnaissance et la similarité perçue. Les deux évaluations, indirecte et directe, démontrent que, sur les deux bases de données ECM, notre méthode de reconnaissance surpasse plusieurs méthodes de l'état de l'art en CBIR. En termes de classification binaire, notre méthode de reconnaissance est comparable au diagnostic établi offline par des endoscopistes experts sur la base des Polypes du Colon. Parce que diagnostiquer des données ECM est une pratique de tous les jours, notre objectif n'est pas seulement d'apporter un support pour un diagnostique ponctuel, mais aussi d'accompagner les endoscopistes sans leurs progrès. A partir des résultats de la reconnaissance, nous estimons la difficulté d'interprétation des vidéos ECM. Nous montrons l'existence d'une corrélation entre la difficulté estimée et la difficulté de diagnostic éprouvée par plusieurs endoscopistes. Cet estimateur pourrait ainsi être utilisé dans un simulateur d'entraînement, avec différents niveaux de difficulté, qui devrait aider les endoscopistes à réduire leur courbe d'apprentissage. La distance standard basée sur les mots visuels donne des résultats adéquats pour la reconnaissance de données ECM. Cependant, peu de connaissance clinique est intégrée dans cette distance. En incorporant l'information a priori sur les similarités perçues par les experts en ECM, nous pouvons apprendre une distance de similarité qui s'avère être plus juste que la distance standard. Dans le but d'apprendre la sémantique des données ECM, nous tirons également profit de plusieurs concepts sémantiques utilisés par les endoscopistes pour décrire les vidéos ECM. Des signatures sémantiques basées mots visuels sont alors construites, capables d'extraire, à partir de caractéristiques visuelles de bas niveau, des connaissances cliniques de haut niveau qui sont exprimées dans le propre langage de l'endoscopiste.
|
6 |
Méthodes fréquentielles pour la reconnaissance d'images couleur : une approche par les algèbres de CliffordMennesson, José 18 November 2011 (has links) (PDF)
Dans cette thèse, nous nous intéressons à la reconnaissance d'images couleur à l'aide d'une nouvelle approche géométrique du domaine fréquentiel. La plupart des méthodes existantes ne traitent que les images en niveaux de gris au travers de descripteurs issus de la transformée de Fourier usuelle. L'extension de telles méthodes aux images multicanaux, comme par exemple les images couleur, consiste généralement à reproduire un traitement identique sur chacun des canaux. Afin d'éviter ce traitement marginal, nous étudions et mettons en perspective les différentes généralisations de la transformée de Fourier pour les images couleur. Ce travail nous oriente vers la transformée de Fourier Clifford pour les images couleur définie dans le cadre des algèbres géométriques. Une étude approfondie de celle-ci nous conduit à définir un algorithme de calcul rapide et à proposer une méthode de corrélation de phase pour les images couleur. Dans un deuxième temps, nous cherchons à généraliser à travers cette transformée de Fourier les définitions des descripteurs de Fourier de la littérature. Nous étudions ainsi les propriétés, notamment l'invariance à la translation, rotation et échelle, des descripteurs existants. Ce travail nous mène à proposer trois nouveaux descripteurs appelés "descripteurs de Fourier couleur généralisés"(GCFD) invariants en translation et en rotation.Les méthodes proposées sont évaluées sur des bases d'images usuelles afin d'estimer l'apport du contenu fréquentiel couleur par rapport aux méthodes niveaux de gris et marginales. Les résultats obtenus à l'aide d'un classifieur SVM montrent le potentiel des méthodes proposées ; les descripteurs GCFD se révèlent être plus compacts, de complexité algorithmique moindre pour des performances de classification au minimum équivalentes. Nous proposons également des heuristiques pour le choix du paramètre de la transformée de Fourier Clifford.Cette thèse constitue un premier pas vers une généralisation des méthodes fréquentielles aux images multicanaux.
|
7 |
Résolution variable et information privilégiée pour la reconnaissance d'images / Varying resolution and privileged information for image recognitionChevalier, Marion 02 December 2016 (has links)
La classification des images revêt un intérêt majeur dans de nombreuses tâches de reconnaissance visuelle, en particulier pour la reconnaissance de véhicules au sol via les systèmes aéroportés, où les images traitées sont de faible résolution du fait de la large distance entre le porteur et la scène observée. Durant l'apprentissage, des données complémentaires peuvent être disponibles, qu'il s'agisse de connaissances sur les conditions de prise de vue ou de la version haute-résolution des images. Dans nos travaux, on s'intéresse au problème de la reconnaissance d'images faiblement résolues en prenant en compte des informations complémentaires pendant l'apprentissage. On montre d'abord l'intérêt des réseaux convolutionnels profonds pour la reconnaissance d'images faiblement résolues, en proposant notamment une architecture apprise sur les données. D'autre part, on s'appuie sur le cadre de l'apprentissage avec information privilégiée pour bénéficier des données d'entraînement complémentaires, ici les versions haute-résolution des images. Nous proposons deux méthodes d'intégration de l'information privilégiée dans l'apprentissage des réseaux de neurones. Notre premier modèle s'appuie sur ces données complémentaires pour calculer un niveau de difficulté absolue, attribuant un poids important aux images les plus facilement reconnaissables. Notre deuxième modèle introduit une contrainte de similitude entre les modèles appris sur chaque type de données. On valide expérimentalement nos deux modèles dans plusieurs cas d'application, notamment dans un contexte orienté grain-fin et sur une base de données contenant du bruit d'annotation. / Image classification has a prominent interest in numerous visual recognition tasks, particularly for vehicle recognition in airborne systems, where the images have a low resolution because of the large distance between the system and the observed scene. During the training phase, complementary data such as knowledge on the position of the system or high-resolution images may be available. In our work, we focus on the task of low-resolution image classification while taking into account supplementary information during the training phase. We first show the interest of deep convolutional networks for the low-resolution image recognition, especially by proposing an architecture learned on the targeted data. On the other hand, we rely on the framework of learning using privileged information to benefit from the complementary training data, here the high-resolution versions of the images. We propose two novel methods for integrating privileged information in the learning phase of neural networks. Our first model relies on these complementary data to compute an absolute difficulty level, assigning a large weight to the most easily recognized images. Our second model introduces a similarity constraint between the networks learned on each type of data. We experimentally validate our models on several application cases, especially in a fine-grained oriented context and on a dataset containing annotation noise.
|
8 |
Méthodes fréquentielles pour la reconnaissance d'images couleur : une approche par les algèbres de Clifford / Frequency methods for color image recognition : An approach based on Clifford algebrasMennesson, José 18 November 2011 (has links)
Dans cette thèse, nous nous intéressons à la reconnaissance d’images couleur à l’aide d’une nouvelle approche géométrique du domaine fréquentiel. La plupart des méthodes existantes ne traitent que les images en niveaux de gris au travers de descripteurs issus de la transformée de Fourier usuelle. L’extension de telles méthodes aux images multicanaux, comme par exemple les images couleur, consiste généralement à reproduire un traitement identique sur chacun des canaux. Afin d’éviter ce traitement marginal, nous étudions et mettons en perspective les différentes généralisations de la transformée de Fourier pour les images couleur. Ce travail nous oriente vers la transformée de Fourier Clifford pour les images couleur définie dans le cadre des algèbres géométriques. Une étude approfondie de celle-ci nous conduit à définir un algorithme de calcul rapide et à proposer une méthode de corrélation de phase pour les images couleur. Dans un deuxième temps, nous cherchons à généraliser à travers cette transformée de Fourier les définitions des descripteurs de Fourier de la littérature. Nous étudions ainsi les propriétés, notamment l’invariance à la translation, rotation et échelle, des descripteurs existants. Ce travail nous mène à proposer trois nouveaux descripteurs appelés “descripteurs de Fourier couleur généralisés”(GCFD) invariants en translation et en rotation.Les méthodes proposées sont évaluées sur des bases d’images usuelles afin d’estimer l’apport du contenu fréquentiel couleur par rapport aux méthodes niveaux de gris et marginales. Les résultats obtenus à l’aide d’un classifieur SVM montrent le potentiel des méthodes proposées ; les descripteurs GCFD se révèlent être plus compacts, de complexité algorithmique moindre pour des performances de classification au minimum équivalentes. Nous proposons également des heuristiques pour le choix du paramètre de la transformée de Fourier Clifford.Cette thèse constitue un premier pas vers une généralisation des méthodes fréquentielles aux images multicanaux. / In this thesis, we focus on color image recognition using a new geometric approach in the frequency domain. Most existing methods only process grayscale images through descriptors defined from the usual Fourier transform. The extension of these methods to multichannel images such as color images usually consists in reproducing the same processing for each channel. To avoid this marginal processing,we study and compare the different generalizations of color Fourier transforms. This work leads us to use the Clifford Fourier transform for color images defined in the framework of geometric algebra. A detailed study of it leads us to define a fast algorithm and to propose a phase correlation for colorimages. In a second step, with the aim of generalizing Fourier descriptors of the literature with thisFourier transform, we study their properties, including invariance to translation, rotation and scale.This work leads us to propose three new descriptors called “generalized color Fourier descriptors”(GCFD) invariant in translation and in rotation.The proposed methods are evaluated on usual image databases to estimate the contribution of color frequency content compared with grayscale and marginal methods. The results obtained usingan SVM classifier show the potential of the proposed methods ; the GCFD are more compact, have less computational complexity and give better recognition rates. We also propose heuristics for choosing the parameter of the color Clifford Fourier transform.This thesis is a first step towards a generalization of frequency methods to multichannel images.
|
9 |
Classification multi-modèles des images dans les bases HétérogènesKachouri, Rostom 29 June 2010 (has links) (PDF)
La reconnaissance d'images est un domaine de recherche qui a été largement étudié par la communauté scientifique. Les travaux proposés dans ce cadre s'adressent principalement aux diverses applications des systèmes de vision par ordinateur et à la catégorisation des images issues de plusieurs sources. Dans cette thèse, on s'intéresse particulièrement aux systèmes de reconnaissance d'images par le contenu dans les bases hétérogènes. Les images dans ce type de bases appartiennent à différents concepts et représentent un contenu hétérogène. Pour ce faire, une large description permettant d'assurer une représentation fiable est souvent requise. Cependant, les caractéristiques extraites ne sont pas nécessairement toutes appropriées pour la discrimination des différentes classes d'images qui existent dans une base donnée d'images. D'où, la nécessité de sélection des caractéristiques pertinentes selon le contenu de chaque base. Dans ce travail, une méthode originale de sélection adaptative est proposée. Cette méthode permet de considérer uniquement les caractéristiques qui sont jugées comme les mieux adaptées au contenu de la base d'image utilisée. Par ailleurs, les caractéristiques sélectionnées ne disposent pas généralement des mêmes performances. En conséquence, l'utilisation d'un algorithme de classification, qui s'adapte aux pouvoirs discriminants des différentes caractéristiques sélectionnées par rapport au contenu de la base d'images utilisée, est vivement recommandée. Dans ce contexte, l'approche d'apprentissage par noyaux multiples est étudiée et une amélioration des méthodes de pondération des noyaux est présentée. Cette approche s'avère incapable de décrire les relations non-linéaires des différents types de description. Ainsi, nous proposons une nouvelle méthode de classification hiérarchique multi-modèles permettant d'assurer une combinaison plus flexible des caractéristiques multiples. D'après les expérimentations réalisées, cette nouvelle méthode de classification assure des taux de reconnaissance très intéressants. Enfin, les performances de la méthode proposée sont mises en évidence à travers une comparaison avec un ensemble d'approches cité dans la littérature récente du domaine.
|
Page generated in 0.0796 seconds