• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 2
  • Tagged with
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Une représentation visuelle avancée pour l'apprentissage sémantique dans les bases d'images

El Sayad, Ismail 18 July 2011 (has links) (PDF)
Avec l'augmentation exponentielle de nombre d'images disponibles sur Internet, le besoin en outils efficaces d'indexation et de recherche d'images est devenu important. Dans cette thèse, nous nous baserons sur le contenu visuel des images comme source principale d'informations pour leur représentation. Basés sur l'approche des sacs de mots visuels, nous proposons une représentation visuelle avancée. Chaque image est modélisée par un mélange de catégories visuelles sémantiques, reliées à des catégories de haut niveau. Dans un premier temps, nous améliorons l'approche des sacs de mots visuels en caractérisant la constitution spatio-colorimétrique d'une image par le biais d'un mélange de n Gaussiennes dans l'espace de caractéristiques. Cela permet de proposer un nouveau descripteur de contour qui joue un rôle complémentaire avec le descripteur SURF. Cette proposition nous permet de résoudre le problème lié à la perte d'informations spatiales des sacs de mots visuels, et d'incorporer différentes informations relatives au contenu de l'image. Dans un deuxième temps, nous introduisons un nouveau modèle probabiliste basé sur les catégories : le modèle MSSA Multilayer Semantic Significance Analysis ou Analyse multi-niveaux de la pertinence sémantique dans le but d'étudier la sémantique des mots visuels construits. Ce modèle permet de construire des mots visuels sémantiquement cohérents (SSVW - Semantically Significant Visual Word). Ensuite, nous renforçons la capacité de catégorisation des SSVW en construisant des phrases visuelles sémantiquement cohérentes (SSVP - \textit{Semantically Significant Visual Phrase}), à partir des SSVW qui apparaissent fréquemment. Nous améliorons également l'invariance intra-classes des SSVW et des SSVP en les indexant en fonction de leur répartition, ce qui nous amène à générer une représentation d'un glossaire visuel invariant et sémantiquement cohérent (SSIVG - Semantically Significant Invariant Visual Glossary). Enfin, nous proposons un nouveau schéma de pondération spatiale ainsi qu'un classifieur multi-classes basé sur un vote. Nos résultats expérimentaux extensifs démontrent que la représentation visuelle proposée permet d'atteindre de meilleures performances comparativement aux représentations traditionnelles utilisées dans le domaine de la recherche, la classification et de la reconnaissance d'objets.
2

Une représentation visuelle avancée pour l'apprentissage sémantique dans les bases d'images

El Sayad, Ismail 18 July 2011 (has links) (PDF)
Avec l'augmentation exponentielle de nombre d'images disponibles sur Internet, le besoin en outils efficaces d'indexation et de recherche d'images est devenu important. Dans cette thèse, nous nous baserons sur le contenu visuel des images comme source principale d'informations pour leur représentation. Basés sur l'approche des sacs de mots visuels, nous proposons une représentation visuelle avancée. Chaque image est modélisée par un mélange de catégories visuelles sémantiques, reliées à des catégories de haut niveau. Dans un premier temps, nous améliorons l'approche des sacs de mots visuels en caractérisant la constitution spatio-colorimétrique d'une image par le biais d'un mélange de n Gaussiennes dans l'espace de caractéristiques. Cela permet de proposer un nouveau descripteur de contour qui joue un rôle complémentaire avec le descripteur SURF. Cette proposition nous permet de résoudre le problème lié à la perte d'informations spatiales des sacs de mots visuels, et d'incorporer différentes informations relatives au contenu de l'image. Dans un deuxième temps, nous introduisons un nouveau modèle probabiliste basé sur les catégories : le modèle MSSA Multilayer Semantic Significance Analysis ou Analyse multi-niveaux de la pertinence sémantique dans le but d'étudier la sémantique des mots visuels construits. Ce modèle permet de construire des mots visuels sémantiquement cohérents (SSVW - Semantically Significant Visual Word). Ensuite, nous renforçons la capacité de catégorisation des SSVW en construisant des phrases visuelles sémantiquement cohérentes (SSVP - \textit{Semantically Significant Visual Phrase}), à partir des SSVW qui apparaissent fréquemment. Nous améliorons également l'invariance intra-classes des SSVW et des SSVP en les indexant en fonction de leur répartition, ce qui nous amène à générer une représentation d'un glossaire visuel invariant et sémantiquement cohérent (SSIVG - Semantically Significant Invariant Visual Glossary). Enfin, nous proposons un nouveau schéma de pondération spatiale ainsi qu'un classifieur multi-classes basé sur un vote. Nos résultats expérimentaux extensifs démontrent que la représentation visuelle proposée permet d'atteindre de meilleures performances comparativement aux représentations traditionnelles utilisées dans le domaine de la recherche, la classification et de la reconnaissance d'objets.
3

Atlas intelligent pour guider le diagnostic en endomicroscopie : une application clinique de la reconnaissance d'images par le contenu

André, Barbara 12 October 2011 (has links) (PDF)
L'Endomicrocopie Confocale par Minisondes (ECM) permet l'observation dynamique des tissus au niveau cellulaire, in vivo et in situ, pendant une endoscopie. Grâce à ce nouveau système d'imagerie, les médecins endoscopistes ont la possibilité de réaliser des "biopsies optiques" non invasives. Les biopsies traditionnelles impliquent le diagnostic ex vivo d'images histologiques par des médecins pathologistes. Le diagnostic in vivo d'images ECM est donc un véritable challenge pour les endoscopistes, qui ont en général seulement un peu d'expertise en anatomopathologie. Les images ECM sont néanmoins de nouvelles images, qui ressemblent visuellement aux images histologiques. Cette thèse a pour but principal d'assister les endoscopistes dans l'interprétation in vivo des séquences d'images ECM. Lors de l'établissement d'un diagnostic, les médecins s'appuient sur un raisonnement par cas. Afin de mimer ce processus, nous explorons les méthodes de Reconnaissance d'Images par le Contenu (CBIR) pour l'aide au diagnostique. Notre premier objectif est le développement d'un système capable d'extraire de manière automatique un certain nombre de vidéos ECM qui sont visuellement similaires à la vidéo requête, mais qui ont en plus été annotées avec des métadonnées comme par exemple un diagnostic textuel. Un tel système de reconnaissance devrait aider les endoscopistes à prendre une décision éclairée, et par là-même, à établir un diagnostic ECM plus précis. Pour atteindre notre but, nous étudions la méthode des Sacs de Mots Visuels, utilisée en vision par ordinateur. L'analyse des propriétés des données ECM nous conduit à ajuster la méthode standard. Nous mettons en œuvre la reconnaissance de vidéos ECM complètes, et pas seulement d'images ECM isolées, en représentant les vidéos par des ensembles de mosaïques. Afin d'évaluer les méthodes proposées dans cette thèse, deux bases de données ECM ont été construites, l'une sur les polypes du colon, et l'autre sur l'œsophage de Barrett. En raison de l'absence initiale d'une vérité terrain sur le CBIR appliquée à l'ECM, nous avons d'abord réalisé des évaluations indirectes des méthodes de reconnaissance, au moyen d'une classification par plus proches voisins. La génération d'une vérité terrain éparse, contenant les similarités perçues entre des vidéos par des experts en ECM, nous a ensuite permis d'évaluer directement les méthodes de reconnaissance, en mesurant la corrélation entre la distance induite par la reconnaissance et la similarité perçue. Les deux évaluations, indirecte et directe, démontrent que, sur les deux bases de données ECM, notre méthode de reconnaissance surpasse plusieurs méthodes de l'état de l'art en CBIR. En termes de classification binaire, notre méthode de reconnaissance est comparable au diagnostic établi offline par des endoscopistes experts sur la base des Polypes du Colon. Parce que diagnostiquer des données ECM est une pratique de tous les jours, notre objectif n'est pas seulement d'apporter un support pour un diagnostique ponctuel, mais aussi d'accompagner les endoscopistes sans leurs progrès. A partir des résultats de la reconnaissance, nous estimons la difficulté d'interprétation des vidéos ECM. Nous montrons l'existence d'une corrélation entre la difficulté estimée et la difficulté de diagnostic éprouvée par plusieurs endoscopistes. Cet estimateur pourrait ainsi être utilisé dans un simulateur d'entraînement, avec différents niveaux de difficulté, qui devrait aider les endoscopistes à réduire leur courbe d'apprentissage. La distance standard basée sur les mots visuels donne des résultats adéquats pour la reconnaissance de données ECM. Cependant, peu de connaissance clinique est intégrée dans cette distance. En incorporant l'information a priori sur les similarités perçues par les experts en ECM, nous pouvons apprendre une distance de similarité qui s'avère être plus juste que la distance standard. Dans le but d'apprendre la sémantique des données ECM, nous tirons également profit de plusieurs concepts sémantiques utilisés par les endoscopistes pour décrire les vidéos ECM. Des signatures sémantiques basées mots visuels sont alors construites, capables d'extraire, à partir de caractéristiques visuelles de bas niveau, des connaissances cliniques de haut niveau qui sont exprimées dans le propre langage de l'endoscopiste.
4

Indexation bio-inspirée pour la recherche d'images par similarité / Bio-inspired Indexing for Content-Based Image Retrieval

Michaud, Dorian 16 October 2018 (has links)
La recherche d'images basée sur le contenu visuel est un domaine très actif de la vision par ordinateur, car le nombre de bases d'images disponibles ne cesse d'augmenter.L’objectif de ce type d’approche est de retourner les images les plus proches d'une requête donnée en terme de contenu visuel.Notre travail s'inscrit dans un contexte applicatif spécifique qui consiste à indexer des petites bases d'images expertes sur lesquelles nous n'avons aucune connaissance a priori.L’une de nos contributions pour palier ce problème consiste à choisir un ensemble de descripteurs visuels et de les placer en compétition directe. Nous utilisons deux stratégies pour combiner ces caractéristiques : la première, est pyschovisuelle, et la seconde, est statistique.Dans ce contexte, nous proposons une approche adaptative non supervisée, basée sur les sacs de mots et phrases visuels, dont le principe est de sélectionner les caractéristiques pertinentes pour chaque point d'intérêt dans le but de renforcer la représentation de l'image.Les tests effectués montrent l'intérêt d'utiliser ce type de méthodes malgré la domination des méthodes basées réseaux de neurones convolutifs dans la littérature.Nous proposons également une étude, ainsi que les résultats de nos premiers tests concernant le renforcement de la recherche en utilisant des méthodes semi-interactives basées sur l’expertise de l'utilisateur. / Image Retrieval is still a very active field of image processing as the number of available image datasets continuously increases.One of the principal objectives of Content-Based Image Retrieval (CBIR) is to return the most similar images to a given query with respect to their visual content.Our work fits in a very specific application context: indexing small expert image datasets, with no prior knowledge on the images. Because of the image complexity, one of our contributions is the choice of effective descriptors from literature placed in direct competition.Two strategies are used to combine features: a psycho-visual one and a statistical one.In this context, we propose an unsupervised and adaptive framework based on the well-known bags of visual words and phrases models that select relevant visual descriptors for each keypoint to construct a more discriminative image representation.Experiments show the interest of using this this type of methodologies during a time when convolutional neural networks are ubiquitous.We also propose a study about semi interactive retrieval to improve the accuracy of CBIR systems by using the knowledge of the expert users.
5

Indexation de la Vidéo Portée : Application à l'Étude Épidémiologique des Maladies Liées à l'Âge

Karaman, Svebor 12 December 2011 (has links) (PDF)
Le travail de recherche de cette thèse de doctorat s'inscrit dans le cadre du suivi médical des patients atteints de démences liées à l'âge à l'aide des caméras videos portées par les patients. L'idée est de fournir aux médecins un nouvel outil pour le diagnostic précoce de démences liées à l'âge telles que la maladie d'Alzheimer. Plus précisément, les Activités Instrumentales du Quotidien (IADL : Instrumental Activities of Daily Living en anglais) doivent être indexées automatiquement dans les vidéos enregistrées par un dispositif d'enregistrement portable. Ces vidéos présentent des caractéristiques spécifiques comme de forts mouvements ou de forts changements de luminosité. De plus, la tâche de reconnaissance visée est d'un très haut niveau sémantique. Dans ce contexte difficile, la première étape d'analyse est la définition d'un équivalent à la notion de " plan " dans les contenus vidéos édités. Nous avons ainsi développé une méthode pour le partitionnement d'une vidéo tournée en continu en termes de " points de vue " à partir du mouvement apparent. Pour la reconnaissance des IADL, nous avons développé une solution selon le formalisme des Modèles de Markov Cachés (MMC). Un MMC hiérarchique à deux niveaux a été introduit, modélisant les activités sémantiques ou des états intermédiaires. Un ensemble complexe de descripteurs (dynamiques, statiques, de bas niveau et de niveau intermédiaire) a été exploité et les espaces de description joints optimaux ont été identifiés expérimentalement. Dans le cadre de descripteurs de niveau intermédiaire pour la reconnaissance d'activités nous nous sommes particulièrement intéressés aux objets sémantiques que la personne manipule dans le champ de la caméra. Nous avons proposé un nouveau concept pour la description d'objets ou d'images faisant usage des descripteurs locaux (SURF) et de la structure topologique sous-jacente de graphes locaux. Une approche imbriquée pour la construction des graphes où la même scène peut être décrite par plusieurs niveaux de graphes avec un nombre de nœuds croissant a été introduite. Nous construisons ces graphes par une triangulation de Delaunay sur des points SURF, préservant ainsi les bonnes propriétés des descripteurs locaux c'est-à-dire leur invariance vis-à-vis de transformations affines dans le plan image telles qu'une rotation, une translation ou un changement d'échelle. Nous utilisons ces graphes descripteurs dans le cadre de l'approche Sacs-de-Mots-Visuels. Le problème de définition d'une distance, ou dissimilarité, entre les graphes pour la classification non supervisée et la reconnaissance est nécessairement soulevé. Nous proposons une mesure de dissimilarité par le Noyau Dépendant du Contexte (Context-Dependent Kernel : CDK) proposé par H. Sahbi et montrons sa relation avec la norme classique L2 lors de la comparaison de graphes triviaux (les points SURF). Pour la reconnaissance d'activités par MMC, les expériences sont conduites sur le premier corpus au monde de vidéos avec caméra portée destiné à l'observation des d'IADL et sur des bases de données publiques comme SIVAL et Caltech-101 pour la reconnaissance d'objets.

Page generated in 0.102 seconds