Spelling suggestions: "subject:"acs dde mot"" "subject:"acs dee mot""
1 |
Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia / Representation of documents combining text and image : application to categorization and multimedia information retrievalMoulin, Christophe 22 June 2011 (has links)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d’information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente / Exploiting multimedia documents leads to representation problems of the textual and visual information within documents. Our goal is to propose a model to represent these both information and to combine them for two tasks: categorization and information retrieval. This model represents documents as bags of words, which requires to define adapted vocabularies. The textual vocabulary, usually very large, corresponds to the words of documents while the visual one is created by extracting low-level features from images. We study the different steps of its creation and the tf.idf weighting of visual words in images usually used for textual words. In the context of the text categorization, we introduce a criterion to select the most discriminative words for categories in order to reduce the vocabulary size without degrading the results of classification. We also present in the multilabel context, a method that lets us to select the number of categories which must be associated with a document. In multimedia information retrieval, we propose an analytical approach based on machine learning techniques to linearly combine the results from textual and visual information which significantly improves research results. Our model has shown its efficiency on different collections of important size and was evaluated in several international competitions such as XML Mining and ImageCLEF
|
2 |
Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédiaMoulin, Christophe 22 June 2011 (has links) (PDF)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d'information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente
|
3 |
Une représentation visuelle avancée pour l'apprentissage sémantique dans les bases d'imagesEl Sayad, Ismail 18 July 2011 (has links) (PDF)
Avec l'augmentation exponentielle de nombre d'images disponibles sur Internet, le besoin en outils efficaces d'indexation et de recherche d'images est devenu important. Dans cette thèse, nous nous baserons sur le contenu visuel des images comme source principale d'informations pour leur représentation. Basés sur l'approche des sacs de mots visuels, nous proposons une représentation visuelle avancée. Chaque image est modélisée par un mélange de catégories visuelles sémantiques, reliées à des catégories de haut niveau. Dans un premier temps, nous améliorons l'approche des sacs de mots visuels en caractérisant la constitution spatio-colorimétrique d'une image par le biais d'un mélange de n Gaussiennes dans l'espace de caractéristiques. Cela permet de proposer un nouveau descripteur de contour qui joue un rôle complémentaire avec le descripteur SURF. Cette proposition nous permet de résoudre le problème lié à la perte d'informations spatiales des sacs de mots visuels, et d'incorporer différentes informations relatives au contenu de l'image. Dans un deuxième temps, nous introduisons un nouveau modèle probabiliste basé sur les catégories : le modèle MSSA Multilayer Semantic Significance Analysis ou Analyse multi-niveaux de la pertinence sémantique dans le but d'étudier la sémantique des mots visuels construits. Ce modèle permet de construire des mots visuels sémantiquement cohérents (SSVW - Semantically Significant Visual Word). Ensuite, nous renforçons la capacité de catégorisation des SSVW en construisant des phrases visuelles sémantiquement cohérentes (SSVP - \textit{Semantically Significant Visual Phrase}), à partir des SSVW qui apparaissent fréquemment. Nous améliorons également l'invariance intra-classes des SSVW et des SSVP en les indexant en fonction de leur répartition, ce qui nous amène à générer une représentation d'un glossaire visuel invariant et sémantiquement cohérent (SSIVG - Semantically Significant Invariant Visual Glossary). Enfin, nous proposons un nouveau schéma de pondération spatiale ainsi qu'un classifieur multi-classes basé sur un vote. Nos résultats expérimentaux extensifs démontrent que la représentation visuelle proposée permet d'atteindre de meilleures performances comparativement aux représentations traditionnelles utilisées dans le domaine de la recherche, la classification et de la reconnaissance d'objets.
|
4 |
Une représentation visuelle avancée pour l'apprentissage sémantique dans les bases d'imagesEl Sayad, Ismail 18 July 2011 (has links) (PDF)
Avec l'augmentation exponentielle de nombre d'images disponibles sur Internet, le besoin en outils efficaces d'indexation et de recherche d'images est devenu important. Dans cette thèse, nous nous baserons sur le contenu visuel des images comme source principale d'informations pour leur représentation. Basés sur l'approche des sacs de mots visuels, nous proposons une représentation visuelle avancée. Chaque image est modélisée par un mélange de catégories visuelles sémantiques, reliées à des catégories de haut niveau. Dans un premier temps, nous améliorons l'approche des sacs de mots visuels en caractérisant la constitution spatio-colorimétrique d'une image par le biais d'un mélange de n Gaussiennes dans l'espace de caractéristiques. Cela permet de proposer un nouveau descripteur de contour qui joue un rôle complémentaire avec le descripteur SURF. Cette proposition nous permet de résoudre le problème lié à la perte d'informations spatiales des sacs de mots visuels, et d'incorporer différentes informations relatives au contenu de l'image. Dans un deuxième temps, nous introduisons un nouveau modèle probabiliste basé sur les catégories : le modèle MSSA Multilayer Semantic Significance Analysis ou Analyse multi-niveaux de la pertinence sémantique dans le but d'étudier la sémantique des mots visuels construits. Ce modèle permet de construire des mots visuels sémantiquement cohérents (SSVW - Semantically Significant Visual Word). Ensuite, nous renforçons la capacité de catégorisation des SSVW en construisant des phrases visuelles sémantiquement cohérentes (SSVP - \textit{Semantically Significant Visual Phrase}), à partir des SSVW qui apparaissent fréquemment. Nous améliorons également l'invariance intra-classes des SSVW et des SSVP en les indexant en fonction de leur répartition, ce qui nous amène à générer une représentation d'un glossaire visuel invariant et sémantiquement cohérent (SSIVG - Semantically Significant Invariant Visual Glossary). Enfin, nous proposons un nouveau schéma de pondération spatiale ainsi qu'un classifieur multi-classes basé sur un vote. Nos résultats expérimentaux extensifs démontrent que la représentation visuelle proposée permet d'atteindre de meilleures performances comparativement aux représentations traditionnelles utilisées dans le domaine de la recherche, la classification et de la reconnaissance d'objets.
|
5 |
Atlas intelligent pour guider le diagnostic en endomicroscopie : une application clinique de la reconnaissance d'images par le contenuAndré, Barbara 12 October 2011 (has links) (PDF)
L'Endomicrocopie Confocale par Minisondes (ECM) permet l'observation dynamique des tissus au niveau cellulaire, in vivo et in situ, pendant une endoscopie. Grâce à ce nouveau système d'imagerie, les médecins endoscopistes ont la possibilité de réaliser des "biopsies optiques" non invasives. Les biopsies traditionnelles impliquent le diagnostic ex vivo d'images histologiques par des médecins pathologistes. Le diagnostic in vivo d'images ECM est donc un véritable challenge pour les endoscopistes, qui ont en général seulement un peu d'expertise en anatomopathologie. Les images ECM sont néanmoins de nouvelles images, qui ressemblent visuellement aux images histologiques. Cette thèse a pour but principal d'assister les endoscopistes dans l'interprétation in vivo des séquences d'images ECM. Lors de l'établissement d'un diagnostic, les médecins s'appuient sur un raisonnement par cas. Afin de mimer ce processus, nous explorons les méthodes de Reconnaissance d'Images par le Contenu (CBIR) pour l'aide au diagnostique. Notre premier objectif est le développement d'un système capable d'extraire de manière automatique un certain nombre de vidéos ECM qui sont visuellement similaires à la vidéo requête, mais qui ont en plus été annotées avec des métadonnées comme par exemple un diagnostic textuel. Un tel système de reconnaissance devrait aider les endoscopistes à prendre une décision éclairée, et par là-même, à établir un diagnostic ECM plus précis. Pour atteindre notre but, nous étudions la méthode des Sacs de Mots Visuels, utilisée en vision par ordinateur. L'analyse des propriétés des données ECM nous conduit à ajuster la méthode standard. Nous mettons en œuvre la reconnaissance de vidéos ECM complètes, et pas seulement d'images ECM isolées, en représentant les vidéos par des ensembles de mosaïques. Afin d'évaluer les méthodes proposées dans cette thèse, deux bases de données ECM ont été construites, l'une sur les polypes du colon, et l'autre sur l'œsophage de Barrett. En raison de l'absence initiale d'une vérité terrain sur le CBIR appliquée à l'ECM, nous avons d'abord réalisé des évaluations indirectes des méthodes de reconnaissance, au moyen d'une classification par plus proches voisins. La génération d'une vérité terrain éparse, contenant les similarités perçues entre des vidéos par des experts en ECM, nous a ensuite permis d'évaluer directement les méthodes de reconnaissance, en mesurant la corrélation entre la distance induite par la reconnaissance et la similarité perçue. Les deux évaluations, indirecte et directe, démontrent que, sur les deux bases de données ECM, notre méthode de reconnaissance surpasse plusieurs méthodes de l'état de l'art en CBIR. En termes de classification binaire, notre méthode de reconnaissance est comparable au diagnostic établi offline par des endoscopistes experts sur la base des Polypes du Colon. Parce que diagnostiquer des données ECM est une pratique de tous les jours, notre objectif n'est pas seulement d'apporter un support pour un diagnostique ponctuel, mais aussi d'accompagner les endoscopistes sans leurs progrès. A partir des résultats de la reconnaissance, nous estimons la difficulté d'interprétation des vidéos ECM. Nous montrons l'existence d'une corrélation entre la difficulté estimée et la difficulté de diagnostic éprouvée par plusieurs endoscopistes. Cet estimateur pourrait ainsi être utilisé dans un simulateur d'entraînement, avec différents niveaux de difficulté, qui devrait aider les endoscopistes à réduire leur courbe d'apprentissage. La distance standard basée sur les mots visuels donne des résultats adéquats pour la reconnaissance de données ECM. Cependant, peu de connaissance clinique est intégrée dans cette distance. En incorporant l'information a priori sur les similarités perçues par les experts en ECM, nous pouvons apprendre une distance de similarité qui s'avère être plus juste que la distance standard. Dans le but d'apprendre la sémantique des données ECM, nous tirons également profit de plusieurs concepts sémantiques utilisés par les endoscopistes pour décrire les vidéos ECM. Des signatures sémantiques basées mots visuels sont alors construites, capables d'extraire, à partir de caractéristiques visuelles de bas niveau, des connaissances cliniques de haut niveau qui sont exprimées dans le propre langage de l'endoscopiste.
|
6 |
Indexation bio-inspirée pour la recherche d'images par similarité / Bio-inspired Indexing for Content-Based Image RetrievalMichaud, Dorian 16 October 2018 (has links)
La recherche d'images basée sur le contenu visuel est un domaine très actif de la vision par ordinateur, car le nombre de bases d'images disponibles ne cesse d'augmenter.L’objectif de ce type d’approche est de retourner les images les plus proches d'une requête donnée en terme de contenu visuel.Notre travail s'inscrit dans un contexte applicatif spécifique qui consiste à indexer des petites bases d'images expertes sur lesquelles nous n'avons aucune connaissance a priori.L’une de nos contributions pour palier ce problème consiste à choisir un ensemble de descripteurs visuels et de les placer en compétition directe. Nous utilisons deux stratégies pour combiner ces caractéristiques : la première, est pyschovisuelle, et la seconde, est statistique.Dans ce contexte, nous proposons une approche adaptative non supervisée, basée sur les sacs de mots et phrases visuels, dont le principe est de sélectionner les caractéristiques pertinentes pour chaque point d'intérêt dans le but de renforcer la représentation de l'image.Les tests effectués montrent l'intérêt d'utiliser ce type de méthodes malgré la domination des méthodes basées réseaux de neurones convolutifs dans la littérature.Nous proposons également une étude, ainsi que les résultats de nos premiers tests concernant le renforcement de la recherche en utilisant des méthodes semi-interactives basées sur l’expertise de l'utilisateur. / Image Retrieval is still a very active field of image processing as the number of available image datasets continuously increases.One of the principal objectives of Content-Based Image Retrieval (CBIR) is to return the most similar images to a given query with respect to their visual content.Our work fits in a very specific application context: indexing small expert image datasets, with no prior knowledge on the images. Because of the image complexity, one of our contributions is the choice of effective descriptors from literature placed in direct competition.Two strategies are used to combine features: a psycho-visual one and a statistical one.In this context, we propose an unsupervised and adaptive framework based on the well-known bags of visual words and phrases models that select relevant visual descriptors for each keypoint to construct a more discriminative image representation.Experiments show the interest of using this this type of methodologies during a time when convolutional neural networks are ubiquitous.We also propose a study about semi interactive retrieval to improve the accuracy of CBIR systems by using the knowledge of the expert users.
|
7 |
Partial 3D-shape indexing and retrieval / Indexation partielle de modèles 3DEl Khoury, Rachid 22 March 2013 (has links)
Un nombre croissant d’applications graphiques 3D ont un impact sur notre société. Ces applications sont utilisées dans plusieurs domaines allant des produits de divertissement numérique, la conception assistée par ordinateur, aux applications médicales. Dans ce contexte, un moteur de recherche d’objets 3D avec de bonnes performances en résultats et en temps d’exécution devient indispensable. Nous proposons une nouvelle méthode pour l’indexation de modèles 3D basée sur des courbes fermées. Nous proposons ensuite une amélioration de notre méthode pour l’indexation partielle de modèles 3D. Notre approche commence par la définition d’une nouvelle fonction d’application invariante. Notre fonction d’application possède des propriétés importantes : elle est invariante aux transformations rigides et non rigides, elle est insensible au bruit, elle est robuste à de petits changements topologiques et elle ne dépend pas de paramètres. Cependant, dans la littérature, une telle fonction qui respecte toutes ces propriétés n’existe pas. Pour respecter ces propriétés, nous définissons notre fonction basée sur la distance de diffusion et la distance de migration pendulaire. Pour prouver les propriétés de notre fonction, nous calculons le graphe de Reeb de modèles 3D. Pour décrire un modèle 3D complet, en utilisant notre fonction d’application, nous définissons des courbes de niveaux fermées à partir d’un point source détecté automatiquement au centre du modèle 3D. Chaque courbe décrit alors une région du modèle 3D. Ces courbes créent un descripteur invariant à différentes transformations. Pour montrer la robustesse de notre méthode sur différentes classes de modèles 3D dans différentes poses, nous utilisons des objets provenant de SHREC 2012. Nous comparons également notre approche aux méthodes de l’état de l’art à l’aide de la base SHREC 2010. Pour l’indexation partielle de modèles 3D, nous améliorons notre approche en utilisant la technique sacs de mots, construits à partir des courbes fermées extraites, et montrons leurs bonnes performances à l’aide de la base précédente / A growing number of 3D graphic applications have an impact on today’s society. These applications are being used in several domains ranging from digital entertainment, computer aided design, to medical applications. In this context, a 3D object search engine with a good performance in time consuming and results becomes mandatory. We propose a novel approach for 3D-model retrieval based on closed curves. Then we enhance our method to handle partial 3D-model retrieval. Our method starts by the definition of an invariant mapping function. The important properties of a mapping function are its invariance to rigid and non rigid transformations, the correct description of the 3D-model, its insensitivity to noise, its robustness to topology changes, and its independance on parameters. However, current state-of-the-art methods do not respect all these properties. To respect these properties, we define our mapping function based on the diffusion and the commute-time distances. To prove the properties of this function, we compute the Reeb graph of the 3D-models. To describe the whole 3D-model, using our mapping function, we generate indexed closed curves from a source point detected automatically at the center of a 3D-model. Each curve describes a small region of the 3D-model. These curves lead to create an invariant descriptor to different transformations. To show the robustness of our method on various classes of 3D-models with different poses, we use shapes from SHREC 2012. We also compare our approach to existing methods in the state-of-the-art with a dataset from SHREC 2010. For partial 3D-model retrieval, we enhance the proposed method using the Bag-Of-Features built with all the extracted closed curves, and show the accurate performances using the same dataset
|
8 |
Indexation de la Vidéo Portée : Application à l'Étude Épidémiologique des Maladies Liées à l'ÂgeKaraman, Svebor 12 December 2011 (has links) (PDF)
Le travail de recherche de cette thèse de doctorat s'inscrit dans le cadre du suivi médical des patients atteints de démences liées à l'âge à l'aide des caméras videos portées par les patients. L'idée est de fournir aux médecins un nouvel outil pour le diagnostic précoce de démences liées à l'âge telles que la maladie d'Alzheimer. Plus précisément, les Activités Instrumentales du Quotidien (IADL : Instrumental Activities of Daily Living en anglais) doivent être indexées automatiquement dans les vidéos enregistrées par un dispositif d'enregistrement portable. Ces vidéos présentent des caractéristiques spécifiques comme de forts mouvements ou de forts changements de luminosité. De plus, la tâche de reconnaissance visée est d'un très haut niveau sémantique. Dans ce contexte difficile, la première étape d'analyse est la définition d'un équivalent à la notion de " plan " dans les contenus vidéos édités. Nous avons ainsi développé une méthode pour le partitionnement d'une vidéo tournée en continu en termes de " points de vue " à partir du mouvement apparent. Pour la reconnaissance des IADL, nous avons développé une solution selon le formalisme des Modèles de Markov Cachés (MMC). Un MMC hiérarchique à deux niveaux a été introduit, modélisant les activités sémantiques ou des états intermédiaires. Un ensemble complexe de descripteurs (dynamiques, statiques, de bas niveau et de niveau intermédiaire) a été exploité et les espaces de description joints optimaux ont été identifiés expérimentalement. Dans le cadre de descripteurs de niveau intermédiaire pour la reconnaissance d'activités nous nous sommes particulièrement intéressés aux objets sémantiques que la personne manipule dans le champ de la caméra. Nous avons proposé un nouveau concept pour la description d'objets ou d'images faisant usage des descripteurs locaux (SURF) et de la structure topologique sous-jacente de graphes locaux. Une approche imbriquée pour la construction des graphes où la même scène peut être décrite par plusieurs niveaux de graphes avec un nombre de nœuds croissant a été introduite. Nous construisons ces graphes par une triangulation de Delaunay sur des points SURF, préservant ainsi les bonnes propriétés des descripteurs locaux c'est-à-dire leur invariance vis-à-vis de transformations affines dans le plan image telles qu'une rotation, une translation ou un changement d'échelle. Nous utilisons ces graphes descripteurs dans le cadre de l'approche Sacs-de-Mots-Visuels. Le problème de définition d'une distance, ou dissimilarité, entre les graphes pour la classification non supervisée et la reconnaissance est nécessairement soulevé. Nous proposons une mesure de dissimilarité par le Noyau Dépendant du Contexte (Context-Dependent Kernel : CDK) proposé par H. Sahbi et montrons sa relation avec la norme classique L2 lors de la comparaison de graphes triviaux (les points SURF). Pour la reconnaissance d'activités par MMC, les expériences sont conduites sur le premier corpus au monde de vidéos avec caméra portée destiné à l'observation des d'IADL et sur des bases de données publiques comme SIVAL et Caltech-101 pour la reconnaissance d'objets.
|
Page generated in 0.07 seconds