• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • Tagged with
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia / Representation of documents combining text and image : application to categorization and multimedia information retrieval

Moulin, Christophe 22 June 2011 (has links)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d’information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente / Exploiting multimedia documents leads to representation problems of the textual and visual information within documents. Our goal is to propose a model to represent these both information and to combine them for two tasks: categorization and information retrieval. This model represents documents as bags of words, which requires to define adapted vocabularies. The textual vocabulary, usually very large, corresponds to the words of documents while the visual one is created by extracting low-level features from images. We study the different steps of its creation and the tf.idf weighting of visual words in images usually used for textual words. In the context of the text categorization, we introduce a criterion to select the most discriminative words for categories in order to reduce the vocabulary size without degrading the results of classification. We also present in the multilabel context, a method that lets us to select the number of categories which must be associated with a document. In multimedia information retrieval, we propose an analytical approach based on machine learning techniques to linearly combine the results from textual and visual information which significantly improves research results. Our model has shown its efficiency on different collections of important size and was evaluated in several international competitions such as XML Mining and ImageCLEF
2

Modélisation, indexation et recherche de documents structurés

Fourel, Franck 05 February 1998 (has links) (PDF)
Les systèmes actuels de recherche de documents électroniques, que ce soit des systèmes de gestion de bases de données ou des systèmes de recherche d'informations, n'exploitent pas suffisament la richesse des documents. Les uns n'analysent pas le contenu des documents et se laissent diriger par la structure du document alors que les autres délaissent l'aspect structurel en s'appuyant sur des méthodes trop peu adaptées aux nouvelles caractéristiques de ces documents. Le but de notre travail, situé à l'intersection de ces deux types de systèmes, est de réconcilier les différentes modalités d'accès aux documents électroniques et de rendre accessible tout document ou toute partie de documents qui peut résoudre le problème d'informations d'un utilisateur. Notre travail comporte plusieurs phases : la définition de modèles de représentation des documents structurés ainsi que de leurs composantes monomédias et multimédias (texte et image fixe) et la mise en place d'un processus d'indexation structurelle support du processus d'interrogation. Le modèle de représentation des documents structurés s'articule autour de trois relations de structure que nous avons particulièrement identifiées dans les documents textuels : la relation de composition, la relation de séquence et la relation de référence. Elles établissent l'organisation syntaxique des parties des documents, appelées éléments de structure, qui comme nous le montrons, possède une organisation duale, la structure sémantique. Nous exploitons les caractéristiques de cette dernière pour définir des propriétés sur les descripteurs des éléments de structure. Ces propriétés sont formalisées par la notion de portées des attributs et par la classification des attributs qui s'en suit. Pour chaque attribut d'un élément de structure, sa portée indique les autres éléments de structure concernés par l'attribut et par sa valeur. C'est en suivant les relations de structure que nous retrouvons les éléments concernés, puis nous leur assignons un attribut et une valeur dépendante de la valeur de l'attribut de l'élément qui est à la source de l'information. L'application des portées fournit une représentation du document au sein de laquelle les informations, si elles ne sont pas modifiées, sont mieux réparties et pour laquelle la plupart des informations sont explicitées pour chaque élément de structure et sont rendues dépendantes les unes des autres. Le processus d'interrogation utilise ces dépendances pour retrouver le ou les éléments de structure pertinents d'un document structuré. Nous avons validé ce travail par le développement du prototype my Personal Daily News qui permet d'interroger une base constituée de quotidiens d'informations en mêlant dans les requêtes des critères structurels et des critères de contenu. Nous montrons ainsi que notre approche rend des éléments accessibles et augmente la flexibilité d'interrogation en autorisant une connaissance imparfaite de la structure des documents.
3

Espaces vectoriels sémantiques : enrichissement et interprétation de requêtes dans un système d'information distribué et hétérogène

Ventresque, Anthony 26 September 2008 (has links) (PDF)
Les systèmes d'information font face à un problème de pertinence dans les recherches dû à l'augmentation considérable des données accessibles. De plus, le nombre d'appareils communicants ne cesse de croître et de menacer le modèle client/serveur. Une nouvelle architecture distribuée tend donc à s'imposer : les réseaux pair-à-pair (P2P). Mais ils sont peu économes en ressource réseau (une requête inonde le réseau) et offrent des fonctionnalités limitées (recherche par mots-clés). Dans les deux communautés, RI et systèmes P2P, les recherches penchent vers l'utilisation de sémantique. En informatique, les approches basées sur la sémantique nécessitent souvent de définir des ontologies. Le développement important et distribué des ontologies génère une hétérogénéité sémantique. La solution classique est d'utiliser des correspondances entre parties de deux ontologies. Mais c'est une solution qui est difficile à obtenir et qui n'est pas toujours complète. Souvent les parties non-partagées de deux ontologies ne sont pas gérées, ce qui entraîne une perte d'information. Notre solution : EXSI2D, utilise une expansion particulière, appelée expansion structurante, du côté de l'initiateur de requêtes. Cela lui permet de préciser les dimensions de sa requête sans modifier la requête elle-même. EXSI2D offre aussi la possibilité au fournisseur d'information d'interpréter l'expansion structurante dans sa propre ontologie. Ainsi, il est possible à chaque participant d'un système d'information sémantiquement hétérogène d'utiliser toute son ontologie, y compris les parties non partagées. Nous montrons aussi l'utilisation d'EXSI2D dans un système P2P, grâce à SPARTANBFS, un protocole « frugal » pour systèmes P2P non structurés.
4

Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia

Moulin, Christophe 22 June 2011 (has links) (PDF)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d'information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente

Page generated in 0.1755 seconds