• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 102
  • 63
  • 9
  • Tagged with
  • 169
  • 89
  • 34
  • 34
  • 27
  • 26
  • 25
  • 23
  • 19
  • 19
  • 19
  • 18
  • 17
  • 17
  • 17
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Recalage multi-modal automatique : technique de multi-résolution parallèle appliquée à la TEP et l'IRM / Multi-modal automatic registration : A parallel multi-resolution approach applied to PET-MRI

Bernier, Michaël January 2012 (has links)
Résumé : Le recalage automatique des images issues de la tomographie par émission de positrons (TEP) et de l’imagerie par résonance magnétique (IRM) du petit animal pose un problème difficile à résoudre, tant sur l’aspect de la précision, du taux de réussite et de convergence que sur la rapidité d’exécution. En fait, la plupart des techniques de recalage actuelles sont développées et appliquées aux cerveaux humains, mais ne sont pas aussi efficaces lorsqu’appliquées sur des données animales. L’anisotropie impor¬tante des voxels (résolution fine dans le plan de l’acquisition, mais grande épaisseur de coupe) et la dégradation des images associée à ce type d’acquisition s’additionne au manque d’information d’intensité et de complexité anatomique de ce type de jeu de données. Ce mémoire met l’accent sur les techniques multimodales de recalage automatique et de leurs limites, appliquées particulièrement à la TEP et l’IRM du petit animal. Dans l’article principal présenté dans ce mémoire, nous proposons une mesure qui utilise un recalage multirésolution en parallèle (imbriqué dans la fonction d’énergie) au lieu d’une approche classique de multirésolution séquentielle, influen¬çant directement la procédure du recalage. En combinant les niveaux de basse et haute résolution des images, nous nous assurons une plus grande insensibilité par rapport au bruit, d’une ouverture accrue permettant une meilleure convergence et rapidité d’exécution. L’article démontre que notre nouvelle approche automatique est un algorithme de recalage robuste et efficace avec un taux de réussite élevé. Nous présentons également dans ce mémoire certains détails d’implantation de l’outil, qui a été créé par l’auteur de ce document, reposant sur le recalage classique et la nouvelle méthode décrite dans ce mémoire.||Abstract: Automatic registration of small animal Positron Emission Tomography (PET) and Magnetic Resonance Imaging (MRI) data represents a difficult problem in terms of convergence speed, accuracy and success rate. In fact, most existing registration methods are developed and applied to human brain volumes but these are not as effective for small animal data because of the lack of intensity information in the images and often the large anisotropy in voxel dimensions (very small in-plane resolution and large slice thickness). This master thesis focuses on multi-modal automatic registration techniques and their limitations, especially applied to PET-MRI registration. In the main article of this master thesis, we propose a new registration measure that combines multi-resolution in parallel (in the same energy function) instead of a classic sequential multi-resolution, which influence the procedure of the registration as well. By combining low and high resolution levels of images, we can gain from the low noise sensitivity and aperture at coarse levels and higher contrast and details at higher levels, which helps convergence accuracy and speed. The paper shows that our new approach is therefore an automatic, robust and efficient registration algorithm with a high success rate. We also present in this document some implementation details on the tool which was created by the author of this thesis based on the classic registration and the new approach described in this thesis.
12

Raisonnement à partir de cas dynamique multi-agents : application à un système de tuteur intelligent / Multi-agent dynamic case-based reasoning : eapplication to intelligent tutoring system

Zouhair, Abdelhamid 20 October 2014 (has links)
Nos travaux de thèse se situent dans le domaine des Systèmes d'Aide à la Décision (SAD) pour les situations dynamiques fondées sur les expériences passées. Plusieurs approches telles que les Réseaux de Neurones, Réseau de Petri et les Modèles de Markov Cachés ont été utilisées dans ce contexte mais elles souffrent de limites dans la gestion automatique et en temps réel des paramètres dynamiques. Nous proposons une architecture multi-agent multicouche fondée sur le raisonnement à partir de cas dynamique et incrémentale (RàPCDI) capable d’étudier les situations dynamiques (reconnaissance, prédiction, et apprentissage de situations). Nous proposons une approche générique qui acquiert elle-même les connaissances du système dynamique étudié. En outre, les systèmes de RàPC statiques souffrent de limites dans la gestion des paramètres dynamiques et ils sont incapables de détecter automatiquement l’évolution de ses paramètres ainsi que de s’adapter aux changements de la situation en cours d’évolution. En se basant sur le raisonnement à partir de cas et sur le paradigme multi-agent, nous proposons une modification du cycle statique de RàPC dans le but d’introduire un processus dynamique de raisonnement à partir de cas fondé sur une mesure de similarité dynamique, capable d'évaluer en temps réel la similarité entre une situation dynamique en cours de progression (cas cible) et des expériences passées stockées dans la mémoire du système (des cas sources) afin de prédire la suite de la situation cible. Nous validons l’approche proposée par la mise en œuvre d'un prototype de Tuteur Intelligent. Dans notre approche Incremental Dynamic Case Based Reasoning-Multi-Agent System (IDCBR-MAS), les expériences passées sont modélisées sous la forme des traces. Elles comprennent les productions et les actions résultantes de l’interaction de l'apprenant avec la plateforme d'apprentissage. IDCBR-MAS a été modélisé suivant la méthodologie AUML. Ses agents ont été développés en se basant sur JAVA et la plateforme SMA/JADE. / AOur thesis works are related in the field of Decision Support System (DSS) for dynamic situations based on past experiences. Several approaches have been used in this area such as neural networks, Petri Nets and Hidden Markov Model but they suffer from some limitations in automated real-time management dynamic parameters. We propose a multi-agent multi-layer architecture based on Incremental Dynamic Case-Based Reasoning (IDCBR) able to study dynamic situations (recognition, prediction, and learning situations). We propose a generic approach able to learn automatically from their experiences in order to acquire the knowledge automatically. In addition, the static CBR systems suffer from some limitations such as the problem of the static management for dynamic parameters of the situation and they are unable to detect automatically the changes in its parameters in order to adapt the situation during their evolution. Based on the Case-Based Reasoning and multi-agent paradigm, we propose a modification of the static CBR cycle in order to introduce a dynamic process of Case-Based Reasoning based on a dynamic similarity measure able to evaluate in real time the similarity between a dynamic situation in current progress (target case) and past experiences stored in the memory (sources case) in order to predict the target case in the future. We validate the approach proposed by the implementation of an intelligent tutoring system prototype. In our approach Incremental Dynamic Case-Based Reasoning-Multi-Agent System (IDCBR-MAS), the past experiences are structured and modeled as traces. They include the interaction of the learner with the platform, which include history, chronology of interactions and productions left by the learner during his/her learning process. IDCBR-MAS designed and modeled with AUML language. Its agents have been implemented with JAVA and SMA / JADE platform.
13

Contribution au recalage d'images de modalités différentes à travers la mise en correspondance de nuages de points : Application à la télédétection

Palmann, Christophe 23 June 2011 (has links)
L'utilisation d'images de modalités différentes est très répandue dans la résolution de problèmes liés aux applications de la télédétection. La raison principale est que chaque image d'une certaine modalité contient des informations spécifiques qui peuvent être intégrées en un modèle unique, afin d'améliorer notre connaissance à propos d'une scène spécifique. A cause du grand volume de données disponibles, ces intégrations doivent être réalisées de manière automatique. Cependant, un problème apparaît dès les premiers stades du processus : la recherche, dans des images de modalités différentes, de régions en correspondance. Ce problème est difficile à résoudre car la décision de regrouper des régions doit nécessairement reposer sur la part d'information commune aux images, même si les modalités sont différentes. Dans cette thèse, nous nous proposons donc d'apporter une contribution à la résolution de ce problème / The use of several images of various modalities has been proved to be quite useful for solving problems arising in many different applications of remote sensing. The main reason is that each image of a given modality conveys its own part of specific information, which can be integrated into a single model in order to improve our knowledge on a given area. With the large amount of available data, any task of integration must be performed automatically. At the very first stage of an automated integration process, a rather direct problem arises : given a region of interest within a first image, the question is to find out its equivalent within a second image acquired over the same scene but with a different modality. This problem is difficult because the decision to match two regions must rely on the common part of information supported by the two images, even if their modalities are quite different. This is the problem that we wish to address in this thesis
14

Structuration des connaissances et des savoir-faire pour l'amélioration du système de production

Erbeja, Thierry 21 December 2001 (has links) (PDF)
Malgré de nombreux travaux, il apparaît que les outils d'Analyse Typologiques ne permettent pas de réduire les délais d'implantation de la Technologie de Groupe. Cette démarche de rationalisation du système de production pose un problème général de classification que nous baptiserons ACCI. Il s'agit de construire sur un domaine de connaissance peu formalisé, une classification jugée pertinente par les experts du domaine. En terme d'Acquisition de Connaissances, l'ACCI a pour objectif de représenter l'activité d'un groupe d'expert à l'aide d'un modèle dit de classification simple. Les outils susceptibles de contribuer à résoudre ce problème proviennent de domaines variés : l'Analyse Typologique, la Classification Conceptuelle, les réseaux de Neurones et les Algorithmes Génétiques mais reposent sur un principe commun qui défini le concept d'Outils de Classification Automatique (OCA). Dans le cadre de l'ACCI, ces outils présentent des limites intrinsèques. La plupart des travaux menés pour y remédier, proposent des approchent interactives qui aident les experts à reformuler leurs connaissances en fonction de l'OCA utilisé. C'est à dire, sous la forme d'attributs descriptifs des objets tels qu'il devient possible d'en déduire des classes par des opérations de comparaison simples. Nous proposons une approche interactive qui a pour vocation de s'adapter aux experts en intégrant directement dans le processus de classification, les connaissances qu'ils sont à même de formuler naturellement lorsqu'ils valident une partition des objets du domaine. Cette approche a été testé sur un cas réel à l'aide d'un prototype informatique. Elle contribue à résoudre le problème de l'utilisation des outils d'Analyse Typologique pour réduire les délais d'implantation de la TG, et s'applique potentiellement à d'autre domaine, car les connaissances manipulées par le système ne sont pas liées au domaine d'application, mais à la structure recherchée (une partition).
15

Framework de gestion sémantique de flux d'actualités

Taddesse, Fekade Getahun 30 November 2010 (has links) (PDF)
Dans le monde du Web, on retrouve les formats RSS et Atom (feeds) qui sont, sans doute, les formats XML les plus populaires et les plus utilisés. Ces formats permettent aux, entre autres, communautés Web, industriels, et services web de publier et d'échanger des documents XML. En outre, ils permettent à un utilisateur de consulter librement des données/informations sans avoir à basculer d'un site à un autre, et cela à l'aide d'applications logicielles. Dans ce cas, l'utilisateur enregistre ses fournisseurs de flux favoris, chaque fournisseur diffuse la liste des nouveaux éléments qui ont été modifiés depuis le dernier téléchargement. Cependant, l'enregistrement d'un certain nombre de sources de flux dans un agrégateur de flux engendre à la fois des problèmes d'hétérogénéité (à cause des différences structurelles et de contenu) et des problèmes de surcharges d'information. Par ailleurs, aucun des agrégateurs de flux existants n'offre une approche qui intègre (ou fusionne) les flux en tenant compte de leurs similarités, du contexte de l'utilisateur et de ses préférences. Dans cette thèse, nous proposons un framework formel qui permet de traiter l'hétérogénéité, l'intégration et l'interrogation des flux d'actualités. Ce framework est fondé sur une représentation arborescente d'un flux et possède trois éléments principaux qui sont les suivants: comparateur de flux, intégrateur de flux, et processeur de requêtes. Le comparateur de flux permet de mesurer le degré de similarité entre deux éléments/flux en utilisant une base de connaissance intégrant une approche ascendante et progressive. Nous proposons une mesure de similarité à base de concept capable de calculer la similarité entre les flux selon le nombre de leurs concepts communs (et différents) et leurs proximités sémantiques. Nous montrons également comment définir et identifier la relation exclusive entre deux textes ou éléments. L'intégrateur de flux permet de fusionner plusieurs flux provenant de différentes sources tout en tenant compte du contexte de l'utilisateur. Nous montrons dans notre étude comment représenter le contexte d'utilisateur ainsi que ses préférences. Nous fournissons un ensemble prédéfini de règles de fusion qui peuvent être enrichies et adaptées par chaque utilisateur. Quant au processeur de requêtes, il se base sur une étude formelle et plus précisément sur une algèbre dédiée à la fusion des flux continus d'actualités que nous proposons ici. Les opérateurs proposés dans cette algèbre sont aidés par des fonctions à base de similarité. Nous catégorisons les opérateurs de flux selon trois catégories: opérateurs d'extraction, opérateurs ensemblistes et opérateur de fusion. Nous montrons que l'opérateur de fusion généralise l'opération de jointure et les opérateurs ensemblistes. Nous fournissons également un ensemble de règles de réécriture et d'équivalence de requêtes pour la simplification et l'optimisation des requêtes. Enfin, nous présentons un prototype nommé "Easy RSS Manager" (EasyRSSManager). Ce prototype est un lecteur sémantique de flux et un composant sémantique pour l'interrogation des fenêtres de flux. EasyRSSManager a été utilisé pour valider, démontrer et tester la faisabilité des différentes propositions de notre étude. En particulier, nous avons testé la complexité en temps et la pertinence de nos approches en utilisant à la fois des données réelles et syntaxiques.
16

Framework de gestion sémantique de flux d'actualités / Semantic-aware news feeds management framework

Taddesse, Fekade Getahun 30 November 2010 (has links)
Dans le monde du Web, on retrouve les formats RSS et Atom (feeds) qui sont, sans doute, les formats XML les plus populaires et les plus utilisés. Ces formats permettent aux, entre autres, communautés Web, industriels, et services web de publier et d’échanger des documents XML. En outre, ils permettent à un utilisateur de consulter librement des données/informations sans avoir à basculer d’un site à un autre, et cela à l'aide d’applications logicielles. Dans ce cas, l'utilisateur enregistre ses fournisseurs de flux favoris, chaque fournisseur diffuse la liste des nouveaux éléments qui ont été modifiés depuis le dernier téléchargement. Cependant, l'enregistrement d'un certain nombre de sources de flux dans un agrégateur de flux engendre à la fois des problèmes d'hétérogénéité (à cause des différences structurelles et de contenu) et des problèmes de surcharges d’information. Par ailleurs, aucun des agrégateurs de flux existants n’offre une approche qui intègre (ou fusionne) les flux en tenant compte de leurs similarités, du contexte de l’utilisateur et de ses préférences. Dans cette thèse, nous proposons un framework formel qui permet de traiter l'hétérogénéité, l'intégration et l'interrogation des flux d’actualités. Ce framework est fondé sur une représentation arborescente d'un flux et possède trois éléments principaux qui sont les suivants: comparateur de flux, intégrateur de flux, et processeur de requêtes. Le comparateur de flux permet de mesurer le degré de similarité entre deux éléments/flux en utilisant une base de connaissance intégrant une approche ascendante et progressive. Nous proposons une mesure de similarité à base de concept capable de calculer la similarité entre les flux selon le nombre de leurs concepts communs (et différents) et leurs proximités sémantiques. Nous montrons également comment définir et identifier la relation exclusive entre deux textes ou éléments. L’intégrateur de flux permet de fusionner plusieurs flux provenant de différentes sources tout en tenant compte du contexte de l’utilisateur. Nous montrons dans notre étude comment représenter le contexte d’utilisateur ainsi que ses préférences. Nous fournissons un ensemble prédéfini de règles de fusion qui peuvent être enrichies et adaptées par chaque utilisateur. Quant au processeur de requêtes, il se base sur une étude formelle et plus précisément sur une algèbre dédiée à la fusion des flux continus d’actualités que nous proposons ici. Les opérateurs proposés dans cette algèbre sont aidés par des fonctions à base de similarité. Nous catégorisons les opérateurs de flux selon trois catégories: opérateurs d'extraction, opérateurs ensemblistes et opérateur de fusion. Nous montrons que l’opérateur de fusion généralise l’opération de jointure et les opérateurs ensemblistes. Nous fournissons également un ensemble de règles de réécriture et d'équivalence de requêtes pour la simplification et l’optimisation des requêtes. Enfin, nous présentons un prototype nommé «Easy RSS Manager» (EasyRSSManager). Ce prototype est un lecteur sémantique de flux et un composant sémantique pour l’interrogation des fenêtres de flux. EasyRSSManager a été utilisé pour valider, démontrer et tester la faisabilité des différentes propositions de notre étude. En particulier, nous avons testé la complexité en temps et la pertinence de nos approches en utilisant à la fois des données réelles et syntaxiques. / In the Web, RSS and Atom (feeds) are probably the most popular and highly utilized XML formats which allow web communities, publishing industries, web services, etc. to publish and exchange XML documents. In addition, they allow a user to consume data/information easily without roaming from site to site using software applications. Here, the user registers her favorite feed providers; and each provider sends the list of news items changed since the last download. However, registering a number of feed sources in feed aggregators cause both heterogeneity and information overloading problems. Besides, none of the existing RSS/feed aggregators provide an approach that integrates (merges) feeds from different sources considering similarity, user contexts and preferences. In this research, we provide a formal framework that handles the heterogeneity, integration and querying feeds. The framework is based a tree representation of a feed and has three main components: feed comparator, merger and query processor. The feed comparator addresses the issue of measuring the relatedness between news items using a Knowledge Base, a bottom-up and incremental approaches. We proposed a concept-based similarity measure based on the function of the number of shared and different concepts in their global semantic neighborhoods. Here, we use the concept similarity value and relationship as a building block for texts, simple elements and items relatedness algorithms. We show also how to define and identify the exclusive relationship between any two texts and elements. The feed merger addresses the issue of integrating news items from different sources considering a user context. We show here how to represent a user context and her preferences. Also, we provide a set of predefined set of merging rules that can be extended and adapted by a user. The query processor is based on a formal study on RSS query algebra that uses the notion of semantic similarity over dynamic content. The operators are supported by a set of similarity-based helper functions. We categorize the RSS operators into extraction, set membership and merge operators. The merge operator generalizes the join and the set membership operators. We also provide a set of query rewriting and equivalence rules that would be used during query simplification and optimization. Finally, we present a desktop prototype called Easy RSS Manager (EasyRSSManager) having a semanticaware RSS Reader, and semantic-aware and window-based RSS query components. It is designed to validate, demonstrate and test the practicability of the different proposals of this research. In particular, we test the timing complexity and the relevance of our approaches using both a real and syntactic dataset.
17

Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles

Aseervatham, Sujeevan 12 December 2007 (has links) (PDF)
Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d'apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d'experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d'apprentissage.<br />Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes.<br />Le premier axe porte sur l'étude des problématiques liées au traitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d'une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé, lors d'un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44. <br />Le second axe porte sur l'étude des concepts latents extraits par des méthodes statistiques telles que l'analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d'une source externe et des concepts statistiques issus de la LSA. Nous montrons qu'un noyau intégrant les deux types de concepts permet d'améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d'extraire des concepts latents permettant d'obtenir une représentation plus fine des documents.
18

Intégration d'une nouvelle approche sémantique basée sur les caractéristiques visuelles des concepts dans un système de recherche d'images par contenu et par texte

Id-Oumohmed, Ahmed January 2005 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
19

L'effet de la similarité vocale sur la performance en rappel sériel immédiat

Lyrette, Joëlle January 1999 (has links)
Vingt-quatre sujets ont réalisé une tâche de rappel sériel immédiat. Le rythme de présentation (2 items / 3160 ms ou 2 items / 5160 ms) ainsi que le degré de similarité vocale sont les facteurs à l’étude. Afin de manipuler la similarité vocale, les items d'une liste sont présentés soit par des voix différentes (voix multiples) ou dans une seule et même voix (voix unique). Les résultats démontrent un avantage des listes à voix multiples et une détérioration de la performance avec l’augmentation du rythme de présentation. Ce patron de résultats soutient les prédictions dérivées du modèle de Nairne (1988,1990) et est cohérent avec les données de Goldinger et al. (1991) montrant une diminution de la performance avec l’augmentation du rythme de présentation.
20

Semantic similarities at the core of generic indexing and clustering approaches / Les similarités sémantiques au cœur d’approches génériques d’indexation et de catégorisation

Fiorini, Nicolas 04 November 2015 (has links)
Pour exploiter efficacement une masse toujours croissante de documents électroniques, une branche de l'Intelligence Artificielle s'est focalisée sur la création et l'utilisation de systèmes à base de connaissance. Ces approches ont prouvé leur efficacité, notamment en recherche d'information. Cependant elles imposent une indexation sémantique des ressources exploitées, i.e. que soit associé à chaque ressource un ensemble de termes qui caractérise son contenu. Pour s'affranchir de toute ambiguïté liée au langage naturel, ces termes peuvent être remplacés par des concepts issus d'une ontologie de domaine, on parle alors d'indexation conceptuelle.Le plus souvent cette indexation est réalisée en procédant à l'extraction des concepts du contenu même des documents. On note, dans ce cas, une forte dépendance des techniques associées à ce traitement au type de document et à l'utilisation d'algorithmes dédiés. Pourtant une des forces des approches conceptuelles réside dans leur généricité. En effet, par l'exploitation d'indexation sémantique, ces approches permettent de traiter de la même manière un ensemble d'images, de gènes, de textes ou de personnes, pour peu que ceux-ci aient été correctement indexés. Cette thèse explore ce paradigme de généricité en proposant des systèmes génériques et en les comparant aux approches existantes qui font référence. L'idée est de se reposer sur les annotations sémantiques et d'utiliser des mesures de similarité sémantique afin de créer des approches performantes. De telles approches génériques peuvent par la suite être enrichies par des modules plus spécifiques afin d'améliorer le résultat final. Deux axes de recherche sont suivis dans cette thèse. Le premier et le plus riche est celui de l'indexation sémantique. L'approche proposée exploite la définition et l'utilisation de documents proches en contenu pour annoter un document cible. Grâce à l'utilisation de similarités sémantiques entre les annotations des documents proches et à l'utilisation d'une heuristique, notre approche, USI (User-oriented Semantic Indexer), permet d'annoter des documents plus rapidement que les méthodes existantes en fournissant une qualité comparable. Ce processus a ensuite été étendu à une autre tâche, la classification. Le tri est une opération indispensable à laquelle l'Homme s'est attaché depuis l'Antiquité, qui est aujourd'hui de plus en plus automatisée. Nous proposons une approche de classification hiérarchique qui se base sur les annotations sémantiques des documents à classifier. Là encore, la méthode est indépendante des types de documents puisque l'approche repose uniquement sur leur annotations. Un autre avantage de cette approche est le fait que lorsque des documents sont rassemblés, le groupe qu'il forme est automatiquement annoté (suivant notre algorithme d'indexation). Par conséquent, le résultat fourni est une hiérarchie de classes contenant des documents, chaque classe étant annotée. Cela évite l'annotation manuelle fastidieuse des classes par l'exploration des documents qu'elle contient comme c'est souvent le cas.L'ensemble de nos travaux a montré que l'utilisation des ontologies permettait d'abstraire plusieurs processus et ainsi de réaliser des approches génériques. Cette généricité n'empêche en aucun cas d'être couplée à des approches plus spécifiques, mais constitue en soi une simplicité de mise en place dès lors que l'on dispose de documents annotés sémantiquement. / In order to improve the exploitation of even growing number of electronic documents, Artificial Intelligence has dedicated a lot of effort to the creation and use of systems grounded on knowledge bases. In particular in the information retrieval field, such semantic approaches have proved their efficiency.Therefore, indexing documents is a necessary task. It consists of associating them with sets of terms that describe their content. These terms can be keywords but also concepts from an ontology, in which case the annotation is said to be semantic and benefit from the inherent properties of ontologies which are the absence of ambiguities.Most approaches designed to annotate documents have to parse them and extract concepts from this parsing. This underlines the dependance of such approaches to the type of documents, since parsing requires dedicated algorithms.On the other hand, approaches that solely rely on semantic annotations can ignore the document type, enabling the creation of generic processes. This thesis capitalizes on genericity to build novel systems and compare them to state-of-the-art approaches. To this end, we rely on semantic annotations coupled with semantic similarity measures. Of course, such generic approaches can then be enriched with type-specific ones, which would further increase the quality of the results.First of all, this work explores the relevance of this paradigm for indexing documents. The idea is to rely on already annotated close documents to annotate a target document. We define a heuristic algorithm for this purpose that uses the semantic annotations of these close documents and semantic similarities to provide a generic indexing method. This results in USI (User-oriented Semantic Indexer) that we show to perform as well as best current systems while being faster.Second of all, this idea is extended to another task, clustering. Clustering is a very common and ancient process that is very useful for finding documents or understanding a set of documents. We propose a hierarchical clustering algorithm that reuses the same components of classical methods to provide a novel one applicable to any kind of documents. Another benefit of this approach is that when documents are grouped together, the group can be annotated by using our indexing algorithm. Therefore, the result is not only a hierarchy of clusters containing documents as clusters are actually described by concepts as well. This helps a lot to better understand the results of the clustering.This thesis shows that apart from enhancing classical approaches, building conceptual approaches allows us to abstract them and provide a generic framework. Yet, while bringing easy-to-set-up methods – as long as documents are semantically annotated –, genericity does not prevent us from mixing these methods with type-specific ones, in other words creating hybrid methods.

Page generated in 0.0658 seconds