1 |
Ontologies de domaine pour la modélisation du contexte en Recherche d'informationHernandez, Nathalie 06 December 2005 (has links) (PDF)
Afin de faciliter la mise en place de systèmes pouvant gérer de grandes quantités d'information et de s'adresser à un maximum d'utilisateurs, le fonctionnement du noyau des Systèmes de Recherche d'Information (SRI) est généralement indépendant du contexte. La Recherche d'Information contextuelle vise à replacer l'utilisateur au coeur des SRI en rendant explicites certains éléments du contexte qui peuvent influencer sur les performances des systèmes. Dans ce cadre, nous proposons un modèle à base de deux ontologies dont l'objectif est de représenter deux aspects primordiaux du contexte d'une recherche : le thème du besoin et la tâche de recherche choisie par l'utilisateur. Des ontologies légères de domaine sont utilisées pour représenter la connaissance associée à ces deux aspects du contexte. L'originalité de notre modèle repose sur le fait que les deux aspects distincts mais complémentaires du contexte sont liés par l'utilisation d'éléments communs aux deux ontologies. L'intégration du modèle dans le SRI intervient dans deux phases du processus de recherche. Par la proposition d'un mécanisme d'indexation sémantique utilisant l'ensemble de la connaissance représentée dans les deux ontologies, il est intégré à la phase de représentation des documents. De plus, le modèle est intégré à la phase d'accès aux documents via la navigation dans les ontologies. Cette navigation repose sur deux niveaux d'accès à l'information. Le niveau concept donne à l'utilisateur une vue globale sur la collection de documents et sur la connaissance associée, alors que le niveau instance donne un accès aux informations spécifiques contenues dans les documents. L'utilisation d'ontologies en RI pose une autre problématique qui est la réutilisation de la connaissance déjà modélisée. En effet, de nombreuses ressources terminologiques (comme les thésaurus) ou conceptuelles (ontologies) existent dans différents domaines. Nous avons étudié la réutilisabilité de telles ressources selon deux perspectives : le choix d'une ontologie légère en fonction de son adéquation au corpus à indexer et l'élaboration d'une ontologie légère à partir d'un thésaurus normalisé et d'un corpus de référence. Une originalité de nos travaux concernant l'évaluation de l'adéquation réside dans la prise en compte de l'ensemble des relations définies dans les ontologies et non pas seulement des relations taxonomiques. Concernant l'élaboration d'une ontologie légère à partir d'un thésaurus, une de nos contributions est de proposer un mécanisme semi-automatique pour capturer la connaissance représentée dans le thésaurus et la mettre à jour à partir de documents de référence. Dans le cadre d'un projet en coopération avec des astronomes (Masses de Données en Astronomie), nous avons pu évaluer un certain nombre des techniques que nous proposons. Un prototype illustre également l'apport de nos contributions.
|
2 |
Passage à l'échelle des méthodes de recherche sémantique dans les grandes bases d'imagesGorisse, David 20 December 2010 (has links) (PDF)
Avec la révolution numérique de cette dernière décennie, la quantité de photos numériques mise à disposition de chacun augmente plus rapidement que la capacité de traitement des ordinateurs. Les outils de recherche actuels ont été conçus pour traiter de faibles volumes de données. Leur complexité ne permet généralement pas d'effectuer des recherches dans des corpus de grande taille avec des temps de calculs acceptables pour les utilisateurs. Dans cette thèse, nous proposons des solutions pour passer à l'échelle les moteurs de recherche d'images par le contenu. Dans un premier temps, nous avons considéré les moteurs de recherche automatique traitant des images indexées sous la forme d'histogrammes globaux. Le passage à l'échelle de ces systèmes est obtenu avec l'introduction d'une nouvelle structure d'index adaptée à ce contexte qui nous permet d'effectuer des recherches de plus proches voisins approximées mais plus efficaces. Dans un second temps, nous nous sommes intéressés à des moteurs plus sophistiqués permettant d'améliorer la qualité de recherche en travaillant avec des index locaux tels que les points d'intérêt. Dans un dernier temps, nous avons proposé une stratégie pour réduire la complexité de calcul des moteurs de recherche interactifs. Ces moteurs permettent d'améliorer les résultats en utilisant des annotations que les utilisateurs fournissent au système lors des sessions de recherche. Notre stratégie permet de sélectionner rapidement les images les plus pertinentes à annoter en optimisant une méthode d'apprentissage actif.
|
3 |
Approches hybrides pour la recherche sémantique de l'information : intégration des bases de connaissances et des ressources semi-structuréesMrabet, Yassine 12 July 2012 (has links) (PDF)
La recherche sémantique de l'information a connu un nouvel essor avec les nouvelles technologies du Web sémantique. Des langages standards permettent aujourd'hui aux logiciels de communiquer par le biais de données écrites dans le vocabulaire d'ontologies de domaine décrivant une sémantique explicite. Cet accès ''sémantique'' à l'information requiert la disponibilité de bases de connaissances décrivant les instances des ontologies de domaine. Cependant, ces bases de connaissances, bien que de plus en plus riches, contiennent relativement peu d'information par comparaison au volume des informations contenu dans les documents du Web.La recherche sémantique de l'information atteint ainsi certaines limites par comparaison à la recherche classique de l'information qui exploite plus largement ces documents. Ces limites se traduisent explicitement par l'absence d'instances de concepts et de relations dans les bases de connaissances construites à partir des documents du Web. Dans cette thèse nous étudions deux directions de recherche différentes afin de permettre de répondre à des requêtes sémantiques dans de tels cas. Notre première étude porte sur la reformulation des requêtes sémantiques des utilisateurs afin d'atteindre des parties de document pertinentes à la place des faits recherchés et manquants dans les bases de connaissances. La deuxième problématique que nous étudions est celle de l'enrichissement des bases de connaissances par des instances de relations.Nous proposons deux solutions pour ces problématiques en exploitant des documents semi-structurés annotés par des concepts ou des instances de concepts. Un des points clés de ces solutions est qu'elles permettent de découvrir des instances de relations sémantiques sans s'appuyer sur des régularités lexico-syntaxiques ou structurelles dans les documents. Nous situons ces deux approches dans la littérature et nous les évaluons avec plusieurs corpus réels extraits du Web. Les résultats obtenus sur des corpus de citations bibliographiques, des corpus d'appels à communication et des corpus géographiques montrent que ces solutions permettent effectivement de retrouver de nouvelles instances relations à partir de documents hétérogènes tout en contrôlant efficacement leur précision.
|
4 |
Approche sémantique de gestion de ressources d’Information pour le contrôle de processus industriels : application au processus de fabrication chez STMicroelectronics / A semantic approach for resource description and retrieval for the manufacturing process control : application to the process control within STMicroelectronicsBouzid, Sara 06 December 2013 (has links)
Afin d’assurer la fabrication de produits conformes et à faible coût dans les industries, la maîtrise des procédés de fabrication est devenue un enjeu majeur. Les systèmes d'information dans les industries sont assez complexes et les besoins métier évoluent en permanence, rendant ainsi difficile la recherche des ressources qui fournissent les informations manufacturières pour le contrôle de procédés industriels. De plus, l’utilisation de plateformes logicielles commerciales dans les industries pour le traitement des données ne facilite pas l’accès à l’information produite car ces plateformes ne permettent pas la gestion sémantique de l’information. Cette thèse défend l’idée qu’il faut réduire la distance entre les ressources disponibles et les besoins métier des experts qui assurent le contrôle de processus industriels. L’approche S3 est proposée pour permettre à la fois la description et la recherche de ces ressources. S3 repose sur deux stratégies de recherche complémentaires: une stratégie ascendante permettant la création de descripteurs sémantiques de ressources, et une stratégie descendante permettant la capture des besoins métier dans des patterns de recherche. Deux structures sémantiques sont proposées pour supporter les mécanismes de description et de recherche: une ontologie « manufacturing process » et un dictionnaire « process control ». Chaque stratégie de recherche, appuyée par les structures sémantiques apporte un niveau de description différent et permet l’alignement de différents types de connaissances métier. Cette approche a été expérimentée au sein de l’entreprise STMicroelectronics et a révélé des résultats prometteurs. / In order to ensure the manufacturing of conforming products with the least waste, the manufacturing process control has ever more become a major issue in industries nowadays. The complexity of the information systems in industries and the permanent evolution of the business needs make difficult the retrieval of the resources that provide manufacturing information related to the process control. In addition, the use of commercial software platforms in industries for the processing of data, does not facilitate the access to the information produced, because these platforms do not support the semantic management of information.This thesis argues the need to reduce the distance between the used resources in industries and the business needs of the experts that ensure the control of the manufacturing processes.The S3 approach is proposed to support the control of the manufacturing processes through an original resource management system. This system is intended for both resource description and retrieval. The S3 approach relies on two complementary retrieval strategies: a bottom-up strategy enabling the creation of semantic descriptors of resources, and a top-down strategy enabling the capture of business needs in search patterns. Two semantic structures are proposed to support the resource description and retrieval mechanisms: a manufacturing process ontology and a process control dictionary. Basing on these semantic structures, each retrieval strategy provides different levels of description to the resources, and enables the alignment of different types of business knowledge. The experimentation of the approach within STMicroelectronics showed promising results.
|
5 |
Passage à l’échelle des méthodes de recherche sémantique dans les grandes bases d’images / Scalable search engines for content-based image retrieval task in huge image databaseGorisse, David 17 December 2010 (has links)
Avec la révolution numérique de cette dernière décennie, la quantité de photos numériques mise à disposition de chacun augmente plus rapidement que la capacité de traitement des ordinateurs. Les outils de recherche actuels ont été conçus pour traiter de faibles volumes de données. Leur complexité ne permet généralement pas d'effectuer des recherches dans des corpus de grande taille avec des temps de calculs acceptables pour les utilisateurs. Dans cette thèse, nous proposons des solutions pour passer à l'échelle les moteurs de recherche d'images par le contenu. Dans un premier temps, nous avons considéré les moteurs de recherche automatique traitant des images indexées sous la forme d'histogrammes globaux. Le passage à l'échelle de ces systèmes est obtenu avec l'introduction d'une nouvelle structure d'index adaptée à ce contexte qui nous permet d'effectuer des recherches de plus proches voisins approximées mais plus efficaces. Dans un second temps, nous nous sommes intéressés à des moteurs plus sophistiqués permettant d'améliorer la qualité de recherche en travaillant avec des index locaux tels que les points d'intérêt. Dans un dernier temps, nous avons proposé une stratégie pour réduire la complexité de calcul des moteurs de recherche interactifs. Ces moteurs permettent d'améliorer les résultats en utilisant des annotations que les utilisateurs fournissent au système lors des sessions de recherche. Notre stratégie permet de sélectionner rapidement les images les plus pertinentes à annoter en optimisant une méthode d'apprentissage actif. / In this last decade, would the digital revolution and its ancillary consequence of a massive increases in digital picture quantities. The database size grow much faster than the processing capacity of computers. The current search engine which conceived for small data volumes do not any more allow to make searches in these new corpus with acceptable response times for users.In this thesis, we propose scalable content-based image retrieval engines.At first, we considered automatic search engines where images are indexed with global histograms. Secondly, we were interested in more sophisticated engines allowing to improve the search quality by working with bag of feature. In a last time, we proposed a strategy to reduce the complexity of interactive search engines. These engines allow to improve the results by using labels which the users supply to the system during the search sessions.
|
6 |
Approches hybrides pour la recherche sémantique de l'information : intégration des bases de connaissances et des ressources semi-structurées / Hybrid Approaches for Semantic Information Retrieval : Towards the Integration of Knowledge Bases and Semistructured ResourcesMrabet, Yassine 12 July 2012 (has links)
La recherche sémantique de l'information a connu un nouvel essor avec les nouvelles technologies du Web sémantique. Des langages standards permettent aujourd'hui aux logiciels de communiquer par le biais de données écrites dans le vocabulaire d'ontologies de domaine décrivant une sémantique explicite. Cet accès ``sémantique'' à l'information requiert la disponibilité de bases de connaissances décrivant les instances des ontologies de domaine. Cependant, ces bases de connaissances, bien que de plus en plus riches, contiennent relativement peu d'information par comparaison au volume des informations contenu dans les documents du Web.La recherche sémantique de l'information atteint ainsi certaines limites par comparaison à la recherche classique de l'information qui exploite plus largement ces documents. Ces limites se traduisent explicitement par l'absence d'instances de concepts et de relations dans les bases de connaissances construites à partir des documents du Web. Dans cette thèse nous étudions deux directions de recherche différentes afin de permettre de répondre à des requêtes sémantiques dans de tels cas. Notre première étude porte sur la reformulation des requêtes sémantiques des utilisateurs afin d'atteindre des parties de document pertinentes à la place des faits recherchés et manquants dans les bases de connaissances. La deuxième problématique que nous étudions est celle de l'enrichissement des bases de connaissances par des instances de relations.Nous proposons deux solutions pour ces problématiques en exploitant des documents semi-structurés annotés par des concepts ou des instances de concepts. Un des points clés de ces solutions est qu'elles permettent de découvrir des instances de relations sémantiques sans s'appuyer sur des régularités lexico-syntaxiques ou structurelles dans les documents. Nous situons ces deux approches dans la littérature et nous les évaluons avec plusieurs corpus réels extraits du Web. Les résultats obtenus sur des corpus de citations bibliographiques, des corpus d'appels à communication et des corpus géographiques montrent que ces solutions permettent effectivement de retrouver de nouvelles instances relations à partir de documents hétérogènes tout en contrôlant efficacement leur précision. / Semantic information retrieval has known a rapid development with the new Semantic Web technologies. With these technologies, software can exchange and use data that are written according to domain ontologies describing explicit semantics. This ``semantic'' information access requires the availability of knowledge bases describing both domain ontologies and their instances. The most often, these knowledge bases are constructed automatically by annotating document corpora. However, while these knowledge bases are getting bigger, they still contain much less information when comparing them with the HTML documents available on the surface Web.Thus, semantic information retrieval reaches some limits with respect to ``classic'' information retrieval which exploits these documents at a bigger scale. In practice, these limits consist in the lack of concept and relation instances in the knowledge bases constructed from the same Web documents. In this thesis, we study two research directions in order to answer semantic queries in such cases. The first direction consists in reformulating semantic user queries in order to reach relevant document parts instead of the required (and missing) facts. The second direction that we study is the automatic enrichment of knowledge bases with relation instances.We propose two novel solutions for each of these research directions by exploiting semi-structured documents annotated with concept instances. A key point of these solutions is that they don't require lexico-syntactic or structure regularities in the documents. We position these approaches with respect to the state of the art and experiment them on several real corpora extracted from the Web. The results obtained from bibliographic citations, call-for-papers and geographic corpora show that these solutions allow to retrieve new answers/relation instances from heterogeneous documents and rank them efficiently according to their precision.
|
7 |
Vers un meilleur accès aux informations pertinentes à l’aide du Web sémantique : application au domaine du e-tourisme / Towards a better access to relevant information with Semantic Web : application to the e-tourism domainLully, Vincent 17 December 2018 (has links)
Cette thèse part du constat qu’il y a une infobésité croissante sur le Web. Les deux types d’outils principaux, à savoir le système de recherche et celui de recommandation, qui sont conçus pour nous aider à explorer les données du Web, connaissent plusieurs problématiques dans : (1) l’assistance de la manifestation des besoins d’informations explicites, (2) la sélection des documents pertinents, et (3) la mise en valeur des documents sélectionnés. Nous proposons des approches mobilisant les technologies du Web sémantique afin de pallier à ces problématiques et d’améliorer l’accès aux informations pertinentes. Nous avons notamment proposé : (1) une approche sémantique d’auto-complétion qui aide les utilisateurs à formuler des requêtes de recherche plus longues et plus riches, (2) des approches de recommandation utilisant des liens hiérarchiques et transversaux des graphes de connaissances pour améliorer la pertinence, (3) un framework d’affinité sémantique pour intégrer des données sémantiques et sociales pour parvenir à des recommandations qualitativement équilibrées en termes de pertinence, diversité et nouveauté, (4) des approches sémantiques visant à améliorer la pertinence, l’intelligibilité et la convivialité des explications des recommandations, (5) deux approches de profilage sémantique utilisateur à partir des images, et (6) une approche de sélection des meilleures images pour accompagner les documents recommandés dans les bannières de recommandation. Nous avons implémenté et appliqué nos approches dans le domaine du e-tourisme. Elles ont été dûment évaluées quantitativement avec des jeux de données vérité terrain et qualitativement à travers des études utilisateurs. / This thesis starts with the observation that there is an increasing infobesity on the Web. The two main types of tools, namely the search engine and the recommender system, which are designed to help us explore the Web data, have several problems: (1) in helping users express their explicit information needs, (2) in selecting relevant documents, and (3) in valuing the selected documents. We propose several approaches using Semantic Web technologies to remedy these problems and to improve the access to relevant information. We propose particularly: (1) a semantic auto-completion approach which helps users formulate longer and richer search queries, (2) several recommendation approaches using the hierarchical and transversal links in knowledge graphs to improve the relevance of the recommendations, (3) a semantic affinity framework to integrate semantic and social data to yield qualitatively balanced recommendations in terms of relevance, diversity and novelty, (4) several recommendation explanation approaches aiming at improving the relevance, the intelligibility and the user-friendliness, (5) two image user profiling approaches and (6) an approach which selects the best images to accompany the recommended documents in recommendation banners. We implemented and applied our approaches in the e-tourism domain. They have been properly evaluated quantitatively with ground-truth datasets and qualitatively through user studies.
|
Page generated in 0.1142 seconds