Global ETD Search

1	Introducing privacy in current web search engines / Introduction de la confidentialité dans les moteurs de recherche Web actuels Petit, Albin 15 March 2017 (has links) Au cours des dernières années les progrès technologiques permettant de collecter, stocker et traiter d'importantes quantités de données pour un faible coût, ont soulevés de sérieux problèmes concernant la vie privée. La protection de la vie privée concerne de nombreux domaines, en particulier les sites internet fréquemment utilisés comme les moteurs de recherche (ex. : Google, Bing, Yahoo!). Ces services permettent aux utilisateurs de retrouver efficacement du contenu sur Internet en exploitant leurs données personnelles. Dans ce contexte, développer des solutions pour permettre aux utilisateurs d'utiliser ces moteurs de recherche tout en protégeant leurs vies privées est devenu primordial. Dans cette thèse, nous introduirons SimAttack, une attaque contre les solutions protégeant la vie privée de l'utilisateur dans ses interactions avec les moteurs de recherche. Cette attaque vise à retrouver les requêtes initialement envoyées par l'utilisateur. Nous avons montré avec cette attaque que trois mécanismes représentatifs de l’état de l’art ne sont pas satisfaisants pour protéger la vie privée des utilisateurs. Par conséquent, nous avons développé PEAS, un nouveau mécanisme de protection qui améliore la protection de la vie privée de l'utilisateur. Cette solution repose sur deux types de protection : cacher l'identité de l'utilisateur (par une succession de deux serveurs) et masquer sa requête (en la combinant avec des fausses requêtes). Afin de générer des fausses requêtes réalistes, PEAS se base sur les précédentes requêtes envoyées par les utilisateurs du système. Pour finir, nous présenterons des mécanismes permettant d'identifier la sensibilité des requêtes. Notre objectif est d'adapter les mécanismes de protection existants pour protéger uniquement les requêtes sensibles, et ainsi économiser des ressources (ex. : CPU, mémoire vive). Nous avons développé deux modules pour identifier les requêtes sensibles. En déployant ces modules sur des mécanismes de protection existants, nous avons établi qu'ils permettent d'améliorer considérablement leurs performances. / During the last few years, the technological progress in collecting, storing and processing a large quantity of data for a reasonable cost has raised serious privacy issues. Privacy concerns many areas, but is especially important in frequently used services like search engines (e.g., Google, Bing, Yahoo!). These services allow users to retrieve relevant content on the Internet by exploiting their personal data. In this context, developing solutions to enable users to use these services in a privacy-preserving way is becoming increasingly important. In this thesis, we introduce SimAttack an attack against existing protection mechanism to query search engines in a privacy-preserving way. This attack aims at retrieving the original user query. We show with this attack that three representative state-of-the-art solutions do not protect the user privacy in a satisfactory manner. We therefore develop PEAS a new protection mechanism that better protects the user privacy. This solution leverages two types of protection: hiding the user identity (with a succession of two nodes) and masking users' queries (by combining them with several fake queries). To generate realistic fake queries, PEAS exploits previous queries sent by the users in the system. Finally, we present mechanisms to identify sensitive queries. Our goal is to adapt existing protection mechanisms to protect sensitive queries only, and thus save user resources (e.g., CPU, RAM). We design two modules to identify sensitive queries. By deploying these modules on real protection mechanisms, we establish empirically that they dramatically improve the performance of the protection mechanisms. Informatique Moteurs de recherche Vie privée Internet IT - Information Technology Search Engines Privacy 025.040 72
2	Système de recommandation de ressources pédagogiques fondé sur les liens sociaux : Formalisation et évaluation / Educational resource recommendation system based on social links : Formalization and evaluation Tadlaoui, Mohammed 03 July 2018 (has links) Avec la quantité croissante du contenu pédagogique produit chaque jour par les utilisateurs, il devient très difficile pour les apprenants de trouver les ressources les plus adaptées à leurs besoins. Les systèmes de recommandation sont utilisés dans les plateformes éducatives pour résoudre le problème de surcharge d'information. Ils sont conçus pour fournir des ressources pertinentes à un apprenant en utilisant certaines informations sur les utilisateurs et les ressources. Le présent travail s'inscrit dans le contexte des systèmes de recommandation des ressources pédagogiques, en particulier les systèmes qui utilisent des informations sociales. Nous avons défini une approche de recommandation de ressources éducatives en se basant sur les résultats de recherche dans le domaine des systèmes de recommandation, des réseaux sociaux et des environnements informatiques pour l’apprentissage humain. Nous nous appuyons sur les relations sociales entre apprenants pour améliorer la précision des recommandations. Notre proposition est basée sur des modèles formels qui calculent la similarité entre les utilisateurs d'un environnement d'apprentissage pour générer trois types de recommandation, à savoir la recommandation des 1) ressources populaires, 2) ressources utiles et 3) ressources récemment consultées. Nous avons développé une plateforme d'apprentissage, appelée Icraa, qui intègre nos modèles de recommandation. La plateforme Icraa est un environnement d’apprentissage social qui permet aux apprenants de télécharger, de visualiser et d’évaluer les ressources éducatives. Dans cette thèse, nous présentons les résultats d'une expérimentation menée pendant deux ans qui a impliqué un groupe de 372 apprenants d'Icraa dans un contexte éducatif réel. L'objectif de cette expérimentation est de mesurer la pertinence, la qualité et l'utilité des ressources recommandées. Cette étude nous a permis d'analyser les retours des utilisateurs concernant les trois types de recommandations. Cette analyse a été basée sur les traces des utilisateurs enregistrées avec Icraa et sur un questionnaire. Nous avons également effectué une analyse hors ligne en utilisant un jeu de données afin de comparer notre approche avec quatre algorithmes de référence. / With the increasing amount of educational content produced daily by users, it becomes very difficult for learners to find the resources that are best suited to their needs. Recommendation systems are used in educational platforms to solve the problem of information overload. They are designed to provide relevant resources to a learner using some information about users and resources. The present work fits in the context of recommender systems for educational resources, especially systems that use social information. We have defined an educational resource recommendation approach based on research findings in the area of recommender systems, social networks, and Technology-Enhanced Learning. We rely on social relations between learners to improve the accuracy of recommendations. Our proposal is based on formal models that calculate the similarity between users of a learning environment to generate three types of recommendation, namely the recommendation of 1) popular resources; 2) useful resources; and 3) resources recently consulted. We have developed a learning platform, called Icraa, which integrates our recommendation models. The Icraa platform is a social learning environment that allows learners to download, view and evaluate educational resources. In this thesis, we present the results of an experiment conducted for almost two years on a group of 372 learners of Icraa in a real educational context. The objective of this experiment is to measure the relevance, quality and usefulness of the recommended resources. This study allowed us to analyze the user’s feedback on the three types of recommendations. This analysis is based on the users’ traces which was saved with Icraa and on a questionnaire. We have also performed an offline analysis using a dataset to compare our approach with four base line algorithms. Informatique Réseaux sociaux Ressources pédagogiques Système de recommandation Personnalisation de données Information Technology Social network E-Learning Recommender systems Personalized e-Learning 025.040 72
3	Local and social recommendation in decentralized architectures / Recommandation locale et sociale dans les architectures décentralisées Meyffret, Simon 07 December 2012 (has links) Dans notre société de plus en plus numérique, les systèmes de recommandation ont fait leur apparition dans le but de résoudre le problème bien connu de surcharge d'information. L'adoption des réseaux sociaux a permis l'émergence de systèmes intégrant les relations sociales dans leurs recommandations. Dans cette thèse, nous proposons un système de recommandation adapté aux architectures décentralisées pouvant être déployé sur des réseaux sociaux existants. L'utilisateur conserve son profil en local et ne communique qu'avec un ensemble restreint d'utilisateurs de confiance, avec qui il accepte de partager ses données. Nous prenons en compte le réseau social de l'utilisateur afin de construire le réseau de pairs. La similarité des amis est prise en compte pour pondérer les liens. Les recommandations sont propagées dans le réseau, passant d'amis en amis jusqu'à atteindre l'utilisateur désiré. Ainsi seuls les amis directs communiquent entre eux. À partir de cette propagation, nous proposons plusieurs techniques. Tout d'abord, nous délivrons à l'utilisateur final une confiance du système dans la fiabilité de la recommandation. Ceci lui permet de choisir parmi les produits sélectionnés, lesquels semblent effectivement les plus pertinents pour lui. Cette confiance est calculée sur plusieurs critères, tels que la variation des recommandations des amis, leur nombre, la similarité et la fraîcheur de la recommandation. Ensuite, nous définissons des heuristiques adaptant notre approche aux systèmes pair-à-pair. Dans de telles architectures, le réseau est une ressource critique et ne doit pas être constamment surchargé. Ces heuristiques limitent la consommation réseau de notre approche tout en fournissant des recommandations pertinentes à l'utilisateur. Enfin, nous proposons plusieurs stratégies de score par défaut, dans le cas où aucun score n'est calculable, prenant en compte les contraintes en terme d'accès à l'information par le système. Nous comparons notre approche avec des approches classiques de recommandation, de filtrage collaboratif ou basées sur la confiance, en utilisant plusieurs jeux de données existants, tels qu'Epinions et Flixster, ainsi que deux jeux de données que nous avons construits nous-même. Nous montrons qu'une approche purement locale, associée à des stratégies de score par défaut, offre de meilleurs résultats que la plupart des autres approches, notamment en ce qui concerne les "cold start users". / Recommender systems are widely used to achieve a constantly growing variety of services. Alongside with social networks, recommender systems that take into account friendship or trust between users have emerged. In this thesis, we propose an evolution of trust-based recommender systems adapted to decentralized architectures that can be deployed on top of existing social networks. Users profiles are stored locally and are exchanged with a limited, user-defined, list of trusted users. Our approach takes into account friends' similarity and propagates recommendation to direct friends in the social network in order to prevent ratings from being globally known. Moreover, the computational complexity is reduced since calculations are performed on a limited dataset, restricted to the user's neighborhood. On top of this propagation, our approach investigates several aspects. Our system computes and returns to the final user a confidence on the recommendation. It allows the user to tune his/her choice from the recommended products. Confidence takes into account friends' recommendations variance, their number, similarity and freshness of the recommendations. We also propose several heuristics that take into account peer-to-peer constraints, especially regarding network flooding. We show that those heuristics decrease network resources consumption without sacrificing accuracy and coverage. We propose default scoring strategies that are compatible with our constraints. We have implemented and compared our approach with existing ones, using multiple datasets, such as Epinions and Flixster. We show that local information with default scoring strategies are sufficient to cover more users than classical collaborative filtering and trust-based recommender systems. Regarding accuracy, our approach performs better than others, especially for cold start users, even if using less information. Informatique Réseaux sociaux Recommandation Confiance Connaissance locale Propagation de score Architecture pair-à-pair Information Technology Social network Recommendation Trust Local knowledge Score propagation P2P architectures 025.040 72
4	Usage-driven unified model for user profile and data source profile extraction / Model unifié dérigé par l'usage pour l'extraction du profile de l'utilisateur et de la source de donnée Limam, Lyes 24 June 2014 (has links) La problématique traitée dans la thèse s’inscrit dans le cadre de l’analyse d’usage dans les systèmes de recherche d’information. En effet, nous nous intéressons à l’utilisateur à travers l’historique de ses requêtes, utilisées comme support d’analyse pour l’extraction d'un profil d’usage. L’objectif est de caractériser l’utilisateur et les sources de données qui interagissent dans un réseau afin de permettre des comparaisons utilisateur-utilisateur, source-source et source-utilisateur. Selon une étude que nous avons menée sur les travaux existants sur les modèles de profilage, nous avons conclu que la grande majorité des contributions sont fortement liés aux applications dans lesquelles ils étaient proposés. En conséquence, les modèles de profils proposés ne sont pas réutilisables et présentent plusieurs faiblesses. Par exemple, ces modèles ne tiennent pas compte de la source de données, ils ne sont pas dotés de mécanismes de traitement sémantique et ils ne tiennent pas compte du passage à l’échelle (en termes de complexité). C'est pourquoi, nous proposons dans cette thèse un modèle d’utilisateur et de source de données basé sur l’analyse d’usage. Les caractéristiques de ce modèle sont les suivantes. Premièrement, il est générique, permettant de représenter à la fois un utilisateur et une source de données. Deuxièmement, il permet de construire le profil de manière implicite à partir de l’historique de requêtes de recherche. Troisièmement, il définit le profil comme un ensemble de centres d’intérêts, chaque intérêt correspondant à un cluster sémantique de mots-clés déterminé par un algorithme de clustering spécifique. Et enfin, dans ce modèle le profil est représenté dans un espace vectoriel. Les différents composants du modèle sont organisés sous la forme d’un Framework, la complexité de chaque composant y est évaluée. Le Framework propose : - une méthode pour la désambigüisation de requêtes; - une méthode pour la représentation sémantique des logs sous la forme d’une taxonomie ; - un algorithme de clustering qui permet l’identification rapide et efficace des centres d’intérêt représentés par des clusters sémantiques de mots clés ; - une méthode pour le calcul du profil de l’utilisateur et du profil de la source de données à partir du modèle générique. Le Framework proposé permet d'effectuer différentes tâches liées à la structuration d’un environnement distribué d’un point de vue usage. Comme exemples d’application, le Framework est utilisé pour la découverte de communautés d’utilisateurs et la catégorisation de sources de données. Pour la validation du Framework, une série d’expérimentations est menée en utilisant des logs du moteur de recherche AOL-search, qui ont démontrées l’efficacité de la désambigüisation sur des requêtes courtes, et qui ont permis d’identification de la relation entre le clustering basé sur une fonction de qualité et le clustering basé sur la structure. / This thesis addresses a problem related to usage analysis in information retrieval systems. Indeed, we exploit the history of search queries as support of analysis to extract a profile model. The objective is to characterize the user and the data source that interact in a system to allow different types of comparison (user-to-user, source-to-source, user-to-source). According to the study we conducted on the work done on profile model, we concluded that the large majority of the contributions are strongly related to the applications within they are proposed. As a result, the proposed profile models are not reusable and suffer from several weaknesses. For instance, these models do not consider the data source, they lack of semantic mechanisms and they do not deal with scalability (in terms of complexity). Therefore, we propose a generic model of user and data source profiles. The characteristics of this model are the following. First, it is generic, being able to represent both the user and the data source. Second, it enables to construct the profiles in an implicit way based on histories of search queries. Third, it defines the profile as a set of topics of interest, each topic corresponding to a semantic cluster of keywords extracted by a specific clustering algorithm. Finally, the profile is represented according to the vector space model. The model is composed of several components organized in the form of a framework, in which we assessed the complexity of each component. The main components of the framework are: - a method for keyword queries disambiguation; - a method for semantically representing search query logs in the form of a taxonomy; - a clustering algorithm that allows fast and efficient identification of topics of interest as semantic clusters of keywords; - a method to identify user and data source profiles according to the generic model. This framework enables in particular to perform various tasks related to usage-based structuration of a distributed environment. As an example of application, the framework is used to the discovery of user communities, and the categorization of data sources. To validate the proposed framework, we conduct a series of experiments on real logs from the search engine AOL search, which demonstrate the efficiency of the disambiguation method in short queries, and show the relation between the quality based clustering and the structure based clustering. Informatique Recherche d'information Analyse de logs Query log analysis Clustering Profil utilisateur Desambiguisation de requêtes Information Technology Information retrieval Clustering User profile Query disambiguation 025.040 72
5	Semantic snippets via query-biased ranking of linked data entities / Snippets sémantiques via l'ordonnancement biaisé-requête des entités LOD Alsarem, Mazen 30 May 2016 (has links) Dans cette thèse, nous introduisons un nouvel artefact interactif pour le SERP: le "Snippet sémantique". Les snippets sémantiques s'appuient sur la coexistence des deux Webs pour faciliter le transfert des connaissances aux utilisateurs grâce a une contextualisation sémantique du besoin d'information de l'utilisateur. Ils font apparaître les relations entre le besoin d'information et les entités les plus pertinentes présentes dans la page Web. / In this thesis, we introduce a new interactive artifact for the SERP: the "Semantic Snippet". Semantic Snippets rely on the coexistence of the two webs to facilitate the transfer of knowledge to the user thanks to a semantic contextualization of the user's information need. It makes apparent the relationships between the information need and the most relevant entities present in the web page. Informatique Web sémantique Web de données Ordonnancement d'entités Snippet sémantique Information Technology Semantic web Web of data Entity ranking Semantic snippets 025.040 72
6	QTor : Une approche communautaire pour l'évaluation de requêtes / QTor : Using communities to evaluate queries Dufromentel-Fougerit, Sébastien 09 December 2016 (has links) Cette thèse porte sur la mise en place d'un système de requêtage sur des flux sous contraintes de capacités. Ce système est porté par ses utilisateurs-trices et basé sur les similitudes entre requêtes. Les relations d'équivalences entre les différentes requêtes permettent de réunir les participants au sein de communautés d'intérêt. Celles-ci forment alors une abstraction permettant de séparer le problème d'organisation du système en plusieurs sous-problèmes plus simples et de taille réduite. Afin de garantir une généricité vis-à-vis du langage, l'organisation repose sur une API simple et modulable. Nous avons ainsi recours au mécanisme de réécritures de requêtes utilisant des vues matérialisées, connu en bases de données, pour déterminer les relations possibles entre les communautés. Le choix entre ces différentes possibilités est ensuite effectué à l'aide d'un modèle de coût paramétrable. Les relations entre communautés sont concrétisées par un échange de ressources entre elles, un participant de l'une venant contribuer à l'autre. Cela permet de s'affranchir des limitations de capacités au niveau abstrait, tout en en tenant hautement compte pour la mise en relation effective des participants. Au sein des communautés, un arbre de diffusion permet à l'ensemble des participants de récupérer les résultats requis. L'approche, mise en œuvre de manière incrémentale, permet une réduction efficace des coûts de calcul et de diffusion (l'optimalité est atteinte, notamment, dans le cas de l'inclusion de requête) pour un coût d'organisation limité et une latence raisonnable. Les expérimentations réalisées ont montré une grande adaptabilité aux variations concernant les requêtes exprimées et les capacités des participants. Le démonstrateur mis en place peut être utilisé à la fois pour des simulations (automatiques ou interactives) et pour un déploiement réel, par une implémentation commune générique vis-à-vis du langage. / This thesis addresses the problem of the organization of querying system on data streams under capacity constraints, such system being user-powered and based on the queries' similarity. Equivalence relations between queries allow to group the participants into communities. Those communities are then used as an abstraction to split the general organization problem into several easier and smaller subproblems. In order to stay language-independent, the organization is based on a simple and modular API, that rely on a query answering using views mechanism, well known in databases. Choice between the different rewritten queries is done using an adjustable cost model. Relations between communities are thus materialized by a spreading mechanism, a participant from one community joining the other(s) to contribute. This allows to avoid the capacities problem on the organization's abstract level, while efficiently taking care of it on the concrete one. Inside the communities, all the participants receive the common results they need using a spanning tree. The QTor approach, incrementally built, allows an efficient reduce of the processing and diffusion costs (processing cost being optimal in some cases, e.g. containment) with a reasonable latency, for a limited organization cost. Experiments have shown that the organization is flexible, regarding both the expressed queries and the participants' capacities. A demonstrator was built, allowing to both perform (automatic or interactive) simulations, and deploy the system over a real network, with a single. Informatique Requête Requêts continues sur flux Communauté d'intérêt Réécriture de requêtes Information Technology Query Continuous queries over streams Query rewriting 025.040 72
7	Metaheuristic based peer rewiring for semantic overlay networks / Métaheuristique pour la configuration dynamique de réseaux pair-à-pair dans le context des réseaux logiques sémantiques Yang, Yulian 28 March 2014 (has links) Nous considérons une plate-forme pair-à-pair pour la Recherche d'Information (RI) collaborative. Chaque pair héberge une collection de documents textuels qui traitent de ses sujets d'intérêt. En l'absence d'un mécanisme d'indexation global, les pairs indexent localement leurs documents et s'associent pour fournir un service distribué de réponse à des requêtes. Notre objectif est de concevoir un protocole décentralisé qui permette aux pairs de collaborer afin de transmettre une requête depuis son émetteur jusqu'aux pairs en possession de documents pertinents. Les réseaux logiques sémantiques (Semantic Overlay Networks, SON) représentent la solution de référence de l'état de l'art. Les pairs qui possèdent des ressources sémantiques similaires sont regroupés en clusters. Les opérations de RI seront alors efficaces puisqu'une requête sera transmise aux clusters de pairs qui hébergent les ressources pertinentes. La plupart des approches actuelles consistent en une reconfiguration dynamique du réseau de pairs (peer rewiring). Pour ce faire, chaque pair exécute périodiquement un algorithme de marche aléatoire ou gloutonne sur le réseau pair-à-pair afin de renouveler les pairs de son cluster. Ainsi, un réseau à la structure initialement aléatoire évolue progressivement vers un réseau logique sémantique. Jusqu'à présent, les approches existantes n'ont pas considéré que l'évolution de la topologie du réseau puisse influer sur les performances de l'algorithme de reconfiguration dynamique du réseau. Cependant, s'il est vrai que, pour une configuration initiale aléatoire des pairs, une marche aléatoire sera efficace pour découvrir les pairs similaires, lorsque des clusters commencent à émerger une approche gloutonne devient alors mieux adaptée. Ainsi, nous proposons une stratégie qui applique un algorithme de recuit simulé (Simulated Annealing, SA) afin de faire évoluer une stratégie de marche aléatoire vers une stratégie gloutonne lors de la construction du SON. Cette thèse contient plusieurs avancées concernant l'état de l'art dans ce domaine. D'abbord, nous modélisions formellement la reconfiguration dynamique d'un réseau en un SON. Nous identifions un schéma générique pour la reconfiguration d'un réseau pair-à-pair, et après le formalisons en une procédure constituée de trois étapes. Ce framework cohérent offre à ses utilisateurs de quoi le paramétrer. Ensuite, le problème de la construction d'un SON est modélisé sous la forme d'un problème d'optimisation combinatoire pour lequel les opérations de reconfiguration du réseau correspondent à la recherche décentralisée d'une solution locale. Fondée sur ce modèle, une solution concrète à base de recuit simulé est proposée. Nous menons une étude expérimentale poussée sur la construction du SON et la RI sur SONs, et validions notre approche. / A Peer-to-Peer (P2P) platform is considered for collaborative Information Retrieval (IR). Each peer hosts a collection of text documents with subjects related to its owner's interests. Without a global indexing mechanism, peers locally index their documents, and provide the service to answer queries. A decentralized protocol is designed, enabling the peers to collaboratively forward queries from the initiator to the peers with relevant documents. Semantic Overlay Network (SONs) is one the state of the art solutions, where peers with semantically similar resources are clustered. IR is efficiently performed by forwarding queries to the relevant peer clusters in an informed way. SONs are built and maintained mainly via peer rewiring. Specifically, each peer periodically sends walkers to its neighborhood. The walkers walk along peer connections, aiming at discovering more similar peers to replace less similar neighbors of its initiator. The P2P network then gradually evolves from a random overlay network to a SON. Random and greedy walk can be applied individually or integrated in peer rewiring as a constant strategy during the progress of network evolution. However, the evolution of the network topology may affect their performance. For example, when peers are randomly connected with each other, random walk performs better than greedy walk for exploring similar peers. But as peer clusters gradually emerge in the network, a walker can explore more similar peers by following a greedy strategy. This thesis proposes an evolving walking strategy based on Simulated Annealing (SA), which evolves from a random walk to a greedy walk along the progress of network evolution. According to the simulation results, SA-based strategy outperforms current approaches, both in the efficiency to build a SON and the effectiveness of the subsequent IR. This thesis contains several advancements with respect to the state of the art in this field. First of all, we identify a generic peer rewiring pattern and formalize it as a three-step procedure. Our technique provides a consistent framework for peer rewiring, while allowing enough flexibility for the users/designers to specify its properties. Secondly, we formalize SON construction as a combinatorial optimization problem, with peer rewiring as its decentralized local search solution. Based on this model, we propose a novel SA-based approach to peer rewiring. Our approach is validated via an extensive experimental study on the effect of network wiring on (1) SON building and (2) IR in SONs. Informatique Recherche d'informations Reseau pair à pair Reseau logique sématique Recablage des pairs Recherche locale Recuit simulé Information Technology Information retrieval Peer-To-Peer networks Semantic overlay network Peer rewiring Local search Simulated annealing 025.040 72
8	Une approche orientée service pour la recherche sémantique de contenus multimédias / An oriented service approach for semantic search of multimedia contents Midouni, Sid Ahmed Djallal 08 July 2017 (has links) Les sources de données multimédias provenant de divers domaines (médical, tourisme, commerce, art et culture, etc.) sont devenues incontournables sur le web. L’accès à ces sources multimédias dans les systèmes distribués pose de nouveaux problèmes en raison de nombreux paramètres : volumétrie, diversité des interfaces, format de représentation, localisation, etc. En outre, l’exigence de plus en plus forte des utilisateurs et des applications à vouloir intégrer la sémantique dans la recherche d’information pose de nouvelles questions à résoudre. Pour prendre en compte cette nouvelle complexité, nous nous intéressons dans notre travail de recherche aux solutions d’intégration de données basées sur les services web. Dans cette thèse, nous proposons une approche orientée service pour la recherche sémantique de contenus multimédia. Nous avons appelé cette approche SeSaM (Semantic Search of Multimedia content). SeSaM repose sur la définition d’un nouveau type de services accédant aux contenus multimédias, qui est les services MaaS (Multimedia as a Services). Elle est basée sur un processus en deux phases : description et découverte des services MaaS. En ce qui concerne la description de services MaaS, nous avons défini le langage SA4MaaS (Semantic Annotation for MaaS services), qui est une extension de SAWSDL (recommandation W3C). L’idée principale de ce langage est l’intégration, en plus de la sémantique métier, de la sémantique de l’information multimédia dans la description des services MaaS. En ce qui concerne la découverte de services MaaS, nous avons proposé un nouveau matchmaker MaaS-MX (MaaS services Matchmaker) adapté au modèle de description des MaaS. MaaS-MX est composé de deux étapes primordiales : appariement métier et appariement multimédia. L’appariement métier consiste à comparer la description métier des services et de la requête, tandis que l’appariement multimédia compare la description multimédia des services et de la requête. L’approche a été prototypée et évaluée dans deux domaines différents : médical et tourisme. Les résultats indiquent que l’utilisation de l’appariement métier et l’appariement multimédia a considérablement amélioré les performances des systèmes de recherche de données multimédias. / Multimedia data sources from various fields (medical, tourism, trade, art and culture, etc.) became essential on the web. Accessing to multimedia data in distributed systems poses new challenges due to many system parameters: volume, diversity of interfaces, representation format, location, etc. In addition, the growing needs of users and applications to incorporate semantics in the information retrieval pose new issues. To take into account this new complexity, we are interested in our research of data integration solutions based on web services. In this thesis, we propose an approach-oriented service for the semantic search of multimedia content. We called this approach SeSaM (Semantic Search of Multimedia content). SeSaM is based on the definition of a new pattern of services to access multimedia content, which is the MaaS services (Multimedia as a Services). It is based on a two-phase process: description and discovery of MaaS services. As for the MaaS services description, we have defined the SA4MaaS language (Semantic Annotation for MaaS services), which is an extension of SAWSDL (W3C recommendation). The main idea of this language is the integration, in addition to business domain semantic, of multimedia information semantics in the MaaS services description. As for the MaaS service discovery, we have proposed a new matchmaker MaaS-MX (MaaS services Matchmaker) adapted to the MaaS services description model. MaaS-MX is composed of two essential steps: domain matching and multimedia matching. Domain matching consists in comparing the business domain description of MaaS services and the query, whereas multimedia matching compares the multimedia description of MaaS services and the query. The approach has been implemented and evaluated in two different domains: medical and tourism. The results indicate that using both domain and multimedia matching considerably improves the performance of multimedia data retrieving systems. Informatique Recherche d'information Données multimédia Services Web sémantiques Description du service Découverte de services IT - Information Technology Information retrieval Mutlimedia Data Semantic web services Web service description Web service discovery 025.040 72

Search results