• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 87
  • 55
  • 8
  • 1
  • 1
  • Tagged with
  • 150
  • 64
  • 47
  • 44
  • 43
  • 40
  • 29
  • 29
  • 29
  • 28
  • 26
  • 26
  • 25
  • 25
  • 24
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web / Text mining and recommender systems applied to job postings

Séguéla, Julie 03 May 2012 (has links)
L'expansion du média Internet pour le recrutement a entraîné ces dernières années la multiplication des canaux dédiés à la diffusion des offres d'emploi. Dans un contexte économique où le contrôle des coûts est primordial, évaluer et comparer les performances des différents canaux de recrutement est devenu un besoin pour les entreprises. Cette thèse a pour objectif le développement d'un outil d'aide à la décision destiné à accompagner les recruteurs durant le processus de diffusion d'une annonce. Il fournit au recruteur la performance attendue sur les sites d'emploi pour un poste à pourvoir donné. Après avoir identifié les facteurs explicatifs potentiels de la performance d'une campagne de recrutement, nous appliquons aux annonces des techniques de fouille de textes afin de les structurer et d'en extraire de l'information pertinente pour enrichir leur description au sein d'un modèle explicatif. Nous proposons dans un second temps un algorithme prédictif de la performance des offres d'emploi, basé sur un système hybride de recommandation, adapté à la problématique de démarrage à froid. Ce système, basé sur une mesure de similarité supervisée, montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée. Nos expérimentations sont menées sur un jeu de données réelles, issues d'une base de données d'annonces publiées sur des sites d'emploi. / Last years, e-recruitment expansion has led to the multiplication of web channels dedicated to job postings. In an economic context where cost control is fundamental, assessment and comparison of recruitment channel performances have become necessary. The purpose of this work is to develop a decision-making tool intended to guide recruiters while they are posting a job on the Internet. This tool provides to recruiters the expected performance on job boards for a given job offer. First, we identify the potential predictors of a recruiting campaign performance. Then, we apply text mining techniques to the job offer texts in order to structure postings and to extract information relevant to improve their description in a predictive model. The job offer performance predictive algorithm is based on a hybrid recommender system, suitable to the cold-start problem. The hybrid system, based on a supervised similarity measure, outperforms standard multivariate models. Our experiments are led on a real dataset, coming from a job posting database.
82

Fairness through domain awareness : mitigating popularity bias for music discovery

Salganik, Rebecca 11 1900 (has links)
The last decade has brought with it a wave of innovative technology, shifting the channels through which creative content is created, consumed, and categorized. And, as our interactions with creative multimedia content shift towards online platforms, the sheer quantity of content on these platforms has necessitated the integration of algorithmic guidance in the discovery of these spaces. In this way, the recommendation algorithms that guide users' interactions with various art forms have been cast into the role of gatekeepers and begun to play an increasingly influential role in shaping the creation of artistic content. The work laid out in the following chapters fuses three major areas of research: graph representation learning, music information retrieval, and fairness as applied to the task of music recommendation. In recent years, graph neural networks (GNNs), a powerful new architecture which enables deep learning approaches to be applied to graph or network structures, have proven incredibly influential in the music recommendation domain. In tandem with the striking performance gains that GNNs are able to achieve, many of these systems, have been shown to be strongly influenced by the degree, or number of outgoing edges, of individual nodes. More concretely, recent works have uncovered disparities in the qualities of representations learned by state of the art GNNs between nodes which are strongly and weakly connected. Translating these findings to the sphere of recommender systems, where nodes and edges are used to represent the interactions between users and various items, these disparities in representation that are contingent upon a node's connectivity can be seen as a form of popularity bias. And, indeed, within the broader recommendation community, popularity bias has long been considered an open problem, in which recommender systems begin to favor mainstream content over, potentially more relevant, but niche or novel items. If left unchecked these algorithmic nudged towards previously popular content can create, intensify, and enforce negative cycles that perpetuate disparities in representation on both the user and the creator ends of the content consumption pipeline. Particularly in the recommendation of creative (e.g. musical) content, the downstream effects in these disparities of visibility can have genuine economic consequences for artists from under-represented communities. Thus, the problem of popularity bias is something that must be addressed from both a technical and societal perspective. And, as the influence of recommender systems continues to spread, the effects of this phenomenon only become more spurious, as they begin to have critical downstream effects that shape the larger ecosystems in which art is created. Thus, the broad focus of thesis is the mitigation of popularity bias in music recommendation. In order to tailor our exploration of this issue to the graph domain, we begin by formalizing the relationship between degree fairness and popularity bias. In doing so, we concretely define the notion of popularity, grounding it in the structural principles of an interaction network, and enabling us to design objectives that can mitigate the effects of popularity on representation learning. In our first work, we focus on understanding the effects of sampling on degree fairness in uni-partite graphs. The purpose of this work is to lay the foundation for the graph neural network model which will underlie our music recommender system. We then build off this first work by extending the initial fairness framework to be compatible with bi-partite graphs and applying it to the music domain. The motivation of this work is rooted in the notion of discovery, or the idea that users engage with algorithmic curation in order to find content that is both novel and relevant to their artistic tastes. We present the intrinsic relationship between discovery objectives and the presence of popularity bias, explaining that the presence of popularity bias can blind a system to the musical qualities that underpin the underlying needs of music listening. As we will explain in later sections, one of the key elements of this work is our ability to ground our fairness notion in the musical domain. Thus, we propose a domain-aware, individual fairness-based approach which addresses popularity bias in graph neural network (GNNs) based recommender systems. In order to facilitate this domain awareness, we perform extensive dataset augmentation, taking two state of the art music recommendation datasets and augmenting them with rich multi-modal node-level features. Finally, we ground our evaluation in the cold start setting, showing the importance of inductive methodologies in the music space. / La dernière décennie a apporté avec elle une vague de technologies innovantes, modifiant la manière dont le contenu créatif est créé, consommé et catégorisé. Et, à mesure que nos interactions avec les contenus multimédias créatifs se déplacent vers les plateformes en ligne, la quantité de contenu sur ces plateformes a nécessité l’intégration d’un guidage algorithmique dans la découverte de ces espaces. De cette façon, les algorithmes de recommandation qui guident les interactions des utilisateurs avec diverses formes d’art ont été jetés dans le rôle de gardiens et ont commencé à jouer un rôle de plus en plus influent dans l’élaboration de la création de contenu artistique. Le travail présenté dans les chapitres suivants fusionne trois grands domaines de recherche : l’apprentissage de la représentation graphique, la recherche d’informations musicales et l’équité appliquée à la tâche de recommandation musicale. Alors que l’influence des systèmes de recommandation continue de s’étendre et de s’intensifier, il est crucial de prendre en compte les effets en aval que les choix de conception peuvent avoir sur l’écosystème plus large de la création artistique. Ces dernières années, l’intégration des réseaux sociaux dans la tâche de recommandation musicale a donné naissance aux réseaux neuronaux de graphes (GNN), une nouvelle architecture capable de faire des prédictions sur les structures de graphes. Parallèlement aux gains miraculeux que les GNN sont capables de réaliser, bon nombre de ces systèmes peuvent également être la proie de biais de popularité, les forçant à privilégier le contenu grand public par rapport à des éléments potentiellement plus pertinents, mais de niche ou nouveaux. S’il n’est pas maîtrisé, ce cycle négatif peut perpétuer les disparités de représentation entre la musique d’artistes, de genres ou de populations minoritaires. Et, ce faisant, les disparités dans la visibilité des éléments peuvent entraîner des problèmes à la fois du point de vue des performances et de la société. L’objectif de la thèse est l’atténuation du biais de popularité. Premièrement, le travail formalise les liens entre l’équité individuelle et la présence d’un biais de popularité parmi les contenus créatifs. Ensuite, nous étendons un cadre d’équité individuelle, en l’appliquant au domaine de la recommandation musicale. Le coeur de cette thèse s’articule autour de la proposition d’une approche basée sur l’équité individuelle et sensible au domaine qui traite le biais de popularité dans les systèmes de recommandation basés sur les réseaux de 5 neurones graphiques (GNN). L’un des éléments clés de ce travail est notre capacité à ancrer notre notion d’équité dans le domaine musical. Afin de faciliter cette prise de conscience du domaine, nous effectuons une augmentation étendue des ensembles de données, en prenant deux ensembles de données de recommandation musicale à la pointe de la technologie et en les augmentant avec de riches fonctionnalités multimodales au niveau des noeuds. Enfin, nous fondons notre évaluation sur le démarrage à froid, montrant l’importance des méthodologies inductives dans l’espace musical.
83

LORESA : un système de recommandation d'objets d'apprentissage basé sur les annotations sémantiques

Benlizidia, Sihem January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
84

An intelligent help system to support teachers to author learning sessions in decision-making in network design

Rodríguez, Arnoldo January 2006 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
85

Présence des marques dans les communautés virtuelles de consommation : rôle et impact sur la relation à la marque / Brands presence in virtual communities of consumption : roles and impact on brand relationships

Lopez, Frédéric 12 December 2012 (has links)
Cette recherche propose la création d’un premier modèle expliquant les relations entre les communautés virtuelles de consommation, leurs membres et leur écosystème virtuel de marques. À la différence des nombreux travaux sur le marketing tribal, concentrés sur les communautés de marque, l’auteur choisit d’axer son travail sur l’étude des communautés virtuelles non centrées autour d’une marque spécifique, permettant ainsi d’explorer pour la première fois divers cas de relations marque-communauté modulées par différentes variables telles que le niveau de congruence entre les valeurs d’une marque et celles de la communauté, le niveau d’intrusion et le niveau de contribution d’une marque dans la communauté. Outre l’identification de ces variables explicatives de la relation marque-communauté, cette recherche caractérise également l’ensemble des relations possibles entre marques et communautés tout en évaluant leur impact sur la relation individuelle marque-membre. Les résultats de l’étude de deux couples de marques testés dans deux communautés différentes montrent notamment que la recommandation d’une communauté à l’égard d’une marque a un impact positif sur la confiance d’un membre auprès de cette marque et que le dénigrement produit l’effet inverse. En revanche, contrairement à ce qui est observé dans les communautés de marque, le phénomène de co-création entre une marque et une communauté non marquée peut conduire à une érosion de la confiance d’un membre à l’égard de cette marque. La distinction entre communauté de marque et communauté « non marquée » est donc fondamentale dans l’étude de ces nouvelles structures sociétales. / This research explains the creation of a first model of relationships between virtual communities, their members and their brands virtual ecosystem. Unlike the many papers on tribal marketing, converging on brand communities, the author chooses to focus his work on the study of virtual communities not centered on a specific brand, allowing for the first time, the exploration of various cases of community-brand relationships modulated by several variables such as the congruence level between the values of the brand and those of the community, the contribution and the intrusion levels of the brand in the community. Besides the identification of these explanatory variables of the community-brand relationship, this research also describes all the possible relationships between brands and communities while assessing their impact on the individual relationship consumer-brand. The results of the study on two couples of brands tested on two different communities especially show that recommendation of a community about a brand has a positive impact on the member trust in this brand and that the denigration has the opposite effect. However, unlike what we observed in brand communities, the co-creation phenomenon between a brand and an “unbranded community” can lead to an erosion of the member trust in this brand. The distinction between brand community and “unbranded community” is therefore essential for the study of these new societal structures.
86

A semantic framework for social search / Un cadre de développement sémantique pour la recherche sociale

Stan, Johann 09 November 2011 (has links)
Cette thèse présente un système permettant d’extraire les interactions partagées dans les réseaux sociaux et de construire un profil dynamique d’expertise pour chaque membre dudit réseau social. La difficulté principale dans cette partie est l’analyse de ces interactions, souvent très courtes et avec peu de structure grammaticale et linguistique. L’approche que nous avons mis en place propose de relier les termes importants de ces messages à des concepts dans une base de connaissance sémantique, type Linked Data. Cette connexion permet en effet d’enrichir le champ sémantique des messages en exploitant le voisinage sémantique du concept dans la base de connaissances. Notre première contribution dans ce contexte est un algorithme qui permet d'effectuer cette liaison avec une précision plus augmentée par rapport à l’état de l’art, en considérant le profil de l’utilisateur ainsi que les messages partagés dans la communauté dont il est membre comme source supplémentaire de contexte. La deuxième étape de l’analyse consiste à effectuer l’expansion sémantique du concept en exploitant les liens dans la base de connaissance. Notre algorithme utilise une heuristique basant sur le calcul de similarité entre les descriptions des concepts pour ne garder que ceux les plus pertinents par rapport au profil de l’utilisateur. Les deux algorithmes mentionnés précédemment permettent d’avoir un ensemble de concepts qui illustrent les centres d'expertise de l’utilisateur. Afin de mesurer le degré d'expertise de l’utilisateur qui s’applique sur chaque concept dans son profil, nous appliquons la méthode-standard vectoriel et associons à chaque concept une mesure composée de trois éléments : (i) le tf-idf, (ii) le sentiment moyen que l’utilisateur exprime par rapport au dit concept et (iii) l’entropie moyen des messages partagés contenant ledit concept. L’ensemble des trois mesures combinées permet d’avoir un poids unique associé à chaque concept du profil. Ce modèle de profil vectoriel permet de trouver les « top-k » profils les plus pertinents par rapport à une requête. Afin de propager ces poids sur les concepts dans l’expansion sémantique, nous avons appliqué un algorithme de type propagation sous contrainte (Constrained Spreading Activation), spécialement adapté à la structure d'un graphe sémantique. L’application réalisée pour prouver l’efficacité de notre approche, ainsi que d’illustrer la stratégie de recommandation est un système disponible en ligne, nommé « The Tagging Beak » (http://www.tbeak.com). Nous avons en effet développé une stratégie de recommandation type Q&A (question - réponse), où les utilisateurs peuvent poser des questions en langage naturel et le système recommande des personnes à contacter ou à qui se connecter pour être notifié de nouveaux messages pertinents par rapport au sujet de la question / In recent years, online collaborative environments, e.g. social content sites (such as Twitter or Facebook) have significantly changed the way people share information and interact with peers. These platforms have become the primary common environment for people to communicate about their activity and their information needs and to maintain and create social ties. Status updates or microposts emerged as a convenient way for people to share content frequently without a long investment of time. Some social platforms even limit the length of a “post”. A post generally consists of a single sentence (e.g. news, a question), it can include a picture, a hyperlink, tags or other descriptive data (metadata). Contrarily to traditional documents, posts are informal (with no controlled vocabulary) and don't have a well established structure. Social platforms can become so popular (huge number of users and posts), that it becomes difficult to find relevant information in the flow of notifications. Therefore, organizing this huge quantity of social information is one of the major challenges of such collaborative environments. Traditional information retrieval techniques are not well suited for querying such corpus, because of the short size of the share content, the uncontrolled vocabulary used by author and because these techniques don't take in consideration the ties in-between people. Also, such techniques tend to find the documents that best match a query, which may not be sufficient in the context of social platform where the creation of new connections in the platform has a motivating impact and where the platform tries to keep on-going participation. A new information retrieval paradigm, social search has been introduced as a potential solution to this problem. This solution consists of different strategies to leverage user generated content for information seeking, such as the recommendation of people. However, existing strategies have limitations in the user profile construction process and in the routing of queries to the right people identified as experts. More concretely, the majority of user profiles in such systems are keyword-based, which is not suited for the small size and the informal aspect of the posts. Secondly, expertise is measured only based on statistical scoring mechanisms, which do not take into account the fact that people on social platforms will not precisely consume the results of the query, but will aim to engage into a conversation with the expert. Also a particular focus needs to be done on privacy management, where still traditional methods initially designed for databases are used without taking into account the social ties between people. In this thesis we propose and evaluate an original framework for the organization and retrieval of information in social platforms. Instead of retrieving content that best matches a user query, we retrieve people who have expertise and are most motivated to engage in conversations on its topics. We propose to build dynamically profiles for users based on their interactions in the social platform. The construction of such profiles requires the capture of interactions (microposts), their analysis and the extraction and understanding of their topics. In order to build a more meaningful profile, we leverage Semantic Web Technologies and more specifically, Linked Data, for the transformation of microposts topics into semantic concepts. Our thesis contributes to several fields related to the organization, management and retrieval of information in collaborative environments and to the fields of social computing and human-computer interaction
87

Private Peer-to-peer similarity computation in personalized collaborative platforms / Calcul de similarité confidentiel en pair-à-pair dans les plateformes collaboratives personnalisées

Alaggan, Mohammad 16 December 2013 (has links)
Dans cette thèse nous considérons une plate-forme de filtrage collaboratif distribué dans laquelle chaque pair héberge ses informations personnelles, comme les URL qu'il a aimé, les pages d'information qui ont attiré son intérêt ou les vidéos qu'il a regardé, sur sa propre machine. Ensuite, sans reposer sur un tiers fiable, le pair s'engage dans un protocole distribué combinant ses données personnelles avec celles d'autres pairs afin d'exécuter un filtrage collaboratif. L'objectif principal est d'être capable de recevoir des recommandations personnalisées ou d'autres services comme un moteur de recherche distribué et personnalisé. Les protocoles de filtrage collaboratif basés sur les utilisateurs, qui demandent de calculer des similarités entre les utilisateurs, ont été appliqués aux systèmes distribués. Comme le calcul de similarité entre les utilisateurs nécessite d'utiliser leurs profils privés personnels, cela lève de sérieuses inquiétudes quant à la vie privée. Dans cette thèse nous adressons le problème du calcul de similarités entre les pairs sur une plate forme collaborative. Notre travail fournit une primitive préservant la vie privée pour le calcul de similarité qui peut rendre les protocoles collaboratifs respectueux de la vie privée. Nous adressons le challenge unique qui est d'appliquer des techniques de préservation de la vie privée pour le calcul de similarité aux systèmes dynamiques à large échelle. En particulier, nous introduisons un protocole cryptographique bipartite qui assure la differential privacy, une notion forte de préservation de la vie privée. De plus, nous résolvons le problème du budget de vie privée qui empêcherait les pairs de calculer leur similarité plus d'un nombre fixe de fois en introduisant la notion de canaux anonymes bidirectionnels. Nous développons aussi une variante hétérogène de la differential privacy qui peut apporter différent niveaux de confidentialité pour différent utilisateurs, et même différent niveaux de confidentialité pour différents items du profile d'un même utilisateur, prenant ainsi en compte différentes attentes en terme de préservation de la vie privée. De plus, nous proposons un protocole non interactif qui est très efficace pour publier une représentation compacte et préservant la vie privée des profiles des utilisateurs qui peut être utilisée pour estimer la similarité. Enfin, nous étudions le problème de choisir un paramètre de vie privée à la fois théoriquement et empiriquement en créant plusieurs attaques par inférence qui démontrent pour quelles valeurs du paramètre de vie privée le niveau de vie privée fournis est acceptable. / In this thesis, we consider a distributed collaborative platform in which each peer hosts his private information, such as the URLs he liked or the news articles that grabbed his interest or videos he watched, on his own machine. Then, without relying on a trusted third party, the peer engages in a distributed protocol, combining his private data with other peers' private data to perform collaborative filtering. The main objective is to be able to receive personalized recommendations or other services such as a personalized distributed search engine. User-based collaborative filtering protocols, which depend on computing user-to-user similarity, have been applied to distributed systems. As computing the similarity between users requires the use of their private profiles, this raises serious privacy concerns. In this thesis, we address the problem of privately computing similarities between peers in collaborative platforms. Our work provides a private primitive for similarity computation that can make collaborative protocols privacy-friendly. We address the unique challenges associated with applying privacy-preserving techniques for similarity computation to dynamic large scale systems. In particular, we introduce a two-party cryptographic protocol that ensures differential privacy, a strong notion of privacy. Moreover, we solve the privacy budget issue that would prevent peers from computing their similarities more than a fixed number of times by introducing the notion of bidirectional anonymous channel. We also develop a heterogeneous variant of differential privacy that can provide different level of privacy to different users, and even different level of privacy to different items within a single user's profile, thus taking into account different privacy expectations. Moreover, we propose a non-interactive protocol that is very efficient for releasing a small and private representation of peers' profiles that can be used to estimate similarity. Finally, we study the problem of choosing an appropriate privacy parameter both theoretically and empirically by creating several inference attacks that demonstrate for which values of the privacy parameter the privacy level provided is acceptable.
88

Local and social recommendation in decentralized architectures / Recommandation locale et sociale dans les architectures décentralisées

Meyffret, Simon 07 December 2012 (has links)
Dans notre société de plus en plus numérique, les systèmes de recommandation ont fait leur apparition dans le but de résoudre le problème bien connu de surcharge d'information. L'adoption des réseaux sociaux a permis l'émergence de systèmes intégrant les relations sociales dans leurs recommandations. Dans cette thèse, nous proposons un système de recommandation adapté aux architectures décentralisées pouvant être déployé sur des réseaux sociaux existants. L'utilisateur conserve son profil en local et ne communique qu'avec un ensemble restreint d'utilisateurs de confiance, avec qui il accepte de partager ses données. Nous prenons en compte le réseau social de l'utilisateur afin de construire le réseau de pairs. La similarité des amis est prise en compte pour pondérer les liens. Les recommandations sont propagées dans le réseau, passant d'amis en amis jusqu'à atteindre l'utilisateur désiré. Ainsi seuls les amis directs communiquent entre eux. À partir de cette propagation, nous proposons plusieurs techniques. Tout d'abord, nous délivrons à l'utilisateur final une confiance du système dans la fiabilité de la recommandation. Ceci lui permet de choisir parmi les produits sélectionnés, lesquels semblent effectivement les plus pertinents pour lui. Cette confiance est calculée sur plusieurs critères, tels que la variation des recommandations des amis, leur nombre, la similarité et la fraîcheur de la recommandation. Ensuite, nous définissons des heuristiques adaptant notre approche aux systèmes pair-à-pair. Dans de telles architectures, le réseau est une ressource critique et ne doit pas être constamment surchargé. Ces heuristiques limitent la consommation réseau de notre approche tout en fournissant des recommandations pertinentes à l'utilisateur. Enfin, nous proposons plusieurs stratégies de score par défaut, dans le cas où aucun score n'est calculable, prenant en compte les contraintes en terme d'accès à l'information par le système. Nous comparons notre approche avec des approches classiques de recommandation, de filtrage collaboratif ou basées sur la confiance, en utilisant plusieurs jeux de données existants, tels qu'Epinions et Flixster, ainsi que deux jeux de données que nous avons construits nous-même. Nous montrons qu'une approche purement locale, associée à des stratégies de score par défaut, offre de meilleurs résultats que la plupart des autres approches, notamment en ce qui concerne les "cold start users". / Recommender systems are widely used to achieve a constantly growing variety of services. Alongside with social networks, recommender systems that take into account friendship or trust between users have emerged. In this thesis, we propose an evolution of trust-based recommender systems adapted to decentralized architectures that can be deployed on top of existing social networks. Users profiles are stored locally and are exchanged with a limited, user-defined, list of trusted users. Our approach takes into account friends' similarity and propagates recommendation to direct friends in the social network in order to prevent ratings from being globally known. Moreover, the computational complexity is reduced since calculations are performed on a limited dataset, restricted to the user's neighborhood. On top of this propagation, our approach investigates several aspects. Our system computes and returns to the final user a confidence on the recommendation. It allows the user to tune his/her choice from the recommended products. Confidence takes into account friends' recommendations variance, their number, similarity and freshness of the recommendations. We also propose several heuristics that take into account peer-to-peer constraints, especially regarding network flooding. We show that those heuristics decrease network resources consumption without sacrificing accuracy and coverage. We propose default scoring strategies that are compatible with our constraints. We have implemented and compared our approach with existing ones, using multiple datasets, such as Epinions and Flixster. We show that local information with default scoring strategies are sufficient to cover more users than classical collaborative filtering and trust-based recommender systems. Regarding accuracy, our approach performs better than others, especially for cold start users, even if using less information.
89

Recommandation diversifiée et distribuée pour les données scientifiques / Diversified and Distributed Recommendation for Scientific Data

Servajean, Maximilien 16 December 2014 (has links)
Dans de nombreux domaines, les nouvelles technologies d'acquisition de l'information ou encore de mesure (e.g. serres de phénotypage robotisées) ont engendré une création phénoménale de données. Nous nous appuyons en particulier sur deux cas d'application réels: les observations de plantes en botanique et les données de phénotypage en biologie. Cependant, nos contributions peuvent être généralisées aux données du Web. Par ailleurs, s'ajoute à la quantité des données leur distribution. Chaque utilisateur stocke en effet ses données sur divers sites hétérogènes (e.g. ordinateurs personnels, serveurs, cloud), données qu'il souhaite partager. Que ce soit pour les observations de botanique ou pour les données de phénotypage en biologie, des solutions collaboratives, comprenant des outils de recherche et de recommandation distribués, bénéficieraient aux utilisateurs. L'objectif général de ce travail est donc de définir un ensemble de techniques permettant le partage et la découverte de données, via l'application d'approches de recherche et de recommandation, dans un environnement distribué (e.g. sites hétérogènes).Pour cela, la recherche et la recommandation permettent aux utilisateurs de se voir présenter des résultats, ou des recommandations, à la fois pertinents par rapport à une requête qu'ils auraient soumise et par rapport à leur profil. Les techniques de diversification permettent de présenter aux utilisateurs des résultats offrant une meilleure nouveauté tout en évitant de les lasser par des contenus redondants et répétitifs. Grâce à la diversité, une distance entre toutes les recommandations est en effet introduite afin que celles-ci soient les plus représentatives possibles de l'ensemble des résultats pertinents. Peu de travaux exploitent la diversité des profils des utilisateurs partageant les données. Dans ce travail de thèse, nous montrons notamment que dans certains scénarios, diversifier les profils des utilisateurs apporte une nette amélioration en ce qui concerne la qualité des résultats~: des sondages montrent que dans plus de 75% des cas, les utilisateurs préfèrent la diversité des profils à celle des contenus. Par ailleurs, afin d'aborder les problèmes de distribution des données sur des sites hétérogènes, deux approches sont possibles. La première, les réseaux P2P, consiste à établir des liens entre chaque pair (noeud du réseau): étant donné un pair p, ceux avec lesquels il a établi un lien représentent son voisinage. Celui-ci est utilisé lorsque p soumet une requête q, pour y répondre. Cependant, dans les solutions de l'état de l'art, la redondance des profils des pairs présents dans les différents voisinages limitent la capacité du système à retrouver des résultats pertinents sur le réseau, étant donné les requêtes soumises par les utilisateurs. Nous montrons, dans ce travail, qu'introduire de la diversité dans le calcul du voisinage, en augmentant la couverture, permet un net gain en termes de qualité. En effet, en tenant compte de la diversité, chaque pair du voisinage a une plus forte probabilité de retourner des résultats nouveaux à l'utilisateur courant: lorsqu'une requête est soumise par un pair, notre approche permet de retrouver jusqu'à trois fois plus de bons résultats sur le réseau. La seconde approche de la distribution est le multisite. Généralement, dans les solutions de l'état de l'art, les sites sont homogènes et représentés par de gros centres de données. Dans notre contexte, nous proposons une approche permettant la collaboration de sites hétérogènes, tels que de petits serveurs d'équipe, des ordinateurs personnels ou de gros sites dans le cloud. Un prototype est issu de cette contribution. Deux versions du prototype ont été réalisées afin de répondre aux deux cas d'application, en s'adaptant notamment aux types des données. / In many fields, novel technologies employed in information acquisition and measurement (e.g. phenotyping automated greenhouses) are at the basis of a phenomenal creation of data. In particular, we focus on two real use cases: plants observations in botany and phenotyping data in biology. Our contributions can be, however, generalized to Web data. In addition to their huge volume, data are also distributed. Indeed, each user stores their data in many heterogeneous sites (e.g. personal computers, servers, cloud); yet he wants to be able to share them. In both use cases, collaborative solutions, including distributed search and recommendation techniques, could benefit to the user.Thus, the global objective of this work is to define a set of techniques enabling sharing and discovery of data in heterogeneous distributed environment, through the use of search and recommendation approaches.For this purpose, search and recommendation allow users to be presented sets of results, or recommendations, that are both relevant to the queries submitted by the users and with respect to their profiles. Diversification techniques allow users to receive results with better novelty while avoiding redundant and repetitive content. By introducing a distance between each result presented to the user, diversity enables to return a broader set of relevant items.However, few works exploit profile diversity, which takes into account the users that share each item. In this work, we show that in some scenarios, considering profile diversity enables a consequent increase in results quality: surveys show that in more than 75% of the cases, users would prefer profile diversity to content diversity.Additionally, in order to address the problems related to data distribution among heterogeneous sites, two approaches are possible. First, P2P networks aim at establishing links between peers (nodes of the network): creating in this way an overlay network, where peers directly connected to a given peer p are known as his neighbors. This overlay is used to process queries submitted by each peer. However, in state of the art solutions, the redundancy of the peers in the various neighborhoods limits the capacity of the system to retrieve relevant items on the network, given the queries submitted by the users. In this work, we show that introducing diversity in the computation of the neighborhood, by increasing the coverage, enables a huge gain in terms of quality. By taking into account diversity, each peer in a given neighborhood has indeed, a higher probability to return different results given a keywords query compared to the other peers in the neighborhood. Whenever a query is submitted by a peer, our approach can retrieve up to three times more relevant items than state of the art solutions.The second category of approaches is called multi-site. Generally, in state of the art multi-sites solutions, the sites are homogeneous and consist in big data centers. In our context, we propose an approach enabling sharing among heterogeneous sites, such as small research teams servers, personal computers or big sites in the cloud. A prototype regrouping all contributions have been developed, with two versions addressing each of the use cases considered in this thesis.
90

Contributions à l'indexation et à la recherche d'information avec l'analyse formelle de concepts / Contributions to indexing and retrieval using Formal Concept Analysis

Codocedo-Henríquez, Víctor 04 September 2015 (has links)
Un des premiers modèles d'indexation de documents qui utilise des termes comme descripteurs était une structure de treillis, cela une vingtaine d'années avant l'arrivée de l'analyse formelle de concepts (FCA pour "Formal Concept Analysis"), qui s'affirme maintenant comme un formalisme théorique important et solide pour l'analyse de données et la découverte de connaissances. Actuellement, la communauté en recherche d'information (RI) s'intéresse particulièrement à des techniques avancées pour la recherche des documents qui relèvent des probabilités et des statistiques. En parallèle, l'intérêt de la communauté FCA au développement de techniques qui font avancer l'état de l'art en RI tout en offrant des fonctionnalités sémantiques lui est toujours bien vivant. Dans cette thèse, nous présentons un ensemble de contributions sur ce que nous avons appelé les systèmes FCA de recherche d'information ("FCA-based IR systems''). Nous avons divisé nos contributions en deux parties, à savoir l'extraction et l'indexation. Pour la récupération, nous proposons une nouvelle technique qui exploite les relations sémantiques entre les descripteurs dans un corpus de documents. Pour l'indexation, nous proposons un nouveau modèle qui permet de mettre en oeuvre un modèle vectoriel d'indexation des documents s'appuyant sur un treillis de concepts (ou treillis de Galois). En outre, nous proposons un modèle perfectionné pour l'indexation hétérogène dans lequel nous combinons le modèle vectoriel et le modèle de recherche booléen. Finalement, nous présentons une technique de fouille de données inspiré de l'indexation des documents, à savoir un modèle d'énumération exhaustive des biclusters en utilisant la FCA. Le biclustering est une nouvelle technique d'analyse de données dans laquelle les objets sont liés via la similitude dans certains attributs de l'espace de description, et non pas par tous les attributs comme dans le "clustering'' standard. En traduisant ce problème en termes d'analyse formelle de concepts, nous pouvons exploiter l'algorithmique associée à la FCA pour développer une technique d'extraction de biclusters de valeurs similaires. Nous montrons le très bon comportement de notre technique, qui fonctionne mieux que les techniques actuelles de biclustering avec énumération exhaustive / One of the first models ever to be considered as an index for documents using terms as descriptors, was a lattice structure, a couple of decades before the arrival of Formal Concept Analysis (FCA) as a solid theory for data mining and knowledge discovery.While the Information Retrieval (IR) community has shifted to more advanced techniques for document retrieval, like probabilistic and statistic paradigms, the interest of the FCA community on developing techniques that would improve the state-of-the-art in IR while providing relevance feedback and semantic based features, never decayed. In this thesis we present a set of contributions on what we call FCA-based IR systems. We have divided our contributions in two sets, namely retrieval and indexing. For retrieval, we propose a novel technique that exploits semantic relations among descriptors in a document corpus and a new concept lattice navigation strategy (called cousin concepts), enabling us to support classification-based reasoning to provide better results compared with state-of-the-art retrieval techniques. The basic notion in our strategy is supporting query modification using "term replacements'' using the lattice structure and semantic similarity. For indexing, we propose a new model that allows supporting the vector space model of retrieval using concept lattices. One of the main limitations of current FCA-based IR systems is related to the binary nature of the input data required for FCA to generate a concept lattice. We propose the use of pattern structures, an extension of FCA to deal with complex object descriptions, in order to support more advanced retrieval paradigms like the vector space model. In addition, we propose an advanced model for heterogeneous indexing through which we can combine the vector space model and the Boolean retrieval model. The main advantage of this approach is the ability of supporting indexing of convex regions in an arbitrary vectorial space built from a document collection. Finally, we move forward to a mining model associated with document indexing, namely exhaustive bicluster enumeration using FCA. Biclustering is an emerging data analysis technique in which objects are related by similarity under certain attributes of the description space, instead of the whole description space like in standard clustering. By translating this problem to the framework of FCA, we are able to exploit the robust machinery associated with the computation of concept lattices to provide an algorithm for mining biclusters based on similar values. We show how our technique performs better than current exhaustive enumeration biclustering techniques.

Page generated in 0.1286 seconds