• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 150
  • 47
  • 37
  • Tagged with
  • 236
  • 236
  • 122
  • 120
  • 109
  • 93
  • 55
  • 36
  • 33
  • 31
  • 31
  • 30
  • 29
  • 29
  • 28
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Recherche d’information s´emantique : Graphe sémantico-documentaire et propagation d’activation / Semantic Information Retrieval : Semantic-Documentary Graph and Spreading Information

Bannour, Ines 09 May 2017 (has links)
La recherche d’information sémantique (RIS), cherche à proposer des modèles qui permettent de s’appuyer, au delà des calculs statistiques, sur la signification et la sémantique des mots du vocabulaire, afin de mieux caractériser les documents pertinents au regard du besoin de l’utilisateur et de les retrouver. Le but est ainsi de dépasser les approches classiques purement statistiques (de « sac de mots »), fondées sur des appariements de chaînes de caractères sur la base des fréquences des mots et de l’analyse de leurs distributions dans le texte. Pour ce faire, les approches existantes de RIS, à travers l’exploitation de ressources sémantiques externes (thésaurus ou ontologies), procèdent en injectant des connaissances dans les modèles classiques de RI de manière à désambiguïser le vocabulaire ou à enrichir la représentation des documents et des requêtes. Il s’agit le plus souvent d’adaptations de ces modèles, on passe alors à une approche « sac de concepts » qui permet de prendre en compte la sémantique notamment la synonymie. Les ressources sémantiques, ainsi exploitées, sont « aplaties », les calculs se cantonnent, généralement, à des calculs de similarité sémantique. Afin de permettre une meilleure exploitation de la sémantique en RI, nous mettons en place un nouveau modèle, qui permet d’unifier de manière cohérente et homogène les informations numériques (distributionnelles) et symboliques (sémantiques) sans sacrifier la puissance des analyses. Le réseau sémantico-documentaire ainsi modélisé est traduit en graphe pondéré. Le mécanisme d’appariement est assuré par une propagation d’activation dans le graphe. Ce nouveau modèle permet à la fois de répondre à des requêtes exprimées sous forme de mots clés, de concepts oumême de documents exemples. L’algorithme de propagation a le mérite de préserver les caractéristiques largement éprouvéesdes modèles classiques de recherche d’information tout en permettant une meilleure prise en compte des modèles sémantiques et de leurs richesse. Selon que l’on introduit ou pas de la sémantique dans ce graphe, ce modèle permet de reproduire une RI classique ou d’assurer en sus certaines fonctionnalités sémantiques. La co-occurrence dans le graphe permet alors de révélerune sémantique implicite qui améliore la précision en résolvant certaines ambiguïtés sémantiques.L’exploitation explicite des concepts ainsi que des liens du graphe, permettent la résolution des problèmes de synonymie, de term mismatch et de couverture sémantique. Ces fonctionnalités sémantiques, ainsi que le passage à l’échelle du modèle présenté, sont validés expérimentalement sur un corpus dans le domaine médical. / Semantic information retrieval (SIR) aims to propose models that allow us to rely, beyond statistical calculations, on the meaning and semantics of the words of the vocabulary, in order to better represent relevant documents with respect to user’s needs, and better retrieve them.The aim is therefore to overcome the classical purely statistical (« bag of wordsé») approaches, based on strings’ matching and the analysis of the frequencies of the words and their distributions in the text.To do this, existing SIR approaches, through the exploitation of external semantic resources (thesauri, ontologies, etc.), proceed by injecting knowledge into the classical IR models (such as the vector space model) in order to disambiguate the vocabulary or to enrich the representation of documents and queries.These are usually adaptations of the classical IR models. We go so to a « bag of concepts » approach which allows us to take account of synonymy. The semantic resources thus exploited are « flattened », the calculations are generally confined to calculations of semantic similarities.In order to better exploit the semantics in RI, we propose a new model, which allows to unify in a coherent and homogeneous way the numerical (distributional) and symbolic (semantic) information without sacrificing the power of the analyzes of the one for the other. The semantic-documentary network thus modeled is translated into a weighted graph. The matching mechanism is provided by a Spreading activation mechanism in the graph. This new model allows to respond to queries expressed in the form of key words, concepts or even examples of documents. The propagation algorithm has the merit of preserving the well-tested characteristics of classical information retrieval models while allowing a better consideration of semantic models and their richness.Depending on whether semantics is introduced in the graph or not, this model makes it possible to reproduce a classical IR or provides, in addition, some semantic functionalities. The co-occurrence in the graph then makes it possible to reveal an implicit semantics which improves the precision by solving some semantic ambiguities. The explicit exploitation of the concepts as well as the links of the graph allow the resolution of the problems of synonymy, term mismatch, semantic coverage, etc. These semantic features, as well as the scaling up of the model presented, are validated experimentally on a corpus in the medical field.
72

Modélisation d'expertise scientifique pour la constitution de comités de programme / Modelling scientific expertise to cnstitute the program committee of a scientific conference

Tran, Hong Diep 19 December 2017 (has links)
La publication scientifique dans les revues spécialisées et les actes de conférences permet de communiquer les progrès en sciences. Les comités de rédaction et de programme sous-jacents représentent la clé de voûte du processus d'évaluation. Avec le développement des revues et le nombre croissant de conférences scientifiques organisées chaque année, rechercher des experts pour participer à ces comités est une activité chronophage mais critique. Cette thèse se focalise sur la tâche de suggestion de membres de comité de programme (CP) pour des conférences scientifiques. Elle comporte trois volets. Premièrement, nous proposons une modélisation basée sur un graphe hétérogène pondéré de l'expertise scientifique multifacette des chercheurs. Deuxièmement, nous définissons des indicateurs scientométriques pour quantifier les critères impliqués dans la constitution de CP. Troisièmement, nous concevons une approche de suggestion de membres de CP pour une conférence donnée, en combinant les résultats des indicateurs scientométriques susmentionnés. Notre approche est expérimentée pour une des conférences de premier plan de notre communauté de recherche : SIGIR, en considérant ses éditions de 1971 à 2015, ainsi que les conférences proches thématiquement. / Academic publishing in specialized journals and conference proceedings is the main way to communicate progress in science. The underlying editorial and program committees represent the cornerstone of the evaluation process. With the development of journals and the increasing number of scientific conferences held annually, searching for experts who would serve in these committees is a time-consuming and yet critical activity. This PhD thesis focuses on the task of suggesting program committee (PC) members for scientific conferences. It is organized into three parts. First, we propose a modelling of the multifaceted scientific expertise of researchers based on a weighted heterogeneous graph. Second, we define scientometric indicators to quantify the criteria involved in the composition of CPs. Third, we design a CP member suggestion approach for a given conference, combining the results of the aforementioned scientometric indicators. Our approach is experimented in the context of leading conferences of our research community: SIGIR, considering its editions from 1971 to 2015, and topically close conferences.
73

Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multidimensionnelle en recherche d'information / Definition and evaluation of aggregation model for multidimensional relevance estimation in information retrieval

Moulahi, Bilel 11 December 2015 (has links)
La problématique générale de notre travail s'inscrit dans le domaine scientifique de la recherche d'information (RI). Les modèles de RI classiques sont généralement basés sur une définition de la notion de pertinence qui est liée essentiellement à l'adéquation thématique entre le sujet de la requête et le sujet du document. Le concept de pertinence a été revisité selon différents niveaux intégrant ainsi différents facteurs liés à l'utilisateur et à son environnement dans une situation de RI. Dans ce travail, nous abordons spécifiquement le problème lié à la modélisation de la pertinence multidimensionnelle à travers la définition de nouveaux modèles d'agrégation des critères et leur évaluation dans des tâches de recherche de RI. Pour répondre à cette problématique, les travaux de l'état de l'art se basent principalement sur des combinaisons linéaires simples. Cependant, ces méthodes se reposent sur l'hypothèse non réaliste d'additivité ou d'indépendance des dimensions, ce qui rend le modèle non approprié dans plusieurs situations de recherche réelles dans lesquelles les critères étant corrélés ou présentant des interactions entre eux. D'autres techniques issues du domaine de l'apprentissage automatique ont été aussi proposées, permettant ainsi d'apprendre un modèle par l'exemple et de le généraliser dans l'ordonnancement et l'agrégation des critères. Toutefois, ces méthodes ont tendance à offrir un aperçu limité sur la façon de considérer l'importance et l'interaction entre les critères. En plus de la sensibilité des paramètres utilisés dans ces algorithmes, est très difficile de comprendre pourquoi un critère est préféré par rapport à un autre. Pour répondre à cette première direction de recherche, nous avons proposé un modèle de combinaison de pertinence multicritères basé sur un opérateur d'agrégation qui permet de surmonter le problème d'additivité des fonctions de combinaison classiques. Notre modèle se base sur une mesure qui permet de donner une idée plus claire sur les corrélations et interactions entre les critères. Nous avons ainsi adapté ce modèle pour deux scénarios de combinaison de pertinence multicritères : (i) un cadre de recherche d'information multicritères dans un contexte de recherche de tweets et (ii) deux cadres de recherche d'information personnalisée. Le deuxième axe de recherche s'intéresse à l'intégration du facteur temporel dans le processus d'agrégation afin de tenir compte des changements occurrents sur les collection de documents au cours du temps. Pour ce faire, nous avons proposé donc un modèle d'agrégation sensible au temps pour combinant le facteur temporel avec le facteur de pertinence thématique. Dans cet objectif, nous avons effectué une analyse temporelle pour éliciter l'aspect temporel des requêtes, et nous avons proposé une évaluation de ce modèle dans une tâche de recherche sensible au temps. / The main research topic of this document revolve around the information retrieval (IR) field. Traditional IR models rank documents by computing single scores separately with respect to one single objective criterion. Recently, an increasing number of IR studies has triggered a resurgence of interest in redefining the algorithmic estimation of relevance, which implies a shift from topical to multidimensional relevance assessment. In our work, we specifically address the multidimensional relevance assessment and evaluation problems. To tackle this challenge, state-of-the-art approaches are often based on linear combination mechanisms. However, these methods rely on the unrealistic additivity hypothesis and independence of the relevance dimensions, which makes it unsuitable in many real situations where criteria are correlated. Other techniques from the machine learning area have also been proposed. The latter learn a model from example inputs and generalize it to combine the different criteria. Nonetheless, these methods tend to offer only limited insight on how to consider the importance and the interaction between the criteria. In addition to the parameters sensitivity used within these algorithms, it is quite difficult to understand why a criteria is more preferred over another one. To address this problem, we proposed a model based on a multi-criteria aggregation operator that is able to overcome the problem of additivity. Our model is based on a fuzzy measure that offer semantic interpretations of the correlations and interactions between the criteria. We have adapted this model to the multidimensional relevance estimation in two scenarii: (i) a tweet search task and (ii) two personalized IR settings. The second line of research focuses on the integration of the temporal factor in the aggregation process, in order to consider the changes of document collections over time. To do so, we have proposed a time-aware IR model for combining the temporal relavance criterion with the topical relevance one. Then, we performed a time series analysis to identify the temporal query nature, and we proposed an evaluation framework within a time-aware IR setting.
74

Recherche d'information sociale : exploitation des signaux sociaux pour améliorer la recherche d'information / Social information retrieval : harnessing social signals to enhance a search

Badache, Ismail 05 February 2016 (has links)
Notre travail se situe dans le contexte de recherche d'information sociale (RIS) et s'intéresse plus particulièrement à l'exploitation du contenu généré par les utilisateurs dans le processus de la recherche d'information. Le contenu généré par les utilisateurs (en anglais User-generated content, ou UGC) se réfère à un ensemble de données (ex. signaux sociaux) dont le contenu est principalement, soit produit, soit directement influencé par les utilisateurs finaux. Il est opposé au contenu traditionnel produit, vendu ou diffusé par les professionnels. Le terme devient populaire depuis l'année 2005, dans les milieux du Web 2.0, ainsi que dans les nouveaux médias sociaux. Ce mouvement reflète la démocratisation des moyens de production et d'interaction dans le Web grâce aux nouvelles technologies. Parmi ces moyens de plus en plus accessibles à un large public, on peut citer les réseaux sociaux, les blogs, les microblogs, les Wikis, etc. Les systèmes de recherche d'information exploitent dans leur majorité deux classes de sources d'évidence pour trier les documents répondant à une requête. La première, la plus exploitée, est dépendante de la requête, elle concerne toutes les caractéristiques relatives à la distribution des termes de la requête dans le document et dans la collection (tf-idf). La seconde classe concerne des facteurs indépendants de la requête, elle mesure une sorte de qualité ou d'importance a priori du document. Parmi ces facteurs, on en distingue le PageRank, la localité thématique du document, la présence d'URL dans le document, ses auteurs, etc. Une des sources importantes que l'on peut également exploiter pour mesurer l'intérêt d'une page Web ou de manière générale une ressource, est le Web social. En effet, grâce aux outils proposés par le Web 2.0 les utilisateurs interagissent de plus en plus entre eux et/ou avec les ressources. Ces interactions (signaux sociaux), traduites par des annotations, des commentaires ou des votes associés aux ressources, peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource en termes de popularité et de réputation, indépendamment de la requête. Nous supposons également que l'impact d'un signal social dépend aussi du temps, c'est-à-dire la date à laquelle l'action de l'utilisateur est réalisée. Nous considérons que les signaux récents devraient avoir un impact supérieur vis-à-vis des signaux anciens dans le calcul de l'importance d'une ressource. La récence des signaux peut indiquer certains intérêts récents à la ressource. Ensuite, nous considérons que le nombre de signaux d'une ressource doit être pris en compte au regard de l'âge (date de publication) de cette ressource. En général, une ressource ancienne en termes de durée d'existence a de fortes chances d'avoir beaucoup plus de signaux qu'une ressource récente. Ceci conduit donc à pénaliser les ressources récentes vis-à-vis de celles qui sont anciennes. Enfin, nous proposons également de prendre en compte la diversité des signaux sociaux au sein d'une ressource. / Our work is in the context of social information retrieval (SIR) and focuses on the exploitation of user-generated content in the process of seeking information. The Usergenerated content, or UGC, refers to a set of data (eg. social signals) whose content is mainly produced either directly influenced by end users. It is opposed to the traditional content produced, sold or distributed by professionals. The term became popular since 2005, in the Web 2.0 environments and in new social media. This movement reflects the democratization of the means of production and interaction in the web thanks to new technologies. Among these means more and more accessible to a wide public, we can cite social networks, blogs, microblogs, wikis, etc. The majority of information retrieval (IR) systems exploit two classes of features to rank documents in response to user's query. The first class, the most used one, is querydependent, which includes features corresponding to particular statistics of query terms such as term frequency, and term distribution within a document or in the collection of documents. The second class, referred to as documents prior, corresponds to queryindependent features such as the number of incoming links to a document, PageRank, topical locality, presence of URL, document authors, etc. One of the important sources which can also be used to measure the a priori interest of Web resources is social data (signals) associated with Web resource resulting from user interaction with this resource. These interactions representing annotations, comments or votes, produce useful and interesting social information that characterizes a resource in terms of popularity and reputation. Major search engines integrate social signals (e.g. Google, Bing). Searchmetrics1 showed that it exists a high correlation between social signals and the rankings provided by search engines such Google. We propose an approach that exploits social signals generated by users on the resources to estimate a priori relevance of a resource. This a priori knowledge is combined with topical relevance modeled by a language modeling (LM) approach. We also hypothesize that signals are time-dependent, the date when the user action has happened is important to distinguish between recent and old signals. Therefore, we assume that the recency of signals may indicate some recent interests to the resource, which may improve the a priori relevance of document. Secondly, number of signals of a resource depends on the resource age. Generally, an old resource may have much more signals than a recent one. We introduce the time-aware social approach that incorporates temporal characteristics of users' actions as prior in the retrieval model. Precisely, instead of assuming uniform document priors in this retrieval model, we assign document priors based on the signals associated to that document biased by both the creation date of the signals and the age of the document.
75

Stratégies de bandit pour les systèmes de recommandation / Bandit strategies for recommender systems

Louëdec, Jonathan 04 November 2016 (has links)
Les systèmes de recommandation actuels ont besoin de recommander des objets pertinents aux utilisateurs (exploitation), mais pour cela ils doivent pouvoir également obtenir continuellement de nouvelles informations sur les objets et les utilisateurs encore peu connus (exploration). Il s'agit du dilemme exploration/exploitation. Un tel environnement s'inscrit dans le cadre de ce que l'on appelle " apprentissage par renforcement ". Dans la littérature statistique, les stratégies de bandit sont connues pour offrir des solutions à ce dilemme. Les contributions de cette thèse multidisciplinaire adaptent ces stratégies pour appréhender certaines problématiques des systèmes de recommandation, telles que la recommandation de plusieurs objets simultanément, la prise en compte du vieillissement de la popularité d'un objet ou encore la recommandation en temps réel. / Current recommender systems need to recommend items that are relevant to users (exploitation), but they must also be able to continuously obtain new information about items and users (exploration). This is the exploration / exploitation dilemma. Such an environment is part of what is called "reinforcement learning". In the statistical literature, bandit strategies are known to provide solutions to this dilemma. The contributions of this multidisciplinary thesis the adaptation of these strategies to deal with some problems of the recommendation systems, such as the recommendation of several items simultaneously, taking into account the aging of the popularity of an items or the recommendation in real time.
76

Modèles probabilistes pour les fréquences de mots et la recherche d'information / Probabilistic Models of Document Collections

Clinchant, Stéphane 05 October 2011 (has links)
Nous nous intéressons à la fois à la modélisation des fréquences des mots dans les collections textuelles et aux modèles probabilistes de recherche d'information (RI). Concernant les modèles statistiques de fréquences de mots, nous portons notre attention sur l'étude du phénomène de rafale (burstiness). Nous établissons une propriété sur les distributions de probabilité caractérisant leur capacité à modéliser ce phénomène et nous étudions ensuite les distributions Beta Negative Binomial et Log-Logistique pour la modélisation des fréquences de mots. Nous portons ensuite notre attention sur les modèles probabilistes de RI et leur propriétés fondamentales. Nous pouvons montrer que les modèles classiques ne reposent pas sur des lois de probabilité en rafale, même si des propriétés fondamentales comme la concavité des modèles permettent implicitement de le prendre en compte. Nous introduisons ensuite une nouvelle famille de modèles probabiliste pour la recherche d'information, fondé sur la notion d'information de Shannon et qui permet d'établir un lien conséquent entre les propriétés importantes des modèles de RI et le phénomène de rafale. Enfin, nous étudions empiriquement et théoriquement les modèles de rétro-pertinence. Nous proposons un cadre théorique qui permet ainsi d'expliquer leurs caractéristiques empiriques et leur performances. Ceci permet entre autres de mettre en avant les propriétés importantes des modèles de retro-pertinence et de montrer que certains modèles de référence sont déficients. / The present study deals with word frequencies distributions and their relation to probabilistic Information Retrieval (IR) models. We examine the burstiness phenomenon of word frequencies in textual collections. We propose to model this phenomenon as a property of probability distributions and we study the Beta Negative Binomial and Log-Logistic distributions to model word frequencies. We then focus on probabilistic IR models and their fundamental properties. Our analysis reveals that probability distributions underlying most state-of-the-art models do not take this phenomenon into account , even if fundamental properties of IR models such as concavity enable implicitly to take it into account. We then introduce a novel family of probabilistic IR model, based on Shannon information. These new models bridge the gap between significant properties of IR models and the burstiness phenomenon of word frequencies. Lastly, we study empirically and theoretically pseudo relevance feedback models. We propose a theoretical framework which explain well the empirical behaviour and performance of pseudo relevance feedback models. Overall, this highlights interesting properties for pseudo relevance feedback and shows that some state-of-the-art model are inadequate.
77

Multilinguisation d'ontologies dans le cadre de la recherche d'information translingue dans des collections d'images accompagnées de textes spontanés / Ontology multilinguisation for crosslingual information retrieval in collections of images accompanied by spontaneous texts.

Rouquet, David 06 April 2012 (has links)
Le Web est une source proliférante d'objets multimédia, décrits dans différentes langues natu- relles. Afin d'utiliser les techniques du Web sémantique pour la recherche de tels objets (images, vidéos, etc.), nous proposons une méthode d'extraction de contenu dans des collections de textes multilingues, paramétrée par une ou plusieurs ontologies. Le processus d'extraction est utilisé pour indexer les objets multimédia à partir de leur contenu textuel, ainsi que pour construire des requêtes formelles à partir d'énoncés spontanés. Il est basé sur une annotation interlingue des textes, conservant les ambiguïtés de segmentation et la polysémie dans des graphes. Cette première étape permet l'utilisation de processus de désambiguïsation “factorisés” au niveau d'un lexique pivot (de lexèmes interlingues). Le passage d'une ontologie en paramètre du système se fait en l'alignant de façon automatique avec le lexique interlingue. Il est ainsi possible d'utiliser des ontologies qui n'ont pas été conçues pour une utilisation multilingue, et aussi d'ajouter ou d'étendre l'ensemble des langues et leurs couvertures lexicales sans modifier les ontologies. Un démonstrateur pour la recherche multilingue d'images, développé pour le projet ANR OMNIA, a permis de concrétiser les approches proposées. Le passage à l'échelle et la qualité des annotations produites ont ainsi pu être évalués. / The World Wide Web is a proliferating source of multimedia objects described using various natural languages. In order to use semantic Web techniques for retrieval of such objects (images, videos, etc.), we propose a content extraction method in multilingual text collections, using one or several ontologies as parameters. The content extraction process is used on the one hand to index multimedia objects using their textual content, and on the other to build formal requests from spontaneous user requests. The process is based on an interlingual annotation of texts, keeping ambiguities (polysemy and segmentation) in graphs. This first step allows using common desambiguation processes at th elevel of a pivot langage (interlingual lexemes). Passing an ontology as a parameter of the system is done by aligning automatically its elements with the interlingual lexemes of the pivot language. It is thus possible to use ontologies that have not been built for a specific use in a multilingual context, and to extend the set of languages and their lexical coverages without modifying the ontologies. A demonstration software for multilingual image retrieval has been built with the proposed approach in the framework of the OMNIA ANR project, allowing to implement the proposed approaches. It has thus been possible to evaluate the scalability and quality of annotations produiced during the retrieval process.
78

Hypergraphes multimédias dirigés navigables, construction et exploitation / Navigable directed multimedia hypergraphs, construction and exploitation

Bois, Rémi 21 December 2017 (has links)
Cette thèse en informatique s'intéresse à la structuration et à l'exploration de collections journalistiques. Elle fait appel à plusieurs domaines de recherche : sciences sociales, à travers l'étude de la production journalistique ; ergonomie ; traitement des langues et la recherche d'information ; multimédia et notamment la recherche d'information multimédia. Une branche de la recherche d'information multimédia, appelée hyperliage, constitue la base sur laquelle cette thèse est construite. L'hyperliage consiste à construire automatiquement des liens entre documents multimédias. Nous étendons ce concept en l'appliquant à l'entièreté d'une collection afin d'obtenir un hypergraphe, et nous intéressons notamment à ses caractéristiques topologiques et à leurs conséquences sur l'explorabilité de la structure construite. Nous proposons dans cette thèse des améliorations de l'état de l'art selon trois axes principaux : une structuration de collections d'actualités à l'aide de graphes mutli-sources et multimodaux fondée sur la création de liens inter-documents, son association à une diversité importante des liens permettant de représenter la grande variété des intérêts que peuvent avoir différents utilisateurs, et enfin l'ajout d'un typage des liens créés permettant d'expliciter la relation existant entre deux documents. Ces différents apports sont renforcés par des études utilisateurs démontrant leurs intérêts respectifs. / This thesis studies the structuring and exploration of news collections. While its main focus is on natural language processing and multimedia retrieval, it also deals with social studies through the study of the production of news and ergonomy through the conduct of user tests. The task of hyperlinking, which was recently put forward by the multimedia retrieval community, is at the center of this thesis. Hyperlinking consists in automatically finding relevant links between multimedia segments. We apply this concept to whole news collections, resulting in the creation of a hypergraph, and study the topological properties and their influence on the explorability of the resulting structure. In this thesis, we provide improvements beyond the state of the art along three main {axes:} a structuring of news collections by means of mutli-sources and multimodal graphs based on the creation of inter-document links, its association with a large diversity of links allowing to represent the variety of interests that different users may have, and a typing of the created links in order to make the nature of the relation between two documents explicit. Extensive user studies confirm the interest of the methods developped in this thesis.
79

Cadre général pour la recherche d'information et l'extraction de connaissances par l'exploration de treillis / General framework for information retrieval and knowledge discovery through lattice exploration

Viaud, Jean-François 31 August 2017 (has links)
Au cours des deux dernières décennies, nous avons été littéralement submergés par les données. Nous recevons, rapidement, un flux colossal de données hétérogènes. Les techniques issues de la recherche d’information doivent évoluer afin de les ordonner et de les sélectionner. D’un autre côté, les techniques d’extraction de connaissances sont capables d’extraire une quantité (exponentielle) de connaissances des données, en particulier lors de la fouille de règles d’association. De nouveaux outils doivent être fournis aux analystes des données. La recherche d’information et l’extraction de connaissances abordent la même problématique : elles structurent et organisent les données. La première sélectionne et attribue un rang, l’autre partitionne et hiérarchise. L’Analyse des Concepts Formels (FCA), introduite par R. Wille, utilise les treillis de concepts afin de mettre en évidence à la fois un ordre (au sens d’attribuer un rang) et une classification (au sens de partition). Cependant, il est bien connu de la communauté FCA que ces treillis peuvent avoir une taille exponentielle. Pour toutes ces raisons, des outils pour réduire la taille des données ou des treillis, sont nécessaires. Dans cette thèse, nous avons utilisé différentes approches. Des algorithmes distribués pour la FCA ont été définis afin de réduire la taille des données d’entrée en petits morceaux. Différentes méthodes de décomposition de treillis ont été étudiées ou définies. Certaines sont basées sur les relations de congruence, d’autres sur les relations de tolérance. Pour aider l’utilisateur dans ses choix de réduction, un cadre général, nommé LattExp, a été mis en place. LattExp fournit une possibilité de navigation à travers les réductions/décompositions et aide l’utilisateur dans ses choix. / During the last two decades, data have literrally overwhelmed the world. Indeed a huge amount of heterogenous data is daily produced, so that techniques of Information Retrieval have to evolve to order them and select relevant ones. On the other side, techniques of Knowledge Discovery are able to extract a potentially exponential number of patterns from data, especially association rules, so that new tools have to be defined to help data analysts in their job. Both information retrieval and knowledge discovery address the same issue : they structure and organize data. Nevertheless their points of view are different : the former selects and ranks data whether the latter classifies and clusters them. Formal Concept Analysis (FCA), introduced by R. Wille, uses concept lattices to reveal both an order and a classification inside data. However, it is well known in the FCA community, that these concept lattices may have an exponential size with respect to data. For all these reasons, tools to reduce the size of data, or lattices, are needed. In this thesis, some distributed algorithms for FCA have been designed in order to reduce input data into small pieces. Different decompositions of lattices have also been studied or defined, some based on congruence relations, other on tolerance relations. At last, to help the user in his choices of reduction, a general framework, named LattExp, have been defined. LattExp provides a navigation facility through reductions/decompositions and guide the user in his choices.
80

Recherche d'information sur le web (RIW) et moteurs de recherche : le cas des lycéens / Information Search on the Web (ISW) and search engines : the case of high school students

Quach Tat, Kien 16 December 2011 (has links)
Dans le cadre scolaire, la recherche d'information sur le web (RIW) assistée par les moteurs de recherche joue un rôle croissant dans l'enseignement et l'apprentissage. Mais si les lycéens effectuent beaucoup de RIW, peu d'études leur sont consacrées : on ne sait pas comment ils conduisent les RIW et quelles démarches ils suivent. La RIW est variée en fonction du contexte de recherche ainsi que de la situation rencontrée dans le processus même de recherche. Deux épreuves avec plusieurs tâches de recherche définies par le chercheur ont été passées avec 79 lycéens vietnamiens. Si elles ne rendent compte que partiellement des RIW des lycéens, elles permettent d'enregistrer les démarches utilisées, faisant l'hypothèse que les démarches mises en œuvre ont une certaine stabilité.En essayant de simplifier la RIW des participants, un schéma général de RIW est conçu avec cinq actions élémentaires de recherche identifiées : lecture de tâche, formulation de requêtes, consultation de page de résultats, lecture de page web et notation de réponses. Ce schéma permet de visualiser des caractéristiques de RIW des participants : les moteurs sont l'outil principal ; la recherche utilise davantage la formulation de requêtes que la navigation web ; les pages de résultats sont le centre de la recherche ; la navigation web s'effectue à partir des pages de résultats et est plutôt en largeur d'abord, selon le modèle « Hub and spoke ».En nous centrant sur les requêtes, quatre démarches élémentaires de RIW sont reconnues : top-down, bottom-up, spécifique et générale. Les participants ont tendance à utiliser une démarche élémentaire spécifique pour une tâche fermée ; une démarche élémentaire générale pour une tâche ouverte. Quand la tâche est difficile, les participants ont tendance à changer plus souvent leurs démarches élémentaires au cours de recherche et utiliser plus de processus, d'outils et plus de techniques de recherche.Pendant une période de deux ans entre deux épreuves, nous constatons des changements de comportements des lycéens vietnamiens : augmentation de la croyance dans la fiabilité de Wikipédia, de l'utilisation de Wikipédia comme un outil de recherche, de l'utilisation des options de traduction de Google et de requêtes en anglais ; la diminution de l'utilisation des guillemets, des opérateurs booléens dans l'écriture de requêtes. / In school, the information search on the web (ISW) assisted by the search engines play a growing role in teaching and learning. But if the students do a lot of ISW, there are few studies on the high school students; we do not know how they do the ISW and what approaches they follow. The ISW is varied according to the search context and the situation met in the search process itself. Two tests with several search tasks defined by the researcher were passed with 79 vietnamese high school students. If they report only partially ISW of the participants, they allow to register the approaches used, making the hypothesis that the approaches implemented have some stability.In trying to simplify the ISW of the participants, a general schema of ISW is designed with five elementary search actions identified: reading of task, formulation of queries, consultation of page of results, reading of web page and notation of answers. This schema allows to visualize characteristics of ISW of the participants: search engines are the main tool; the search uses more the formulation of queries than the web navigation; the pages of results are the center of the search; the web navigation is made from the pages of results is rather in breadth-first and according to the model "Hub and spoke".By focusing on the queries, four elementary approaches of ISW are recognized: top-down, bottom-up, specific and general. The participants tend to use a specific elementary approach for a closed task; a general elementary approach for an opened task. When the task is difficult, the participants tend to change more often their elementary approaches during the search and to use more processes, tools and more search techniques.During a period of two years between two tests, we notice changes of behavior of the vietnamese high school students: the increase of the belief in the reliability of Wikipédia, the use of Wikipédia as a search tool, the use of the options of translation of Google and the increase of queries in English; the decrease of the use of quotation marks, Boolean operators in the writing of queries.

Page generated in 0.0467 seconds