Global ETD Search

121	Modélisation cognitive computationnelle de la recherche d'information utilisant des données oculomotrices / Computational cognitive modeling of information search using eye movement data. Lopez Orozco, Francisco 16 July 2013 (has links) Cette thèse en informatique présente un travail de modélisation cognitive computationnelle, à partir de données de mouvements oculaires lors de tâches de recherche d'information dans des textes. Nous nous intéressons à cette situation quotidienne de recherche d'informations dans un journal ou une page web, dans laquelle il faut juger si un texte est sémantiquement relié ou non à un but, exprimé par quelques mots. Parce que le temps est souvent une contrainte, les textes ne sont souvent pas entièrement lus avant qu'intervienne la décision. Plus précisément, nous avons analysé les mouvements des yeux dans deux tâches de recherche d'information consistant à lire un paragraphe et à décider rapidement i) s'il est associé à un but donné et ii) s'il est plus associé à un but donné qu'un autre paragraphe traité auparavant. Un modèle est proposé pour chacune de ces situations. Nos simulations sont réalisées au niveau des fixations et des saccades oculaires. En particulier, nous prédisons le moment auquel les participants décident d'abandonner la lecture du paragraphe parce qu'ils ont suffisamment d'information pour prendre leur décision. Les modèles font ces prédictions par rapport aux mots qui sont susceptibles d'être traités avant que le paragraphe soit abandonné. Les jugements d'association sémantiques humains sont reproduits par le calcul des similarités sémantiques entre mots produits par l'analyse de la sémantique latente (LSA, Landauer et al., 2007). Nous avons suivi une approche statistique paramétrique dans la construction de nos modèles. Ils sont basés sur un classifieur bayésien. Nous proposons un seuil linéaire bi-dimensionnel pour rendre compte de la décision d'arrêter de lire un paragraphe, utilisant le Rang de la fixation et i) la similarité sémantique (Cos) entre le paragraphe et le but ainsi que ii) la différence de similarité sémantique (Gap) entre chaque paragraphe et le but. Pour chacun des modèles, les performances montrent que nous sommes capables de reproduire en moyenne le comportement des participants face aux tâches de recherche d'information étudiées durant cette thèse. Cette thèse comprend deux parties principales : 1) la conception et la passation d'expériences psychophysiques pour acquérir des données de mouvements oculaires et 2) le développement et le test de modèles cognitifs computationnels. / This computer science thesis presents a computational cognitive modeling work using eye movements of people faced to different information search tasks on textual material. We studied situations of everyday life when people are seeking information on a newspaper or a web page. People should judge whether a piece of text is semantically related or not to a goal expressed by a few words. Because quite often time is a constraint, texts may not be entirely processed before the decision occurs. More specifically, we analyzed eye movements during two information search tasks: reading a paragraph with the task of quickly deciding i) if it is related or not to a given goal and ii) whether it is better related to a given goal than another paragraph processed previously. One model is proposed for each of these situations. Our simulations are done at the level of eye fixations and saccades. In particular, we predicted the time at which participants would decide to stop reading a paragraph because they have enough information to make their decision. The models make predictions at the level of words that are likely to be fixated before a paragraph is abandoned. Human semantic judgments are mimicked by computing the semantic similarities between sets of words using Latent Semantic Analysis (LSA) (Landauer et al., 2007). We followed a statistical parametric approach in the construction of our models. The models are based on a Bayesian classifier. We proposed a two-variable linear threshold to account for the decision to stop reading a paragraph, based on the Rank of the fixation and i) the semantic similarity (Cos) between the paragraph and the goal and ii) the difference of semantic similarities (Gap) between each paragraph and the goal. For both models, the performance results showed that we are able to replicate in average people's behavior faced to the information search tasks studied along the thesis. The thesis includes two main parts: 1) designing and carrying out psychophysical experiments in order to acquire eye movement data and 2) developing and testing the computational cognitive models. Modélisation cognitive computationnelle Recherche d'information Mouvements des yeux Prise de décision Computational cognitive modeling Information search Eye movement Decison making
122	Learning information retrieval functions and parameters on unlabeled collections / Apprentissage des fonctions de la recherche d'information et leurs paramètres sur des collections non-étiquetées Goswami, Parantapa 06 October 2014 (has links) Dans cette thèse, nous nous intéressons (a) à l'estimation des paramètres de modèles standards de Recherche d'Information (RI), et (b) à l'apprentissage de nouvelles fonctions de RI. Nous explorons d'abord plusieurs méthodes permettant, a priori, d'estimer le paramètre de collection des modèles d'information (chapitre. Jusqu'à présent, ce paramètre était fixé au nombre moyen de documents dans lesquels un mot donné apparaissait. Nous présentons ici plusieurs méthodes d'estimation de ce paramètre et montrons qu'il est possible d'améliorer les performances du système de recherche d'information lorsque ce paramètre est estimé de façon adéquate. Pour cela, nous proposons une approche basée sur l'apprentissage de transfert qui peut prédire les valeurs de paramètre de n'importe quel modèle de RI. Cette approche utilise des jugements de pertinence d'une collection de source existante pour apprendre une fonction de régression permettant de prédire les paramètres optimaux d'un modèle de RI sur une nouvelle collection cible non-étiquetée. Avec ces paramètres prédits, les modèles de RI sont non-seulement plus performants que les même modèles avec leurs paramètres par défaut mais aussi avec ceux optimisés en utilisant les jugements de pertinence de la collection cible. Nous étudions ensuite une technique de transfert permettant d'induire des pseudo-jugements de pertinence des couples de documents par rapport à une requête donnée d'une collection cible. Ces jugements de pertinence sont obtenus grâce à une grille d'information récapitulant les caractéristiques principale d'une collection. Ces pseudo-jugements de pertinence sont ensuite utilisés pour apprendre une fonction d'ordonnancement en utilisant n'importe quel algorithme d'ordonnancement existant. Dans les nombreuses expériences que nous avons menées, cette technique permet de construire une fonction d'ordonnancement plus performante que d'autres proposées dans l'état de l'art. Dans le dernier chapitre de cette thèse, nous proposons une technique exhaustive pour rechercher des fonctions de RI dans l'espace des fonctions existantes en utilisant un grammaire permettant de restreindre l'espace de recherche et en respectant les contraintes de la RI. Certaines fonctions obtenues sont plus performantes que les modèles de RI standards. / The present study focuses on (a) predicting parameters of already existing standard IR models and (b) learning new IR functions. We first explore various statistical methods to estimate the collection parameter of family of information based models (Chapter 2). This parameter determines the behavior of a term in the collection. In earlier studies, it was set to the average number of documents where the term appears, without full justification. We introduce here a fully formalized estimation method which leads to improved versions of these models over the original ones. But the method developed is applicable only to estimate the collection parameter under the information model framework. To alleviate this we propose a transfer learning approach which can predict values for any parameter for any IR model (Chapter 3). This approach uses relevance judgments on a past collection to learn a regression function which can infer parameter values for each single query on a new unlabeled target collection. The proposed method not only outperforms the standard IR models with their default parameter values, but also yields either better or at par performance with popular parameter tuning methods which use relevance judgments on target collection. We then investigate the application of transfer learning based techniques to directly transfer relevance information from a source collection to derive a "pseudo-relevance" judgment on an unlabeled target collection (Chapter 4). From this derived pseudo-relevance a ranking function is learned using any standard learning algorithm which can rank documents in the target collection. In various experiments the learned function outperformed standard IR models as well as other state-of-the-art transfer learning based algorithms. Though a ranking function learned through a learning algorithm is effective still it has a predefined form based on the learning algorithm used. We thus introduce an exhaustive discovery approach to search ranking functions from a space of simple functions (Chapter 5). Through experimentation we found that some of the discovered functions are highly competitive with respect to standard IR models. Recherche d'information Apprentissage automatique Apprentissage de transfert Information retrieval Machine learning Learning to rank Transfer learning 004
123	Exploitation informatique des annotations sémantiques automatiques d'Excom pour la recherche d'informations et la navigation / Information Retrieval and Text Navigation through the Exploitation of the Automatic Semantic Annotation of the Excom Engine Atanassova, Iana 14 January 2012 (has links) À partir du moteur d’annotation sémantique Excom, nous avons élaboré un systèmede recherche d’informations qui repose sur des catégories sémantiques issues d’analyses linguistiquesautomatiques afin de proposer une approche de fouille textuelle innovante. Les annotationssont obtenues par la méthode d’Exploration Contextuelle faisant appel à une modélisationdes connaissances linguistiques sous forme de marqueurs et de règles. Le traitement des requêtesselon des points de vue de fouille se trouve au coeur de la stratégie de recherche d’informations.Pour cela, notre approche s’appuie sur des catégories d’annotation organisées en ontologies linguistiquessous forme de graphes. Afin d’offrir à l’utilisateur des résultats pertinents, nous avonsmis en place des algorithmes d’ordonnancement des réponses et de gestion de la redondance.Ces algorithmes reposent principalement sur la structure des ontologies linguistiques utiliséespour l’annotation. Nous avons proposé une évaluation de la pertinence des résultats en tenantcompte de la spécificité de l’approche. Les interfaces que nous avons développées permettent laconstruction de nouveaux produits documentaires tels que les fiches de synthèse offrant une extractiond’informations structurées selon des critères sémantiques. Cee approche a égalementpour vocation de proposer des outils dédiés à la veille stratégique et à l’intelligence économique. / Using the Excom engine for semantic annotation, we have constructed an InformationRetrieval System based on semantic categories from automatic language analyses in order topropose a new approach to text search. e annotations are obtained by the Contextual Explorationmethod which is a knowledge based linguistic approach using markers and disambiguationrules. e queries are formulated according to search viewpoints which are at the heart of theInformation Retrieval strategy. Our approach uses the annotation categories which are organisedin linguistic ontologies structured as graphs. In order to provide relevant results to the user,we have designed algorithms for ranking and paraphrase identification. ese algorithms exploitprincipally the structure of the linguistic ontologies for the annotation. We have carriedout an evaluation of the relevance of the system results taking into account the specificity ofour approach. We have developed user interfaces allowing the construction of new informationproducts such as structured text syntheses using information extraction according to semanticcriteria. is approach also aims to offer tools in the field of economic intelligence. Recherche d'information Exploration contextuelle Annotation semantique Ordonnancement des réponses Information Retrieval Semantic Annotation Contextual Exploration Information Extraction, Ranking algorithm
124	Sélection de corpus en traduction automatique statistique / Efficient corpus selection for statistical machine translation Abdul Rauf, Sadaf 17 January 2012 (has links) Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le «translation edit rate (TER)». Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que «Agence France Press (AFP)», «Associate press» ou «Xinua News». Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique... / In our world of international communications, machine translation has become a key technology essential. Several pproaches exist, but in recent years the so-called Statistical Machine Translation (SMT) is considered the most promising. In this approach, knowledge is automatically extracted from examples of translations, called parallel texts, and monolingual data in the target language. Statistical machine translation is a data driven process. This is commonly put forward as a great advantage of statistical approaches since no human intervention is required, but this can also turn into a problem when the necessary development data are not available, are too small or the domain is not appropriate. The research presented in this thesis is an attempt to overcome barriers to massive deployment of statistical machine translation systems: the lack of parallel corpora. A parallel corpus is a collection of sentences in source and target languages that are aligned at the sentence level. Most existing parallel corpora were produced by professional translators. This is an expensive task in terms of money, human resources and time. This thesis provides methods to overcome this need by exploiting the easily available huge comparable and monolingual data collections. We present two effective architectures to achieve this.In the first part of this thesis, we worked on the use of comparable corpora to improve statistical machine translation systems. A comparable corpus is a collection of texts in multiple languages, collected independently, but often containing parts that are mutual translations. The size and quality of parallel contents may vary considerably from one comparable corpus to another, depending on various factors, including the method of construction of the corpus. In any case, itis not easy to automatically identify the parallel parts. As part of this thesis, we developed an approach which is entirely based on freely available tools. The main idea of our approach is the use of a statistical machine translation system to translate all sentences in the source language comparable corpus to the target language. Each of these translations is then used as query to identify potentially parallel sentences from the target language comparable corpus. This research is carried out using an information retrieval toolkit. In the second step, the retrieved sentences are compared to the automatic translation to determine whether they are parallel to the corresponding sentence in source language. Several criteria wereevaluated such as word error rate or the translation edit rate (TER) and TERp. We conducted a very detailed experimental analysis to demonstrate the interest of our approach. We worked on comparable corpora from the news domain, more specifically, multilingual news agencies such as, "Agence France Press (AFP)", "Associate Press" or "Xinua News." These agencies publish daily news in several languages. We were able to extract parallel texts from large collections of over three hundred million words for French-English and Arabic-English language pairs. These parallel texts have significantly improved our statistical translation systems. We also present a theoretical comparison of the model developed in this thesis with another approach presented in the literature. Various extensions are also discussed: automatic extraction of unknown words and the creation of a dictionary, detection and suppression of extra information, etc.. In the second part of this thesis, we examined the possibility of using monolingual data to improve the translation model of a statistical system. The idea here is to replace parallel data by monolingual source or target language data. This research is thus placed in the context of unsupervised learning, since missing translations are produced by an automatic translation system, and after various filtering, reinjected into the system... Traduction automatique statistique Corpus comparable Recherche d'information Statistical machine translation Comparable corpus Information retrieval Unsupervised learning WER TER TERp
125	Contribution à la veille stratégique : DOWSER, un système de découverte de sources Web d’intérêt opérationnel / Buisness Intelligence contribution : DOWSER, Discovering of Web Sources Evaluating Relevance Noël, Romain 17 October 2014 (has links) L'augmentation constante du volume d'information disponible sur le Web a rendu compliquée la découverte de nouvelles sources d'intérêt sur un sujet donné. Les experts du renseignement doivent faire face à cette problématique lorsqu'ils recherchent des pages sur des sujets spécifiques et sensibles. Ces pages non populaires sont souvent mal indexées ou non indexées par les moteurs de recherche à cause de leur contenu délicat, les rendant difficile à trouver. Nos travaux, qui s'inscrivent dans ce contenu du Renseignement d'Origine Source Ouverte (ROSO), visent à aider l'expert du renseignement dans sa tâche de découverte de nouvelles sources. Notre approche s'articule autour de la modélisation du besoin opérationnel et de l'exploration ciblée du Web. La modélisation du besoin informationnel permet de guider l'exploration du web pour découvrir et fournir des sources pertinentes à l'expert. / The constant growth of the Web in recent years has made more difficult the discovery of new sources of information on a given topic. This is a prominent problem for Expert in Intelligence Analysis (EIA) who are faced with the search of pages on specific and sensitive topics. Because of their lack of popularity or because they are poorly indexed due to their sensitive content, these pages are hard to find with traditional search engine. In this article, we describe a new Web source discovery system called DOWSER. The goal of this system is to provide users with new sources of information related to their needs without considering the popularity of a page unlike classic Information Retrieval tools. The expected result is a balance between relevance and originality, in the sense that the wanted pages are not necessary popular. DOWSER in based on a user profile to focus its exploration of the Web in order to collect and index only related Web documents. Exploration ciblée Recherche d'information Profil utilisateur Modélisation besoin informationnel Focused crawling Information retrieval Similarity measure User profile
126	Étude ergonomique pour la consultation sur écran de petite taille de la documentation de maintenance aéronautique / Ergonomic study of aircraft maintenance documentation on small screen devices Zafiharimalala, Herimanana 24 March 2011 (has links) Cette étude est fondée sur deux constats dans le domaine de la maintenance aéronautique : l’utilisation non systématique de la documentation de maintenance aéronautique (DMA) malgré la prescription légale et l’évolution technologique qui a entraîné l’introduction de l’utilisation de l’appareil à petit écran ou mobile pour la consultation et la recherche d’information pour la réalisation de la tâche de maintenance. L’objectif de cette étude est double : identifier les raisons de la sous utilisation de la DMA et contribuer à la conception d’une documentation de maintenance adaptée à la fois aux supports mobiles (PDA), à l’utilisateur et au contexte de la maintenance aéronautique. Des tests d’utilisabilité ont été menés et testaient l’hypothèse selon laquelle l’utilisation du petit écran a un effet négatif sur les performances des utilisateurs. Des observations et entretiens dans les centres de maintenance ainsi que des tests sur avion ont aussi été conduits pour évaluer la lisibilité de l’interface et la portabilité des appareils mobiles. Les résultats montrent que les raisons de la non utilisation de la documentation de maintenance sont principalement liées à la non adaptation de celle-ci aux utilisateurs et au contexte du métier, que l’utilisation du petit écran est envisageable aussi bien pour une application destinée aux petits écrans que pour celle destinée aux écrans standard. En outre, l’utilisation du petit écran ne détériore pas, d’une façon générale, les performances des utilisateurs et qu’elle est envisageable aussi bien chez les novices que chez les experts qui sont encore réticents mais n’y sont pas opposés. / Literature review shows that maintenance operators do not use the aircraft maintenance documentation (AMD) systematically despite the legal obligation. The aim of this study is to contribute to the identification of users’ difficulty about the use of the AMD and the designing of maintenance documentation well-adapted to mobile devices (PDA), to users and to aircraft maintenance context. Hypothesis consists on verifying the effect of the small screen use on users’ performances. According to the usability test results, the small screen use has no negative effect on the users’ (experts and novices) performances. Field studies in maintenance centers and on aircraft show that small screen use is suitable to novices and experts for small screen documentation consultation and also for standard screen documentation when consultation is limited. Some users, particularly experts, are hesitant about using small screen for information consultation. However, they are not against the use of such format if information display is improved. Results are not limited to small screen documentation issue, some parts (e.g. information display study to reduce user effort) could be generalised to information system for task support. Maintenance aéronautique Documentation technique Appareil mobile Ergonomie Recherche d'information Aircraft maintenance Technical documentation Mobile device Egonomy Information research
127	Accès sémantique aux données massives et hétérogènes en santé / Semantic access to massive and heterogeneous health data Lelong, Romain 17 June 2019 (has links) Les données cliniques sont produites par différents professionnels de santé, dans divers lieux et sous diverses formes dans le cadre de la pratique de la médecine. Elles présentent par conséquent une hétérogénéité à la fois au niveau de leur nature et de leur structure mais également une volumétrie particulièrement importante et qualifiable de massive. Le travail réalisé dans le cadre de cette thèse s’attache à proposer une méthode de recherche d’information efficace au sein de ce type de données complexes et massives. L’accès aux données cliniques se heurte en premier lieu à la nécessité de modéliser l’informationclinique. Ceci peut notamment être réalisé au sein du dossier patient informatisé ou, dans une plus large mesure, au sein d’entrepôts de données. Je propose dans ce mémoire unepreuve de concept d’un moteur de recherche permettant d’accéder à l’information contenue au sein de l’entrepôt de données de santé sémantique du Centre Hospitalier Universitaire de Rouen. Grâce à un modèle de données générique, cet entrepôt adopte une vision de l’information assimilable à un graphe de données rendant possible la modélisation de cette information tout en préservant sa complexité conceptuelle. Afin de fournir des fonctionnalités de recherche adaptées à cette représentation générique, un langage de requêtes permettant l’accès à l’information clinique par le biais des diverses entités qui la composent a été développé et implémenté dans le cadre de cette thèse. En second lieu, la massivité des données cliniques constitue un défi technique majeur entravant la mise en oeuvre d’une recherche d’information efficace. L’implémentation initiale de la preuve de concept sur un système de gestion de base de données relationnel a permis d’objectiver les limites de ces derniers en terme de performances. Une migration vers un système NoSQL orienté clé-valeur a été réalisée. Bien qu’offrant de bonnes performances d’accès atomique aux données, cette migration a également nécessité des développements annexes et la définition d’une architecture matérielle et applicative propice à la mise en oeuvre des fonctionnalités de recherche et d’accès aux données. Enfin, l’apport de ce travail dans le contexte plus général de l’entrepôt de données de santé sémantique du CHU de Rouen a été évalué. La preuve de concept proposée dans ce travail a ainsi été exploitée pour accéder aux descriptions sémantiques afin de répondre à des critères d’inclusion et d’exclusion de patients dans des études cliniques. Dans cette évaluation, une réponse totale ou partielle a pu être apportée à 72,97% des critères. De plus, la généricité de l’outil a également permis de l’exploiter dans d’autres contextes tels que la recherche d’information documentaire et bibliographique en santé. / Clinical data are produced as part of the practice of medicine by different health professionals, in several places and in various formats. They therefore present an heterogeneity both in terms of their nature and structure and are furthermore of a particularly large volume, which make them considered as Big Data. The work carried out in this thesis aims at proposing an effective information retrieval method within the context of this type of complex and massive data. First, the access to clinical data constrained by the need to model clinical information. This can be done within Electronic Health Records and, in a larger extent, within data Warehouses. In this thesis, I proposed a proof of concept of a search engine allowing the access to the information contained in the Semantic Health Data Warehouse of the Rouen University Hospital. A generic data model allows this data warehouse to view information as a graph of data, thus enabling to model the information while preserving its conceptual complexity. In order to provide search functionalities adapted to this generic representation of data, a query language allowing access to clinical information through the various entities of which it is composed has been developed and implemented as a part of this thesis’s work. Second, the massiveness of clinical data is also a major technical challenge that hinders the implementation of an efficient information retrieval. The initial implementation of the proof of concept highlighted the limits of a relational database management systems when used in the context of clinical data. A migration to a NoSQL key-value store has been then completed. Although offering good atomic data access performance, this migration nevertheless required additional developments and the design of a suitable hardware and applicative architecture toprovide advanced search functionalities. Finally, the contribution of this work within the general context of the Semantic Health Data Warehouse of the Rouen University Hospital was evaluated. The proof of concept proposed in this work was used to access semantic descriptions of information in order to meet the criteria for including and excluding patients in clinical studies. In this evaluation, a total or partial response is given to 72.97% of the criteria. In addition, the genericity of the tool has also made it possible to use it in other contexts such as documentary and bibliographic information retrieval in health. Bases de données médicales Données massives Données cliniques Recherche d'information Medical databases Big data Clinical data Information retrieval 025.04
128	Recherche d'information dirigée par les interfaces utilisateur : approche basée sur l'utilisation des ontologies de domaine / User interface-driven information retrieval : an ontology-based approach Zidi, Amir 26 March 2015 (has links) Ce mémoire porte sur l'utilisation des ontologies dans les systèmes de recherche d'information SRI dédiés à des domaines particuliers. Il se base sur une approche à deux niveaux, à savoir la formulation et la recommandation des requêtes. La formulation consiste à assister l'utilisateur dans l'expression de sa requête en se basant sur des concepts et des propriétés de l'ontologie de domaine utilisée. La recommandation consiste à proposer des résultats de recherche en utilisant la méthode du raisonnement à partir de cas. Dans cette méthode, une nouvelle requête est considérée comme un nouveau cas.La résolution de ce nouveau cas consiste à réutiliser les anciens cas similaires qui ne sont que des requêtes traitées auparavant. Afin de valider l'approche proposée, un système OntoCBRIR a été développé et un ensemble d'expérimentations a été élaboré. Enfin, les perspectives de recherche concluent le présent rapport. / This thesis study the using of ontologies in information retrieval systemdedicated to a specific domain. For that we propose a two-level approach to deal with i) the query formulation that assists the user in selecting concepts and properties of the used ontology ; ii) the query recommendation that uses the case-based reasoning method, where a new query is considered as a new case. Solving a new case consists of reusing similar cases from the history of the previous similar cases already processed. For the validation of the proposed approaches, a system was developed and a set of computational experimentations was made. Finally, research perspectives conclude that this present report. Recherche d'Information Ontologies de domaine Raisonnement à partir du cas Règles sémantiques. Information retrieval Domain ontologies Case-Based reasoning Semantic rules.
129	Recherche de vidéos académiques dans les collections en ligne : approche ergonomique / Searching academic videos in online collections : an ergonomic approach Papinot, Emmanuelle 14 December 2018 (has links) De plus en plus d’environnements en ligne dédiés à la diffusion du savoir intègrent la vidéo dans leurs corpus multimédia. Par rapport au texte ou à l’image statique ou animée, la vidéo a encore peu fait l’objet d’études scientifiques en psychologie et ergonomie cognitive. La recherche de vidéo s’inscrit dans le contexte de la recherche d’information. Le cadre théorique de cette thèse est celui de l’Information Foraging (Pirolli & Card, 1999) qui conçoit la recherche d’information dans un environnement stochastique, fondée sur une fouille construite à partir de l’information intermédiaire de l’environnement. L’objectif principal de la thèse repose sur l’apport de connaissances sur les usagers, avec pour hypothèse initiale, la coexistence d’une diversité de buts de recherche de vidéos dont une meilleure connaissance permettrait de contribuer à l’amélioration de l’environnement. Une étude exploratoire utilisant une approche multi-méthodologique a été effectuée sur une plateforme audiovisuelle dont le corpus est ancré dans l’enseignement supérieur et la recherche et un musée virtuel dédié à l’histoire de la justice des crimes et des peines qui dispose d’un corpus multimédia. Les résultats montrent que les difficultés liées à la publication et aux conditions de mise en ligne des vidéos impactent directement la recherche de l’usager et qu’il s’avère pertinent de distinguer le média du document audiovisuel. La caractéristique commune aux deux dispositifs étudiés repose sur une fréquentation majoritaire représentée par des usagers cherchant à se cultiver qui questionne directement l’intérêt et l’usage de la vidéo en tant que véhicule de connaissances pour des buts spécifiques. / More and more online environments dedicated to the dissemination of academic knowledge are integrating videos into their multimedia corpus. Compared to static or animated text or graphics, video usability has not yet been the object of scientific studies in psychology and cognitive ergonomics. Video search is part of the information seeking process. The theoretical framework of this dissertation is the Information Foraging theory (Pirolli & Card, 1999), which describes information seeking in a stochastic environment, based on a search built on intermediary information. Our main goal is to provide knowledge about users, with the initial hypothesis that a variety of video-seeking goals can coexist among users. This knowledge can help improve the usability of online environments.An exploratory study using a multi-methodological approach was carried out on the usability of an audiovisual online platform for higher education and research and on a multimedia virtual museum dedicated to the history of crime justice and punishments. The results show that: (a) the difficulties related to online video publishing directly impact video search on the user side, (b) it is relevant to distinguish the video as a media from the audiovisual document. The characteristic common to both platforms is that a majority of users use the platform as a way to educate themselves, which directly questions the interest and use of video as a vehicle of knowledge acquisition for specific purposes. Ergonomie Recherche d'information Recherche de vidéos Vidéos Collections digitales Ergonomics Information seeking Video browsing Video retrieval Digital collections
130	Traitement continu de requêtes top-k dans les réseaux sociaux / Continuous processing of top-k queries in social networks Alkhouli, Abdulhafiz 29 September 2017 (has links) En raison du grand succès des réseaux sociaux, la nature et mode de diffusion del’information sur le Web a changé en faveur de contenus dynamiques diffusés sousforme de flux d’information. Dans le contexte des réseaux sociaux, les utilisateurs peuvent s’abonner à de multiples sources d’information et recevoir continuellement de nouveaux contenus. Or, ce nouveau mode de publication/consommation peut entraîner d’énormes quantités d’information, en surchargeant les utilisateurs. Ainsi,il est essentiel de développer des techniques efficaces de filtrage et de classement qui permettent aux utilisateurs d’être efficacement mis à jour avec le contenu le plus intéressant.Les requêtes top-k sur les flux d’information limitent les résultats au contenu le plus pertinent. Pour améliorer la pertinence des résultats, le modèle de classement des résultats de requêtes devrait tenir compte de divers facteurs de contexte, y compris les facteurs traditionnels basés sur le contenu, les facteurs liés aux utilisateurs et leurs relations (réseau social). Dans le réseau social, le maintien des ensembles de top-k peut être plus difficile car de nombreux événements pourraient changer les messages de top-k tels que le nouveau message, la nouvelle action, le nouvel utilisateur, les modifications de profil, etc. Pour un grand réseau social avec des millions d’utilisateurs et des milliards de messages, le traitement continu des requêtes top-k est l’approche la plus efficace. Cependant, les systèmes actuels pour le traitementcontinu des requêtes top-k échouent lorseque ces systèmes considèrent des modèles de classement riches avec des critères de réseau social. En outre, de tels systèmes ne tiennent pas compte de la diversité des contenus publiés.Dans cette thèse, nous nous concentrons sur le filtrage des flux d’information basé sur le calcul des messages top-k pour chaque utilisateur dans le réseau social. Nous visons à développer un système à large échelle capable d’évaluer efficacement les requêtes top-k continues avec une fonction de classement complexe. Nous proposons l’algorithme SANTA, capable de gérer des fonctions de classement complexes avec des critères sociaux tout en maintenant un traitement continu des requêtes top-k. Nous proposons aussi une variante (SANTA +) qui accélère le traitement d’actions dans les réseaux sociaux. Pour tenire compte de la diversité des contenus publiés, nous proposons l’algorithme DA-SANTA qui étend l’algorithme SANTA pour intégrer la diversité dans le modèle top-k continu tout en maintenant l’efficacité du système. Nos expérimentation sont menées sur des données réelles extraite de Twitter, illustrant les propriétés de nos algorithmes et de montrer leur efficacité. / Information streams provide today a prevalent way of publishing and consuming content on the Web, especially due to the great success of social networks. In the social networks context, users may subscribe to several information sources of interest and continuously receive new published content. But, this new publishing/consumption mode may lead to huge amounts of received information, overwhelming for human processing. Thus, there is a vital need to develop effective filtering and ranking techniques which allow users to efficiently be updated with the most interesting content. Top-k queries over the streams of interest allow limiting results to the most relevant content. To provide a relevant content, the ranking model should consider various context factors including traditional IR factors and social network. In the social network, maintaining top-k sets may be more difficult because many events could produce changes in the top-k sets such as new message, new action, new user, profile changes, etc. For a large social network with millions of users and billionsof messages, the continuous processing of the top-k queries is the most effective approach. However, current systems fail in combining continuous top-k processing with rich scoring models including social network criteria. Moreover, such systems do not consider the diversity of published content.In this thesis, we focus on filtering information streams based on the computation of top-k messages for each user in the social network. We aim to develop a scalable system that be able to efficiently evaluate the continuous top-k queries using the continuous approach with a ranking function including social network criteria. We propose the SANTA algorithm, able to handle scoring functions including content similarity but also social network criteria and events in a continuous processing of top-k queries. We propose a variant (SANTA+) that accelerates the processing of interaction events in social networks. To provide both diverse and relevant messages in top-k sets, we propose the DA-SANTA algorithm which extends the SANTA algorithm to integrate the diversity into the continuous top-k model while maintaining the efficiency of the system. Our experiments are conducted over a real data-set extracted from Twitter, illustrating the properties of our algorithms and demonstrating their efficiency. Réseaux sociaux Recherche d'information Ranking Diversification Flux de texte Publish/subscribe Social network Information retrieval Ranking Diversification Text stream Publish/subscribe

Search results