Global ETD Search

111	La recherche d'informations sur le World Wide Web : utilisation des méta-informations dans une architecture de systèmes de recherche coopérants Bich-Liên, Doan 21 December 2000 (has links) (PDF) Deux types d'outils de recherche sont actuellement utilisés pour aider l'utilisateur à trouver des informations sur le Web : les moteurs de recherche (Google) et les annuaires thématiques (Yahoo). Cependant les réponses sont fortement entachées de bruit pour les outils universels, et de silence pour les outils thématiques. De plus, le problème qui se pose est de suivre l'augmentation constante du volume de pages Web : la scalabilité. Pour réduire le bruit et le silence nous introduisons un niveau logique avec la notion de document Web au dessus du niveau physique matérialisé par les pages Web. Les documents Web sont organisés en DAG (Directed Acyclic Graph) et sont décrits par des méta-informations. Dans la hiérarchie de documents, nous utilisons la technique de propagation des attributs de méta-informations le long de la hiérarchie de documents. Ceci nous permet de diminuer à la fois le bruit et le silence en combinant des recherches qui portent sur les attributs de m éta-informations avec la recherche traditionnelle dans le texte intégral, tout en exploitant la structure logique des documents Web. Pour le problème de scalabilité, nous proposons une architecture fondée sur 2 nouvelles classes d'outils de recherche. Les outils généralistes ont vocation à parcourir, indexer et connaître tout le Web mais d'une façon superficielle, ils sont par exemple capables d'indiquer tous les sites dont un des domaines concerne l'environnement. Les outils spécialistes ont pour but de collationner et d'indexer toutes les pages de tous les sites d'un domaine de connaissance particulier (par exemple l'environnement). Nous proposons enfin un modèle de dialogue entre ces nouveaux composants permettant de fournir un service global qui adresse à la fois les problèmes de bruit, de précision et de scalabilité. Un spécialiste devient à son tour un document qui s'auto-décrit et participe à l'architecture des systèmes coopérants. [INFO:INFO_WB] Computer Science/Web [INFO:INFO_WB] Informatique/Web World Wide Web recherche d'information méta-information systèmes de recherche coopérants
112	Enrichissement de requêtes et visualisation sémantique dans une coopération de systèmes d'information : méthodes et outils d'aide à la recherche d'information Gomez Carpio, Guillermo Valente 14 December 2010 (has links) (PDF) Cette thèse présente des approches et des outils d'aide à la recherche d'information. Notre travail s'inscrit dans le cadre d'un système de coopération basé sur des ontologies appelé OWSCIS (Ontology and Web Service based Cooperation of Information Sources). Nous traitons le problème de la recherche d'information en proposant une méthode d'enrichissement appelée QUEXME (QUery EXpansion MEthod)de requêtes basée sur l'analyse du comportement des utilisateurs et utilisant la notion d'importance d'un concept par rapport à une requête. Nous avons également abordé le problème de la visualisation dans le système OWSCIS en proposant une architecture du service de visualisation, composée de trois modules : requête, enrichissement et résultats. Les approches proposées dans cette thèse ont été prototypées et l'expérimentation de la méthode QUEXME a été réalisée en utilisant la base d'information (ontologie) développée dans le Système Euro-Méditerranéen d'Information sur les savoir-faire dans le Domaine de l'Eau (SEMIDE). [INFO] Computer Science [INFO] Informatique Ontologie Enrichissement de requêtes Visualisation Architecture de coopération Système d'information Web sémantique Recherche d'information
113	Découverte et exploitation d'objets visuels fréquents dans des collections multimédias Letessier, Pierre 28 March 2013 (has links) (PDF) L'objectif principal de cette thèse est la découverte d'objets visuels fréquents dans de grandes collections multimédia (images ou vidéos). Comme dans de nombreux domaines (finance, génétique, ...), il s'agit d'extraire une connaissance de manière automatique ou semi-‐automatique en utilisant la fréquence d'apparition d'un objet au sein d'un corpus comme critère de pertinence. Dans le cas visuel, le problème est différent de la fouille de données classique (ADN, textuel, etc.) puisque les instances d'apparition d'un même objet ne constituent pas des entités identiques mais doivent être appariées. Cette difficulté explique également pourquoi nous nous focalisons sur la découverte des objets rigides (logos, objets manufacturés, décors, bâtiments, etc.), et non des catégories d'objets de plus haut niveau sémantique (maison, voiture, chien, ...). Bien que les techniques de recherche d'objets rigides aient atteint une certaine maturité, le problème de la découverte non supervisée d'instances d'objets dans des grandes collections d'images est à l'heure actuelle encore difficile. D'une part parce que les méthodes actuelles ne sont pas assez efficaces et passent difficilement à l'échelle. D'autre part parce que le rappel et la précision sont encore insuffisants pour de nombreux objets. Particulièrement ceux ayant une taille très restreinte par rapport à l'information visuelle contextuelle qui peut être très riche (par exemple le logo d'un parti politique apparaissant ponctuellement dans un sujet de journal télévisé). Une première contribution de la thèse est de fournir un formalisme aux problèmes de découverte et de fouille d'instances d'objets visuels fréquents. Ces deux problèmes sont en effet définis de manière très confuse dans les quelques travaux récents de la littérature les abordant. Cette modélisation nous a permis entre autres choses de mettre en évidence le lien étroit qui existe entre la taille des objets à découvrir et la complexité du problème à traiter. La deuxième contribution de la thèse est une méthode générique de résolution de ces deux types de problème reposant d'une part sur un processus itératif d'échantillonnage d'objets candidats et d'autre part sur une méthode efficace d'appariement d'objets rigides à large échelle. L'idée est de considérer l'étape de recherche d'instances proprement dite comme une simple boite noire à laquelle il s'agit de soumettre des régions d'images ayant une probabilité élevée d'appartenir à un objet fréquent de la base. Une première approche étudiée dans la thèse consiste à simplement considérer que toutes les régions d'images de la base sont équiprobables, avec comme idée conductrice que les objets les plus instanciés sont ceux qui auront la couverture spatiale la plus grande et donc la probabilité la plus élevée d'être échantillonnés. En généralisant cette notion de couverture à celle plus générique de couverture probabiliste, il est alors possible de modéliser la complexité de notre méthode pour toute fonction de vraisemblance donnée en entrée, et de montrer ainsi l'importance de cette étape. La troisième contribution de la thèse s'attache précisément à construire une fonction de vraisemblance s'approchant au mieux de la distribution parfaite, tout en restant scalable et efficace. Cette dernière repose sur une approche originale de hachage à deux niveaux, permettant de générer efficacement un ensemble d'appariements visuels dans un premier temps, et d'évaluer ensuite leur pertinence en fonction de contraintes géométriques faibles. Les expérimentations montrent que contrairement aux méthodes de l'état de l'art notre approche permet de découvrir efficacement des objets de très petite taille dans des millions d'images. Pour finir, plusieurs scénarios d'exploitation des graphes visuels produits par notre méthode sont proposées et expérimentés. Ceci inclut la détection d'évènements médiatiques transmedia et la suggestion de requêtes visuelles. [INFO:INFO_MM] Informatique/Multimédia Fouille visuelle objets logos découverte hachage images collection grande multimedia recherche d'information
114	Modélisation cognitive computationnelle de trajets oculomoteurs lors d'une tâche de recherche d'information Chanceaux, Myriam 24 November 2009 (has links) (PDF) Ce travail de thèse étudie la combinaison des processus visuels et sémantiques dans le traitement d'interfaces textuelles, comme des pages web. La méthodologie employée est la simulation de modèles cognitifs, une approche visant à concevoir un programme informatique s'inspirant de modèles cognitifs théoriques et reproduisant au mieux le comportement humain. Notre modèle simule les trajets oculomoteurs d'un utilisateur moyen lors d'une recherche d'information. Les processus mis en jeu dans ce type de tâche sont modélisés afin de reproduire les mouvements oculaires humains enregistrés lors de différentes expérimentations. Aux modèles des processus visuels et sémantiques est ajouté un modèle des processus mnésiques sous-jacents à la recherche d'information. Pour la partie visuelle, le modèle s'inspire des cartes de saillance qui prédisent les zones de l'écran susceptibles d'attirer l'attention, en fonction des informations à bas niveau (couleur, orientation et contraste), ainsi que des propriétés physiologiques de l'œil humain. Pour la partie sémantique, la technique de mesure de similarités sémantiques entre le but de l'utilisateur et les différentes parties de la page employée est LSA (Latent Semantic Analysis) (Landauer, 1998). Pour la partie mnésique, le mécanisme d'Inhibition of Return (Klein, 1999) et le Variable Memory Model (Horowitz, 2006) sont utilisés. Le travail de thèse intègre trois parties: conception d'un modèle théorique d'interaction, conception de l'outil de simulation, et mise en place d'expérimentations psychophysiques de relevés oculométriques permettant de valider et d'affiner le modèle proposé. Modélisation cognitive Recherche d'information Mouvements oculaires Sémantique Vision Mémoire
115	Personnalisation et Adaptation de L'accès à L'information Contextuelle en utilisant un Assistant Intelligent Asfari, Ounas 19 September 2011 (has links) (PDF) L'accès à une information pertinente, adaptée aux besoins et au contexte de l'utilisateur est un challenge dans un environnement Internet, caractérisé par une prolifération de ressources hétérogènes. Les travaux présentés dans cette thèse rentrent dans le cadre de la Recherche d'Information (RI) et s'intéressent à la prise en compte du contexte de l'utilisateur pendant la phase de requête. Nous proposons un assistant d'aide à la reformulation de requêtes reposant sur l'utilisation d'une méthode hybride d'expansion de requêtes afin de fournir des résultats personnalisés en fonction du contexte. Cet assistant utilise le profil de l'utilisateur, qui contient les centres d'intérêts et les préférences des utilisateurs, et utilise également le contexte de l'utilisateur qui considère l'état actuel de la tâche courante de l'utilisateur pendant le processus de recherche. Une implémentation de cette approche est réalisée, suivie d'une étude expérimentale. Nous proposons également une procédure d'évaluation qui tient compte l'évaluation des termes d'expansion, générés par notre système de reformulation de requêtes, et de l'évaluation des résultats retournés en utilisant les requêtes reformulées SRQ. Nous montrons sur plusieurs scénarios que notre approche, en particulier celle qui prend en compte la tâche actuelle de l'utilisateur est effectivement plus performante que les approches reposant soit uniquement sur la requête initiale, ou encore sur la requête reformulée en considérant uniquement le profil de l'utilisateur. [INFO:INFO_WB] Computer Science/Web [INFO:INFO_WB] Informatique/Web Recherche d'information Reformulation de requêtes Contexte de l'utilisateur Modélisation des tâches Personnalisation Profil utilisateur
116	S³niffer : un système de recherche de service basé sur leur description / S3niffer : A text description-based service search system Caicedo-Castro, Isaac 12 May 2015 (has links) Dans cette recherche, nous abordons le problème de le recherche de services qui répondent à des besoins des utilisateurs exprimés sous forme de requête en texte libre. Notre objectif est de résoudre les problèmes qui affectent l'efficacité des modèles de recherche d'information existant lorsqu'ils sont appliqués à la recherche de services dans un corpus rassemblant des descriptions standard de ces services. Ces problèmes sont issus du fait que les descriptions des services sont brèves. En effet, les fournisseurs de services n'utilisent que quelques termes pour décrire les services souhaités. Ainsi, lorsque ces descriptions sont différentes des phrases dans les requêtes ce qui diminue l'efficacité des modèles classiques qui dépendent de traits observables au lieu de traits sémantiques latents du texte. Nous avons adapté une famille de modèles de recherche d'information (IR) dans le but de contribuer à accroître l'efficacité acquise avec les modèles existant concernant la découverte de services. En outre, nous avons mené des expériences systématiques afin de comparer notre famille de modèles IR avec ceux de l'état de l'art portant sur la découverte de service. Des résultats des expériences, nous concluons que notre modèle basé sur l'extension des requêtes via un thésaurus co-occurrence est plus efficace en terme des mesures classiques utilisées en IR que tous les modèles étudiés dans cette recherche. Par conséquent, nous avons mis en place ce modèle dans S3niffer, qui est un moteur de recherche de service basé sur leur description standard. / In this research, we address the problem of retrieving services which fulfil users' need expressed in query in free text. Our goal is to cope the term mismatch problems which affect the effectiveness of service retrieval models applied in prior re- search on text descriptions-based service retrieval models. These problems are caused due to service descriptions are brief. Service providers use few terms to describe desired services, thereby, when these descriptions are different to the sentences in queries, term mismatch problems decrease the effectiveness in classical models which depend on the observable text features instead of the latent semantic features of the text. We have applied a family of Information Retrieval (IR) models for the purpose of contributing to increase the effectiveness acquired with the models applied in prior research on service retrieval. Besides, we have conducted systematic experiments to compare our family of IR models with those used in the state-of-the-art in service discovery. From the outcomes of the experiments, we conclude that our model based on query expansion via a co-occurrence thesaurus outperforms the effectiveness of all the models studied in this research. Therefore, we have implemented this model in S3niffer, which is a text description-based service search engine. Recherche d'information Thésaurus de co-occurrence Factorisation matricielle La science des services Information retrieval Co-occurrence thesaurus Matrix Factorisation Service science 004
117	ViewpointS : vers une émergence de connaissances collectives par élicitation de point de vue / ViewpointS : collective knowledge emerging from viewpoints elicitation Surroca, Guillaume 30 June 2017 (has links) Le Web d’aujourd’hui est formé, entre autres, de deux types de contenus que sont les données structurées et liées du Web sémantique et les contributions subjectives des utilisateurs du Web social. L’approche ViewpointS a été conçue comme un formalisme creuset apte à intégrer ces deux types de contenus, en préservant la subjectivité des interactions du Web Social. ViewpointS est une approche de représentation subjective des connaissances. Les connaissances sont représentées sous forme de points de vue – des viewpoints – qui sont des éléments de base d’une sémantique individuelle déclarant la proximité de deux ressources. L’approche propose aussi un second degré de subjectivité. En effet, viewpoints peuvent être interprétés différemment selon l’utilisateur grâce au mécanisme de perspective. Il y a une subjectivité dans la connaissance capturée ainsi que dans la manière de l’exploiter. En complément aux approches top-down où la sémantique collective d’un groupe est établie par consensus, la sémantique collective d’une communauté ViewpointS émerge de façon « bottom-up » de l’échange et la confrontation des viewpoints et évolue de manière fluide au fur et à mesure de leur émission. Les ressources du Web sont représentées et liées par les viewpoints dans le Graphe de Connaissances. A l’utilisation, les viewpoints entre deux ressources sont agrégés pour créer une « synapse ». A partir du Graphe de Connaissances contenant les viewpoints et les ressources du Web une Carte de Connaissances composée de synapses et de ressources est créée qui est le fruit de l’interprétation et de l’agrégation des viewpoints. Chaque viewpoint contribue à la création, au renforcement ou à l’affaiblissement d’une synapse qui relie deux ressources. L’échange de viewpoints est le processus de sélection qui permet l’évolution des synapses d’une manière analogue à celles qui évoluent dans le cerveau au fil d’un sélectionnisme neuronal. Nous investiguons dans cette étude l’impact que peut avoir la représentation subjective des connaissances dans divers scénarii de construction collective des connaissances. Les domaines traités sur les bénéfices de la subjectivité des connaissances représentées sont la recherche d’information, la recommandation, l’alignement multilingue d’ontologies et les méthodes de calcul de distance sémantique. / Nowadays, the Web is formed by two types of content which are linked: structured data of the so-called Semantic Web and users’ contributions of the Social Web. The ViewpointS approach was de-signed as an integrative formalism capable of mixing these two types of content while preserving the subjectivity of the interactions of the Social Web. ViewpointS is a subjective knowledge repre-sention approach. Knowledge is represented by means of viewpoints which are micro-expressions of individual semantics tying the relation between two Web resources. The approach also provides a second level of subjectivity. Indeed, the viewpoints can be interpreted differently according to the user through the perspective mechanism. In addition to a top-down approach where collective semantics of a group is established by consensus, collective semantics of a ViewpointS community is emerging from the exchange and confrontation of viewpoints and evolve fluidly. In our frame-work, resources from the Web are tied by viewpoints in a Knowledge Graph. From the Knowledge Graph containing viewpoints and Web resources a Knowledge Map consisting of “synapses” and re-sources is created as a result of the interpretation and aggregation of viewpoints. The evolution of the ViewpointS synapses may be considered analog to the ones in the brain in the very simple sense that each viewpoint contributes to the establishment, strengthening or weakening of a syn-apse that connects two resources. The exchange of viewpoints is the selection process ruling the synapses evolution like the selectionist process within the brain.We investigate in this study the potential impact of our subjective representation of knowledge in various fields: information search, recommendation, multilingual ontology alignment and methods for calculating semantic distances. Web sémantique Représentation des connaissances Distance sémantique Recherche d'information Recommandation Semantic Web Knowlege representation Semantic Distance Information search Recommendation
118	Communiquer par SMS : Analyse automatique du langage et extraction de l'information véhiculée / SMS communication : Natural language processing and information extraction Kogkitsidou, Eleni 27 September 2018 (has links) Cette thèse concerne l’analyse automatique des SMS et l'extraction des informations qui y sont contenues. Le point de départ de notre recherche est le constat que la plupart des messages courts, observés dans le corpus alpes4science, présentent des différences en comparaison avec le langage standard. Les différences sont mises en évidence, d’une part, par la morphologie particulière des mots et, d’autre part, par les règles de syntaxe et de grammaire qui ne sont pas respectées lorsque l’émetteur considère que cela ne nuit pas à l’intelligibilité du message. À cause des écarts par rapport à la langue standard, le traitement et l'analyse des messages bruités est toujours un défi pour les tâches du TAL. Par conséquent, réduire les écarts est un défi fondamental que nous surmontons en utilisant l’approche de la normalisation pour la conception d’outils en traitement automatique des SMS.Nous proposons un modèle de normalisation en deux étapes, fondé sur une approche symbolique et statistique. La première étape vise à produire une représentation intermédiaire du message SMS par l’application de grammaires locales, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard. Le résultat produit par ce modèle a été évalué, par la suite, pour la reconnaissance d'entités nommées au travers d'une série de tests appliqués à l'aide de trois autres systèmes. Les résultats obtenus ont montré que les performances de ces systèmes de reconnaissance d'entités nommées présentent des améliorations significatives lorsqu’ils sont appliqués sur les SMS automatiquement normalisés en comparaison avec le corpus brut et manuellement transcrit.Mots-clés : communication médiée par ordinateur, langage SMS, normalisation des SMS, extraction d’informations / This thesis focuses on SMS language and information extraction from the point of view of natural language processing. The starting point of our study is the observation of the differences that most short messages have, using the alpes4science corpora, in comparison with the standard language. The differences are highlighted by the particular morphology of words and by the syntactic and grammar rules that are not respected when the issuer considers that it would not impair the intelligibility of the message.Because of the deviations from the standard language, processing and analyzing noisy messages is still a challenge for any NLP task. Therefore, reducing the gaps is a fundamental step to overcome when designing approaches for automatic SMS processing.We propose a two-step normalization model based on a symbolic and statistical approach. The first step aims to produce an intermediate representation of the SMS by applying local grammars. The second step uses a rule-based machine translation system to convert the intermediate representation to a standard form. The obtained result from this model was evaluated, afterwards, for named entities recognition through a series of tests applied thanks to three other systems. The results have shown that these performances of named entity recognition systems are significantly improved when applied to automatically normalized SMS in comparison with raw and manually normalized corpora.Keywords: computer-mediated communication, SMS language, SMS normalization Langage SMS Normalisation des SMS Recherche d'information Communication médiée par ordinateur SMS language SMS normalization Information extraction Computer-Mediated communication 410
119	Usages d'Internet et services d'Internet au Mali : rôle et positionnement des bibliothèques / Uses of the Internet and Internet services in Mali : the role and positioning of libraries Sidibé, Amadou Békaye 06 February 2018 (has links) Depuis l’époque sumérienne (4ème – 3ème millénaire avant J.-C.), les bibliothèques ont su traiter les documents pour les mettre à la disposition des populations pour leur développement intellectuel, culturel, économique … Pour répondre aux besoins informationnels de toutes les couches socioprofessionnelles, elles ont pris diverses formes : nationale, publique, spécialisée, scolaire, universitaire … et cela, à travers tous les pays du monde.Avec la naissance du web et l’accès progressif des populations aux ressources en ligne, les partenaires techniques et financiers des pays africains ont commencé à aider ces derniers, dans la seconde moitié des années 90, à se connecter à Internet. Ce fut aussi le début de divers projets de création de télécentres en vue de vulgariser Internet et permettre l’accès des populations africaines à l’information pour leur développement. Ces nouvelles structures (communautaires ou privées) ont paru pour beaucoup comme la source d’accès à l’information. Dans ce contexte, les bibliothèques, aux ressources déjà maigres dans nos pays, ont paru comme des structures démodées, voire inutiles. Les professionnels de l’information documentaire ont alors commencé à s’interroger sur l’avenir de leur profession et des bibliothèques. Dans leur réflexion, Internet a été perçu tantôt comme une menace pour les bibliothèques, une technologie comme les autres, ou encore comme une opportunité à saisir pour valoriser leurs ressources et leur savoir-faire.Considérer Internet comme une opportunité exige cependant des bibliothécaires une nouvelle perception de leur mission, une nouvelle organisation du travail, de nouveaux produits et services, une nouvelle vision des relations avec le public. Cela exige surtout l’appropriation d’Internet et un rôle actif dans son usage afin de diffuser ses ressources, faciliter l’accès à celles des autres, promouvoir ses produits et services, diversifier, fidéliser et rendre autonomes ses utilisateurs dans la recherche et l’exploitation des ressources … Ainsi, se pose la question du rôle des bibliothèques dans le développement des usages et services Internet.Notre étude cherche dans le contexte malien, marqué par l’extrême pauvreté des bibliothèques, par l’échec quasi-total des télécentres, mais par un léger dynamise d’autres modes d’accès à Internet (connexion au bureau, à domicile, sur les appareils mobiles …) de déterminer, analyser et comprendre le rôle des bibliothèques maliennes dans le développement des usages et services Internet. Conduite auprès de 39 unités documentaires connectées à Internet, elle expose Internet au Mali (historique, stratégies, représentations, usages), analyse le rôle et le positionnement des bibliothèques dans la démocratisation de l’accès des usagers à Internet et aux ressources informationnelles. Elle essaie, enfin, de comprendre si les actions des bibliothèques en lien avec Internet s’inscrivent dans une stratégie claire et mûrie. / Since the Sumerian period (4th - 3rd millennium BC), libraries have been able to process documents in order to make them available to the population for their intellectual, cultural and economic development ... ¶ To meet the information needs of all the socio-professionnal strata, they have taken various forms: national, public, specialized, scolarly, academic ... and this, in all the countries of the world.¶¶ With the rise of the web and the progressive access of people to online resources, the technical and financial partners of African countries began to help them, in the second half of the 1990s, to connect to the Internet. ¶This was also the beginning of various projects to create telecentres in order to popularize the Internet and to enable African populations to access information for their development. ¶These new structures (community or private) have been seen by many as the only source of access to information. In this context, libraries, with already meager resources in our countries, have appeared as obsolete, even useless structures. ¶ Documentary information professionals then began to question the future of their profession and libraries. ¶ In their reflection, the Internet has sometimes been perceived as a threat to libraries, as a technology like any other, or as an opportunity to seize in order to develop their resources and their know-how.¶Considering the Internet as an opportunity, however, requires librarians a new perception of their mission, a new organization of work, new products and services, and a new vision of relations with the public. ¶ This requires especially the appropriation of Internet and an active role in its use in order to disseminate your resources, facilitate access to those of others, promote your products and services, diversify, retain and empower your users in research and exploitation of resources ... ¶ Thus, the question arises of the role of libraries in the development of Internet uses and services.¶ Our study seeks, in the Malian context, marked by the extreme poverty of libraries, by the almost total failure of telecentres, but by a slight dynamism of other modes of access to the Internet (connection at the office, home connection, connection on mobile devices ...) to determine, analyze and understand the role of Malian libraries in the development of Internet usage and services. Realized in 39 Internet-related documentary units, it exposes Internet Mali (history, strategies, representations, uses), analyzes the role and positioning of libraries in the democratization of Internet and information resources access. Finally, it tries to understand whether the actions of libraries in bond with Internet are part of a clear and mature strategy. Internet Bibliothèques Information Recherche d'information Recherche documentaire Démocratisation Internet Library Information Information Retrieval Documentary research Democratization 004
120	Short text contextualization in information retrieval : application to tweet contextualization and automatic query expansion / Contextualisation de textes courts pour la recherche d'information : application à la contextualisation de tweets et à l'expansion automatique de requêtes. Ermakova, Liana 31 March 2016 (has links) La communication efficace a tendance à suivre la loi du moindre effort. Selon ce principe, en utilisant une langue donnée les interlocuteurs ne veulent pas travailler plus que nécessaire pour être compris. Ce fait mène à la compression extrême de textes surtout dans la communication électronique, comme dans les microblogues, SMS, ou les requêtes dans les moteurs de recherche. Cependant souvent ces textes ne sont pas auto-suffisants car pour les comprendre, il est nécessaire d’avoir des connaissances sur la terminologie, les entités nommées ou les faits liés. Ainsi, la tâche principale de la recherche présentée dans ce mémoire de thèse de doctorat est de fournir le contexte d’un texte court à l’utilisateur ou au système comme à un moteur de recherche par exemple.Le premier objectif de notre travail est d'aider l’utilisateur à mieux comprendre un message court par l’extraction du contexte d’une source externe comme le Web ou la Wikipédia au moyen de résumés construits automatiquement. Pour cela nous proposons une approche pour le résumé automatique de documents multiples et nous l’appliquons à la contextualisation de messages, notamment à la contextualisation de tweets. La méthode que nous proposons est basée sur la reconnaissance des entités nommées, la pondération des parties du discours et la mesure de la qualité des phrases. Contrairement aux travaux précédents, nous introduisons un algorithme de lissage en fonction du contexte local. Notre approche s’appuie sur la structure thème-rhème des textes. De plus, nous avons développé un algorithme basé sur les graphes pour le ré-ordonnancement des phrases. La méthode a été évaluée à la tâche INEX/CLEF Tweet Contextualization sur une période de 4 ans. La méthode a été également adaptée pour la génération de snippets. Les résultats des évaluations attestent une bonne performance de notre approche. / The efficient communication tends to follow the principle of the least effort. According to this principle, using a given language interlocutors do not want to work any harder than necessary to reach understanding. This fact leads to the extreme compression of texts especially in electronic communication, e.g. microblogs, SMS, search queries. However, sometimes these texts are not self-contained and need to be explained since understanding them requires knowledge of terminology, named entities or related facts. The main goal of this research is to provide a context to a user or a system from a textual resource.The first aim of this work is to help a user to better understand a short message by extracting a context from an external source like a text collection, the Web or the Wikipedia by means of text summarization. To this end we developed an approach for automatic multi-document summarization and we applied it to short message contextualization, in particular to tweet contextualization. The proposed method is based on named entity recognition, part-of-speech weighting and sentence quality measuring. In contrast to previous research, we introduced an algorithm for smoothing from the local context. Our approach exploits topic-comment structure of a text. Moreover, we developed a graph-based algorithm for sentence reordering. The method has been evaluated at INEX/CLEF tweet contextualization track. We provide the evaluation results over the 4 years of the track. The method was also adapted to snippet retrieval. The evaluation results indicate good performance of the approach. Recherche d'information Contextualisation Expansion de requête Résumé automatique Thème-rhème Information retrieval Contextualization Query expansion Automatic summarization Topic-comment

Search results