101 |
Corrélation sémantique entre documents : application à la recherche d'information juridique sur le WebChotteau, Christophe 12 December 2003 (has links) (PDF)
Parmi les nombreuses méthodes d'accès à l'information présentes sur Internet, la corrélation de divers documents apparaît comme un outil complémentaire permettant aux internautes d'enrichir leurs connaissances sur un document sans avoir à formuler de question. L'objectif de nos travaux est de réaliser une méthode de corrélation sémantique dédiée à la recherche d'information juridique. La méthode que nous dégageons vise à appliquer des outils et techniques d'ingénierie linguistique sur des textes préalablement choisis. Les unités textuelles saillantes les constituant sont alors dégagées, définissant pour chaque document analysé ce que nous appelons une signature lexicale. Ces signatures lexicales servent ensuite d'éléments clefs pour interroger un moteur de recherche dont les résultats représentent l'ensemble des documents corrélés. Cette méthode de corrélation est utilisée et évaluée dans un contexte de recherche d'information sur Internet et plus spécifiquement est intégrée aux développements d'un moteur de recherche. Les principaux apports de nos travaux sont (1) un renouvellement des méthodes de recherche de documents corrélés par l'optimisation des signatures lexicales dédiées, (2) l'élaboration et l'évaluation d'un nouvel indice de pondération statistique noté Tifr, (3) une réflexion sur l'aspect sémantique de la méthode de corrélation exposée, et enfin (4) une proposition concrète de réponse à la problématique de l'accès à l'information dans un contexte juridique.
|
102 |
Traitement Automatique des Langues et Recherche d'Information en langue arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques pour l'indexationBoulaknadel, Siham 18 October 2008 (has links) (PDF)
La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé. Notre thèse s'inscrit dans le cadre de la recherche d'information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d'une part, d'identifier les termes complexes présents dans les requêtes et les documents. D'autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d'identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s'appuyant sur une approche mixte qui combine modèle statistique et données linguistiques.
|
103 |
Traitement automatique d'informations appliqué aux ressources humainesKessler, Rémy 10 July 2009 (has links) (PDF)
Depuis les années 90, Internet est au coeur du marché du travail. D'abord mobilisée sur des métiers spécifiques, son utilisation s'étend à mesure qu'augmente le nombre d'internautes dans la population. La recherche d'emploi au travers des « bourses à l'emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d'informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d'information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d'outils pour automatiser les flux d'informations lors d'un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d'une entreprise à gérer efficacement et à moindre coût ces flux d'informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l'application des méthodes d'apprentissage afin d'effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l'analyse et l'intégration d'une offre d'emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d'intégrer une offre d'emploi d'une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d'assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures. L'utilisation d'un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.
|
104 |
Contributions au problème d'hétérogénéité sémantique dans les systèmes pair-à-pair : application à la recherche d'informationThomas, Cerqueus 15 November 2012 (has links) (PDF)
Nous considérons des systèmes pair-à-pair (P2P) pour le partage de données dans lesquels chaque pair est libre de choisir l'ontologie qui correspond le mieux à ses besoins pour représenter ses données. Nous parlons alors d'hétérogénéité sémantique. Cette situation est un frein important à l'interopérabilité car les requêtes émises par les pairs peuvent être incomprises par d'autres. Dans un premier temps nous nous focalisons sur la notion d'hétérogénéité sémantique. Nous définissons un ensemble de mesures permettant de caractériser finement l'hétérogénéité d'un système suivant différentes facettes. Dans un deuxième temps nous définissons deux protocoles. Le premier, appelé CorDis, permet de réduire l'hétérogénéité sémantique liée aux disparités entre pairs. Il dissémine des correspondances dans le système afin que les pairs apprennent de nouvelles correspondances. Le second protocole, appelé GoOD-TA, permet de réduire l'hétérogénéité sémantique d'un système liée à son organisation. L'objectif est d'organiser le système de sorte que les pairs proches sémantiquement soient proches dans le système. Ainsi deux pairs deviennent voisins s'ils utilisent la même ontologie ou s'il existe de nombreuses correspondances entre leurs ontologies respectives. Enfin, dans un trois temps, nous proposons l'algorithme DiQuESH pour le routage et le traitement de requêtes top-k dans les systèmes P2P sémantiquement hétérogènes. Cet algorithme permet à un pair d'obtenir les k documents les plus pertinents de son voisinage. Nous montrons expérimentalement que les protocoles CorDis et GoOD-TA améliorent les résultats obtenus par DiQuESH.
|
105 |
Génération de documents virtuels par intégration de relations entre documents structurés pour la recherche d'informationVerbyst, Delphine 14 October 2008 (has links) (PDF)
La recherche d'information sur des documents structurés tente de répondre de manière cibl ée à une requête utilisateur en ne fournissant que des éléments de documents (doxels) pour satisfaire ce besoin d'information. Ce travail de thèse étudie l'apport de la caractérisation des relations (structurelles et non structurelles) entre parties de documents structurés dans ce contexte. Nous modélisons l'indexation des documents structurés en utilisant la structure et les relations entre doxels et nous caractérisons ces relations par des valeurs d'exhaustivité et de spéci cité relatives. Le processus de recherche basé sur ces documents structurés génère des documents virtuels résultats, en spéci ant les liens pertinents entre les doxels. Le modèle est validé par des expérimentations sur la campagne d'évaluation INEX 2007 (660 000 documents Wikipedia, 100 requêtes) et les résultats obtenus montrent une amélioration de 24% en précision moyenne avec le modèle vectoriel.
|
106 |
Collecte orientée sur le Web pour la recherche d'information spécialiséeDe Groc, Clément 05 June 2013 (has links) (PDF)
Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.
|
107 |
Modélisation d'un système de recherche d'information pour les systèmes hypertextes. Application à la recherche d'information sur le World Wide WebCarvalho De Aguiar, Fernando Jorge 28 June 2002 (has links) (PDF)
Dans un hypertexte, un document est souvent composé de plusieurs nœuds et non pas d'un seul. L'information véhiculée par un nœud donné peut difficilement être appréhendée à travers la lecture du seul contenu de ce nœud, le contenu des autres nœuds qui composent un document avec le premier nœud lui apportent un contexte .La connaissance de ce contexte est fondamentale dans la compréhension de l'information véhiculée par le premier nœud. Un système de recherche d'information, ou plus couramment un moteur de recherche, appliqué au système hypertexte que constitue le Web devrait considérer dans son fonctionnement la fragmentation des documents hypertextuels en plusieurs pages : une page ne constitue pas un document à part entière, elle n'en est qu'une partie. Ainsi, pour bien indexer une page le contexte de l'information qu'elle véhicule doit être considéré. Les moteurs de recherche considèrent souvent une page comme un document et l'indexent en analysant uniquement son contenu. Le contexte des pages est ignoré. Dans ce travail nous proposons un modèle de recherche d'information pour un moteur de recherche appliqué à un système hypertexte constitué par un site Web. Ce modèle repose sur la construction d'un index à deux niveaux pour chacune des pages du site : un premier niveau, niveau inférieur, construit à partir du seul contenu de la page, et un deuxième niveau, niveau supérieur, construit à partir du contenu des pages qui apportent un contexte au contenu de la page en train d'être indexée. En améliorant la qualité des index des pages on cherche à améliorer l'efficacité du moteur de recherche. Grâce à l'implémentation d'un prototype de moteur de recherche intégrant le modèle proposé ainsi que l'utilisation de la collection de tests WT10g issue des conférences TREC et adaptée à nos besoins, nous avons pu mener des expérimentations. Les résultats de ces dernières, une amélioration dans la qualité des réponses retournées par le moteur prototype, sont des indicateurs favorables de l'utilité de l'information contextuelle des pages. L'efficacité du moteur prototype a été comparée avec celle d'un moteur de recherche adoptant un modèle traditionnel où un seul niveau d'index, celui issu du seul contenu des pages, est utilisé.
|
108 |
Contributions à la séparation de sources et à la description des contenus audioVincent, Emmanuel 23 November 2012 (has links) (PDF)
Les données audio occupent une position centrale dans notre vie, que ce soit pour la communication parlée, les vidéos personnelles, la radio et la télévision, la musique, le cinéma, les jeux vidéos ou les divertissements. Cela crée un ensemble de besoins applicatifs allant du rehaussement du signal à l'extraction d'information, en passant par la réditorialisation et la manipulation interactive des contenus. Les données audio réelles ont une structure complexe due à la superposition de plusieurs sources sonores et à la coexistence de plusieurs niveaux d'information. Par exemple, les enregistrements de parole incluent souvent des locuteurs simultanés ou du bruit de fond et ils portent des informations sur l'identité des locuteurs, la langue et le sujet de la discussion, le texte prononcé, l'intonation et l'environnement acoustique. Les enregistrements de musique sont aussi typiquement constitués de plusieurs instruments musicaux ou voix et ils contiennent des informations sur le compositeur, l'organisation temporelle des morceaux, la partition sous-jacente, l'interprétation et l'environnement acoustique. Lorsque j'ai commencé mes études de doctorat de 2001, la séparation des signaux sources dans un enregistrement était considérée comme l'un des grands défis vers l'application des techniques de traitement du signal audio initialement conçues pour des sources seules à des données réelles multi-sources. Les techniques de formation de voies fixe ou adaptative étaient déjà établies, mais elles demandaient un grand nombre de microphones rarement disponible en pratique. Les premières techniques de séparation aveugle de sources conçues pour un nombre plus faible de microphones venaient à peine d'être appliquées à l'audio. Onze ans plus tard, des progrès importants ont été faits et la séparation de sources est devenue un sujet mûr. Grâce en particulier à certaines des contributions listées dans ce document, l'équipe METISS a acquis une réputation de leader dans le domaine, démontrée par un nombre croissant de transferts technologiques visant à rehausser et remixer des signaux de parole et de voix dans divers cas d'usage. L'utilisation de la séparation de sources comme un pré-traitement pour la description de sources de parole ou de musique au sein d'un mélange soulève le défi supplémentaire de prendre en compte les distorsions non-linéaires sur les signaux sources estimés. Des méthodes robustes d'interfaçage de la séparation de sources, de l'extraction de descripteurs et de classification ont émergé dans les dix dernières années basées sur l'idée de propagation de l'incertitude. Ce sujet faisait partie de mon programme de recherche lorsque j'ai rejoint Inria en 2006 et il est actuellement en forte croissance en raison de l'omniprésence des applications vocales pour les appareils portables. Les méthodes actuelles n'ont cependant pas encore atteint la robustesse du système auditif humain, et la reconnaissance de la parole ou du locuteur dans des environnements réels avec du bruit non-stationnaire reste un problème très difficile. Par rapport aux deux défis ci-dessus, le traitement conjoint des différents niveaux d'information sous-jacents aux signaux audio a attiré un intérêt moindre à ce jour. Il demeure cependant un problème fondamental pour le traitement de la musique en particulier, où des tâches telles que la transcription de hauteurs polyphonique et l'identification d'accords sont typiquement effectuées indépendamment l'une de l'autre sans prendre en compte les fortes dépendances entre les informations de hauteur et d'harmonie. Mon travail s'est focalisé sur ces trois défis et il est basé en particulier sur les fondements théoriques de la modélisation et de l'estimation bayésienne d'une part et de la modélisation parcimonieuse et de l'optimisation convexe d'autre part. Ce document fournit une vue d'ensemble de mes contributions depuis la fin de mon doctorat selon quatre axes: le Chapitre 1 se focalise sur la formalisation et l'évaluation diagnostique de certains problèmes étudiés, le Chapitre 2 sur la modélisation linéaire des signaux audio et les algorithmes associés, le Chapitre 3 sur la modélisation de variance des signaux audio et les algorithmes associés, et le Chapitre 4 sur la description des contenus multi-sources et multi-niveaux. Le chapitre 5 résume les perspectives de recherche issues de ce travail.
|
109 |
S³niffer : un système de recherche de service basé sur leur description / S3niffer : A text description-based service search systemCaicedo-Castro, Isaac 12 May 2015 (has links)
Dans cette recherche, nous abordons le problème de le recherche de services qui répondent à des besoins des utilisateurs exprimés sous forme de requête en texte libre. Notre objectif est de résoudre les problèmes qui affectent l'efficacité des modèles de recherche d'information existant lorsqu'ils sont appliqués à la recherche de services dans un corpus rassemblant des descriptions standard de ces services. Ces problèmes sont issus du fait que les descriptions des services sont brèves. En effet, les fournisseurs de services n'utilisent que quelques termes pour décrire les services souhaités. Ainsi, lorsque ces descriptions sont différentes des phrases dans les requêtes ce qui diminue l'efficacité des modèles classiques qui dépendent de traits observables au lieu de traits sémantiques latents du texte. Nous avons adapté une famille de modèles de recherche d'information (IR) dans le but de contribuer à accroître l'efficacité acquise avec les modèles existant concernant la découverte de services. En outre, nous avons mené des expériences systématiques afin de comparer notre famille de modèles IR avec ceux de l'état de l'art portant sur la découverte de service. Des résultats des expériences, nous concluons que notre modèle basé sur l'extension des requêtes via un thésaurus co-occurrence est plus efficace en terme des mesures classiques utilisées en IR que tous les modèles étudiés dans cette recherche. Par conséquent, nous avons mis en place ce modèle dans S3niffer, qui est un moteur de recherche de service basé sur leur description standard. / In this research, we address the problem of retrieving services which fulfil users' need expressed in query in free text. Our goal is to cope the term mismatch problems which affect the effectiveness of service retrieval models applied in prior re- search on text descriptions-based service retrieval models. These problems are caused due to service descriptions are brief. Service providers use few terms to describe desired services, thereby, when these descriptions are different to the sentences in queries, term mismatch problems decrease the effectiveness in classical models which depend on the observable text features instead of the latent semantic features of the text. We have applied a family of Information Retrieval (IR) models for the purpose of contributing to increase the effectiveness acquired with the models applied in prior research on service retrieval. Besides, we have conducted systematic experiments to compare our family of IR models with those used in the state-of-the-art in service discovery. From the outcomes of the experiments, we conclude that our model based on query expansion via a co-occurrence thesaurus outperforms the effectiveness of all the models studied in this research. Therefore, we have implemented this model in S3niffer, which is a text description-based service search engine.
|
110 |
Recherche d'information sur le web (RIW) et moteurs de recherche : le cas des lycéensQuach Tat, Kien 16 December 2011 (has links) (PDF)
Dans le cadre scolaire, la recherche d'information sur le web (RIW) assistée par les moteurs de recherche joue un rôle croissant dans l'enseignement et l'apprentissage. Mais si les lycéens effectuent beaucoup de RIW, peu d'études leur sont consacrées : on ne sait pas comment ils conduisent les RIW et quelles démarches ils suivent. La RIW est variée en fonction du contexte de recherche ainsi que de la situation rencontrée dans le processus même de recherche. Deux épreuves avec plusieurs tâches de recherche définies par le chercheur ont été passées avec 79 lycéens vietnamiens. Si elles ne rendent compte que partiellement des RIW des lycéens, elles permettent d'enregistrer les démarches utilisées, faisant l'hypothèse que les démarches mises en œuvre ont une certaine stabilité.En essayant de simplifier la RIW des participants, un schéma général de RIW est conçu avec cinq actions élémentaires de recherche identifiées : lecture de tâche, formulation de requêtes, consultation de page de résultats, lecture de page web et notation de réponses. Ce schéma permet de visualiser des caractéristiques de RIW des participants : les moteurs sont l'outil principal ; la recherche utilise davantage la formulation de requêtes que la navigation web ; les pages de résultats sont le centre de la recherche ; la navigation web s'effectue à partir des pages de résultats et est plutôt en largeur d'abord, selon le modèle " Hub and spoke ".En nous centrant sur les requêtes, quatre démarches élémentaires de RIW sont reconnues : top-down, bottom-up, spécifique et générale. Les participants ont tendance à utiliser une démarche élémentaire spécifique pour une tâche fermée ; une démarche élémentaire générale pour une tâche ouverte. Quand la tâche est difficile, les participants ont tendance à changer plus souvent leurs démarches élémentaires au cours de recherche et utiliser plus de processus, d'outils et plus de techniques de recherche.Pendant une période de deux ans entre deux épreuves, nous constatons des changements de comportements des lycéens vietnamiens : augmentation de la croyance dans la fiabilité de Wikipédia, de l'utilisation de Wikipédia comme un outil de recherche, de l'utilisation des options de traduction de Google et de requêtes en anglais ; la diminution de l'utilisation des guillemets, des opérateurs booléens dans l'écriture de requêtes.
|
Page generated in 0.0479 seconds