Global ETD Search

101	Détection de dérivation de texte Poulard, Fabien 24 March 2011 (has links) (PDF) L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identification des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la définition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle mulitidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse. [INFO] Computer Science détection de dérivation révisions plagiat approche par signature mesures de similarité recherche d'information
102	Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web Chotteau, Christophe 12 December 2003 (has links) (PDF) Parmi les nombreuses méthodes d'accès à l'information présentes sur Internet, la corrélation de divers documents apparaît comme un outil complémentaire permettant aux internautes d'enrichir leurs connaissances sur un document sans avoir à formuler de question. L'objectif de nos travaux est de réaliser une méthode de corrélation sémantique dédiée à la recherche d'information juridique. La méthode que nous dégageons vise à appliquer des outils et techniques d'ingénierie linguistique sur des textes préalablement choisis. Les unités textuelles saillantes les constituant sont alors dégagées, définissant pour chaque document analysé ce que nous appelons une signature lexicale. Ces signatures lexicales servent ensuite d'éléments clefs pour interroger un moteur de recherche dont les résultats représentent l'ensemble des documents corrélés. Cette méthode de corrélation est utilisée et évaluée dans un contexte de recherche d'information sur Internet et plus spécifiquement est intégrée aux développements d'un moteur de recherche. Les principaux apports de nos travaux sont (1) un renouvellement des méthodes de recherche de documents corrélés par l'optimisation des signatures lexicales dédiées, (2) l'élaboration et l'évaluation d'un nouvel indice de pondération statistique noté Tifr, (3) une réflexion sur l'aspect sémantique de la méthode de corrélation exposée, et enfin (4) une proposition concrète de réponse à la problématique de l'accès à l'information dans un contexte juridique. Ingénierie des connaissances Recherche d'information Corrélation de documents Signature lexicale Pondération statistique indice Tifr
103	Traitement Automatique des Langues et Recherche d'Information en langue arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques pour l'indexation Boulaknadel, Siham 18 October 2008 (has links) (PDF) La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé. Notre thèse s'inscrit dans le cadre de la recherche d'information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d'une part, d'identifier les termes complexes présents dans les requêtes et les documents. D'autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d'identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s'appuyant sur une approche mixte qui combine modèle statistique et données linguistiques. [INFO:INFO_OH] Computer Science/Other Langue Arabe Recherche d'information Terme complexe Terme simple Extraction de termes
104	Traitement automatique d'informations appliqué aux ressources humaines Kessler, Rémy 10 July 2009 (has links) (PDF) Depuis les années 90, Internet est au coeur du marché du travail. D'abord mobilisée sur des métiers spécifiques, son utilisation s'étend à mesure qu'augmente le nombre d'internautes dans la population. La recherche d'emploi au travers des « bourses à l'emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d'informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d'information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d'outils pour automatiser les flux d'informations lors d'un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d'une entreprise à gérer efficacement et à moindre coût ces flux d'informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l'application des méthodes d'apprentissage afin d'effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l'analyse et l'intégration d'une offre d'emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d'intégrer une offre d'emploi d'une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d'assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures. L'utilisation d'un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité. [INFO] Computer Science Apprentissage automatique Recherche d'information Ressources humaines Modèles probabilistes Mesures de similarité
105	Contributions au problème d'hétérogénéité sémantique dans les systèmes pair-à-pair : application à la recherche d'information Thomas, Cerqueus 15 November 2012 (has links) (PDF) Nous considérons des systèmes pair-à-pair (P2P) pour le partage de données dans lesquels chaque pair est libre de choisir l'ontologie qui correspond le mieux à ses besoins pour représenter ses données. Nous parlons alors d'hétérogénéité sémantique. Cette situation est un frein important à l'interopérabilité car les requêtes émises par les pairs peuvent être incomprises par d'autres. Dans un premier temps nous nous focalisons sur la notion d'hétérogénéité sémantique. Nous définissons un ensemble de mesures permettant de caractériser finement l'hétérogénéité d'un système suivant différentes facettes. Dans un deuxième temps nous définissons deux protocoles. Le premier, appelé CorDis, permet de réduire l'hétérogénéité sémantique liée aux disparités entre pairs. Il dissémine des correspondances dans le système afin que les pairs apprennent de nouvelles correspondances. Le second protocole, appelé GoOD-TA, permet de réduire l'hétérogénéité sémantique d'un système liée à son organisation. L'objectif est d'organiser le système de sorte que les pairs proches sémantiquement soient proches dans le système. Ainsi deux pairs deviennent voisins s'ils utilisent la même ontologie ou s'il existe de nombreuses correspondances entre leurs ontologies respectives. Enfin, dans un trois temps, nous proposons l'algorithme DiQuESH pour le routage et le traitement de requêtes top-k dans les systèmes P2P sémantiquement hétérogènes. Cet algorithme permet à un pair d'obtenir les k documents les plus pertinents de son voisinage. Nous montrons expérimentalement que les protocoles CorDis et GoOD-TA améliorent les résultats obtenus par DiQuESH. Système P2P hétérogénéité sémantique ontologie interopérabilité recherche d'information
106	Génération de documents virtuels par intégration de relations entre documents structurés pour la recherche d'information Verbyst, Delphine 14 October 2008 (has links) (PDF) La recherche d'information sur des documents structurés tente de répondre de manière cibl ée à une requête utilisateur en ne fournissant que des éléments de documents (doxels) pour satisfaire ce besoin d'information. Ce travail de thèse étudie l'apport de la caractérisation des relations (structurelles et non structurelles) entre parties de documents structurés dans ce contexte. Nous modélisons l'indexation des documents structurés en utilisant la structure et les relations entre doxels et nous caractérisons ces relations par des valeurs d'exhaustivité et de spéci cité relatives. Le processus de recherche basé sur ces documents structurés génère des documents virtuels résultats, en spéci ant les liens pertinents entre les doxels. Le modèle est validé par des expérimentations sur la campagne d'évaluation INEX 2007 (660 000 documents Wikipedia, 100 requêtes) et les résultats obtenus montrent une amélioration de 24% en précision moyenne avec le modèle vectoriel. recherche d'information documents structurés documents virtuels exhaustivité relative spéci cité relative relations non-structurelles
107	Collecte orientée sur le Web pour la recherche d'information spécialisée De Groc, Clément 05 June 2013 (has links) (PDF) Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd'hui de plus en plus présents dans le paysage d'Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d'autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d'analyse spécifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s'appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).Nous étudions tout d'abord la recherche orientée. Dans ce contexte, l'approche classique consiste à combiner des mot-clés du domaine d'intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l'OpenDirectory, nous proposons de l'améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d'augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d'une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d'améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thèse, nous nous focalisons sur l'exploration orientée du Web. Au coeur de tout robot d'exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indépendante du thème à partir de données existantes annotées automatiquement. [INFO:INFO_OH] Computer Science/Other Collecte orientée Recherche d'information Web Crawling orientée Recherche orientée Apprentissage automatique Recherche de l'information
108	Modélisation d'un système de recherche d'information pour les systèmes hypertextes. Application à la recherche d'information sur le World Wide Web Carvalho De Aguiar, Fernando Jorge 28 June 2002 (has links) (PDF) Dans un hypertexte, un document est souvent composé de plusieurs nœuds et non pas d'un seul. L'information véhiculée par un nœud donné peut difficilement être appréhendée à travers la lecture du seul contenu de ce nœud, le contenu des autres nœuds qui composent un document avec le premier nœud lui apportent un contexte .La connaissance de ce contexte est fondamentale dans la compréhension de l'information véhiculée par le premier nœud. Un système de recherche d'information, ou plus couramment un moteur de recherche, appliqué au système hypertexte que constitue le Web devrait considérer dans son fonctionnement la fragmentation des documents hypertextuels en plusieurs pages : une page ne constitue pas un document à part entière, elle n'en est qu'une partie. Ainsi, pour bien indexer une page le contexte de l'information qu'elle véhicule doit être considéré. Les moteurs de recherche considèrent souvent une page comme un document et l'indexent en analysant uniquement son contenu. Le contexte des pages est ignoré. Dans ce travail nous proposons un modèle de recherche d'information pour un moteur de recherche appliqué à un système hypertexte constitué par un site Web. Ce modèle repose sur la construction d'un index à deux niveaux pour chacune des pages du site : un premier niveau, niveau inférieur, construit à partir du seul contenu de la page, et un deuxième niveau, niveau supérieur, construit à partir du contenu des pages qui apportent un contexte au contenu de la page en train d'être indexée. En améliorant la qualité des index des pages on cherche à améliorer l'efficacité du moteur de recherche. Grâce à l'implémentation d'un prototype de moteur de recherche intégrant le modèle proposé ainsi que l'utilisation de la collection de tests WT10g issue des conférences TREC et adaptée à nos besoins, nous avons pu mener des expérimentations. Les résultats de ces dernières, une amélioration dans la qualité des réponses retournées par le moteur prototype, sont des indicateurs favorables de l'utilité de l'information contextuelle des pages. L'efficacité du moteur prototype a été comparée avec celle d'un moteur de recherche adoptant un modèle traditionnel où un seul niveau d'index, celui issu du seul contenu des pages, est utilisé. [INFO:INFO_WB] Computer Science/Web Hypertexte recherche d'information sur le Web moteur de recherche graphe du Web analyse de liens bibliométrie classification automatique
109	Contributions à la séparation de sources et à la description des contenus audio Vincent, Emmanuel 23 November 2012 (has links) (PDF) Les données audio occupent une position centrale dans notre vie, que ce soit pour la communication parlée, les vidéos personnelles, la radio et la télévision, la musique, le cinéma, les jeux vidéos ou les divertissements. Cela crée un ensemble de besoins applicatifs allant du rehaussement du signal à l'extraction d'information, en passant par la réditorialisation et la manipulation interactive des contenus. Les données audio réelles ont une structure complexe due à la superposition de plusieurs sources sonores et à la coexistence de plusieurs niveaux d'information. Par exemple, les enregistrements de parole incluent souvent des locuteurs simultanés ou du bruit de fond et ils portent des informations sur l'identité des locuteurs, la langue et le sujet de la discussion, le texte prononcé, l'intonation et l'environnement acoustique. Les enregistrements de musique sont aussi typiquement constitués de plusieurs instruments musicaux ou voix et ils contiennent des informations sur le compositeur, l'organisation temporelle des morceaux, la partition sous-jacente, l'interprétation et l'environnement acoustique. Lorsque j'ai commencé mes études de doctorat de 2001, la séparation des signaux sources dans un enregistrement était considérée comme l'un des grands défis vers l'application des techniques de traitement du signal audio initialement conçues pour des sources seules à des données réelles multi-sources. Les techniques de formation de voies fixe ou adaptative étaient déjà établies, mais elles demandaient un grand nombre de microphones rarement disponible en pratique. Les premières techniques de séparation aveugle de sources conçues pour un nombre plus faible de microphones venaient à peine d'être appliquées à l'audio. Onze ans plus tard, des progrès importants ont été faits et la séparation de sources est devenue un sujet mûr. Grâce en particulier à certaines des contributions listées dans ce document, l'équipe METISS a acquis une réputation de leader dans le domaine, démontrée par un nombre croissant de transferts technologiques visant à rehausser et remixer des signaux de parole et de voix dans divers cas d'usage. L'utilisation de la séparation de sources comme un pré-traitement pour la description de sources de parole ou de musique au sein d'un mélange soulève le défi supplémentaire de prendre en compte les distorsions non-linéaires sur les signaux sources estimés. Des méthodes robustes d'interfaçage de la séparation de sources, de l'extraction de descripteurs et de classification ont émergé dans les dix dernières années basées sur l'idée de propagation de l'incertitude. Ce sujet faisait partie de mon programme de recherche lorsque j'ai rejoint Inria en 2006 et il est actuellement en forte croissance en raison de l'omniprésence des applications vocales pour les appareils portables. Les méthodes actuelles n'ont cependant pas encore atteint la robustesse du système auditif humain, et la reconnaissance de la parole ou du locuteur dans des environnements réels avec du bruit non-stationnaire reste un problème très difficile. Par rapport aux deux défis ci-dessus, le traitement conjoint des différents niveaux d'information sous-jacents aux signaux audio a attiré un intérêt moindre à ce jour. Il demeure cependant un problème fondamental pour le traitement de la musique en particulier, où des tâches telles que la transcription de hauteurs polyphonique et l'identification d'accords sont typiquement effectuées indépendamment l'une de l'autre sans prendre en compte les fortes dépendances entre les informations de hauteur et d'harmonie. Mon travail s'est focalisé sur ces trois défis et il est basé en particulier sur les fondements théoriques de la modélisation et de l'estimation bayésienne d'une part et de la modélisation parcimonieuse et de l'optimisation convexe d'autre part. Ce document fournit une vue d'ensemble de mes contributions depuis la fin de mon doctorat selon quatre axes: le Chapitre 1 se focalise sur la formalisation et l'évaluation diagnostique de certains problèmes étudiés, le Chapitre 2 sur la modélisation linéaire des signaux audio et les algorithmes associés, le Chapitre 3 sur la modélisation de variance des signaux audio et les algorithmes associés, et le Chapitre 4 sur la description des contenus multi-sources et multi-niveaux. Le chapitre 5 résume les perspectives de recherche issues de ce travail. traitement du signal recherche d'information audio séparation de sources
110	S³niffer : un système de recherche de service basé sur leur description / S3niffer : A text description-based service search system Caicedo-Castro, Isaac 12 May 2015 (has links) Dans cette recherche, nous abordons le problème de le recherche de services qui répondent à des besoins des utilisateurs exprimés sous forme de requête en texte libre. Notre objectif est de résoudre les problèmes qui affectent l'efficacité des modèles de recherche d'information existant lorsqu'ils sont appliqués à la recherche de services dans un corpus rassemblant des descriptions standard de ces services. Ces problèmes sont issus du fait que les descriptions des services sont brèves. En effet, les fournisseurs de services n'utilisent que quelques termes pour décrire les services souhaités. Ainsi, lorsque ces descriptions sont différentes des phrases dans les requêtes ce qui diminue l'efficacité des modèles classiques qui dépendent de traits observables au lieu de traits sémantiques latents du texte. Nous avons adapté une famille de modèles de recherche d'information (IR) dans le but de contribuer à accroître l'efficacité acquise avec les modèles existant concernant la découverte de services. En outre, nous avons mené des expériences systématiques afin de comparer notre famille de modèles IR avec ceux de l'état de l'art portant sur la découverte de service. Des résultats des expériences, nous concluons que notre modèle basé sur l'extension des requêtes via un thésaurus co-occurrence est plus efficace en terme des mesures classiques utilisées en IR que tous les modèles étudiés dans cette recherche. Par conséquent, nous avons mis en place ce modèle dans S3niffer, qui est un moteur de recherche de service basé sur leur description standard. / In this research, we address the problem of retrieving services which fulfil users' need expressed in query in free text. Our goal is to cope the term mismatch problems which affect the effectiveness of service retrieval models applied in prior re- search on text descriptions-based service retrieval models. These problems are caused due to service descriptions are brief. Service providers use few terms to describe desired services, thereby, when these descriptions are different to the sentences in queries, term mismatch problems decrease the effectiveness in classical models which depend on the observable text features instead of the latent semantic features of the text. We have applied a family of Information Retrieval (IR) models for the purpose of contributing to increase the effectiveness acquired with the models applied in prior research on service retrieval. Besides, we have conducted systematic experiments to compare our family of IR models with those used in the state-of-the-art in service discovery. From the outcomes of the experiments, we conclude that our model based on query expansion via a co-occurrence thesaurus outperforms the effectiveness of all the models studied in this research. Therefore, we have implemented this model in S3niffer, which is a text description-based service search engine. Recherche d'information Thésaurus de co-occurrence Factorisation matricielle La science des services Information retrieval Co-occurrence thesaurus Matrix Factorisation Service science 004

Search results