Global ETD Search

151	Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia Moulin, Christophe 22 June 2011 (has links) (PDF) L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d'information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente Représentation de documents Modèle vectoriel Modèle sacs de mots Documents multimédias Caractérisation multiclasse multilabel Recherche d'information multimédia
152	Combinaison de critères par contraintes pour la Recherche d'Information Géographique Palacio, Damien 26 November 2010 (has links) (PDF) Des études récentes montrent une part croissante de requêtes sur les moteurs de recherche du Web comportant des critères géographiques. Cette part est encore plus conséquente sur des corpus plus spécifiques tels que des documents patrimoniaux (récits de voyages par exemple). On admet que l'information géographique est composée de trois facettes : le spatial, le temporel et le thématique. Les travaux effectués dans notre laboratoire visent l'extraction et la construction d'index indépendants et spécifiques aux trois facettes (spatiales, temporelles et thématiques). L'objet de ce travail de thèse est de combiner les trois facettes pour effectuer des recherches multicritère. Ce travail s'intègre au croisement de plusieurs disciplines : Traitement Automatique des Langages Naturels (TALN), Systèmes d'Information Géographique (SIG), Recherche d'Information classique (RI) et Recherche d'Information Géographique (RIG). Notre première contribution porte sur une méthode originale de combinaison des index spécifiques. Lors de l'interrogation il s'agit de questionner de manières indépendantes les différents index puis de combiner les listes de résultats restitués lors de leur interrogation. De plus, nous proposons à un utilisateur de personnaliser cette combinaison par des contraintes. Pour pouvoir effectuer cette combinaison, nous proposons d'imiter les approches d'homogénéisation utilisées dans les stratégies de RI classiques portant sur des termes et les lemmes correspondants. Pour les informations géographiques il s'agit de les redécouper en tuiles et de travailler sur leur fréquence d'apparition. Notre deuxième contribution porte sur une approche d'uniformisation générique mise en œuvre sur l'information spatiale et l'information temporelle. Afin d'évaluer ces différentes propositions, nous les avons testées et validées via différents prototypes et expérimentations. La dernière contribution consiste en un cadre d'évaluation d'un système de recherche géographique. Grâce à ce cadre nous avons pu vérifier et quantifier l'apport de la combinaison de critères géographiques ainsi que comparer différentes approches de combinaisons. Recherche d'information Géographique Combinaison de résultats Combinaison par contraintes
153	Génération dynamique de présentations interactives en multimédia 3D, de données, pour les applications en ligne Bonnel, Nicolas 04 December 2006 (has links) (PDF) La recherche d'information textuelle fait partie des principales tâches liées au Web. Elle se fait majoritairement par des moteurs de recherche qui sont rapidement devenus incontournables. En effet, lorsque les utilisateurs ont une nouvelle tâche à accomplir sur le Web, ils démarrent - 88% du temps - par l'utilisation d'un moteur de recherche. Cependant, face à l'augmentation des informations disponibles sur le Web et à l'absence d'évolution significative du processus de recherche, la quantité de résultats obtenus pour une requête devient très importante. Il est alors difficile pour l'utilisateur d'interpréter efficacement tous ces résultats. Cette problématique est abordée en se plaçant du côté de la restitution des résultats de recherche à l'utilisateur via des interfaces utilisateur d'information (IUI). De nombreux travaux ont déjà été réalisés sur la visualisation des résultats de recherche au cours des dernières années, sans réelle influence sur les interfaces grand public. L'objectif de notre approche est de créer dynamiquement des présentations 3D interactives et basées sur des métaphores de visualisation adaptées à la fois à l'utilisateur, à la tâche à réaliser et aux données. Pour cela, nous avons développé un prototype - SmartWeb - proposant des interfaces hybrides (2D/3D) de visualisation de résultats de recherche. Il utilise le langage X-VRML qui permet d'exprimer efficacement les métaphores 3D de visualisation et de générer automatiquement des contenus 3D interactifs. Nous proposons alors une métaphore 3D cognitive permettant d'utiliser une représentation spatiale plus riche afin d'aider efficacement l'utilisateur dans sa tâche. Il s'agit d'une ville virtuelle dans laquelle les résultats sont organisés d'après le calcul d'une carte auto-organisatrice. Une étude utilisateur de cette interface est réalisée et une réflexion plus générale sur l'évaluation des IUI est proposée. métaphores 3D visualisation de résultats de recherche cartes auto-organisatrices évaluation d'interfaces recherche d'information interfaces Homme-Machine catégorisation visuelle de pages Web
154	Acquisition automatique de lexiques sémantiques pour la recherche d'information Claveau, Vincent 17 December 2003 (has links) (PDF) De nombreuses applications du traitement automatique des langues (recherche d'information, traduction automatique, etc.) requièrent des ressources sémantiques spécifiques à leur tâche et à leur domaine. Pour répondre à ces besoins spécifiques, nous avons développé ASARES, un système d'acquisition d'informations sémantiques lexicales sur corpus. Celui-ci répond à un triple objectif : il permet de fournir des résultats de bonne qualité, ses résultats et le processus ayant conduit à leur extraction sont interprétables, et enfin, il est assez générique et automatique pour être aisément portable d'un corpus à un autre. Pour ce faire, ASARES s'appuie sur une technique d'apprentissage artificiel symbolique --- la programmation logique inductive --- qui lui permet d'inférer des patrons d'extraction morphosyntaxiques et sémantiques à partir d'exemples des éléments lexicaux sémantiques que l'on souhaite acquérir. Ces patrons sont ensuite utilisés pour extraire du corpus de nouveaux éléments. Nous montrons également qu'il est possible de combiner cette approche symbolique avec des techniques d'acquisition statistiques qui confèrent une plus grande automaticité à ASARES. Pour évaluer la validité de notre méthode, nous l'avons appliquée à l'extraction d'un type de relations sémantiques entre noms et verbes définies au sein du Lexique génératif appelées relations qualia. Cette tâche d'acquisition revêt deux intérêts principaux. D'une part, ces relations ne sont définies que de manière théorique ; l'interprétabilité linguistique des patrons inférés permet donc d'en préciser le fonctionnement et les réalisations en contexte. D'autre part, plusieurs auteurs ont noté l'intérêt de ce type de relations dans le domaine de la recherche d'information pour donner accès à des reformulations sémantiquement équivalentes d'une même idée. Grâce à une expérience d'extension de requêtes, nous vérifions expérimentalement cette affirmation : nous montrons que les résultats d'un système de recherche exploitant ces relations qualia, acquises par ASARES, sont améliorés de manière significative quoique localisée. traitement automatique des langues apprentissage artificiel acquisition de lexique Lexique génératif programmation logique inductive recherche d'information apprentissage semi-supervisé
155	Contributions à la recherche d'information dans des systèmes distribués, ouverts, intégrant des participants autonomes Lamarre, Philippe 27 November 2009 (has links) (PDF) Les travaux que nous présentons sont relatifs à la problématique de la recherche d'information dans des systèmes dont les traits caractéristiques sont la distribution à très large échelle, l'ouverture, et l'autonomie des participants. Nous nous sommes plus particulièrement intéressé à des solutions facilitant l'intégration des participants et s'adaptant dynamiquement à leurs attentes. Nos travaux s'articulent au tour de trois axes : la définition d'une architecture distribuée, l'allocation de requêtes, et le traitement de l'hétérogénéité sémantique. Nous avons d'abord proposé une architecture totalement distribuée organisée en communautés thématiques. Cette vision sémantique de l'organisation, combinée à une politique qui consiste à s'appuyer non seulement sur les ressource des participants, mais aussi sur leurs compétences, permet de router les requêtes et les réponses dans le système en évitant de maintenir d'un index général tel que pratiqué par les moteurs de recherche. Un système ainsi distribué pose rapidement le problème de l'allocation des requêtes. En effet, tous les fournisseurs d'information ne disposent pas de ressources leur permettant de traiter le très grand nombre de requêtes émises. Laisser les participants choisir les requêtes qu'ils traitent répond aux attentes des fournisseurs. Cependant, cela entraine que certaines requêtes ne sont pas traitées pour des raisons individuelles, ce qui ne correspond pas au comportement qu'attendent les utilisateurs. Nous avons donc exploré la piste consistant à tenir compte des intentions des participants tout en allouant autoritairement les requêtes si nécessaire. Nous avons d'abord proposé une médiation flexible utilisant des aspects monétaires. Puis, nous avons mené une étude concernant la satisfaction des participants où nous avons dégagé un certain nombre de notions : satisfaction, satisfaction par rapport au système d'allocation, adéquation d'un participant par rapport au système, adéquation du système par rapport à un participant, etc. Nous avons alors proposé une deuxième technique d'allocation, SbQA, directement basée sur la notion de satisfaction. Enfin, de par leur nature, les systèmes distribués ouverts intègrent des participants provenant d'horizons différents ce qui est propice à l'hétérogénéité sémantique. Dans le cadre de la recherche d'information et des vecteurs sémantiques, nous avons proposé une méthode qui utilise non seulement les alignements entre ontologies mais aussi un mécanisme «d'explication» et «d'interprétation» pour améliorer l'interopérabilité sémantique. ouverts intégrant des participants autonomes
156	Impact des liens hypertextes sur la précision en recherche d'information. Chibane, Idir 10 December 2008 (has links) (PDF) Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence). [INFO:INFO_OH] Computer Science/Other Recherche d'Information Systèmes Hypertextes Propagation de Pertinence Collections de Test Algorithme Génétique Segmentation des pages Web Bloc Thématique Analyse des liens
157	Analyse sémantique automatique des adverbiaux de localisation temporelle : application à la recherche d'information et à l'acquisition de connaissances Teissèdre, Charles 22 November 2012 (has links) (PDF) Cette thèse concerne la question de l'accès aux textes numériques, en particulier de l'accès à leur " contenu informationnel ", vu sous l'angle de l'ancrage temporel. Conciliant une approche linguistique et une approche applicative, ils visent à contribuer à l'élaboration de nouveaux outils pour la fouille de textes, la recherche d'information et la gestion des connaissances - nouveaux outils en mesure de tirer parti de la sémantique des informations relatives au repérage temporel exprimées dans les textes. Il s'agit ainsi à la fois de mettre en œuvre des systèmes d'interaction avec les utilisateurs et de parvenir à modéliser la sémantique des unités textuelles qui contribuent de façon saillante à l'ancrage dans le temps des situations décrites dans les textes : les adverbiaux de localisation temporelle. La représentation formelle que l'on en propose, qui procède d'une analyse linguistique, les décrit sous la forme d'une succession d'opérations sémantiques. Cette représentation permet de pouvoir décrire des informations présentant un certain degré d'indétermination sans en fermer l'interprétation (" jusque vers la fin des années 30 "). Elle permet également d'exprimer des informations en intension (" de février à août, tous les jours sauf le dimanche, de 10h à 19h "). Cette représentation est ainsi plus expressive que les modèles généralement utilisés en ingénierie des connaissances - modèles qui, le plus souvent, représentent un repère temporel sous la forme d'une date ou d'un intervalle de dates. Articulant notre proposition de modélisation avec les modèles standards des intervalles de dates, nous montrons qu'il devient possible d'élaborer de nouveaux systèmes de recherche d'information, susceptibles de traiter des requêtes associant un critère calendaire avec un ensemble de mots-clés, telles que " les universités au début du XIIe siècle " ou " le vote des femmes depuis 1900 ", par exemple. S'appuyant sur les outils développés en ce sens, on montre qu'il devient également possible d'interagir avec des données structurées décrivant des informations temporelles, à la fois pour les interroger et pour les enrichir de façon semi-automatique, afin, par exemple, de constituer des bases de connaissances. Extraction d'informations temporelles Recherche d'information Acquisition de connaissances
158	Plateforme de recherche basée d'information multimédia guidée par une ontologie dans une architecture paire à paire Sokhn, Maria 26 August 2011 (has links) (PDF) Au cours de la dernière décennie, nous avons assisté à une croissance exponentielle de documents numériques et de ressources multimédias, y compris une présence massive de ressources vidéo. Les vidéos sont devenu de plus en plus populaire grâce au contenue riche à l'audio riche qu'elles véhiculent (contenu audiovisuelle et textuelle). Les dernières avancées technologiques ont rendu disponibles aux utilisateurs cette grande quantité de ressources multimédias et cela dans une variété de domaines, y compris les domaines académiques et scientifiques. Toutefois, sans techniques adéquates se basant sur le contenu des multimédia, cette masse de donnée précieuse est difficilement accessible et demeure en vigueur inutilisable. Cette thèse explore les approches sémantiques pour la gestion ainsi que la navigation et la visualisation des ressources multimédias générées par les conférences scientifiques. Un écart, que l'on appelle sémantique, existe entre la représentation des connaissances explicites requis par les utilisateurs qui cherchent des ressources multimédias et la connaissance implicite véhiculée le long du cycle de vie d'une conférence. Le but de ce travail est de fournir aux utilisateurs une plateforme qui améliore la recherche de l'information multimédia des conférences en diminuant cette distance sémantique. L'objectif de cette thèse est de fournir une nouvelle approche pour le contenu multimédia basé sur la recherche d'information dans le domaine des conférences scientifiques. Recherche d'information multimédia Ontologie web sémantique à la récupération dans le réseau P2P
159	Utilisation de profils utilisateurs pour l'accès à une bibliothèque numérique Van, Thanh Trung 01 December 2008 (has links) (PDF) Aujourd'hui, les bibliothèques numériques deviennent de plus en plus populaires. Ces bibliothèques fournissent plusieurs services pour leurs utilisateurs. Le service de recherche d'information est un service indispensable pour ces bibliothèques. La personnalisation de ce service pour mieux répondre aux exigences des utilisateurs est une approche qui attire beaucoup d'attention de la communauté scientifique. Plusieurs systèmes de recherche d'information personnalisée actuels ont choisi de re-trier les résultats d'un moteur de recherche en prenant en compte les similarités entre ces résultats et le profil utilisateur afin de rendre des résultats plus pertinents pour les utilisateurs. Cependant, la plupart de ces systèmes n'utilise que les approches basées sur le contenu textuel pour ce but. Dans nos travaux, nous proposons d'utiliser également des méthodes basées sur les citations telles que la méthode des co-citations et la méthode du couplage bibliographique pour calculer les similarités document-profil. Nous étudions la performance de la méthode des co-citations avec différentes bases de données bibliographiques. Nous utilisons également différentes fonctions de combinaison pour combiner les scores individuels. Les approches proposées ont été validées par des expérimentations sur une collection de test utilisée dans INEX 2005. Recherche d'information personnalisée re-classement de résultats de recherche pro l utilisateur bibliothèque numérique co-citations couplage bibliographique fonction de combinaison
160	Etude de l'influence du passage à l'échelle sur les modèles de recherche d'information Imafouo, Amélie 06 December 2006 (has links) (PDF) Les évolutions technologiques de ces dernières années ont entraîné une croissance exponentielle de la quantité d'information numérique disponible. La Recherche d'Information, discipline dont le cœur de métier est la manipulation de cette information est questionnée par cette croissance rapide. Les travaux présentés dans cette thèse se sont penchés sur le problème de l'influence du passage à l'échelle sur les performances des modèles de Recherche d'Information. Après un tour des travaux du domaine qui prennent en compte le passage à l'échelle, des méthodologies pour construire des espaces de recherche de tailles croissantes et dont le contenu est contrôlé sont proposées dans un premier temps; ces espaces de recherches sont utilisés pour observer les performances de divers modèles de RI en fonction de la taille des données manipulées. Dans un second temps, les travaux portent sur la proposition de métriques prenant en compte plusieurs niveaux de pertinence pour un document; la notion d'importance d'un niveau de pertinence est formalisée et la notion de gain d'information entre deux niveaux de pertinence est introduite. Ces deux notions permettent de fournir des métriques dédiées à analyser la capacité des systèmes de RI à retourner des documents en fonction de leur niveau de pertinence, au fur et à mesure que la taille de l'espace de recherche augmente. [INFO:INFO_WB] Computer Science/Web passage à l'échelle collections et sous-collections évaluation métriques pertinence binaire et multivaluée

Search results