161 |
Vers l'OLAP sémantique pour l'analyse en ligne des données complexesLoudcher, Sabine 29 June 2011 (has links) (PDF)
L'analyse en ligne OLAP permet une navigation interactive dans les données, une visualisation rapide de l'information et une exploration de la structure multidimensionnelle des données. Une des limites est de se restreindre à des aspects exploratoires et navigationnels. De plus, avec l'avènement des données complexes (données multi-format et/ou multi-structure et/ou multi-source et/ou multi-modale et/ou multi-version), l'analyse en ligne doit s'adapter à la nature spécifique de ces données tout en gardant l'esprit de l'OLAP. Les opérateurs OLAP sont définis pour des données classiques et sont souvent inadaptés quand il s'agit de données complexes par exemple composées de textes, images, son ou vidéos. Les limites de l'OLAP ainsi que la spécificité des données complexes nécessitent une évolution ou adaptation de l'OLAP. Il devient nécessaire de : (1) enrichir les possibilités de l'analyse OLAP en la dotant de nouvelles possibilités ; (2) créer une analyse en ligne adaptée aux données complexes ; (3) faire évoluer l'OLAP vers une analyse sémantique des données. Dans cette vaste problématique, nous choisissons de traiter les questions d'agrégation et visualisation des données complexes, de réorganisation du cube pour identifier des régions d'analyse intéressantes, et d'étendre l'OLAP à des possibilités d'explication et de prédiction. Pour toutes ces questions, nous essayons également de tenir compte de la sémantique véhiculée par les données. Pour apporter des premières solutions, nous orientons vers une combinaison des principes de l'OLAP, de la fouille de données et de la recherche d'information. Afin d'introduire une analyse explicative dans l'OLAP, nous faisons une recherche guidée de règles d'association dans le cube. Cela nous conduit à modifier la définition du support et de la confiance d'une règle. Les arbres de régression nous permettent de proposer à l'utilisateur de faire de la prédiction dans le cube et d'avoir ainsi une démarche de type What If Analysis. Pour l'analyse des données complexes, deux méthodes factorielles (AFC et ACM) rendent possible la visualisation des faits dans un cube et la détection de régions intéressantes en réorganisant les dimensions du cube. Nous proposons également une agrégation sémantique des faits et une nouvelle hiérarchie de dimension construite automatiquement grâce aux principes d'une méthode de classification (CAH). Nos propositions sont une première démonstration de la faisabilité de combiner l'OLAP à d'autres techniques comme la fouille de données et la recherche d'information pour faire significativement évoluer l'analyse en ligne et s'adapter aux données complexes. L'OLAP a commencé à s'adapter à leur structure et à leur spécificité (XOLAP - XML OLAP, SOLAP - spatial OLAP). Mais il faut aller au delà et nous pensons qu'un des défis est d'extraire et d'analyser (en ligne) la sémantique contenue dans les données complexes. Ce point constitue un véritable verrou scientifique mais qui est que partiellement abordé par la communauté scientifique. Il faudrait également identifier tous les problèmes posés par les données complexes et ce quels que soient leur nature, contexte ou spécificités. Nous voulons poursuivre nos travaux dans cette voie et faire évoluer l'OLAP vers une nouvelle génération d'analyse en ligne : l'OLAP sémantique. Les problèmes majeurs à traiter seront comment : (1) modéliser toutes les formes de données complexes, leur sémantique et leurs liens ; (2) analyser en ligne les données complexes ; (3) Intégrer les connaissances de l'utilisateur dans le processus de l'analyse ?
|
162 |
La gestion de l'information en contexte : Enquête sur les pratiques informationnelles des ingénieurs-chercheurs d'EDF-R&DMusnik, Noémie 30 November 2012 (has links) (PDF)
La question du contexte occupe une place centrale dans l'observation et l'étude de tout phénomène. Associée à la recherche d'information, la notion de contexte est de plus en plus mobilisée dans les domaines des sciences de l'information, de l'ingénierie des connaissances, des sciences cognitives et de l'informatique. En effet, le sens d'une expression linguistique, la lecture d'un document la stratégie mise en œuvre dans l'activité de recherche d'information, le raisonnement adopté dans l'opération de classement d'un document, le choix d'avoir recours à tel dispositif, varient fortement d'un contexte à l'autre. Mais que faut-il entendre exactement par contexte ? Comment le définir ? Le contexte est-il assimilable à la notion de situation ? À la notion d'usage ? Voici quelques-unes des questions qui sont traitées dans ce travail, qui cherche à appréhender l'environnement informationnel d'un groupe professionnel donné : les ingénieurs-chercheurs d'une équipe d'EDF-R&D. Pour ce faire, nous cherchons à cartographier cet environnement, à le comprendre, en interrogeant notamment la construction du sens en contexte. Notre contribution cherche ainsi à éclairer l'environnement informationnel de ce groupe d'acteurs et propose quelques axes de réflexion pour accompagner la construction d'une démarche instrumentée de gestion de l'information en entreprise. Ce travail associe différents acteurs (chercheurs et ingénieurs) et participe à un projet de recherche appliquée (ANR MIIPA-Doc). Il accompagne ainsi la conception d'une solution logicielle qui explore l'approche de la classification et de la navigation par facettes, et s'inscrit dans la mouvance des outils collaboratifs, dont le principe consiste à impliquer l'acteur dans les opérations de classification et de "marquage" des documents qu'il produit, manipule et classe dans le cadre de ses activités professionnelles.
|
163 |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la questionFoucault, Nicolas 16 December 2013 (has links) (PDF)
Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d'Information pour la sélection de documents en QR. Celle-ci s'appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d'un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l'extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l'aide de RITEL. L'évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L'hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l'extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l'hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l'impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l'hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants.
|
164 |
Extracting and exploiting word relationships for information retrievalCao, Guihong January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
|
165 |
Recherche d'information dans les documents numériques : vers une variation des modalités d'exécution procéduraleDjouani, Mohamed 05 December 2013 (has links) (PDF)
L'activité de recherche d'information sur le web est devenue courante dans notre vie journalière. Malgré cela, elle pose encore de nombreux problèmes chez l'utilisateur qui ne trouve pas l'information qu'il recherche ou qui se perd devant la quantité d'informations disponible. Cette étude vise à expérimenter un nouveau dispositif de prévisualisation, breveté permettant à des utilisateurs de naviguer et de consulter des pages en profondeur. La tâche consiste à trouver un appartement cible possédant un ou plusieurs critères spécifiques dans un site web d'agence immobilière spécialement conçu. Plusieurs conditions ont été testées. L'une " habituelle " présentant les caractéristiques classiques de recherche, page par page; l'autre " transparente " qui permet de pré-visualiser les pages choisies et de ne sélectionner que les pages pertinentes. Nous nous intéressons à la mise en oeuvre des processus cognitifs ou s'ajoute l'importance du maintien du but de la recherche en mémoire de travail et aussi à la notion de charge cognitive investie dans une telle activité. Nous utilisons entre autres la technique des mouvements oculaires qui permet de déterminer comment un utilisateur traite et recherche des informations dans un document numérique. Par ailleurs, nous comparons les performances de ce dispositif avec une tablette tactile. Les résultats obtenus révèlent des effets significatifs de ce dispositif de prévisualisation.
|
166 |
Apprentissage interactif pour la recherche par le contenu dans les bases multimédiasGosselin, Philippe-Henri 10 November 2011 (has links) (PDF)
Les bases actuelles de données multimédia nécessitent des outils de plus en plus avancés pour pouvoir être parcourues avec efficacité. Dans ce contexte, la recherche en interaction avec un utilisateur est une approche qui permet de résoudre des requêtes à la sémantique complexe avec rapidité, sans pour autant nécessiter un haut niveau d'expertise utilisateur. Parmi les différents éléments intervenant dans la conception d'un système de recherche interactive, deux parties essentielles interviennent: l'indexation et la similarité entre les documents multimédia, et la gestion du processus interactif. Dans le contexte de la recherche multimédia par le contenu, on s'appuie sur des descriptions visuelles extraites automatiquement des documents. Suite à cette étape initiale, il est nécessaire de produire des structures de données, appelées index, ainsi qu'une métrique capable de comparer ces structures. Pour ce faire, nous proposons de représenter un document sous la forme d'un graphe, où chaque sommet du graphe représente une partie du document (région, point d'intérêt, ...) et chaque arête du graphe représente une relation entre deux parties du document. Puis, nous introduisons des métriques associées, sous la forme de fonctions noyaux sur graphes, qui permettent d'utiliser ces représentations complexes avec les méthodes d'apprentissages Hilbertiennes, telle que les SVMs. La gestion du processus interactif entre le système et un utilisateur a fait d'important progrès grâce à l'approche dite par apprentissage actif. Les premières approches proposent des critères pertinents pour la sélection de document à faire annoter par l'utilisateur, dans le but de trouver les documents recherchés au plus vite. Dans ce contexte, nous proposons d'aller plus loin en nous intéressant à la fabrication "en ligne" d'index et métriques associées en fonction de la nature de la recherche. En d'autres termes, nous proposons de remplacer le schéma traditionnel, où un unique index général est utilisé, par un schéma d'indexation active, où chaque utilisateur dispose d'un index dédié à sa requête.
|
167 |
Exploration de corpus scientifiques et techniques.Ibekwe-Sanjuan, Fidelia 30 June 2010 (has links) (PDF)
Ce mémoire d'HDR met en perspective les recherches que nous avons conduites en Sciences de l'information et de la communication (SIC) au cours des douze dernières années. Partie d'une problématique pratique d'accès à l'information spécialisée dans le cadre de la veille scientifique et technologique, nous avons été amenée peu à peu à interroger les fondements mêmes de la discipline, ses concepts fondamentaux et les paradigmes qui la traversent. Les quatre premiers chapitres reviennent sur le chemin parcouru par les SIC depuis leurs origines (1972) jusqu'à présent. Les cinq chapitres suivants mettent en perspective les axes de recherche que nous avons développés dont l'exploration de corpus scientifiques et techniques forme le noyau. Cet axe de travail a conduit à la mise au point d'un dispositif technique d'analyse des publications permettant de générer une cartographie thématique des principales tendances observées dans le corpus. Un deuxième axe, conçu dans le prolongement du premier, porte sur l'analyse discursive des textes scientifiques pour la caractérisation des marques d'énonciation des auteurs. Cet axe de recherche trouve ses racines dans la théorie des facettes développée dans le milieu documentaire par Ranganathan en 1933. Le troisième axe porte sur une analyse du paradigme orienté-système qui domine actuellement les recherches en recherche d'information. Nous revenons sur les modalités d'évaluation des systèmes de recherche d'information et sur leur réelle l'utilité pour de vrais usagers. Un quatrième axe portant sur les usages des TIC (Technologies de l'Information et de la Communication) étudie les ressorts du concept de " bibliothèques participatives " (participatory libraries) outre-Atlantique. Les thèmes abordés dans les chapitres précédents permettent de dégager les perspectives d'avenir.
|
168 |
Extraction, Exploitation and Evaluation of Document-based KnowledgeDoucet, Antoine 30 April 2012 (has links) (PDF)
Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées.
|
169 |
Gradients de prototypicalité, mesures de similarité et de proximité sémantique : une contribution à l'Ingénierie des Ontologies.Aimé, Xavier 08 April 2011 (has links) (PDF)
En psychologie cognitive, la notion de prototype apparaît de manière centrale dans les représentations conceptuelles. Dans le cadre de nos travaux, nous proposons d'introduire cette notion au sein des activités relevant de l'Ingénierie des Ontologies et de ses modèles de représentation. L'approche sémiotique que nous avons développée est fondée sur les trois dimensions d'une conceptualisation que sont l'intension (les propriétés), l'expression (les termes), et l'extension (les instances). Elle intègre, en sus de l'ontologie, des connaissances supplémentaires propres à l'utilisateur (pondération des propriétés, corpus, instances). Pratiquement, il s'agit de pondérer les liens "is-a", les termes et les instances d'une hiérarchie de concepts, au moyen de gradients de prototypicalité respectivement conceptuelle, lexicale et extensionnelle. Notre approche a été mise en oeuvre dans un système industriel de gestion documentaire et de recherche d'information pour la société Tennaxia - société de veille juridique dans le domaine de l'Environnement. Elle a conduit au développement d'une ontologie du domaine Hygiène-Sécurité-Environnement, et de deux applications logicielles : l'application TooPrag dédiée au calcul des différents gradients de prototypicalité, et le moteur de Recherche d'Information sémantique Theseus qui exploite les gradients de prototypicalité. Nous avons enfin étendu notre approche à la définition de deux nouvelles mesures sémantiques, en nous inspirant des lois de similarité et de proximité de la théorie de la perception : Semiosem, une mesure de similarité, et Proxem, une mesure de proximité.
|
170 |
Indexation de textes médicaux par extraction de concepts, et ses utilisationsPouliquen, Bruno 07 June 2002 (has links) (PDF)
Nous nous intéressons à l'accès à l'information médicale. Nous avons utilisé un lexique de flexions, dérivations et synonymes de mots spécifiquement créé pour le domaine médical, issu de la base de connaissances "Aide au Diagnostic Médical". Nous avons exploité les mots composés et les associations de mots de ce lexique pour optimiser l'indexation d'une phrase en mots de référence. Nous avons créé un outil d'indexation permettant de reconnaître un concept d'un thésaurus médical dans une phrase en langage naturel. Nous avons ainsi pu indexer des documents médicaux par un ensemble de concepts, ensuite nous avons démontré l'utilité d'une telle indexation en développant un système de recherche d'information et divers outils: extraction de mots-clés, similarité de documents et synthèse automatique de documents. Cette indexation diminue considérablement la complexité de la représentation des connaissances contenues dans les documents en langage naturel. Les résultats des évaluations montrent que cette indexation conserve néanmoins la majeure partie de l'information sémantique.
|
Page generated in 0.0207 seconds