Global ETD Search

Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées

La recherche de structures arborescentes fréquentes, également appelée fouille d'arbres, au sein de bases de données composées de documents semi-structurés (e.g. XML) est une problématique actuellement très active. Ce processus trouve de nombreux intérêts dans le contexte de la fouille de données comme par exemple la construction automatique d'un schéma médiateur à partir de schémas XML, ou bien l'analyse des structures des sites Web afin d'étudier son usage ou modifier son contenu.<br /><br />L'objectif de cette thèse est de proposer une méthode d'extraction d'arborescences fréquentes. Cette approche est basée sur une représentation compacte des arborescences cherchant à diminuer la consommation de mémoire dans le processus de fouille. En particulier, nous présentons une nouvelle technique de génération d'arborescences candidates visant à réduire leur nombre. Par ailleurs, nous proposons différents algorithmes pour valider le support des arborescences candidates dans une base de données selon divers types de contraintes d'inclusion d'arbres : induite, incrustée et floue. Finalement nous appliquons nos algorithmes à des jeux de données synthétiques et réels et nous présentons les résultats obtenus.

Extraction de connaissances

énumération d'arborescences

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00203608
Date	16 July 2007
Creators	Del Razo Lopez, Federico
Publisher	Université Montpellier II - Sciences et Techniques du Languedoc
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0022 seconds

Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées

Description

Links & Downloads

Tags

Additional Fields