Return to search

Autour et alentours des motifs séquentiels

Parmi les techniques utilisées en fouille de données, la recherche de motifs séquentiels permet d'extraire des connaissances sur le comportement des données. Les principaux travaux de recherche autour des motifs s'intéressent à la définition d'algorithmes efficaces pour « passer à l'échelle » et manipuler un espace de recherche volumineux. Même si ces dernières années nous nous sommes également intéressés au facteur temps pour l'extraction de motifs, les travaux présentés dans ce mémoire se focalisent plus particulièrement sur de nouvelles extensions proposées aux motifs afin d'offrir des connaissances correspondant aux attentes du décideur. Tout d'abord nous proposons une représentation des données « classiques » (i.e. booléennes) en développant les définitions de motifs séquentiels que nous avons choisis comme format de description des comportements extraits. Nous répondons ensuite, au travers de l'approche ISE, à la question suivante : comment utiliser une connaissance extraite au préalable pour optimiser la phase d'extraction lorsque de nouvelles données arrivent ? Nous proposons également une représentation moins stricte des comportements et définissons les méthodes d'extraction associées (approche approximative) : SpeedyFuzzy, MiniFuzzy et TotallyFuzzy. Via une composante floue, nous montrons que de nouveaux motifs plus informatifs peuvent être extraits. Nous poursuivons l'utilisation de l'approche approximative pour prendre en compte des contraintes temporelles dans des motifs : GETC. Cette approche complète nos précédents travaux consistant à intégrer très tôt les contraintes dans le processus d'extraction et ainsi optimiser leur prise en compte : GTC.<br />Lorsque les données manipulées deviennent plus complexes, nous montrons que les motifs s'avèrent être également une représentation adaptée. Nous nous attachons à décrire certaines de nos propositions sur deux types de données complexes : (1) pour les documents textuels, nous proposons une approche de classification supervisée SPAC et (2) pour les données multidimensionnelles, nous présentons deux nouvelles techniques permettant de prendre en compte différentes dimensions d'analyse, M2SP, et la hiérarchie disponible sur les dimensions : HYPE.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00203628
Date05 December 2007
CreatorsTeisseire, Maguelonne
PublisherUniversité Montpellier II - Sciences et Techniques du Languedoc
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
Typehabilitation ࠤiriger des recherches

Page generated in 0.0016 seconds