Return to search

Le forage distribué des données : une approche basée sur l'agrégation et le raffinement de modèles

Avec l’informatisation accrue de toutes les sphères d’activités de la société, nous
assistons de nos jours à une explosion de la quantité de données électroniques existantes.
C’est pourquoi, nous devons avoir recours à des outils automatiques qui sont à
même d’analyser automatiquement les données et de ne nous fournir que l’information
pertinente et résumée par rapport à ce qui est recherché. Les techniques de forage de
données sont généralement utilisées à cette fin. Cependant, ces dernières nécessitent
généralement un temps de calcul considérable afin d’analyser un large volume de données.
Par ailleurs, si les données sont géographiquement distribuées, les regrouper sur
un même site pour y créer un modèle (un classificateur par exemple) peut s’avérer très
coûteux. Pour résoudre ce problème, nous proposons de construire plusieurs modèles,
et plus précisément plusieurs classificateurs, soit un classificateur par site. Ensuite,
les règles constituant ces classificateurs sont regroupées puis filtrées en se basant sur
certaines mesures statistiques et une validation effectuée à partir de très petits échantillons
provenant de chacun des sites. Le modèle résultant, appelé méta-classificateur,
est, d’une part, un outil de prédiction pour toute nouvelle instance et, d’autre part, une
vue abstraite de tout l’ensemble de données.
Nous basons notre approche de filtrage de règles de classification sur une mesure de
confiance associée à chaque règle qui est calculée statistiquement et validée en utilisant
les échantillons recueillis. Nous avons considéré plusieurs techniques de validation tel
qu’il sera présenté dans cette thèse. / With the pervasive use of computers in all spheres of activity in our society, we are
faced nowadays with the explosion of electronic data. This is why we need automatic
tools that are able to automatically analyze the data in order to provide us with
relevant and summarized information with respect to some query. For this task, data
mining techniques are generally used. However, these techniques require considerable
computing time in order to analyze a huge volume of data. Moreover, if the data is
geographically distributed, gathering it on the same site in order to create a model (a
classifier for instance) could be time consuming. To solve this problem, we propose to
build several models, that is one classifier by site. Then, rules constituting these classifiers
are aggregated and filtered based on some statistical measures, and a validation
process is carried out on samples from each site. The resulting model, called a metaclassifier
is, on one hand, a prediction tool for any new (unseen) instance and, on the
other hand, an abstract view of the whole data set.
We base our rule filtering approach on a confidence measure associated with each
rule, which is computed statistically and then validated using the data samples (one
from each site). We considered several validation techniques such as will be discussed
in this thesis.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QQLA.2006/23393
Date02 1900
CreatorsAoun-Allah, Mohamed
ContributorsMineau, Guy
PublisherUniversité Laval
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formattext/html, application/pdf
Rights© Mohamed Aoun-Allah, 2006

Page generated in 0.0023 seconds