Depuis plusieurs années, un nouveau phénomène lié aux données numériques émerge : des données de plus en plus volumineuses, variées et véloces, apparaissent et sont désormais disponibles, elles sont souvent qualifiées de données complexes. Dans cette thèse, nous focalisons sur un type particulier de données complexes : les séquences complexes d’événements, en posant la question suivante : “comment prédire au plus tôt et influencer l’apparition des événements futurs dans une séquence complexe d’événements ?”. Tout d’abord, nous traitons le problème de prédiction au plus tôt des événements. Nous proposons un algorithme de fouille de règles d’épisode DEER qui a l’originalité de maîtriser l’horizon d’apparition des événements futurs à travers d’une distance imposée au sein de règles extraites. Dans un deuxième temps, nous focalisons sur la détection de l’émergence dans un flux d’événements. Nous proposons l’algorithme EER pour la détection au plus tôt de l’émergence de nouvelles règles. Pour augmenter la fiabilité de nouvelles règles lorsque leur support est très faible, EER s’appuie sur la similarité entre ces règles et les règles déjà connues. Enfin, nous étudions l’impact porté par des événements sur d’autres dans une séquence d’événements. Nous proposons l’algorithme IE qui introduit la notion des “événements influenceurs” et étudie l’influence sur le support, la confiance et la distance à travers de trois mesures d’influence proposées. Ces travaux sont évalués et validés par une étude expérimentale menée sur un corpus de données réelles issues de blogs / For several years now, a new phenomenon related to digital data is emerging : data which are increasingly voluminous, varied and rapid, appears and becomes available, they are often referred to as complex data. In this dissertation, we focus on a particular type of data : complex sequence of events, by asking the following question : “how to predict as soon as possible and to influence the appearance of future events within a complex sequence of events?”. First of all, we focus on the problem of predicting events as soon as possible in a sequence of events. We propose DEER : an algorithm for mining episode rules, which has the originality of controlling the horizon of the appearance of future events by imposing a temporal distance within the extracted rules. In a second phase, we address the problem of emergence detection in an events stream. We propose EER : an algorithm for detecting new emergent rules as soon as possible. In order to increase the reliability of new rules, EER relies on the similarity between theses rules and previously extracted rules. At last, we study the impact carried by events on other events within a sequence of events. We propose IE : an algorithm that introduces the concept of “influencer events” and studies the influence on the support, on the confidence and on the distance through three proposed measures. Our work is evaluated and validated through an experimental study carried on a real data set of blogs messages
Identifer | oai:union.ndltd.org:theses.fr/2016LORR0125 |
Date | 27 October 2016 |
Creators | Fahed, Lina |
Contributors | Université de Lorraine, Boyer, Anne, Brun, Armelle |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0028 seconds