Global ETD Search

1	Fouille de données par contraintes / Data mining by constraints Boudane, Abdelhamid 13 September 2018 (has links) Dans cette thèse, nous abordons les problèmes bien connus de clustering et de fouille de règles d’association. Notre première contribution introduit un nouveau cadre de clustering, où les objets complexes sont décrits par des formules propositionnelles. Premièrement, nous adaptons les deux fameux algorithmes de clustering, à savoir, le k-means et l’algorithme hiérarchique ascendant, pour traiter ce type d’objets complexes. Deuxièmement, nous introduisons un nouvel algorithme hiérarchique descendant pour le clustering des objets représentés explicitement par des ensembles de modèles. Enfin, nous proposons un encodage basé sur la satisfiabilité propositionnelle du problème de clustering des formules propositionnelles sans avoir besoin d’une représentation explicite de leurs modèles. Dans une seconde contribution, nous proposons une nouvelle approche basée sur la satisfiabilité pour extraire les règles d’association en une seule étape. La tâche est modélisée comme une formule propositionnelle dont les modèles correspondent aux règles à extraire. Pour montrer la flexibilité de notre cadre, nous abordons également d’autres variantes, à savoir, l’extraction des règles d’association fermées, minimales non redondantes, les plus générales et les indirectes. Les expérimentations sur de nombreux jeux de données montrent que sur la majorité des tâches de fouille de règles d’association considérées, notre approche déclarative réalise de meilleures performances que les méthodes spécialisées. / In this thesis, We adress the well-known clustering and association rules mining problems. Our first contribution introduces a new clustering framework, where complex objects are described by propositional formulas. First, we extend the two well-known k-means and hierarchical agglomerative clustering techniques to deal with these complex objects. Second, we introduce a new divisive algorithm for clustering objects represented explicitly by sets of models. Finally, we propose a propositional satisfiability based encoding of the problem of clustering propositional formulas without the need for an explicit representation of their models. In a second contribution, we propose a new propositional satisfiability based approach to mine association rules in a single step. The task is modeled as a propositional formula whose models correspond to the rules to be mined. To highlight the flexibility of our proposed framework, we also address other variants, namely the closed, minimal non-redundant, most general and indirect association rules mining tasks. Experiments on many datasets show that on the majority of the considered association rules mining tasks, our declarative approach achieves better performance than the state-of-the-art specialized techniques. Fouille de données Clustering Règles d'association Satisfiabilité 006.3
2	Mise à jour de la famille des générateurs minimaux des treillis de concepts et des icebergs Nehme, Kamal January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Analyse formelle des concepts Motifs fermés fréquents Règles d'association Méthodes incrémentales
3	Association rule mining for query expansion in textual information retrieval Zuo, Jin January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Règles d'association Treillis de Galois Treillis iceberg Expansion de requête Recherche d'information
4	BLED : système d'aide à la recherche d'informations sur Internet Bakour, Kamal January 2005 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Forage de données Moteurs de recherche Recommandation Classement Règles d'association Forage du web
5	RARE : un système de recommandation de cours basé sur les régles d'association Bendakir, Narimel January 2006 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Forage de données Systèmes de recommandation Règles de classification Règles d'association Recommandation de cours
6	Une approche à base de règles d'association pour l'explication et la prévision de l'évolution territoriale / An association rule-based approach for the explanation and prediction of territorial evolution Gharbi, Asma 13 February 2018 (has links) Dans ce mémoire, nous partons de l'hypothèse que les dynamiques spatiales et les évolutions des usages des objets géographiques peuvent, en partie, être expliquées ou anticipées par leurs historiques de changements de fonctions et de co-localisations. Nous proposons d'exploiter la recherche des motifs fréquents et des règles d'associations pour en extraire des règles régissant ces dynamiques. Ce travail adapte également le processus de fouille de données pour tenir compte de la spécificité des données spatio-temporelles utilisées, en particulier, leur asymétrie.Dans ce contexte, notre proposition traite des questions liées à la modélisation des relations spatio-temporelles incorporées dans le jeu de données, la représentation adéquate des données d'apprentissage, pour ainsi, produire des règles adaptées à notre problème de prédiction. La prise en compte de l'asymétrie des attributs d'apprentissage en termes de fréquence est traitée selon deux approches : une approche utilisant plusieurs seuils de support minimum et une approche traitant disjointement les attributs. Pour la première approche, deux adaptations de l'algorithme MSApriori ont été proposées pour la définition et l'affectation de ces seuils. Pour la seconde, nous proposons l'algorithme BERA pour la génération de règles en allant de la construction de la conclusion vers la construction des prémisses.Afin de vérifier et évaluer nos propositions, nous proposons une étude expérimentale menée sur différents jeux de données issus des données Corine Land Cover dans le cadre d’un dispositif expérimental appelé SAFFIET. / In this dissertation, we start from the hypothesis that spatial dynamics and geographical object usage evolution may partially be explained or predicted by their different previous spatial configuration. Thus, we propose to exploit frequent pattern mining and association rule mining in order to extract rules governing these dynamics. This work tries, as well, to adapt the data mining process to take into account the specificity of the used spatiotemporal data, in particular, their asymmetry. In this context, our proposal deals with questions related to the modeling of the spatiotemporal relations incorporated in the data set, the adequate representation of the learning data in order to produce rules adapted to our prediction problem. Addressing the asymmetric aspect of learning attributes, mainly in terms of their frequencies, is tackled according to two approaches: the first one is based on using multiple minimum supports (minsup) and the second one consists in addressing the attributes in a disjointed manner. The first approach is based on two adaptations of the MSApriori algorithm for the definition and assignment of these thresholds. The second approach exploits the novel BERA algorithm which is based on semantics of the predicates for the generation of rules, going from the construction of the conclusion part to the construction of the premise part. In order to verify and evaluate our proposals, an experimental study is carried out on different datasets from Corine Land Cover in an experimental tool called SAFFIET. Évolution Règles d'association Apriori Multiple support Occupation du sol Usage du sol
7	Extraction de Connaissances à partir de Données Numériques et Textuelles Azé, Jérôme 16 December 2003 (has links) (PDF) Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.<br />L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.<br />Les experts des données ont souvent des difficultés pour déterminer ce support.<br />Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.<br />Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".<br />Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.<br />Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.<br /><br />Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.<br />Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.<br />Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.<br /><br />Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.<br />Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.<br />Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.<br />Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association. Fouille de données Mesures de qualité Règles d'association Bruit
8	On the enumeration of pseudo-intents : choosing the order and extending to partial implications / De l'énumération des pseudo-intensions : choix de l'ordre et extension aux implications partielles Bazin, Alexandre 30 September 2014 (has links) Cette thèse traite du problème du calcul des implications, c'est-à-dire des régularités de la forme "quand il y a A, il y a B", dans des ensembles de données composés d'objets décrits par des attributs. Calculer toutes les implications peut être vu comme l'énumération d'ensembles d'attributs appelés pseudo-intensions. Nous savons que ces pseudo-intensions ne peuvent pas être énumérées avec un délai polynomial dans l'ordre lectique mais aucun résultat n'existe, à l'heure actuelle, pour d'autres ordres. Bien que certains algorithmes existants n'énumèrent pas forcément dans l'ordre lectique, aucun n'a un délai polynomial. Cette absence de connaissances sur les autres ordres autorise toujours l'existence d'un algorithme avec délai polynomial et le trouver serait une avancée utile et significative. Malheureusement, les algorithmes actuels ne nous autorisent pas à choisir l'ordre d'énumération, ce qui complique considérablement et inutilement l'étude de l'influence de l'ordre dans la complexité. C'est donc pour aller vers une meilleure compréhension du rôle de l'ordre dans l'énumération des pseudo-intensions que nous proposons un algorithme qui peut réaliser cette énumération dans n'importe quel ordre qui respecte la relation d'inclusion. Dans la première partie, nous expliquons et étudions les propriétés de notre algorithme. Comme pour tout algorithme d'énumération, le principal problème est de construire tous les ensembles une seule fois. Nous proposons pour cela d'utiliser un arbre couvrant, lui-même basé sur l'ordre lectique, afin d'éviter de multiples constructions d'un même ensemble. L'utilisation de cet arbre couvrant au lieu de l'ordre lectique classique augmente la complexité spatiale mais offre plus de flexibilité dans l'ordre d'énumération. Nous montrons que, comparé à l'algorithme Next Closure bien connu, le nôtre effectue moins de fermetures logiques sur des contextes peu denses et plus de fermetures quand le nombre moyen d'attributs par objet dépasse 30% du total. La complexité spatiale de l'algorithme est aussi étudiée de façon empirique et il est montré que des ordres différents se comportent différemment, l'ordre lectique étant le plus efficace. Nous postulons que l'efficacité d'un ordre est fonction de sa distance à l'ordre utilisé dans le test de canonicité. Dans la seconde partie, nous nous intéressons au calcul des implications dans un cadre plus complexe : les données relationnelles. Dans ces contextes, les objets sont représentés à la fois par des attributs et par des relations avec d'autres objets. Le besoin de représenter les informations sur les relations produit une augmente exponentielle du nombre d'attributs, ce qui rend les algorithmes classiques rapidement inutilisables. Nous proposons une modification de notre algorithme qui énumère les pseudo-intensions de contextes dans lesquels l'information relationnelle est représentée par des attributs. Nous fournissons une étude rapide du type d'information relationnelle qui peut être prise en compte. Nous utilisons l'exemple des logiques de description comme cadre pour l'expression des données relationnelles. Dans la troisième partie, nous étendons notre travail au domaine plus général des règles d'association. Les règles d'association sont des régularités de la forme ``quand il y a A, il y a B avec une certitude de x%''. Ainsi, les implications sont des règles d'association certaines. Notre algorithme calcule déjà une base pour les implications et nous proposons une très simple modification et montrons qu'elle lui permet de calculer la base de Luxenburger en plus de la base de Duquenne-Guigues. Cela permet à notre algorithme de calculer une base de cardinalité minimale pour les règles d'association. / This thesis deals with the problem of the computation of implications, which are regularities of the form "when there is A there is B", in datasets composed of objects described by attributes. Computing all the implications can be viewed as the enumeration of sets of attributes called pseudo-intents. It is known that pseudointents cannot be enumerated with a polynomial delay in the lectic order but no such result exists for other orders. While some current algorithms do not enumerate in the lectic order, none of them have a polynomial delay. The lack of knowledge on other orders leaves the possibility for a polynomial-delay algorithm to exist and inding it would be an important and useful step. Unfortunately, current algorithms do not allow us to choose the order so studying its inuence on the complexity of the enumeration is harder than necessary. We thus take a first step towards a better understanding of the role of the order in the enumeration of pseudo-intents by providing an algorithm that can enumerate pseudo-intents in any order that respects the inclusion relation.In the first part, we explain and study the properties of our algorithm. As with all enumeration algorithms, the first problem is to construct all the sets only once.We propose to use a spanning tree, itself based on the lectic order, to avoid multiple constructions of a same set. The use of this spanning tree instead of the classic lectic order increases the space complexity but others much more exibility in the enumeration order. We show that, compared to the well-known Next Closure algorithm, ours performs less logical closures on sparse contexts and more once the average number of attributes per object exceeds 30%. The space complexity of the algorithm is also empirically studied and we show that different orders behave differently with the lectic order being the most efficient. We postulate that the efficiency of an order is function of its distance to the order used in the canonicity test. In the second part, we take an interest in the computation of implications in a more complex setting : relational data. In these contexts, objects are represented by both attributes and binary relations with other objects. The need to represent relation information causes an exponential increase in the number of attributes so naive algorithms become unusable extremely fast. We propose a modification of our algorithm that enumerates the pseudo-intents of contexts in which relational information is represented by attributes. A quick study of the type of relational information that can be considered is provided. We use the example of description logics as a framework for expressing relational data. In the third part, we extend our work to the more general domain of association rules. Association rules are regularities of the form \when there is A there is B with x% certainty" so implications are association rules with 100% certainty. Our algorithm already computes a basis for implications so we propose a very simple modification and demonstrate that it can compute the Luxenburger basis of a context along with the Duquenne-Guigues basis. This effectively allows our algorithm to compute a basis for association rules that is of minimal cardinality. Implications Pseudo-intensions Treillis Analyse formelle de concepts Enumeration Règles d'association Implications Pseudo-intents 004
9	Data Mining : algorithmes d'extraction et de réduction des règles d'association dans les bases de données Pasquier, Nicolas 31 January 2000 (has links) (PDF) L'extraction de connaissances dans les bases de données, également appelé data mining, désigne le processus non trivial permettant d'extraire des informations et des connaissances utiles qui sont enfouies dans les bases de données, les entrepôts de données (data warehouse) ou autres sources de données. Les recherches en ce domaine sont motivées par la croissance très rapide des volumes de données stockées et le potentiel de telles informations pour l'aide à la décision dans de nombreux domaines. Dans ce mémoire, nous traitons du problème de la génération efficace des règles d'association. Une règle d'association est une implication conditionnelle entre ensembles d'attributs binaires appelés items. Dans l'ensemble des travaux existants, ce problème est décomposé en deux sous-problèmes qui sont la recherche des ensembles fréquents d'items et la génération des règles d'association à partir de ces ensembles. Le premier sous-problème a une complexité exponentielle dans la taille de la relation en entrée et nécessite de parcourir à plusieurs reprises la totalité de la relation. L'extraction des ensembles fréquents d'items constitue donc la phase la plus coûteuse en termes de temps d'exécution et d'espace mémoire pour les algorithmes d'extraction des règles d'association. Nous proposons une nouvelle sémantique pour le problème de l'extraction des règles d'association basée sur la connexion de Galois d'une relation binaire finie. Utilisant cette sémantique, nous démontrons que les ensembles fermés fréquents d'items constituent une base, c'est à dire un ensemble générateur non redondant, pour les ensembles fréquents d'items et les règles d'association. Nous proposons deux nouveaux algorithmes, nommés Close et A-Close, permettant l'extraction des ensembles fermés fréquents d'items, à partir desquels les ensembles fréquents d'items et les règles d'association peuvent être dérivés sans accéder au jeu de données. Les résultats expérimentaux démontrent que ces algorithmes permettent de réduire les temps d'extraction des règles d'association dans le cas de jeux de données constitués de données denses ou corrélées. Utilisant la sémantique définie, nous proposons d'améliorer la pertinence et l'utilité des règles d'association extraites en limitant l'extraction à des bases pour les règles d'association. Nous adaptons pour cela les bases pour les règles d'implication définies en analyse de données et nous définissons de nouvelles bases constituées des règles non redondantes d'antécédents minimaux et de conséquences maximales à partir des ensembles fermés fréquents. Nous proposons également des algorithmes efficaces de génération de ces bases. [INFO:INFO_OH] Computer Science/Other data mining connexion de Galois opérateurs de fermeture règles d'association bases pour les règles d'association
10	Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets Boubekeur, Fatiha 01 July 2008 (has links) (PDF) Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence). [INFO] Computer Science Recherche d'information flexible pondération des requêtes indexation<br />sémantique WordNet Règles d'association CP-Nets

Search results