Spelling suggestions: "subject:"mesures dde qualité"" "subject:"mesures dee qualité""
1 |
Modèles d'interpolation spatiale et spectrale, anti-crénelage et mesures de qualitéHoré, Alain January 2011 (has links)
Cette thèse à publications décrit plusieurs travaux en imagerie, aussi bien au niveau de l'acquisition des images que du post-traitement des images. Le premier concerne un algorithme de redimensionnement d'images dans lequel le pixel n'est pas considéré comme un point, mais comme une unité surfacique exprimée par une fonction mathématique. L'intensité d'un pixel est déterminée par interpolation à l'aide des outils du calcul intégral. Le deuxième travail concerne un autre algorithme de redimensionnement d'images dans lequel les dérivées de l'image sont mises à contribution pour augmenter le contraste et rehausser les hautes fréquences lors du processus de redimensionnement. Pour combiner l'image et ses dérivées, nous utilisons le théorème d'échantillonnage généralisé de Papoulis. Dans ce deuxième travail et dans la suite de la thèse, le pixel est considéré comme un point. Dans le troisième travail, nous proposons une équation de diffusion aux dérivées partielles afin de réduire le crénelage qui apparaît régulièrement dans de nombreux algorithmes de redimensionnement d'images. L'équation que nous proposons résulte d'un raffinement de l'équation de diffusion de la chaleur utilisée par Perona et Malik. Pour cela, nous introduisons la diffusivité inverse afin de réduire considérablement le crénelage sur les contours nets. Le rehaussement du contraste pendant le processus de diffusion se fait par l'intégration d'un filtre passe-haut, en l'occurrence le Laplacien, dans notre équation de diffusion. Un modèle de réduction efficace du crénelage sur les lignés, basé sur les valeurs propres de la matrice hessienne, est également proposé. Le quatrième travail est un algorithme de dématriçage (ou demosaïçage) permettant de reconstruire une image couleur à partir d'une image acquise par une matrice de filtres couleurs (color filter array, CFA). Sachant que dans un CFA une seule couleur primaire rouge, vert ou bleu est disponible à chaque position de pixel, nous proposons un modèle d'interpolation permettant d'estimer les couleurs manquantes à chaque position de pixel. Notre algorithme peut être utilisé pour divers modèles de CFA. Il s'inspire de l'algorithme de dématriçage universel de Lukac et al. et y apporte diverses améliorations. La première amélioration est la mise en oeuvre d'une détection de contours ou de zones uniformes dans une image acquise d'un CFA. La deuxième amélioration concerne l'utilisation complète du modèle de différence des couleurs, qui est un modèle bien connu dans les algorithmes de dématriçage. La troisième amélioration est l'utilisation d'un modèle d'interpolation spectrale permettant d'interpoler la couleur d'un pixel à l'aide de la couleur et de la position de ses voisins. Dans le cinquième et dernier travail, nous abordons une problématique liée à la qualité des images, notion importante en imagerie pour la validation des algorithmes et des modèles. Dans notre travail, nous faisons une étude analytique et expérimentale pour comparer le PSNR (Peak Signal-to-Noise Ratio) et le SSIM (Structural Similarity Index Measure), qui sont deux mesures de qualité largement utilisés en traitement d'images. L'étude analytique fait ressortir l'existence d'une relation de type logarithmique entre ces deux mesures. Les nombreux tests expérimentaux réalisés avec différentes images donnent davantage de précisions sur l'efficacité de ces deux mesures à évaluer la qualité des images ayant subi certaines dégradations ou traitements tels que la compression Jpeg, la compression Jpeg 2000, le flou gaussien ou le bruit additif gaussien.
|
2 |
Extraction de Connaissances à partir de Données Numériques et TextuellesAzé, Jérôme 16 December 2003 (has links) (PDF)
Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.<br />L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.<br />Les experts des données ont souvent des difficultés pour déterminer ce support.<br />Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.<br />Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".<br />Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.<br />Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.<br /><br />Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.<br />Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.<br />Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.<br /><br />Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.<br />Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.<br />Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.<br />Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.
|
3 |
Etude et réalisation d'un système d'extraction de connaissances à partir de textesCherfi, Hacène 15 November 2004 (has links) (PDF)
Ce travail de thèse porte sur la problématique d'extraction de connaissances à partir de textes, plus communément appelée la fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de textes proprement dite, et l'interprétation des éléments de connaissances extraits. Dans ce cadre, un système d'extraction des connaissances nécessaires pour analyser les textes en fonction de leur contenu est étudié et implanté. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents (avec l'algorithme Close) et l'extraction de règles d'association. Le mémoire s'attache à définir précisément le processus de fouille de textes et ses principales caractéristiques et propriétés en s'appuyant sur l'extraction de motifs fréquents et de règles d'association. En outre, une étude minutieuse d'un ensemble donné de mesures de qualité qu'il est possible d'attacher aux règles d'association est menée, toujours dans le cadre de la fouille de textes. Il est montré quel rôle ces mesures peuvent avoir sur la qualité et sur l'interprétation des règles extraites ; comment peuvent-elles influer sur la qualité globale du processus de fouille de textes.<br />L'utilisation d'un modèle de connaissances vient appuyer et surtout compléter cette première approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant les connaissances déjà répertoriées et décrites par un modèle de connaissances du domaine. Les règles d'association peuvent donc être utilisées pour alimenter un modèle de connaissances terminologiques du domaine des textes choisi. La thèse inclut la réalisation d'un système appelé TAMIS : "Text Analysis by Mining Interesting ruleS" ainsi qu'une expérimentation et une validation sur des données réelles de résumés de textes en biologie moléculaire.
|
4 |
Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques / Automatic algorithms for visual data mining and association rules visualization : application to aeronautical dataBothorel, Gwenael 18 November 2014 (has links)
Depuis quelques années, nous assistons à une véritable explosion de la production de données dans de nombreux domaines, comme les réseaux sociaux ou le commerce en ligne. Ce phénomène récent est renforcé par la généralisation des périphériques connectés, dont l'utilisation est devenue aujourd'hui quasi-permanente. Le domaine aéronautique n'échappe pas à cette tendance. En effet, le besoin croissant de données, dicté par l'évolution des systèmes de gestion du trafic aérien et par les événements, donne lieu à une prise de conscience sur leur importance et sur une nouvelle manière de les appréhender, qu'il s'agisse de stockage, de mise à disposition et de valorisation. Les capacités d'hébergement ont été adaptées, et ne constituent pas une difficulté majeure. Celle-ci réside plutôt dans le traitement de l'information et dans l'extraction de connaissances. Dans le cadre du Visual Analytics, discipline émergente née des conséquences des attentats de 2001, cette extraction combine des approches algorithmiques et visuelles, afin de bénéficier simultanément de la flexibilité, de la créativité et de la connaissance humaine, et des capacités de calculs des systèmes informatiques. Ce travail de thèse a porté sur la réalisation de cette combinaison, en laissant à l'homme une position centrale et décisionnelle. D'une part, l'exploration visuelle des données, par l'utilisateur, pilote la génération des règles d'association, qui établissent des relations entre elles. D'autre part, ces règles sont exploitées en configurant automatiquement la visualisation des données concernées par celles-ci, afin de les mettre en valeur. Pour cela, ce processus bidirectionnel entre les données et les règles a été formalisé, puis illustré, à l'aide d'enregistrements de trafic aérien récent, sur la plate-forme Videam que nous avons développée. Celle-ci intègre, dans un environnement modulaire et évolutif, plusieurs briques IHM et algorithmiques, permettant l'exploration interactive des données et des règles d'association, tout en laissant à l'utilisateur la maîtrise globale du processus, notamment en paramétrant et en pilotant les algorithmes. / In the past few years, we have seen a large scale data production in many areas, such as social networks and e-business. This recent phenomenon is enhanced by the widespread use of devices, which are permanently connected. The aeronautical field is also involved in this trend. Indeed, its growing need for data, which is driven by air trafic management systems evolution and by events, leads to a widescale focus on its key role and on new ways to manage it. It deals with storage, availability and exploitation. Data hosting capacity, that has been adapted, is not a major challenge. The issue is now in data processing and knowledge extraction from it. Visual Analytics is an emerging field, stemming from the September 2001 events. It combines automatic and visual approaches, in order to benefit simultaneously from human flexibility, creativity and knowledge, and also from processing capacities of computers. This PhD thesis has focused on this combination, by giving to the operator a centered and decisionmaking role. On the one hand, the visual data exploration drives association rules extraction. They correspond to links between the data. On the other hand, these rules are exploited by automatically con_gurating the visualization of the concerned data, in order to highlight it. To achieve this, a bidirectional process has been formalized, between data and rules. It has been illustrated by air trafic recordings, thanks to the Videam platform, that we have developed. By integrating several HMI and algorithmic applications in a modular and upgradeable environment, it allows interactive exploration of both data and association rules. This is done by giving to human the mastering of the global process, especially by setting and driving algorithms.
|
5 |
Analyse automatique de la circulation automobile par vidéosurveillance routière / Automatic traffic analysis in video sequencesIntawong, Kannikar 27 September 2017 (has links)
Cette thèse s’inscrit dans le contexte de l’analyse vidéo du trafic routier. Dans certaines grandes villes, des centaines de caméras produisent de très grandes quantités de données, impossible à manipuler sans traitement automatique. Notre principal objectif est d'aider les opérateurs humains en analysant automatiquement les données vidéo. Pour aider les contrôleurs de la circulation à prendre leurs décisions, il est important de connaître en temps réel, l'état du trafic (nombre de véhicules et vitesse des véhicules sur chaque segment de voie), mais aussi de disposer de statistiques temporelles tout au long de la journée, de la semaine, de la saison ou de l'année. Les caméras ont été déployées depuis longtemps pour le trafic et pour d'autres fins de surveillance, car elles fournissent une source d'information riche pour la compréhension humaine. L'analyse vidéo peut désormais apporter une valeur ajoutée aux caméras en extrayant automatiquement des informations pertinentes. De cette façon, la vision par ordinateur et l'analyse vidéo deviennent de plus en plus importantes pour les systèmes de transport intelligents (intelligent transport systems : ITSs). L’une des problématiques abordées dans cette thèse est liée au comptage automatique de véhicules. Pour être utile, un système de surveillance vidéo doit être entièrement automatique et capable de fournir, en temps réel, l'information qui concerne le comportement de l'objet dans la scène. Nous pouvons obtenir ces renseignements sur la détection et le suivi des objets en mouvement dans les vidéos, ce qui a été un domaine largement étudié. Néanmoins, la plupart des systèmes d'analyse automatique par vidéo ont des difficultés à gérer les situations particulières. Aujourd'hui, il existe de nombreux défis à résoudre tels que les occultations entre les différents objets, les arrêts longs, les changements de luminosité, etc… qui conduisent à des trajectoires incomplètes. Dans la chaîne de traitements que nous proposons, nous nous sommes concentrés sur l'extraction automatique de statistiques globales dans les scènes de vidéosurveillance routière. Notre chaîne de traitements est constituée par les étapes suivantes : premièrement, nous avons évalué différentes techniques de segmentation de vidéos et de détection d'objets en mouvement. Nous avons choisi une méthode de segmentation basée sur une version paramétrique du mélange de gaussiennes appliquée sur une hiérarchie de blocs, méthode qui est considérée actuellement comme l'un des meilleurs procédés pour la détection d'objets en mouvement. Nous avons proposé une nouvelle méthodologie pour choisir les valeurs optimales des paramètres d’un algorithme permettant d’améliorer la segmentation d’objets en utilisant des opérations morphologiques. Nous nous sommes intéressés aux différents critères permettant d’évaluer la qualité d’une segmentation, résultant d’un compromis entre une bonne détection des objets en mouvement, et un faible nombre de fausses détections, par exemple causées par des changements d’illumination, des reflets ou des bruits d’acquisition. Deuxièmement, nous effectuons une classification des objets, basée sur les descripteurs de Fourier, et nous utilisons ces descripteurs pour éliminer les objets de type piétons ou autres et ne conserver que les véhicules. Troisièmement, nous utilisons un modèle de mouvement et un descripteur basé sur les couleurs dominantes pour effectuer le suivi des objets extraits. En raison des difficultés mentionnées ci-dessus, nous obtenons des trajectoires incomplètes, qui donneraient une information de comptage erronée si elles étaient exploitées directement. Nous proposons donc d’agréger les données partielles des trajectoires incomplètes et de construire une information globale sur la circulation des véhicules dans la scène. Notre approche permet la détection des points d’entrée et de sortie dans les séquences d’images. Nous avons testé nos algorithmes sur des données privées provenant... / This thesis is written in the context of video traffic analysis. In several big cities, hundreds of cameras produce very large amounts of data, impossible to handle without automatic processing. Our main goal is to help human operators by automatically analyzing video data. To help traffic controllers make decisions, it is important to know the traffic status in real time (number of vehicles and vehicle speed on each path), but also to dispose of traffic statistics along the day, week, season or year. The cameras have been deployed for a long time for traffic and other monitoring purposes, because they provide a rich source of information for human comprehension. Video analysis can automatically extract relevant information. Computer vision and video analysis are becoming more and more important for Intelligent Transport Systems (ITSs). One of the issues addressed in this thesis is related to automatic vehicle counting. In order to be useful, a video surveillance system must be fully automatic and capable of providing, in real time, information concerning the behavior of the objects in the scene. We can get this information by detection and tracking of moving objects in videos, a widely studied field. However, most automated video analysis systems do not easily manage particular situations.Today, there are many challenges to be solved, such as occlusions between different objects, long stops of an object in the scene, luminosity changes, etc., leading to incomplete trajectories of moving objects detected in the scene. We have concentrated our work on the automatic extraction of global statistics in the scenes. Our workflow consists of the following steps: first, we evaluated different methods of video segmentation and detection of moving objects. We have chosen a segmentation method based on a parametric version of the Mixture of Gaussians, applied to a hierarchy of blocks, which is currently considered one of the best methods for the detection of moving objects. We proposed a new methodology to choose the optimal parameter values of an algorithm to improve object segmentation by using morphological operations. We were interested in the different criteria for evaluating the segmentation quality, resulting from a compromise between a good detection of moving objects, and a low number of false detections, for example caused by illumination changes, reflections or acquisition noises. Secondly, we performed an objects classification, based on Fourier descriptors, and we use these descriptors to eliminate pedestrian or other objects and retain only vehicles. Third, we use a motion model and a descriptor based on the dominant colors to track the extracted objects. Because of the difficulties mentioned above, we obtain incomplete trajectories, which, exploited as they are, give incorrect counting information. We therefore proposed to aggregate the partial data of the incomplete trajectories and to construct a global information on the vehicles circulation in the scene. Our approach allows to detect input and output points in image sequences. We tested our algorithms on private data from the traffic control center in Chiang Mai City, Thailand, as well as on MIT public video data. On this last dataset, we compared the performance of our algorithms with previously published articles using the same data. In several situations, we illustrate the improvements made by our method in terms of location of input / output zones, and in terms of vehicle counting.
|
6 |
Contribution à l'extraction des règles d'association basée sur des préférences / Contribution to the extraction of association rules based on preferencesBouker, Slim 30 June 2015 (has links)
Résumé indisponible. / Résumé indisponible.
|
7 |
Protection de vidéo comprimée par chiffrement sélectif réduit / Protection of compressed video with reduced selective encryptionDubois, Loïc 15 November 2013 (has links)
De nos jours, les vidéos et les images sont devenues un moyen de communication très important. L'acquisition, la transmission, l'archivage et la visualisation de ces données visuelles, que ce soit à titre professionnel ou privé, augmentent de manière exponentielle. En conséquence, la confidentialité de ces contenus est devenue un problème majeur. Pour répondre à ce problème, le chiffrement sélectif est une solution qui assure la confidentialité visuelle des données en ne chiffrant qu'une partie des données. Le chiffrement sélectif permet de conserver le débit initial et de rester conforme aux standards vidéo. Ces travaux de thèse proposent plusieurs méthodes de chiffrement sélectif pour le standard vidéo H.264/AVC. Des méthodes de réduction du chiffrement sélectif grâce à l'architecture du standard H.264/AVC sont étudiées afin de trouver le ratio de chiffrement minimum mais suffisant pour assurer la confidentialité visuelle des données. Les mesures de qualité objectives sont utilisées pour évaluer la confidentialité visuelle des vidéos chiffrées. De plus, une nouvelle mesure de qualité est proposée pour analyser le scintillement des vidéos au cours du temps. Enfin, une méthode de chiffrement sélectif réduit régulé par des mesures de qualité est étudiée afin d'adapter le chiffrement en fonction de la confidentialité visuelle fixée. / Nowadays, videos and images are major sources of communication for professional or personal purposes. Their number grow exponentially and the confidentiality of the content has become a major problem for their acquisition, transmission, storage, and display. In order to solve this problem, selective encryption is a solution which provides visual privacy by encrypting only a part of the data. Selective encryption preserves the initial bit-rate and maintains compliance with the syntax of the standard video. This Ph.D thesis offers several methods of selective encryption for H.264/AVC video standard. Reduced selective encryption methods, based on the H.264/AVC architecture, are studied in order to find the minimum ratio of encryption but sufficient to ensure visual privacy. Objective quality measures are used to assess the visual privacy of encrypted videos. In addition, a new quality measure is proposed to analyze the video flicker over time. Finally, a method for a reduced selective encryption regulated by quality measures is studied to adapt the encryption depending on the visual privacy fixed.
|
8 |
AROMA : une méthode pour la découverte d'alignements orientés entre ontologies à partir de règles d'associationDavid, Jérôme 08 November 2007 (has links) (PDF)
Ce travail de thèse s'inscrit à l'intersection des deux domaines de recherche que sont l'extraction des connaissances dans les données (ECD) et de l'ingénierie des connaissances. Plus précisément, en nous appuyant sur la combinaison des travaux menés, d'une part sur l'alignement des ontologies, et d'autre part sur la fouille de règles d'association, nous proposons une nouvelle méthode d'alignement d'ontologies associées à des corpus textuels (taxonomies, hiérarchies documentaires, thésaurus, répertoires ou catalogues Web), appelée AROMA (\emph{Association Rule Matching Approach}).<br /><br />Dans la littérature, la plupart des travaux traitant des méthodes d'alignement d'ontologies ou de schémas s'appuient sur une définition intentionnelle des schémas et utilisent des relations basées sur des mesures de similarité qui ont la particularité d'être symétriques (équivalences). Afin d'améliorer les méthodes d'alignement, et en nous inspirant des travaux sur la découverte de règles d'association, des mesures de qualité associées, et sur l'analyse statistique implicative, nous proposons de découvrir des appariements asymétriques (implications) entre ontologies. Ainsi, la contribution principale de cette thèse concerne la conception d'une méthode d'alignement extensionnelle et orientée basée sur la découverte des implications significatives entre deux hiérarchies plantées dans un corpus textuel.<br />Notre méthode d'alignement se décompose en trois phases successives. La phase de prétraitement permet de préparer les ontologies à l'alignement en les redéfinissant sur un ensemble commun de termes extraits des textes et sélectionnés statistiquement. La phase de fouille extrait un alignement implicatif entre hiérarchies. La dernière phase de post-traitement des résultats permet de produire des alignements consistants et minimaux (selon un critère de redondance).<br /><br />Les principaux apports de cette thèse sont : (1) Une modélisation de l'alignement étendue pour la prise en compte de l'implication. Nous définissons les notions de fermeture et couverture d'un alignement permettant de formaliser la redondance et la consistance d'un alignement. Nous étudions également la symétricité et les cardinalités d'un alignement. (2) La réalisation de la méthode AROMA et d'une interface d'aide à la validation d'alignements. (3) Une extension d'un modèle d'évaluation sémantique pour la prise en compte de la présence d'implications dans un alignement. (4) L'étude du comportement et de la performance d'AROMA sur différents types de jeux de tests (annuaires Web, catalogues et ontologies au format OWL) avec une sélection de six mesures de qualité.<br /><br />Les résultats obtenus sont prometteurs car ils montrent la complémentarité de notre méthode avec les approches existantes.
|
9 |
Fouille et classement d'ensembles fermés dans des données transactionnelles de grande échelle / Mining and ranking closed itemsets from large-scale transactional datasetsKirchgessner, Martin 26 September 2016 (has links)
Les algorithmes actuels pour la fouille d’ensembles fréquents sont dépassés par l’augmentation des volumes de données. Dans cette thèse nous nous intéressons plus particulièrement aux données transactionnelles (des collections d’ensembles d’objets, par exemple des tickets de caisse) qui contiennent au moins un million de transactions portant sur au moins des centaines de milliers d’objets. Les jeux de données de cette taille suivent généralement une distribution dite en "longue traine": alors que quelques objets sont très fréquents, la plupart sont rares. Ces distributions sont le plus souvent tronquées par les algorithmes de fouille d’ensembles fréquents, dont les résultats ne portent que sur une infime partie des objets disponibles (les plus fréquents). Les méthodes existantes ne permettent donc pas de découvrir des associations concises et pertinentes au sein d’un grand jeu de données. Nous proposons donc une nouvelle sémantique, plus intuitive pour l’analyste: parcourir les associations par objet, au plus une centaine à la fois, et ce pour chaque objet présent dans les données.Afin de parvenir à couvrir tous les objets, notre première contribution consiste à définir la fouille centrée sur les objets. Cela consiste à calculer, pour chaque objet trouvé dans les données, les k ensembles d’objets les plus fréquents qui le contiennent. Nous présentons un algorithme effectuant ce calcul, TopPI. Nous montrons que TopPI calcule efficacement des résultats intéressants sur nos jeux de données. Il est plus performant que des solutions naives ou des émulations reposant sur des algorithms existants, aussi bien en termes de rapidité que de complétude des résultats. Nous décrivons et expérimentons deux versions parallèles de TopPI (l’une sur des machines multi-coeurs, l’autre sur des grappes Hadoop) qui permettent d’accélerer le calcul à grande échelle.Notre seconde contribution est CAPA, un système permettant d’étudier quelle mesure de qualité des règles d’association serait la plus appropriée pour trier nos résultats. Cela s’applique aussi bien aux résultats issus de TopPI que de jLCM, notre implémentation d’un algorithme récent de fouille d’ensembles fréquents fermés (LCM). Notre étude quantitative montre que les 39 mesures que nous comparons peuvent être regroupées en 5 familles, d’après la similarité des classements de règles qu’elles produisent. Nous invitons aussi des experts en marketing à participer à une étude qualitative, afin de déterminer laquelle des 5 familles que nous proposons met en avant les associations d’objets les plus pertinentes dans leur domaine.Notre collaboration avec Intermarché, partenaire industriel dans le cadre du projet Datalyse, nous permet de présenter des expériences complètes et portant sur des données réelles issues de supermarchés dans toute la France. Nous décrivons un flux d’analyse complet, à même de répondre à cette application. Nous présentons également des expériences portant sur des données issues d’Internet; grâce à la généricité du modèle des ensembles d’objets, nos contributions peuvent s’appliquer dans d’autres domaines.Nos contributions permettent donc aux analystes de découvrir des associations d’objets au milieu de grandes masses de données. Nos travaux ouvrent aussi la voie vers la fouille d’associations interactive à large échelle, afin d’analyser des données hautement dynamiques ou de réduire la portion du fichier à analyser à celle qui intéresse le plus l’analyste. / The recent increase of data volumes raises new challenges for itemset mining algorithms. In this thesis, we focus on transactional datasets (collections of items sets, for example supermarket tickets) containing at least a million transactions over hundreds of thousands items. These datasets usually follow a "long tail" distribution: a few items are very frequent, and most items appear rarely. Such distributions are often truncated by existing itemset mining algorithms, whose results concern only a very small portion of the available items (the most frequents, usually). Thus, existing methods fail to concisely provide relevant insights on large datasets. We therefore introduce a new semantics which is more intuitive for the analyst: browsing associations per item, for any item, and less than a hundred associations at once.To address the items' coverage challenge, our first contribution is the item-centric mining problem. It consists in computing, for each item in the dataset, the k most frequent closed itemsets containing this item. We present an algorithm to solve it, TopPI. We show that TopPI computes efficiently interesting results over our datasets, outperforming simpler solutions or emulations based on existing algorithms, both in terms of run-time and result completeness. We also show and empirically validate how TopPI can be parallelized, on multi-core machines and on Hadoop clusters, in order to speed-up computation on large scale datasets.Our second contribution is CAPA, a framework allowing us to study which existing measures of association rules' quality are relevant to rank results. This concerns results obtained from TopPI or from jLCM, our implementation of a state-of-the-art frequent closed itemsets mining algorithm (LCM). Our quantitative study shows that the 39 quality measures we compare can be grouped into 5 families, based on the similarity of the rankings they produce. We also involve marketing experts in a qualitative study, in order to discover which of the 5 families we propose highlights the most interesting associations for their domain.Our close collaboration with Intermarché, one of our industrial partners in the Datalyse project, allows us to show extensive experiments on real, nation-wide supermarket data. We present a complete analytics workflow addressing this use case. We also experiment on Web data. Our contributions can be relevant in various other fields, thanks to the genericity of transactional datasets.Altogether our contributions allow analysts to discover associations of interest in modern datasets. We pave the way for a more reactive discovery of items' associations in large-scale datasets, whether on highly dynamic data or for interactive exploration systems.
|
10 |
Un système de visualisation pour l'extraction, l'évaluation, et l'exploration interactives des règles d'association.Blanchard, Julien 24 November 2005 (has links) (PDF)
De nombreuses méthodes d'Extraction de Connaissances dans les Données (ECD) produisent des résultats sous forme de règles. Les règles ont l'avantage de représenter les connaissances de manière explicite, ce qui en fait des modèles tout à fait intelligibles pour un utilisateur. Elles sont d'ailleurs au fondement de la plupart des théories de<br />représentation de la connaissance en sciences cognitives. En fouille de données, la principale technique à base de règles est l'extraction de règles d'association, qui a donné lieu à de nombreux travaux de recherche.<br /><br />La limite majeure des algorithmes d'extraction de règles d'association est qu'ils produisent communément de grandes quantités de règles, dont beaucoup se révèlent même sans aucun intérêt pour l'utilisateur. Ceci s'explique par la nature non supervisée de ces algorithmes : ne considérant aucune variable endogène, ils envisagent dans les règles toutes les combinaisons possibles de variables. Dans la pratique, l'utilisateur ne peut pas exploiter les résultats tels quels directement à la sortie des algorithmes. Un post-traitement consistant en une seconde opération de fouille se<br />révèle indispensable pour valider les volumes de règles et découvrir des connaissances utiles. Cependant, alors que la fouille de données est effectuée automatiquement par des algorithmes combinatoires, la fouille de règles est une<br />tâche laborieuse à la charge de l'utilisateur.<br /><br />La thèse développe deux approches pour assister l'utilisateur dans le post-traitement des règles d'association :<br />– la mesure de la qualité des règles par des indices numériques,<br />– la supervision du post-traitement par une visualisation interactive.<br /><br />Pour ce qui concerne la première approche, nous formalisons la notion d'indice de qualité de règles et réalisons une classification inédite des nombreux indices de la littérature, permettant d'aider l'utilisateur à choisir les indices pertinents pour son besoin. Nous présentons également trois nouveaux indices aux propriétés originales : l'indice<br />probabiliste d'écart à l'équilibre, l'intensité d'implication entropique, et le taux informationnel. Pour ce qui concerne la seconde approche, nous proposons une méthodologie de visualisation pour l'exploration interactive des règles. Elle<br />est conçue pour faciliter la tâche de l'utilisateur confronté à de grands ensembles de règles en prenant en compte ses capacités de traitement de l'information. Dans cette méthodologie, l'utilisateur dirige la découverte de connaissances<br />par des opérateurs de navigation adaptés en visualisant des ensembles successifs de règles décrits par des indices de qualité.<br /><br />Les deux approches sont intégrées au sein de l'outil de visualisation ARVis (Association Rule Visualization) pour l'exploration interactive des règles d'association. ARVis implémente notre méthodologie au moyen d'une représentation<br />3D, inédite en visualisation de règles, mettant en valeur les indices de qualité. De plus, ARVis repose sur un algorithme spécifique d'extraction sous contraintes permettant de générer les règles interactivement au fur et à mesure de la navigation de l'utilisateur. Ainsi, en explorant les règles, l'utilisateur dirige à la fois l'extraction et le<br />post-traitement des connaissances.
|
Page generated in 0.0633 seconds