Global ETD Search

1	Data-driven approaches for ocean remote sensing : from the non-negative decomposition of operators to the reconstruction of satellite-derived sea surface dynamics / Approches pilotées par les données pour la télédétection océanique : de la décomposition non négative d'opérateurs à la reconstruction des dynamiques de la surface de l'océan à partir de données satellitaires Lopez Radcenco, Manuel 12 December 2018 (has links) Au cours des dernières années, la disponibilité toujours croissante de données de télédétection multi-source de l'océan a été un facteur clé pour améliorer notre compréhension des dynamiques de la surface de l'océan. A cet égard, il est essentiel de mettre au point des approches efficaces pour exploiter ces ensembles de données. En particulier, la décomposition des processus géophysiques en modes pertinents est une question clé pour les problèmes de caractérisation, de prédiction et de reconstruction. Inspirés par des progrès récents en séparation aveugle des sources, nous visons, dans la première partie de cette thèse, à étendre les modèles de séparation aveugle de sources sous contraintes de non-négativité au problème de la caractérisation et décomposition d'opérateurs ou fonctions de transfert entre variables d'intérêt. Nous développons des schémas computationnels efficaces reposant sur des fondations mathématiques solides. Nous illustrons la pertinence des modèles de décomposition proposés dans différentes applications impliquant l'analyse et la prédiction de dynamiques géophysiques. Par la suite, étant donné que la disponibilité toujours croissante d'ensembles de données multi-sources supporte l'exploration des approches pilotées par les données en tant qu'alternative aux formulations classiques basées sur des modèles, nous explorons des approches basées sur les données récemment introduits pour l'interpolation des champs géophysiques à partir d'observations satellitaires irrégulièrement échantillonnées. De plus, en vue de la future mission SWOT, la première mission satellitaire à produire des observations d'altimétrie par satellite complètement bidimensionnelles et à large fauchée, nous nous intéressons à évaluer dans quelle mesure les données SWOT permettraient une meilleure reconstruction des champs altimétriques. / In the last few decades, the ever-growing availability of multi-source ocean remote sensing data has been a key factor for improving our understanding of upper ocean dynamics. In this regard, developing efficient approaches to exploit these datasets is of major importance. Particularly, the decomposition of geophysical processes into relevant modes is a key issue for characterization, forecasting and reconstruction problems. Inspired by recent advances in blind source separation, we aim, in the first part of this thesis dissertation, at extending non-negative blind source separation models to the problem of the observation-based characterization and decomposition of linear operators or transfer functions between variables of interest. We develop mathematically sound and computationally efficient schemes. We illustrate the relevance of the proposed decomposition models in different applications involving the analysis and forecasting of geophysical dynamics. Subsequently, given that the ever-increasing availability of multi-source datasets supports the exploration of data-driven alternatives to classical model-driven formulations, we explore recently introduced data-driven models for the interpolation of geophysical fields from irregularly sampled satellite-derived observations. Importantly, with a view towards the future SWOT mission, the first satellite mission to produce complete two-dimensional wide-swath satellite altimetry observations, we focus on assessing the extent to which SWOT data may lead to an improved reconstruction of altimetry fields. Télédétection satellitaire Masses de données Décomposition d'opérateurs Non-Négativité Dynamiques de l'océan Interpolation Satellite remote sensing Massive datasets Operator decomposition Non-Negativity Ocean dynamics Interpolation 620
2	Fouille et classement d'ensembles fermés dans des données transactionnelles de grande échelle / Mining and ranking closed itemsets from large-scale transactional datasets Kirchgessner, Martin 26 September 2016 (has links) Les algorithmes actuels pour la fouille d’ensembles fréquents sont dépassés par l’augmentation des volumes de données. Dans cette thèse nous nous intéressons plus particulièrement aux données transactionnelles (des collections d’ensembles d’objets, par exemple des tickets de caisse) qui contiennent au moins un million de transactions portant sur au moins des centaines de milliers d’objets. Les jeux de données de cette taille suivent généralement une distribution dite en "longue traine": alors que quelques objets sont très fréquents, la plupart sont rares. Ces distributions sont le plus souvent tronquées par les algorithmes de fouille d’ensembles fréquents, dont les résultats ne portent que sur une infime partie des objets disponibles (les plus fréquents). Les méthodes existantes ne permettent donc pas de découvrir des associations concises et pertinentes au sein d’un grand jeu de données. Nous proposons donc une nouvelle sémantique, plus intuitive pour l’analyste: parcourir les associations par objet, au plus une centaine à la fois, et ce pour chaque objet présent dans les données.Afin de parvenir à couvrir tous les objets, notre première contribution consiste à définir la fouille centrée sur les objets. Cela consiste à calculer, pour chaque objet trouvé dans les données, les k ensembles d’objets les plus fréquents qui le contiennent. Nous présentons un algorithme effectuant ce calcul, TopPI. Nous montrons que TopPI calcule efficacement des résultats intéressants sur nos jeux de données. Il est plus performant que des solutions naives ou des émulations reposant sur des algorithms existants, aussi bien en termes de rapidité que de complétude des résultats. Nous décrivons et expérimentons deux versions parallèles de TopPI (l’une sur des machines multi-coeurs, l’autre sur des grappes Hadoop) qui permettent d’accélerer le calcul à grande échelle.Notre seconde contribution est CAPA, un système permettant d’étudier quelle mesure de qualité des règles d’association serait la plus appropriée pour trier nos résultats. Cela s’applique aussi bien aux résultats issus de TopPI que de jLCM, notre implémentation d’un algorithme récent de fouille d’ensembles fréquents fermés (LCM). Notre étude quantitative montre que les 39 mesures que nous comparons peuvent être regroupées en 5 familles, d’après la similarité des classements de règles qu’elles produisent. Nous invitons aussi des experts en marketing à participer à une étude qualitative, afin de déterminer laquelle des 5 familles que nous proposons met en avant les associations d’objets les plus pertinentes dans leur domaine.Notre collaboration avec Intermarché, partenaire industriel dans le cadre du projet Datalyse, nous permet de présenter des expériences complètes et portant sur des données réelles issues de supermarchés dans toute la France. Nous décrivons un flux d’analyse complet, à même de répondre à cette application. Nous présentons également des expériences portant sur des données issues d’Internet; grâce à la généricité du modèle des ensembles d’objets, nos contributions peuvent s’appliquer dans d’autres domaines.Nos contributions permettent donc aux analystes de découvrir des associations d’objets au milieu de grandes masses de données. Nos travaux ouvrent aussi la voie vers la fouille d’associations interactive à large échelle, afin d’analyser des données hautement dynamiques ou de réduire la portion du fichier à analyser à celle qui intéresse le plus l’analyste. / The recent increase of data volumes raises new challenges for itemset mining algorithms. In this thesis, we focus on transactional datasets (collections of items sets, for example supermarket tickets) containing at least a million transactions over hundreds of thousands items. These datasets usually follow a "long tail" distribution: a few items are very frequent, and most items appear rarely. Such distributions are often truncated by existing itemset mining algorithms, whose results concern only a very small portion of the available items (the most frequents, usually). Thus, existing methods fail to concisely provide relevant insights on large datasets. We therefore introduce a new semantics which is more intuitive for the analyst: browsing associations per item, for any item, and less than a hundred associations at once.To address the items' coverage challenge, our first contribution is the item-centric mining problem. It consists in computing, for each item in the dataset, the k most frequent closed itemsets containing this item. We present an algorithm to solve it, TopPI. We show that TopPI computes efficiently interesting results over our datasets, outperforming simpler solutions or emulations based on existing algorithms, both in terms of run-time and result completeness. We also show and empirically validate how TopPI can be parallelized, on multi-core machines and on Hadoop clusters, in order to speed-up computation on large scale datasets.Our second contribution is CAPA, a framework allowing us to study which existing measures of association rules' quality are relevant to rank results. This concerns results obtained from TopPI or from jLCM, our implementation of a state-of-the-art frequent closed itemsets mining algorithm (LCM). Our quantitative study shows that the 39 quality measures we compare can be grouped into 5 families, based on the similarity of the rankings they produce. We also involve marketing experts in a qualitative study, in order to discover which of the 5 families we propose highlights the most interesting associations for their domain.Our close collaboration with Intermarché, one of our industrial partners in the Datalyse project, allows us to show extensive experiments on real, nation-wide supermarket data. We present a complete analytics workflow addressing this use case. We also experiment on Web data. Our contributions can be relevant in various other fields, thanks to the genericity of transactional datasets.Altogether our contributions allow analysts to discover associations of interest in modern datasets. We pave the way for a more reactive discovery of items' associations in large-scale datasets, whether on highly dynamic data or for interactive exploration systems. Fouille de données Grandes masses de données Systèmes parallèles Règles d'association Mesures de qualité Data mining Big data Parallel systems Association rules Quality measures 004

Search results

Fouille et classement d'ensembles fermés dans des données transactionnelles de grande échelle / Mining and ranking closed itemsets from large-scale transactional datasets