Spelling suggestions: "subject:"massive datasets"" "subject:"assive datasets""
1 |
Etude du passage à l'échelle des algorithmes de segmentation et de classification en télédétection pour le traitement de volumes massifs de données / Study of the scalability of segmentation and classification algorithms to process massive datasets for remote sensing applicationsLassalle, Pierre 06 November 2015 (has links)
Les récentes missions spatiales d'observation de la Terre fourniront des images optiques à très hautes résolutions spatiale, spectrale et temporelle générant des volumes de données massifs. L'objectif de cette thèse est d'apporter de nouvelles solutions pour le traitement efficace de grands volumes de données ne pouvant être contenus en mémoire. Il s'agit de lever les verrous scientifiques en développant des algorithmes efficaces qui garantissent des résultats identiques à ceux obtenus dans le cas où la mémoire ne serait pas une contrainte. La première partie de la thèse se consacre à l'adaptation des méthodes de segmentation pour le traitement d'images volumineuses. Une solution naïve consiste à découper l'image en tuiles et à appliquer la segmentation sur chaque tuile séparément. Le résultat final est reconstitué en regroupant les tuiles segmentées. Cette stratégie est sous-optimale car elle entraîne des modifications par rapport au résultat obtenu lors de la segmentation de l'image sans découpage. Une étude des méthodes de segmentation par fusion de régions a conduit au développement d'une solution permettant la segmentation d'images de taille arbitraire tout en garantissant un résultat identique à celui obtenu avec la méthode initiale sans la contrainte de la mémoire. La faisabilité de la solution a été vérifiée avec la segmentation de plusieurs scènes Pléiades à très haute résolution avec des tailles en mémoire de l'ordre de quelques gigaoctets. La seconde partie de la thèse se consacre à l'étude de l'apprentissage supervisé lorsque les données ne peuvent être contenues en mémoire. Dans le cadre de cette thèse, nous nous focalisons sur l'algorithme des forêts aléatoires qui consiste à établir un comité d'arbres de décision. Plusieurs solutions ont été proposées dans la littérature pour adapter cet algorithme lorsque les données d'apprentissage ne peuvent être stockées en mémoire. Cependant, ces solutions restent soit approximatives, car la contrainte de la mémoire réduit à chaque fois la visibilité de l'algorithme à une portion des données d'apprentissage, soit peu efficaces, car elles nécessitent de nombreux accès en lecture et écriture sur le disque dur. Pour pallier ces problèmes, nous proposons une solution exacte et efficace garantissant une visibilité de l'algorithme sur l'ensemble des données d'apprentissage. L'exactitude des résultats est vérifiée et la solution est testée avec succès sur de grands volumes de données d'apprentissage. / Recent Earth observation spatial missions will provide very high spectral, spatial and temporal resolution optical images, which represents a huge amount of data. The objective of this research is to propose innovative algorithms to process efficiently such massive datasets on resource-constrained devices. Developing new efficient algorithms which ensure identical results to those obtained without the memory limitation represents a challenging task. The first part of this thesis focuses on the adaptation of segmentation algorithms when the input satellite image can not be stored in the main memory. A naive solution consists of dividing the input image into tiles and segment each tile independently. The final result is built by grouping the segmented tiles together. Applying this strategy turns out to be suboptimal since it modifies the resulting segments compared to those obtained from the segmentation without tiling. A deep study of region-merging segmentation algorithms allows us to develop a tile-based scalable solution to segment images of arbitrary size while ensuring identical results to those obtained without tiling. The feasibility of the solution is shown by segmenting different very high resolution Pléiades images requiring gigabytes to be stored in the memory. The second part of the thesis focuses on supervised learning methods when the training dataset can not be stored in the memory. In the frame of the thesis, we decide to study the Random Forest algorithm which consists of building an ensemble of decision trees. Several solutions have been proposed to adapt this algorithm for processing massive training datasets, but they remain either approximative because of the limitation of memory imposes a reduced visibility of the algorithm on a small portion of the training datasets or inefficient because they need a lot of read and write access on the hard disk. To solve those issues, we propose an exact solution ensuring the visibility of the algorithm on the whole training dataset while minimizing read and write access on the hard disk. The running time is analysed by varying the dimension of the training dataset and shows that our proposed solution is very competitive with other existing solutions and can be used to process hundreds of gigabytes of data.
|
2 |
Hierarchical Additive Spatial and Spatio-Temporal Process Models for Massive DatasetsMa, Pulong 29 October 2018 (has links)
No description available.
|
3 |
Data-driven approaches for ocean remote sensing : from the non-negative decomposition of operators to the reconstruction of satellite-derived sea surface dynamics / Approches pilotées par les données pour la télédétection océanique : de la décomposition non négative d'opérateurs à la reconstruction des dynamiques de la surface de l'océan à partir de données satellitairesLopez Radcenco, Manuel 12 December 2018 (has links)
Au cours des dernières années, la disponibilité toujours croissante de données de télédétection multi-source de l'océan a été un facteur clé pour améliorer notre compréhension des dynamiques de la surface de l'océan. A cet égard, il est essentiel de mettre au point des approches efficaces pour exploiter ces ensembles de données. En particulier, la décomposition des processus géophysiques en modes pertinents est une question clé pour les problèmes de caractérisation, de prédiction et de reconstruction. Inspirés par des progrès récents en séparation aveugle des sources, nous visons, dans la première partie de cette thèse, à étendre les modèles de séparation aveugle de sources sous contraintes de non-négativité au problème de la caractérisation et décomposition d'opérateurs ou fonctions de transfert entre variables d'intérêt. Nous développons des schémas computationnels efficaces reposant sur des fondations mathématiques solides. Nous illustrons la pertinence des modèles de décomposition proposés dans différentes applications impliquant l'analyse et la prédiction de dynamiques géophysiques. Par la suite, étant donné que la disponibilité toujours croissante d'ensembles de données multi-sources supporte l'exploration des approches pilotées par les données en tant qu'alternative aux formulations classiques basées sur des modèles, nous explorons des approches basées sur les données récemment introduits pour l'interpolation des champs géophysiques à partir d'observations satellitaires irrégulièrement échantillonnées. De plus, en vue de la future mission SWOT, la première mission satellitaire à produire des observations d'altimétrie par satellite complètement bidimensionnelles et à large fauchée, nous nous intéressons à évaluer dans quelle mesure les données SWOT permettraient une meilleure reconstruction des champs altimétriques. / In the last few decades, the ever-growing availability of multi-source ocean remote sensing data has been a key factor for improving our understanding of upper ocean dynamics. In this regard, developing efficient approaches to exploit these datasets is of major importance. Particularly, the decomposition of geophysical processes into relevant modes is a key issue for characterization, forecasting and reconstruction problems. Inspired by recent advances in blind source separation, we aim, in the first part of this thesis dissertation, at extending non-negative blind source separation models to the problem of the observation-based characterization and decomposition of linear operators or transfer functions between variables of interest. We develop mathematically sound and computationally efficient schemes. We illustrate the relevance of the proposed decomposition models in different applications involving the analysis and forecasting of geophysical dynamics. Subsequently, given that the ever-increasing availability of multi-source datasets supports the exploration of data-driven alternatives to classical model-driven formulations, we explore recently introduced data-driven models for the interpolation of geophysical fields from irregularly sampled satellite-derived observations. Importantly, with a view towards the future SWOT mission, the first satellite mission to produce complete two-dimensional wide-swath satellite altimetry observations, we focus on assessing the extent to which SWOT data may lead to an improved reconstruction of altimetry fields.
|
Page generated in 0.0542 seconds