Spelling suggestions: "subject:"densemble dde données"" "subject:"densemble dee données""
1 |
Etude du passage à l'échelle des algorithmes de segmentation et de classification en télédétection pour le traitement de volumes massifs de données / Study of the scalability of segmentation and classification algorithms to process massive datasets for remote sensing applicationsLassalle, Pierre 06 November 2015 (has links)
Les récentes missions spatiales d'observation de la Terre fourniront des images optiques à très hautes résolutions spatiale, spectrale et temporelle générant des volumes de données massifs. L'objectif de cette thèse est d'apporter de nouvelles solutions pour le traitement efficace de grands volumes de données ne pouvant être contenus en mémoire. Il s'agit de lever les verrous scientifiques en développant des algorithmes efficaces qui garantissent des résultats identiques à ceux obtenus dans le cas où la mémoire ne serait pas une contrainte. La première partie de la thèse se consacre à l'adaptation des méthodes de segmentation pour le traitement d'images volumineuses. Une solution naïve consiste à découper l'image en tuiles et à appliquer la segmentation sur chaque tuile séparément. Le résultat final est reconstitué en regroupant les tuiles segmentées. Cette stratégie est sous-optimale car elle entraîne des modifications par rapport au résultat obtenu lors de la segmentation de l'image sans découpage. Une étude des méthodes de segmentation par fusion de régions a conduit au développement d'une solution permettant la segmentation d'images de taille arbitraire tout en garantissant un résultat identique à celui obtenu avec la méthode initiale sans la contrainte de la mémoire. La faisabilité de la solution a été vérifiée avec la segmentation de plusieurs scènes Pléiades à très haute résolution avec des tailles en mémoire de l'ordre de quelques gigaoctets. La seconde partie de la thèse se consacre à l'étude de l'apprentissage supervisé lorsque les données ne peuvent être contenues en mémoire. Dans le cadre de cette thèse, nous nous focalisons sur l'algorithme des forêts aléatoires qui consiste à établir un comité d'arbres de décision. Plusieurs solutions ont été proposées dans la littérature pour adapter cet algorithme lorsque les données d'apprentissage ne peuvent être stockées en mémoire. Cependant, ces solutions restent soit approximatives, car la contrainte de la mémoire réduit à chaque fois la visibilité de l'algorithme à une portion des données d'apprentissage, soit peu efficaces, car elles nécessitent de nombreux accès en lecture et écriture sur le disque dur. Pour pallier ces problèmes, nous proposons une solution exacte et efficace garantissant une visibilité de l'algorithme sur l'ensemble des données d'apprentissage. L'exactitude des résultats est vérifiée et la solution est testée avec succès sur de grands volumes de données d'apprentissage. / Recent Earth observation spatial missions will provide very high spectral, spatial and temporal resolution optical images, which represents a huge amount of data. The objective of this research is to propose innovative algorithms to process efficiently such massive datasets on resource-constrained devices. Developing new efficient algorithms which ensure identical results to those obtained without the memory limitation represents a challenging task. The first part of this thesis focuses on the adaptation of segmentation algorithms when the input satellite image can not be stored in the main memory. A naive solution consists of dividing the input image into tiles and segment each tile independently. The final result is built by grouping the segmented tiles together. Applying this strategy turns out to be suboptimal since it modifies the resulting segments compared to those obtained from the segmentation without tiling. A deep study of region-merging segmentation algorithms allows us to develop a tile-based scalable solution to segment images of arbitrary size while ensuring identical results to those obtained without tiling. The feasibility of the solution is shown by segmenting different very high resolution Pléiades images requiring gigabytes to be stored in the memory. The second part of the thesis focuses on supervised learning methods when the training dataset can not be stored in the memory. In the frame of the thesis, we decide to study the Random Forest algorithm which consists of building an ensemble of decision trees. Several solutions have been proposed to adapt this algorithm for processing massive training datasets, but they remain either approximative because of the limitation of memory imposes a reduced visibility of the algorithm on a small portion of the training datasets or inefficient because they need a lot of read and write access on the hard disk. To solve those issues, we propose an exact solution ensuring the visibility of the algorithm on the whole training dataset while minimizing read and write access on the hard disk. The running time is analysed by varying the dimension of the training dataset and shows that our proposed solution is very competitive with other existing solutions and can be used to process hundreds of gigabytes of data.
|
2 |
Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset / Apprentissage faiblement supervisé basé sur le regard : application à la reconnaissance visuelle dans un ensemble de données sur l'alimentationWang, Xin 29 September 2017 (has links)
Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs. / In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results.
|
3 |
Un modèle rétroactif de réconciliation utilité-confidentialité sur les données d’assuranceRioux, Jonathan 04 1900 (has links)
Le partage des données de façon confidentielle préoccupe un bon nombre d’acteurs, peu importe le domaine. La recherche évolue rapidement, mais le manque de solutions adaptées à la réalité d’une entreprise freine l’adoption de bonnes pratiques d’affaires quant à la protection des renseignements sensibles.
Nous proposons dans ce mémoire une solution modulaire, évolutive et complète nommée PEPS, paramétrée pour une utilisation dans le domaine de l’assurance. Nous évaluons le cycle entier d’un partage confidentiel, de la gestion des données à la divulgation, en passant par la gestion des forces externes et l’anonymisation. PEPS se démarque du fait qu’il utilise la contextualisation du problème rencontré et l’information propre au domaine afin de s’ajuster et de maximiser l’utilisation de l’ensemble anonymisé. À cette fin, nous présentons un algorithme d’anonymat fortement contextualisé ainsi que des mesures de performances ajustées aux analyses d’expérience. / Privacy-preserving data sharing is a challenge for almost any enterprise nowadays, no matter their field of expertise. Research is evolving at a rapid pace, but there is still a lack of adapted and adaptable solutions for best business practices regarding the management and sharing of privacy-aware datasets.
To this problem, we offer PEPS, a modular, upgradeable and end-to-end system tailored for the need of insurance companies and researchers. We take into account the entire cycle of sharing data: from data management to publication, while negotiating with external forces and policies. Our system distinguishes itself by taking advantage of the domain-specific and problem-specific knowledge to tailor itself to the situation and increase the utility of the resulting dataset. To this end, we also present a strongly contextualised privacy algorithm and adapted utility measures to evaluate the performance of a successful disclosure of experience analysis.
|
4 |
Past, present, and future boreal forest productivity across North America : from eddy covariance observations to long-term model simulations over 1901–2100Qu, Bo 08 1900 (has links)
Le changement climatique modifie rapidement la composition, la structure et le fonctionnement de la forêt boréale. Des simulations robustes de la productivité primaire brute (PPB) de la forêt boréale avec des modèles de biosphère terrestre (MBT) sont essentielles pour prédire la force des sources de puits de carbone dans les régions arctiques-boréales. Les mesures de covariance des turbulences fournissent des données précieuses pour l’analyse et l'affinement des MBT. Dans cette thèse, j'ai organisé un ensemble de données d'analyse de modèles pour les forêts boréales d'Amérique du Nord en compilant et harmonisant les données de flux de covariance des turbulences (les flux de dioxyde de carbone, d'eau et d'énergie) et les mesures environnementales (données météorologiques) sur huit peuplements forestiers matures (> 70 ans) représentatifs des différentes caractéristiques de peuplements, de climat et de conditions de pergélisol du biome boréal. L’ensemble de données a été utilisée dans une étude de cas pour paramétrer, forcer et évaluer le schéma canadien de surface terrestre incluant les cycles biogéochimiques (CLASSIC, version 1.3), le MBT de la suite canadienne de modèles du climat et de système terrestre. L'étude de cas a démontré l'utilité de l'ensemble de données et a fourni des lignes directrices pour l’amélioration du modèle CLASSIC. Ensuite, j'ai affiné le taux de carboxylation maximal (Vcmax), l'un des paramètres les plus importants du modèle de photosynthèse, pour les principaux types fonctionnels des plantes boréales (TFP) en utilisant une approche d'optimisation bayésienne. L'optimisation a amélioré les performances de la modélisation du PPB et de l'évapotranspiration. Enfin, avec la nouvelle paramétrisation de CLASSIC, j'ai simulé la PBB de la forêt boréale dans des peuplements forestiers de 1901 à 2100 à partir de données de forçage météorologique soigneusement ajustées en fonction des biais. Les changements dans la PBB annuelle simulée ont été quantifiés et étudiés en lien avec plusieurs contrôles environnementaux biotiques et abiotiques importants. Les simulations long terme ont révélé une augmentation du PBB annuel simulé dans tous les peuplements forestiers au cours des 200 ans. La PPB annuelle simulée dans les peuplements forestiers démontre une variation temporelle considérable des taux de changement du passé, au présent, jusqu'au futur. Les changements du début de la saison de croissance constituaient un contrôle environnemental central de la PPB annuelle simulée dans tous les peuplements forestiers du passé au présent. Il a été identifié que la température de l’air devenait plus importante pour la simulation des PBB annuelles que la durée de la saison de croissance dans le futur. Au cours du 21e siècle, l’augmentation du réchauffement, le dégel du pergélisol associé et les changements dans l’humidité du sol et la dynamique thermique étaient des mécanismes sous-jacents importants pour expliquer ces changements. Ma thèse de doctorat a permis d’identifier les opportunités d’analyses et d’affinement des modèles de biosphère terrestre en lien avec une base de données unique construite dans le cadre de cette thèse. Cette base de données a permis de fournir une nouvelle paramétrisation Vcmax au niveau de différentes TFP dans les modèles et fournir un aperçu de la productivité à long terme de la forêt boréale dans le biome boréal d’Amérique du Nord. / Climate change is rapidly altering boreal forest composition, structure, and functioning. Robust simulations of boreal forest gross primary productivity (GPP) with terrestrial biosphere models (TBMs) are critical for predicting carbon sink-source strength in Arctic-boreal regions. Eddy covariance measurements provide valuable data for benchmarking and refining TBMs. In this thesis, I curated a model benchmarking dataset for North America’s boreal forests by compiling and harmonizing eddy covariance flux (i.e., carbon dioxide, water, and energy fluxes) and supporting environmental measurements (i.e., meteorology) over eight mature forest stands (>70 years old) representative of different stand characteristics, climate, and permafrost conditions in the boreal biome. The dataset was used in a case study to parameterize, force, and evaluate the Canadian Land Surface Scheme Including biogeochemical Cycles (CLASSIC, version 1.3), the TBM of the Canadian suite of climate and Earth system models. The case study demonstrated the utility of the dataset and provided guidelines for further model refinement in CLASSIC. Next, I refined the maximum carboxylation rate at 25 °C (Vcmax25), one of the most important parameters in the photosynthesis model in CLASSIC, for representative boreal plant functional types (PFTs) using a Bayesian optimization approach. The refined PFT-level Vcmax25 yielded improved model performance for GPP and evapotranspiration. Last, I simulated boreal forest GPP in forest stands from 1901 to 2100 with CLASSIC, parameterized using the refined PFT-level Vcmax25. To reduce the uncertainty, daily meteorological forcing data from global historical reanalyses and regional climate projections were downscaled and bias-adjusted for forest stands using a multivariate bias correction algorithm. Changes in simulated annual GPP were quantified in trends and investigated with respect to several important biotic and abiotic environmental controls using a random forest approach. Long-term simulations revealed an increase in simulated annual GPP in all forest stands over the 200 years. However, simulated annual GPP in forest stands was characterized by considerable temporal variation in rates of changes from the past, over the present, to the future. Significant reductions in annual GPP were simulated in forest stands below the southern limit of permafrost during the mid-20th century. During the 21st century, all forest stands were simulated with significant increases in annual GPP. Further analyses show that the start of the growing season was a critical environmental control of simulated annual GPP in all forest stands from the past to the present. However, air temperature would become an important environmental control of simulated annual GPP in the future, showing an importance comparable to or even greater than that of the start of the growing season by the end of the 21st century. Enhanced warming, permafrost thaw, and changes in soil moisture and temperature were important for explaining the changes in simulated annual GPP over the 200 years. My PhD study provides a model benchmarking dataset for benchmarking and refining TBMs, and provides important suggestions for PFT-level Vcmax parameterizations in boreal forests. My long-term simulations reveal that boreal forest GPP in response to climate change had differential changes in different climate and permafrost zones during the 20th and 21st centuries, closely associated with differential changes in soil environment (e.g., soil thermal dynamics).
|
Page generated in 0.0441 seconds