Global ETD Search

291	Credit Scoring et ses applications dans la gestion du risque du crédit / Credit Scoring and its applications in Credit Risk Management Nguyen, Ha Thu 13 June 2016 (has links) Alors que les modèles de credit scoring sont largement utilisés depuis plus de cinquante ans et sont considérés comme un outil indispensable dans la prise de décision dans d'innombrables institutions financières du monde entier, la littérature et les empiriques disponibles sur ce sujet restent encore très limitées. Notre objectif est de combler cette lacune en présentant une analyse approfondie sur les modèles de credit scoring et le processus de prise de décision d’octroi de crédit, avec diverses applications sur des données réelles et extensives provenant de différents pays. Notre thèse comporte trois chapitres. Chapitre 1 commence par présenter le processus de développement d’un modèle de credit scoring, et fournit une application sur des données réelles d'une banque de détail basée en France. Visant à donner de nouvelles perspectives sur les pays émergents, Chapitre 2 analyse le marché du crédit à la consommation en Chine et enquête sur l'utilisation des modèles de credit scoring dans un tel marché prometteur. Chapitre 3 va plus loin que la littérature méthodologique précédente et se concentre sur les différentes techniques d'inférence des refusés qui peuvent corriger le biais de sélection lors de la construction d'un modèle de crédit scoring basé uniquement sur les dossiers acceptés. Ces chapitres présentent les différents aspects du crédit scoring, pour lesquels les principales problématiques de credit scoring seront traitées. / While credit scoring has been broadly used for more than fifty years and continued to be a great support on decision-making in countless businesses around the world, the amount of literature, especially empirical studies, available on this subject is still limited. Our aim in this thesis is to fill this gap by providing a profound analysis on credit scoring and credit decision processes, with various applications using real and extensive sets of data coming from different countries. The thesis is organized in three chapters. Chapter 1 starts by presenting the credit scoring development process, and provides an application to real data from a France-based retail bank. Aiming at providing new insights regarding emerging countries, Chapter 2 analyzes the Chinese consumer lending market and investigates the use of credit scoring in such a promising market. Chapter 3 goes further than the previous methodological literature and focuses on reject inference techniques which can be a way to address the bias when developing a credit-scoring model based solely on accepted applicants. These chapters provide a round tour on credit scoring, after which major issues in credit scoring are treated. Credit Scoring Score de comportement Score d’octroi Régression logistique Inférence des refusés Risque de crédit Credit Scoring Behavioral scorecard Application scorecard Logistic reression Reject inference Credit risk 330
292	Étude et optimisation de la qualité sonore d'un véhicule récréatif motorisé Benghanem, Abdelghani January 2017 (has links) La qualité sonore (QS) est un facteur important dans la conception et pour la perception des produits, notamment dans le cas des véhicules. Il est donc fondamental d'étudier la qualité sonore des véhicules récréatifs motorisés. L'objectif est d'étudier le bruit généré par un véhicule récréatif motorisé (VRM) et de rendre ce dernier plus agréable pour le conducteur afin de rajouter plus de plaisir à l'expérience de conduite. Le projet est basé sur trois volets importants. Le premier volet consiste à identifier les paramètres physiques des différents composants acoustiques d'un véhicule récréatif motorisé, de conduire des tests d'écoute et d'en faire une étude statistique. Pour ce faire, plusieurs bases de données ont été déjà établies par des enregistrements binauraux correspondants à la position du pilote. Le deuxième volet consiste à définir une méthode de prédiction des résultats de tests d'écoute de préférence par des indicateurs psychoacoustiques dits objectifs, issus des signaux mesurés pour les tests d'écoute de préférence. L'originalité de cette partie est l'utilisation des méthodes statistiques de régression linéaire multiple pour la conception du modèle perceptif, et notamment l'algorithme Lasso qui permet la création de modèles de prédiction de qualité sonore parcimonieux. Le troisième volet consiste à concevoir un dispositif de modification et d'amélioration du son moteur, par filtrage numérique des signaux binauraux, puis étudier son effet à partir de la reproduction de sons simulés et mesurés. Qualité sonore Test d'écoute Technique d'enregistrement binaural Psychoacoustique
293	Evidential calibration and fusion of multiple classifiers : application to face blurring / Calibration et fusion évidentielles de classifieurs : application à l'anonymisation de visages Minary, Pauline 08 December 2017 (has links) Aﬁn d’améliorer les performances d’un problème de classiﬁcation, une piste de recherche consiste à utiliser plusieurs classiﬁeurs et à fusionner leurs sorties. Pour ce faire, certaines approches utilisent une règle de fusion. Cela nécessite que les sorties soient d’abord rendues comparables, ce qui est généralement eﬀectué en utilisant une calibration probabiliste de chaque classiﬁeur. La fusion peut également être réalisée en concaténant les sorties et en appliquant à ce vecteur une calibration probabiliste conjointe. Récemment, des extensions des calibrations d’un classiﬁeur individuel ont été proposées en utilisant la théorie de l’évidence, aﬁn de mieux représenter les incertitudes. Premièrement, cette idée est adaptée aux techniques de calibrations probabilistes conjointes, conduisant à des versions évidentielles. Cette approche est comparée à celles mentionnées ci-dessus sur des jeux de données de classiﬁcation classiques. Dans la seconde partie, le problème d’anonymisation de visages sur des images, auquel SNCF doit répondre, est considéré. Une méthode consiste à utiliser plusieurs détecteurs de visages, qui retournent des boites et des scores de conﬁance associés, et à combiner ces sorties avec une étape d’association et de calibration évidentielle. Il est montré que le raisonnement au niveau pixel est plus intéressant que celui au niveau boite et que, parmi les approches de fusion abordées dans la première partie, la calibration conjointe évidentielle donne les meilleurs résultats. Enﬁn, le cas des images provenant de vidéos est considéré. Pour tirer parti de l’information contenue dans les vidéos, un algorithme de suivi classique est ajouté au système. / In order to improve overall performance of a classiﬁcation problem, a path of research consists in using several classiﬁers and to fuse their outputs. To perform this fusion, some approaches merge the outputs using a fusion rule. This requires that the outputs be made comparable beforehand, which is usually done using a probabilistic calibration of each classiﬁer. The fusion can also be performed by concatenating the classiﬁer outputs into a vector, and applying a joint probabilistic calibration to it. Recently, extensions of probabilistic calibrations of an individual classiﬁer have been proposed using evidence theory, in order to better represent the uncertainties inherent to the calibration process. In the ﬁrst part of this thesis, this latter idea is adapted to joint probabilistic calibration techniques, leading to evidential versions. This approach is then compared to the aforementioned ones on classical classiﬁcation datasets. In the second part, the challenging problem of blurring faces on images, which SNCF needs to address, is tackled. A state-of-the-art method for this problem is to use several face detectors, which return boxes with associated conﬁdence scores, and to combine their outputs using an association step and an evidential calibration. In this report, it is shown that reasoning at the pixel level is more interesting than reasoning at the box-level, and that among the fusion approaches discussed in the ﬁrst part, the evidential joint calibration yields the best results. Finally, the case of images coming from videos is considered. To leverage the information contained in videos, a classical tracking algorithm is added to the blurring system. Calibration Détection de visages Théorie des fonctions de croyance Classiﬁcation Fusion d’informations Régression logistique Calibration Face detection Theory of belief functions Classiﬁcation Information fusion Logistic regression 621.39
294	Stochastic modelling using large data sets : applications in ecology and genetics / Modélisation stochastique de grands jeux de données : applications en écologie et en génétique Coudret, Raphaël 16 September 2013 (has links) Deux parties principales composent cette thèse. La première d'entre elles est consacrée à la valvométrie, c'est-à-dire ici l'étude de la distance entre les deux parties de la coquille d'une huître au cours du temps. La valvométrie est utilisée afin de déterminer si de tels animaux sont en bonne santé, pour éventuellement tirer des conclusions sur la qualité de leur environnement. Nous considérons qu'un processus de renouvellement à quatre états sous-tend le comportement des huîtres étudiées. Afin de retrouver ce processus caché dans le signal valvométrique, nous supposons qu'une densité de probabilité reliée à ce signal est bimodale. Nous comparons donc plusieurs estimateurs qui prennent en compte ce type d'hypothèse, dont des estimateurs à noyau.Dans un second temps, nous comparons plusieurs méthodes de régression, dans le but d'analyser des données transcriptomiques. Pour comprendre quelles variables explicatives influent sur l'expression de gènes, nous avons réalisé des tests multiples grâce au modèle linéaire FAMT. La méthode SIR peut être envisagée pour trouver des relations non-linéaires. Toutefois, elle est principalement employée lorsque la variable à expliquer est univariée. Une version multivariée de cette approche a donc été développée. Le coût d'acquisition des données transcriptomiques pouvant être élevé, la taille n des échantillons correspondants est souvent faible. C'est pourquoi, nous avons également étudié la méthode SIR lorsque n est inférieur au nombre de variables explicatives p. / There are two main parts in this thesis. The first one concerns valvometry, which is here the study of the distance between both parts of the shell of an oyster, over time. The health status of oysters can be characterized using valvometry in order to obtain insights about the quality of their environment. We consider that a renewal process with four states underlies the behaviour of the studied oysters. Such a hidden process can be retrieved from a valvometric signal by assuming that some probability density function linked with this signal, is bimodal. We then compare several estimators which take this assumption into account, including kernel density estimators.In another chapter, we compare several regression approaches, aiming at analysing transcriptomic data. To understand which explanatory variables have an effect on gene expressions, we apply a multiple testing procedure on these data, through the linear model FAMT. The SIR method may find nonlinear relations in such a context. It is however more commonly used when the response variable is univariate. A multivariate version of SIR was then developed. Procedures to measure gene expressions can be expensive. The sample size n of the corresponding datasets is then often small. That is why we also studied SIR when n is less than the number of explanatory variables p. Données transcriptomiques Estimateur à noyau Processus de renouvellement Régression inverse par tranches Tests multiples Valvométrie Kernel density estimator Multiple testing Renewal process Sliced inverse regression Transcriptomics Valvometry
295	Méthodes d'analyse de la survie nette : utilisation des tables de mortalité, test de comparaison et détection d'agrégats spatiaux / Methods to analyze net survival : use of life tables, comparison test and spatial cluster detection Graffeo, Nathalie 12 December 2014 (has links) La survie nette, indicateur clé de l'efficacité des systèmes de soin dans la lutte contre le cancer, est un concept théorique représentant la survie que l'on observerait dans un monde hypothétique où le cancer étudié serait la seule cause de décès. En s'affranchissant de la mortalité due aux causes autres que ce cancer, elle permet des comparaisons entre populations. Dans cette thèse, après présentation du concept et des méthodes d'estimation de la survie nette quand la cause de décès est inconnue, nous étudions trois problématiques. La première porte sur les tables de mortalité utilisées pour estimer la survie nette. En France, ces tables sont stratifiées sur âge, sexe, année et département. Il serait intéressant d'utiliser des tables stratifiées sur d'autres facteurs impactant la mortalité. Nous étudions l'impact du manque de stratification sur les estimations des effets des facteurs pronostiques sur la mortalité en excès (celle due au cancer en l'absence des autres causes de décès) par des études de simulations et sur données réelles. La deuxième problématique porte sur la construction d'un test de type log-rank pour comparer des distributions de survie nette estimées par l'estimateur Pohar-Perme, estimateur non paramétrique consistant de la survie nette. Notre troisième problématique est de déterminer dans une aire géographique des zones différentes en termes de survie nette. Nous adaptons une méthode de détection de clusters à la survie nette en utilisant le test précédemment développé comme critère de découpage. Ce travail propose ainsi des développements et outils nouveaux pour étudier et améliorer la qualité de la prise en charge des patients atteints d'un cancer. / In cancer research, net survival is a key indicator of health care efficiency. This theoretical concept is the survival that would be observed in an hypothetical world where the disease under study would be the only possible cause of death. In population-based studies, where cause of death is unknown, net survival allows to compare net cancer survival between different groups by removing the effect of death from causes other than cancer. In this work, after presenting the concept and the estimation methods of net survival, we focus on three complementary issues. The first one is about the life tables used in the estimates of net survival. In France, these tables are stratified by age, sex, year and département. Other prognostic factors impact on mortality. So it would be interesting to use life tables stratified by some of these factors. We study the impact of the lack of stratification in life tables on the estimates of the effects of prognostic factors on excess mortality by simulations and real data studies. In 2012, the Pohar-Perme estimator was proposed. It is a consistent non parametric estimator of net survival. The second issue involves the building of a log-rank type test to compare distributions of net survival (estimated by the Pohar-Perme estimator) between several groups. Our third issue is to propose a method providing potential spatial clusters which could contain patients with similar net cancer survival rates. We adapt a clustering method using the test we have built as a splitting criterion. This work proposes new developments and new tools to study and improve the quality of care for cancer patients. These methods are suitable to other chronic diseases. Cancer Survie nette Mortalité en excès Tables de mortalité Test Processus Arbres de régression Clusters Cancer Net survival Excess mortality Life tables Test Processus Regression trees Clusters
296	Construction d'atlas en IRM de diffusion : application à l'étude de la maturation cérébrale / Atlas construction in diffusion-weighted MRI : application to brain maturation study Pontabry, Julien 30 October 2013 (has links) L’IRM de diffusion (IRMd) est une modalité d’imagerie médicale in vivo qui suscite un intérêt croissant dans la communauté de neuro-imagerie. L’information sur l’intra-structure des tissus cérébraux est apportée en complément des informations de structure issues de l’IRM structurelle (IRMs). Ces modalités d’imagerie ouvrent ainsi une nouvelle voie pour l’analyse de population et notamment pour l’étude de la maturation cérébrale humaine normale in utero. La modélisation et la caractérisation des changements rapides intervenant au cours de la maturation cérébrale est un défi actuel. Dans ce but, ce mémoire de thèse présente une chaîne de traitement complète de la modélisation spatio-temporelle de la population à l’analyse des changements de forme au cours du temps. Les contributions se répartissent sur trois points. Tout d’abord, l’utilisation de filtre à particules étendus aux modèles d’ordre supérieurs pour la tractographie a permis d’extraire des descripteurs plus pertinents chez le foetus, utilisés ensuite pour estimer les transformations géométriques entre images. Ensuite, l’emploi d’une technique de régression non-paramétrique a permis de modéliser l’évolution temporelle moyenne du cerveau foetal sans imposer d’à priori. Enfin, les changements de forme sont mis en évidence au moyen de méthodes d’extraction et de sélection de caractéristiques. / Diffusion weighted MRI (dMRI) is an in vivo imaging modality which raises a great interest in the neuro-imaging community. The intra-structural information of cerebral tissues is provided in addition to the morphological information from structural MRI (sMRI). These imaging modalities bring a new path for population studies, especially for the study in utero of the normal humanbrain maturation. The modeling and the characterization of rapid changes in the brain maturation is an actual challenge. For these purposes, this thesis memoir present a complete processing pipeline from the spatio-temporal modeling of the population to the changes analyze against the time. The contributions are about three points. First, the use of high order diffusion models within a particle filtering framework allows to extract more relevant descriptors of the fetal brain, which are then used for image registration. Then, a non-parametric regression technique was used to model the temporal mean evolution of the fetal brain without enforce a prior knowledge. Finally, the shape changes are highlighted using features extraction and selection methods. IRM de diffusion Étude de population Atlas longitudinal Étude de changement de forme Régression Sélection de caractéristiques Tractographie Diffusion weighted MRI Population study Longitudinal atlas Shape changes Regression Feature selection Tractography 006.6 610.28
297	Beyond the realm of the polyhedral model : combining speculative program parallelization with polyhedral compilation / Au-delà des limites du modèle polyédrique : l'alliage de la parallélisation spéculative de programmes avec la compilation polyédrique Sukumaran Rajam, Aravind 05 November 2015 (has links) Dans cette thèse, nous présentons nos contributions à Apollo (Automatic speculative POLyhedral Loop Optimizer), qui est un compilateur automatique combinant la parallélisation spéculative et le modèle polyédrique, afin d’optimiser les codes à la volée. En effectuant une instrumentation partielle au cours de l’exécution, et en la soumettant à une interpolation, Apollo est capable de construire un modèle polyédrique spéculatif dynamiquement. Ce modèle spéculatif est ensuite transmis à Pluto, qui est un ordonnanceur polyédrique statique. Apollo sélectionne ensuite un des squelettes d’optimisation de code générés statiquement, et l’instancie. La partie dynamique d’Apollo surveille continuellement l’exécution du code afin de détecter de manière dé- centralisée toute violation de dépendance. Une autre contribution importante de cette thèse est notre extension du modèle polyédrique aux codes exhibant un comportement non-linéaire. Grâce au contexte dynamique et spéculatif d’Apollo, les comportements non-linéaires sont soit modélisés par des hyperplans de régression linéaire formant des tubes, soit par des intervalles de valeurs atteintes. Notre approche permet l’application de transformations polyédriques à des codes non-linéaires grâce à un système de vérification de la spéculation hybride, combinant vérifications centralisées et décentralisées. / In this thesis, we present our contributions to APOLLO (Automatic speculative POLyhedral Loop Optimizer), which is an automated compiler combining Thread Level Speculation (TLS) and the polyhedral model to optimize codes on the fly. By doing partial instrumentation at runtime, and subjecting it to interpolation, Apollo is able to construct a speculative polyhedral model dynamically. The speculative model is then passed to Pluto -a static polyhedral scheduler-. Apollo then selects one of the statically generated code optimization skeletons and instantiates it. The runtime continuously monitors the code for any dependence violation in a decentralized manner. Another important contribution of this thesis is our extension of the polyhedral model to codes exhibiting a non linear behavior. Thanks to the dynamic and speculative context offered by Apollo, non-linear behaviors are either modeled using linear regression hyperplanes forming tubes, or using ranges of reached values. Our approach enables the application of polyhedral transformations to non-linear codes thanks to an hybrid centralized-decentralized speculation verification system Compilation dynamique Modèle polyédrique Parallélisation spéculative APOLLO Régression linéaire Dynamic compilation Polyedral model Loop optimization Thread level speculation Speculative optimization Regression Compilers 005.4
298	Utilisation de copules paramétriques en présence de données observationnelles : cadre théorique et modélisations. / Use of parametric copulas with observational data : theoretical framework and modelizations. Fontaine, Charles 19 September 2016 (has links) Les études observationnelles (non-randomisées) sont principalement constituées de données ayant des particularités qui sont en fait contraignantes dans un cadre statistique classique. En effet, dans ce type d'études, les données sont rarement continues, complètes et indépendantes du bras thérapeutique dans lequel les observations se situent. Cette thèse aborde l'utilisation d'un outil statistique paramétrique fondé sur la dépendance entre les données à travers plusieurs scénarios liés aux études observationnelles. En effet, grâce au théorème de Sklar (1959), les copules paramétriques sont devenues un sujet d'actualité en biostatistique. Pour commencer, nous présentons les concepts de base relatifs aux copules et aux principales mesures d'association basées sur la concordance retrouvées dans la littérature. Ensuite, nous donnons trois exemples d'application des modèles de copules paramétriques pour autant de cas de données particulières retrouvées dans des études observationnelles. Nous proposons d’abord une stratégie de modélisation de l'analyse coût-efficacité basée uniquement sur une réécriture des fonctions de distribution jointes et évitant les modèles de régression linéaire. Nous étudions ensuite, les contraintes relatives aux données discrètes, particulièrement dans un contexte de non-unicité de la fonction copule, nous réécrivons le score de propension grâce à une approche novatrice basée sur l'extension d'une sous-copule. Enfin, nous évoquons un type particulier de données manquantes : les données censurées à droite, dans un contexte de régression, grâce à l'utilisation de copules semi-paramétriques. / Observational studies (non-randomized) consist primarily of data with features that are in fact constraining within a classical statistical framework. Indeed, in this type of study, data are rarely continuous, complete, and independent of the therapeutic arm the observations are belonging to. This thesis deals with the use of a parametric statistical tool based on the dependence between the data, using several scenarios related to observational studies. Indeed, thanks to the theorem of Sklar (1959), parametric copulas have become a topic of interest in biostatistics. To begin with, we present the basic concepts of copulas, as well as the main measures of association based on the concordance founded on an analysis of the literature. Then, we give three examples of application of models of parametric copulas for as many cases of specific data found in observational studies. We first propose a strategy of modeling cost-effectiveness analysis based essentially on rewriting the joint distribution functions, while discarding the use of linear regression models. We then study the constraints relative to discrete data, particularly in a context of non-unicity of the copula function. We rewrite the propensity score, thanks to an innovative approach based on the extension of a sub-copula. Finally, we introduce a particular type of missing data: right censored data, in a regression context, through the use of semi-parametric copulas. Copules paramétriques Analyse coût-Efficacité Score de propension Régression semi-Paramétrique Données non-Randomisées Parametric copulas Cost-Effectiveness analysis Propensity score Semi-Parametric regression Not-Randomized data
299	L'évaluation du risque de comportements suicidaires et d'automutilation en obéissance aux hallucinations auditives impérieuses Dugré, Jules 12 1900 (has links) La présente recherche vise, dans un premier temps, à mieux documenter la relation entre les hallucinations auditives impérieuses à contenus violents et le risque d’obéissance à celles-ci. Plus spécifiquement, l’étude, subséquente au bilan de recherches antérieures sur le sujet, tente d’identifier les facteurs de risque associés à l’obéissance aux hallucinations auditives impérieuses dont les contenus violents sont dirigés vers soi chez une population d’individus aux prises avec un trouble mental grave. Pour ce faire, des analyses secondaires ont été effectuées à l’aide de la base de données de l’étude de MacArthur sur l’évaluation du risque de violence. Des analyses de régression logistique binaire ont révélé que la détresse émotionnelle, l’historique d’obéissance, le fait d’avoir un trouble actuel d’abus de drogue, un trouble actuel de dépression majeure, le fait d’avoir été victime d’abus physique durant l’adolescence ainsi que la sévérité du phénomène hallucinatoire prédisaient tous l’obéissance aux hallucinations auditives impérieuses dont les contenus violents étaient dirigés vers soi. L’étude met en évidence une modélisation prédictive importante afin de guider les cliniciens vers une meilleure évaluation et gestion du risque de gestes automutilatoires et suicidaires en réponse aux hallucinations auditives impérieuses chez les individus aux prises avec un trouble mental grave. / The current research consist, in a first step, to better document the relationship between harmful command hallucinations and compliance. More specifically, the study resulted from a literature review on this subject that aims to identify the risk factors associated with compliance to self-harm command hallucinations in individuals with a major mental disorder. To accomplish this, secondary analyses were performed using the MacArthur Violence Risk Assessment Study database. Binary logistic regressions revealed that emotional distress, history of compliance, actual drug abuse disorder, actual major depressive disorder, victimization of physical abuse during adolescence and severity of the hallucinatory behavior were all significant predictors of compliance to self-harm command hallucinations. The study highlights an important predictive model that may guide clinicians to improve the assessment and management of deliberate self-harm and suicidal behaviors in response to command hallucinations in individuals diagnosed with a major mental disorder. Hallucinations auditives impérieuses contenus violents obéissance prédiction régression logistique Command hallucinations Harmful content Compliance Prediction Logistic regression
300	Application et développement de méthodes de cartographie numérique des propriétés des sols à l'échelle régionale : cas du Languedoc-Roussillon / Application and development of digital soil mapping methods for soil properties at the regional scale : the case of Languedoc-Roussillon Vaysse, Kevin 16 December 2015 (has links) La compréhension de la répartition spatiale des sols et leur cartographie est un enjeu important tant les services écosystémiques rendus par les sols ont un rôle fondamental dans les enjeux agro-environnementaux actuels. A l’échelle nationale, les données pédologiques sont fournies via des cartographies au 1 :250 000 des types de sols (Référentiel Régional Pédologique, RRP) dont la résolution est devenue insuffisante pour répondre à ces enjeux. Placés dans un contexte de cartographie numérique des propriétés des sols à l’échelle régionale (Languedoc-Roussillon) caractérisé par une grande étendue (27 236 km²) et une faible densité de données sur les sols ( 1 observation/13.5 km2), les travaux de thèse ont eu pour objectif de réaliser une nouvelle infrastructure de données pédologiques régionale satisfaisant les spécifications édictées dans le projet international GlobalSoilMap et répondant aux besoins des utilisateurs de la région.Dans un premier temps, plusieurs approches connues de cartographie numérique des sols utilisant les diverses données pédologiques issues du RRP ont été appliquées et comparées entre elles. Les meilleurs résultats ont été obtenus par des approches de régression krigeage utilisant les profils avec analyses de sol existant dans le RRP. Pour le pH, le carbone organique et les variables de texture (argile, limon, sable) les performances de prédiction se sont avérés modérées mais suffisantes pour permettre la production de cartes informatives (R2 entre 0.2 et 0.7). En revanche les propriétés de sol avec une trop faible densité de profils et/ou variant sur des distances trop courtes (Eléments grossier, Profondeur, CEC) n’ont pu être prédites .Dans un deuxième temps, des méthodologies ont été proposées et testées pour mieux estimer les incertitudes de prédictions de propriétés de sol. Concernant les incertitudes locales, des progrès par rapport à l’utilisation de la régression krigeage ont été obtenus avec l’utilisation d’arbres de régression quantile. Ces incertitudes locales ont pu d’autre part être propagées dans les calculs d’indicateurs de sol caractérisant des entités géographiques de la région (exemple : commune). Enfin une troisième étape a été consacrée à la mise en production effective de la nouvelle infrastructure de données pédologique régionale permettant une diffusion des cartes obtenues dans cette thèse vers les utilisateurs.Les résultats de la thèse permettent de démontrer la faisabilité d’une approche de cartographie numérique des propriétés de sols à l’échelle régionale qui pourra être généralisée sur le territoire français. Bien que certains verrous méthodologiques restent à lever (ex : modèles de prédiction pour données censurées, covariable « lithologie »), la faible densité des observations pédologiques stockées actuellement en bases de données représente le facteur limitant majeur qui devra être levé dans l’avenir pour obtenir des cartes numériques de propriétés de sol à des précisions acceptables et incertitudes connues. / Depicting and mapping the soil variability is an important issue since the ecosystem services provided by soils play an important role in solving the current agro-environmental challenges. At the French national scale, the pedological data are currently provided by regional soil databases (« Référentiel Régionaux Pédologiques », RRP) at 1:250,000. However they provide soil information at a spatial resolution that is too coarse for addressing these challenges. This thesis undertakes a Digital Soil Mapping approach at the regional scale in a region (Languedoc-Roussillon) characterized by a great extent (27 236 km ²) and a low density of soil observations (1 observation/13.5 km2). The goal is to produce a new regional infrastructure of pedological data that could satisfy the specifications enacted in the international project GlobalSoilMap and that meets the needs of the local end-users. In a first step, several known approaches of digital soil mapping using the various pedological data available in the RRP were applied and compared. The best results were obtained by a regression-kriging approach using the legacy measured soil profiles of the RRP. For the pH, organic carbon and the variables of texture (clay, silt, sand) the performances of prediction were of moderate quality but sufficient to allow the production of informative maps (R2 between 0.2 and 0.7). Conversely the soil properties with a too low density of profiles and/or that varied within too short distances (coarse fragment, soil Depth, CEC) could not be predicted. In a second step, methodologies were proposed and tested for better estimating uncertainties of predictions of soil properties. Concerning local uncertainties, a progress compared to the use of Regression Kriging was obtained with the use of Quantile Regression Tree. These local uncertainties could in addition be propagated in calculations of soil indicators characterizing the geographical entities of the area (example: districts). Finally a third stage was devoted to the setting in effective production of the new regional infrastructure of pedological data, which allowed the diffusion of the maps obtained in this thesis towards the users. The results of the thesis demonstrate the feasibility of a digital soil mapping approach at the regional scale that could be generalized over the French territory. Although some methodological obstacles have to be addressed (ex: models of prediction for censored data, soil covariate “lithology”), the low density of the pedological observations currently stored in regional databases represents the major limiting factor, which will have to be addressed in the future to obtain digital maps of soil properties with acceptable and known precision. Cartographie numérique des sols Échelle régionale Propriétés des sols GlobalSoilMap Incertitudes Arbres de régression Digital soil mapping Regional scale Soil properties GlobalSoilMap Uncertainties Regression trees

Search results