1 |
Application des méthodes d'approximations stochastiques à l'estimation de la densité et de la régressionSlaoui, Yousri 18 December 2006 (has links) (PDF)
L'objectif de cette thèse est d'appliquer les méthodes d'approximations stochastiques à l'estimation de la densité et de la régression. Dans le premier chapitre, nous construisons un algorithme stochastique à pas simple qui définit toute une famille d'estimateurs récursifs à noyau d'une densité de probabilité. Nous étudions les différentes propriétés de cet algorithme. En particulier, nous identifions deux classes d'estimateurs; la première correspond à un choix de pas qui permet d'obtenir un risque minimal, la seconde une variance minimale. Dans le deuxième chapitre, nous nous intéressons à l'estimateur proposé par Révész (1973, 1977) pour estimer une fonction de régression r:x-> E[Y|X=x]. Son estimateur r_n, construit à l'aide d'un algorithme stochastique à pas simple, a un gros inconvénient: les hypothèses sur la densité marginale de X nécessaires pour établir la vitesse de convergence de r_n sont beaucoup plus fortes que celles habituellement requises pour étudier le comportement asymptotique d'un estimateur d'une fonction de régression. Nous montrons comment l'application du principe de moyennisation des algorithmes stochastiques permet, tout d'abord en généralisant la définition de l'estimateur de Révész, puis en moyennisant cet estimateur généralisé, de construire un estimateur récursif br_n qui possède de bonnes propriétés asymptotiques. Dans le troisième chapitre, nous appliquons à nouveau les méthodes d'approximation stochastique à l'estimation d'une fonction de régression. Mais cette fois, plutôt que d'utiliser des algorithmes stochastiques à pas simple, nous montrons comment les algorithmes stochastiques à pas doubles permettent de construire toute une classe d'estimateurs récursifs d'une fonction de régression, et nous étudions les propriétés asymptotiques de ces estimateurs. Cette approche est beaucoup plus simple que celle du deuxième chapitre: les estimateurs construits à l'aide des algorithmes à pas doubles n'ont pas besoin d'être moyennisés pour avoir les bonnes propriétés asymptotiques.
|
2 |
MODELISATION DE SERIES CHRONOLOGIQUES NON STATIONNAIRES, NON LINEAIRES Application à la définition des tendances sur la moyenne, la variabilité et les extrêmes de la température de l'air en EuropeHoang, Thi Thu Huong 28 January 2010 (has links) (PDF)
Dans cette thèse, nous considérons plusieurs problèmes statistiques liés au réchauffement climatique. Le travail est donc centré sur la compréhension et la modélidation de récentes évolutions des caractéristiques de la température come moyenne, variance, extrêmes et des liens entre ces quantités. Par ailleurs nous poursuivions deux objectifs particuliers liés aux risques importants : donner une méthodologie pour calculer les niveaux de retour en situation non stationnaire (risques économiques, sanitaires et industriels) et fabriquer un modèle réaliste de simulation permettant de calculer certains de ces risques de définition compliquée. Le contexte étant celui du changement climatique, en incluant bien entendu des aspects métamathématiques.
|
3 |
Inférence statistique à travers les échellesDuval, Céline 07 December 2012 (has links) (PDF)
Cette thèse porte sur le problème d'estimation à travers les échelles pour un processus stochastique. Nous étudions comment le choix du pas d'échantillonnage impacte les procédures statistiques. Nous nous intéressons à l'estimation de processus à sauts à partir de l'observation d'une trajectoire discrétisée sur [0, T]. Lorsque la longueur de l'intervalle d'observation T va à l'infini, le pas d'échantillonnage tend soit vers 0 (échelle microscopique), vers une constante positive (échelle intermédiaire) ou encore vers l'infini (échelle macroscopique). Dans chacun de ces régimes nous supposons que le nombre d'observations tend vers l'infini. Dans un premier temps le cas particulier d'un processus de Poisson composé d'intensité inconnue avec des sauts symétriques {-1,1} est étudié. Le Chapitre 2 illustre la notion d'estimation statistique dans les trois échelles définies ci-dessus. Dans ce modèle, on s'intéresse aux propriétés des expériences statistiques. On montre la propriété de Normalité Asymptotique Locale dans les trois échelles microscopiques, intermédiaires et macroscopiques. L'information de Fisher est alors connue pour chacun de ces régimes. Ensuite nous analysons comment se comporte une procédure d'estimation de l'intensité qui est efficace (de variance minimale) à une échelle donnée lorsqu'on l'applique à des observations venant d'une échelle différente. On regarde l'estimateur de la variation quadratique empirique, qui est efficace dans le régime macroscopique, et on l'utilise sur des données provenant des régimes intermédiaire ou microscopique. Cet estimateur reste efficace dans les échelles microscopiques, mais montre une perte substantielle d'information aux échelles intermédiaires. Une procédure unifiée d'estimation est proposée, elle est efficace dans tous les régimes. Les Chapitres 3 et 4 étudient l'estimation non paramétrique de la densité de saut d'un processus renouvellement composé dans les régimes microscopiques, lorsque le pas d'échantillonnage tend vers 0. Un estimateur de cette densité utilisant des méthodes d'ondelettes est construit. Il est adaptatif et minimax pour des pas d'échantillonnage qui décroissent en T^{-alpha}, pour alpha>0. La procédure d'estimation repose sur l'inversion de l'opérateur de composition donnant la loi des incréments comme une transformation non linéaire de la loi des sauts que l'on cherche à estimer. L'opérateur inverse est explicite dans le cas du processus de Poisson composé (Chapitre 3), mais n'a pas d'expression analytique pour les processus de renouvellement composés (Chapitre 4). Dans ce dernier cas, il est approché via une technique de point fixe. Le Chapitre 5 étudie le problème de perte d'identifiabilité dans les régimes macroscopiques. Si un processus à sauts est observé avec un pas d'échantillonnage grand, certaines approximations limites, telles que l'approximation gaussienne, deviennent valides. Ceci peut entraîner une perte d'identifiabilité de la loi ayant généré le processus, dès lors que sa structure est plus complexe que celle étudiée dans le Chapitre 2. Dans un premier temps un modèle jouet à deux paramètres est considéré. Deux régimes différents émergent de l'étude : un régime où le paramètre n'est plus identifiable et un où il reste identifiable mais où les estimateurs optimaux convergent avec des vitesses plus lentes que les vitesses paramétriques habituelles. De l'étude de cas particulier, nous dérivons des bornes inférieures montrant qu'il n'existe pas d'estimateur convergent pour les processus de Lévy de saut pur ou pour les processus de renouvellement composés dans les régimes macroscopiques tels que le pas d'échantillonnage croît plus vite que racine de T. Enfin nous identifions des régimes macroscopiques où les incréments d'un processus de Poisson composé ne sont pas distinguables de variables aléatoires gaussiennes, et des régimes où il n'existe pas d'estimateur convergent pour les processus de Poisson composés dépendant de trop de paramètres.
|
4 |
Conception d'un capteur de stéréovision omnidirectionnelle: architecture, étalonnage et applications à la reconstruction de scènes 3DRagot, Nicolas 07 April 2009 (has links) (PDF)
Les travaux de thèse présentés dans ce mémoire ont pour objectif la conception et l'évaluation d'un système de vision 3D constitué de deux capteurs catadioptriques positionnés verticalement. Afin d'obtenir un modèle 3D, l'étalonnage des capteurs, c'est-à-dire l'estimation des relations entre l'espace 3D et le plan image, est un préalable indispensable. Une méthode, qualifiée de paramétrique a tout d'abord été implémentée. Elle utilise un modèle ad hoc et une mire 3D de forme cylindrique dont les points d'intérêt sont des diodes électroluminescentes. Cette méthode formule l'hypothèse d'un centre de projection unique qui peut s'avérer difficile à mettre oeuvre en pra- tique. Nous proposons donc une méthode non-paramétrique qui permet de s'affranchire des contraintes liées aux modèles. Les relations entre l'espace 3D et le plan image sont alors définies pour un nombre fini de points et des algorithmes d'interpolation numérique permettent d'approximer les fonctions de projection et rétro-projection pour tous les couples points 3D-points 2D. Nous proposons ensuite l'implémentation et l'évaluation d'une méthode de reconstruction 3D volumétrique qui modélise la scène sous forme d'un tableau 3D dont chaque cellule est un voxel. Une mesure de similarité colorimétrique des projections du voxel dans chaqu'une des images permet de statuer quant à l'appartenance du voxel à un objet de la scène. Cette méthode est évaluée pour une reconstruction statique de la scène 3D, c'est-à-dire pour une acquisition d'images simultanée. Puis cette méthode est étudiée pour des déplacements du capteur. Il s'agit d'une reconstruction dynamique définie comme l'intersection des reconstructions statiques réalisées à des instants successifs.
|
5 |
Inférence statistique à travers les échelles / Statistical inference across time scalesDuval, Céline 07 December 2012 (has links)
Cette thèse porte sur le problème d'estimation à travers les échelles pour un processus stochastique. Nous étudions comment le choix du pas d'échantillonnage impacte les procédures statistiques. Nous nous intéressons à l'estimation de processus à sauts à partir de l'observation d'une trajectoire discrétisée sur [0, T]. Lorsque la longueur de l'intervalle d'observation T va à l'infini, le pas d'échantillonnage tend soit vers 0 (échelle microscopique), vers une constante positive (échelle intermédiaire) ou encore vers l'infini (échelle macroscopique). Dans chacun de ces régimes nous supposons que le nombre d'observations tend vers l'infini. Dans un premier temps le cas particulier d'un processus de Poisson composé d'intensité inconnue avec des sauts symétriques {-1,1} est étudié. Le Chapitre 2 illustre la notion d'estimation statistique dans les trois échelles définies ci-dessus. Dans ce modèle, on s'intéresse aux propriétés des expériences statistiques. On montre la propriété de Normalité Asymptotique Locale dans les trois échelles microscopiques, intermédiaires et macroscopiques. L'information de Fisher est alors connue pour chacun de ces régimes. Ensuite nous analysons comment se comporte une procédure d'estimation de l'intensité qui est efficace (de variance minimale) à une échelle donnée lorsqu'on l'applique à des observations venant d'une échelle différente. On regarde l'estimateur de la variation quadratique empirique, qui est efficace dans le régime macroscopique, et on l'utilise sur des données provenant des régimes intermédiaire ou microscopique. Cet estimateur reste efficace dans les échelles microscopiques, mais montre une perte substantielle d'information aux échelles intermédiaires. Une procédure unifiée d'estimation est proposée, elle est efficace dans tous les régimes. Les Chapitres 3 et 4 étudient l'estimation non paramétrique de la densité de saut d'un processus renouvellement composé dans les régimes microscopiques, lorsque le pas d'échantillonnage tend vers 0. Un estimateur de cette densité utilisant des méthodes d'ondelettes est construit. Il est adaptatif et minimax pour des pas d'échantillonnage qui décroissent en T^{-alpha}, pour alpha>0. La procédure d'estimation repose sur l'inversion de l'opérateur de composition donnant la loi des incréments comme une transformation non linéaire de la loi des sauts que l'on cherche à estimer. L'opérateur inverse est explicite dans le cas du processus de Poisson composé (Chapitre 3), mais n'a pas d'expression analytique pour les processus de renouvellement composés (Chapitre 4). Dans ce dernier cas, il est approché via une technique de point fixe. Le Chapitre 5 étudie le problème de perte d'identifiabilité dans les régimes macroscopiques. Si un processus à sauts est observé avec un pas d'échantillonnage grand, certaines approximations limites, telles que l'approximation gaussienne, deviennent valides. Ceci peut entraîner une perte d'identifiabilité de la loi ayant généré le processus, dès lors que sa structure est plus complexe que celle étudiée dans le Chapitre 2. Dans un premier temps un modèle jouet à deux paramètres est considéré. Deux régimes différents émergent de l'étude : un régime où le paramètre n'est plus identifiable et un où il reste identifiable mais où les estimateurs optimaux convergent avec des vitesses plus lentes que les vitesses paramétriques habituelles. De l'étude de cas particulier, nous dérivons des bornes inférieures montrant qu'il n'existe pas d'estimateur convergent pour les processus de Lévy de saut pur ou pour les processus de renouvellement composés dans les régimes macroscopiques tels que le pas d'échantillonnage croît plus vite que racine de T. Enfin nous identifions des régimes macroscopiques où les incréments d'un processus de Poisson composé ne sont pas distinguables de variables aléatoires gaussiennes, et des régimes où il n'existe pas d'estimateur convergent pour les processus de Poisson composés dépendant de trop de paramètres / This thesis studies the problem of statistical inference across time scales for a stochastic process. More particularly we study how the choice of the sampling parameter affects statistical procedures. We narrow down to the inference of jump processes from the discrete observation of one trajectory over [0,T]. As the length of the observation interval T tends to infinity, the sampling rate either goes to 0 (microscopic scale) or to some positive constant (intermediate scale) or grows to infinity (macroscopic scale). We set in a case where there are infinitely many observations. First we specialise in a toy model: a compound Poisson process of unknown intensity with symmetric Bernoulli jumps. Chapter 2 highlights the concept of statistical estimation in the three regimes defined above and the phenomena at stake. We study the properties of the statistical experiments in each regime, we show that the Local Asymptotic Normality property holds in every regimes (microscopic, intermediate and macroscopic). We also provide the formula of the associated Fisher information in each regime. Then we study how a statistical procedure which is optimal (of minimal variance) at a given scale is affected when we use it on data coming from another scale. We focus on the empirical quadratic variation estimator, it is an optimal procedure at macroscopic scales. We apply it on data coming from intermediate and microscopic regimes. Although the estimator remains efficient at microscopic scales, it shows a substantial loss of information when used on data coming from an intermediate regime. That loss can be explicitly related to the sampling rate. We provide an unified procedure, efficient in all regimes. Chapters 3 and 4 focus on microscopic regimes, when the sampling rate decreases to 0. The nonparametric estimation of the jump density of a renewal reward process is studied. We propose an adaptive wavelet threshold density estimator. It achieves minimax rates of convergence for sampling rates that vanish polynomially with T, namely in T^{-alpha} for alpha>0. The estimation procedure is based on the inversion of the compounding operator in the same spirit as Buchmann and Grübel (2003), which specialiase in the study of discrete compound laws. The inverse operator is explicit in the case of a compound Poisson process (see Chapter 3), but has no closed form expression for renewal reward processes (see Chapter 4). In that latter case the inverse operator is approached with a fixed point technique. Finally Chapter 5 studies at which rate identifiability is lost in macroscopic regimes. Indeed when a jump process is observed at an arbitrarily large sampling rate, limit approximations, like Gaussian approximations, become valid and the specificities of the jumps may be lost, as long as the structure of the process is more complex than the one introduced in Chapter 2. First we study a toy model depending on a 2-dimensional parameter. We distinguish two different regimes: fast (macroscopic) regimes where all information on the parameter is lost and slow regimes where the parameter remains identifiable but where optimal estimators converge with slower rates than the expected usual parametric ones. From this toy model lower bounds are derived, they ensure that consistent estimation of Lévy processes or renewal reward processes is not possible when the sampling rate grows faster than the square root of T. Finally we identify regimes where an experiment consisting in increments of a compound Poisson process is asymptotically equivalent to an experiment consisting in Gaussian random variables. We also give regimes where there is no consistent estimator for compound Poisson processes depending on too many parameters
|
6 |
Developments in statistics applied to hydrometeorology : imputation of streamflow data and semiparametric precipitation modeling / Développements en statistiques appliquées à l'hydrométéorologie : imputation de données de débit et modélisation semi-paramétrique de la précipitationTencaliec, Patricia 01 February 2017 (has links)
Les précipitations et les débits des cours d'eau constituent les deux variables hydrométéorologiques les plus importantes pour l'analyse des bassins versants. Ils fournissent des informations fondamentales pour la gestion intégrée des ressources en eau, telles que l’approvisionnement en eau potable, l'hydroélectricité, les prévisions d'inondations ou de sécheresses ou les systèmes d'irrigation.Dans cette thèse de doctorat sont abordés deux problèmes distincts. Le premier prend sa source dans l’étude des débits des cours d’eau. Dans le but de bien caractériser le comportement global d'un bassin versant, de longues séries temporelles de débit couvrant plusieurs dizaines d'années sont nécessaires. Cependant les données manquantes constatées dans les séries représentent une perte d'information et de fiabilité, et peuvent entraîner une interprétation erronée des caractéristiques statistiques des données. La méthode que nous proposons pour aborder le problème de l'imputation des débits se base sur des modèles de régression dynamique (DRM), plus spécifiquement, une régression linéaire multiple couplée à une modélisation des résidus de type ARIMA. Contrairement aux études antérieures portant sur l'inclusion de variables explicatives multiples ou la modélisation des résidus à partir d'une régression linéaire simple, l'utilisation des DRMs permet de prendre en compte les deux aspects. Nous appliquons cette méthode pour reconstruire les données journalières de débit à huit stations situées dans le bassin versant de la Durance (France), sur une période de 107 ans. En appliquant la méthode proposée, nous parvenons à reconstituer les débits sans utiliser d'autres variables explicatives. Nous comparons les résultats de notre modèle avec ceux obtenus à partir d'un modèle complexe basé sur les analogues et la modélisation hydrologique et d'une approche basée sur le plus proche voisin. Dans la majorité des cas, les DRMs montrent une meilleure performance lors de la reconstitution de périodes de données manquantes de tailles différentes, dans certains cas pouvant allant jusqu'à 20 ans.Le deuxième problème que nous considérons dans cette thèse concerne la modélisation statistique des quantités de précipitations. La recherche dans ce domaine est actuellement très active car la distribution des précipitations exhibe une queue supérieure lourde et, au début de cette thèse, il n'existait aucune méthode satisfaisante permettant de modéliser toute la gamme des précipitations. Récemment, une nouvelle classe de distribution paramétrique, appelée distribution généralisée de Pareto étendue (EGPD), a été développée dans ce but. Cette distribution exhibe une meilleure performance, mais elle manque de flexibilité pour modéliser la partie centrale de la distribution. Dans le but d’améliorer la flexibilité, nous développons, deux nouveaux modèles reposant sur des méthodes semiparamétriques.Le premier estimateur développé transforme d'abord les données avec la distribution cumulative EGPD puis estime la densité des données transformées en appliquant un estimateur nonparamétrique par noyau. Nous comparons les résultats de la méthode proposée avec ceux obtenus en appliquant la distribution EGPD paramétrique sur plusieurs simulations, ainsi que sur deux séries de précipitations au sud-est de la France. Les résultats montrent que la méthode proposée se comporte mieux que l'EGPD, l’erreur absolue moyenne intégrée (MIAE) de la densité étant dans tous les cas presque deux fois inférieure.Le deuxième modèle considère une distribution EGPD semiparamétrique basée sur les polynômes de Bernstein. Plus précisément, nous utilisons un mélange creuse de densités béta. De même, nous comparons nos résultats avec ceux obtenus par la distribution EGPD paramétrique sur des jeux de données simulés et réels. Comme précédemment, le MIAE de la densité est considérablement réduit, cet effet étant encore plus évident à mesure que la taille de l'échantillon augmente. / Precipitation and streamflow are the two most important meteorological and hydrological variables when analyzing river watersheds. They provide fundamental insights for water resources management, design, or planning, such as urban water supplies, hydropower, forecast of flood or droughts events, or irrigation systems for agriculture.In this PhD thesis we approach two different problems. The first one originates from the study of observed streamflow data. In order to properly characterize the overall behavior of a watershed, long datasets spanning tens of years are needed. However, the quality of the measurement dataset decreases the further we go back in time, and blocks of data of different lengths are missing from the dataset. These missing intervals represent a loss of information and can cause erroneous summary data interpretation or unreliable scientific analysis.The method that we propose for approaching the problem of streamflow imputation is based on dynamic regression models (DRMs), more specifically, a multiple linear regression with ARIMA residual modeling. Unlike previous studies that address either the inclusion of multiple explanatory variables or the modeling of the residuals from a simple linear regression, the use of DRMs allows to take into account both aspects. We apply this method for reconstructing the data of eight stations situated in the Durance watershed in the south-east of France, each containing daily streamflow measurements over a period of 107 years. By applying the proposed method, we manage to reconstruct the data without making use of additional variables, like other models require. We compare the results of our model with the ones obtained from a complex approach based on analogs coupled to a hydrological model and a nearest-neighbor approach, respectively. In the majority of cases, DRMs show an increased performance when reconstructing missing values blocks of various lengths, in some of the cases ranging up to 20 years.The second problem that we approach in this PhD thesis addresses the statistical modeling of precipitation amounts. The research area regarding this topic is currently very active as the distribution of precipitation is a heavy-tailed one, and at the moment, there is no general method for modeling the entire range of data with high performance. Recently, in order to propose a method that models the full-range precipitation amounts, a new class of distribution called extended generalized Pareto distribution (EGPD) was introduced, specifically with focus on the EGPD models based on parametric families. These models provide an improved performance when compared to previously proposed distributions, however, they lack flexibility in modeling the bulk of the distribution. We want to improve, through, this aspect by proposing in the second part of the thesis, two new models relying on semiparametric methods.The first method that we develop is the transformed kernel estimator based on the EGPD transformation. That is, we propose an estimator obtained by, first, transforming the data with the EGPD cdf, and then, estimating the density of the transformed data by applying a nonparametric kernel density estimator. We compare the results of the proposed method with the ones obtained by applying EGPD on several simulated scenarios, as well as on two precipitation datasets from south-east of France. The results show that the proposed method behaves better than parametric EGPD, the MIAE of the density being in all the cases almost twice as small.A second approach consists of a new model from the general EGPD class, i.e., we consider a semiparametric EGPD based on Bernstein polynomials, more specifically, we use a sparse mixture of beta densities. Once again, we compare our results with the ones obtained by EGPD on both simulated and real datasets. As before, the MIAE of the density is considerably reduced, this effect being even more obvious as the sample size increases.
|
7 |
Recalage de signaux et analyse de variance fonctionnelle par ondelettes. Applications au domaine biomédicalBigot, Jérémie 02 September 2003 (has links) (PDF)
Cette thèse porte sur le recalage de signaux à partir de l'alignement de leurs landmarks, pour la comparaison d'ensembles de courbes ou d'images. Après une revue des techniques de recalage qui existent dans la littérature, une approche nonparamétrique est proposée pour estimer les landmarks d'une fonction 1D bruitée à partir des lignes de maxima d'ondelettes et de zero-crossings de sa transformée continue en ondelettes. Un nouvel outil, l'intensité structurelle, est introduit pour représenter les positions des points caractéristiques d'une courbe sous forme d'une densité de probabilité. Cette méthode conduit à une nouvelle technique de mise en correspondance automatique des landmarks de deux fonctions. L'approche envisagée dans le cas 1D est étendue au cas 2D en utilisant des décompositions en wedgelets/platelets pour détecter les contours d'une image. De nombreuses simulations et des problèmes réels d'analyse de variance fonctionnelle servent d'illustration des méthodes proposées.
|
8 |
Une Approche vers la Description et l'Identification d'une Classe de Champs AléatoiresDachian, Serguei 21 January 1999 (has links) (PDF)
Une nouvelle approche de la description des champs aléatoires sur le réseau entier $\nu$-dimensionnel $Z^\nu$ est présentée. Les champs al'eatoires sont décrits en terme de certaines fonctions de sous-ensembles de $Z^\nu$ , à savoir les $P$-fonctions, les $Q$-fonctions, les $H$-fonctions, les $Q$-systèmes, les $H$-systèmes et les systèmes ponctuels. La corrélation avec la description Gibbsienne classique est montrée. Une attention particulière est portée au cas quasilocal. Les champs aléatoires non-Gibbsiens sont aussi considérés. Un procédé général pour construire des champs aléatoires non-Gibbsiens est donné. La solution du problème de Dobrushin concernant la description d'un champ aléatoire par ses distributions conditionnelles ponctuelles est déduite de notre approche. Ensuite, le problème de l'estimation paramétrique pour les champs aléatoires de Gibbs est considéré. Le champ est supposé spécifié en terme d'un système ponctuel local invariant par translation. Un estimateur du système ponctuel est construit comme un rapport de certaines fréquences conditionnelles empiriques. Ses consistances exponentielle et $L^p$ uniformes sont démontrées. Finalement, le problème nonparamétrique de l'estimation d'un système ponctuel quasilocal est considéré. Un estimateur du système ponctuel est construit par la méthode de "sieves". Ses consistances exponentielle et $L^p$ sont prouvées dans des cadres différents. Les résultats sont valides indépendamment de la non-unicité et de la perte de l'invariance par translation.
|
Page generated in 0.0285 seconds