Spelling suggestions: "subject:"nonparametric estimation"" "subject:"onparametric estimation""
31 |
Estimation non paramétrique du nombre d'espèces : Application à l'étude de la faune ichtyologique du bassin du fleuve Ouëmé / Nonparametric estimation of the number of species : application to the ichthyofauna of the Ouémé basin riverKoladjo, Babagnidé François 20 September 2013 (has links)
Ce manuscrit est structuré en deux parties. La première partie composée des chapitres 2à 4 aborde le problème d'estimation du nombre de classes dans une population avec une application en écologie. La deuxième partie, correspondant au chapitre 5,concerne la mise en oeuvre de méthodes statistiques pour analyser des données de pêche. Dans la première partie, nous considérons une population hétérogène subdiviséeen plusieurs classes. À partir d'un échantillon, les effectifs d'individus observés parclasse, encore appelés abondances, sont utilisés pour estimer le nombre total declasses dans la population. Dans la littérature consacrée à l'estimation du nombrede classes, les méthodes basées sur un mélange de distributions de Poisson semblentêtre les plus performantes (voir par exemple les travaux de Chao and Bunge (2002)dans le cadre paramétrique et celui de Wang and Lindsay (2005) dans un cadrenon paramétrique). La mise en oeuvre de ces approches sur des données réellesmet en évidence que la distribution des abondances peut être approchée par unedistribution convexe. Nous proposons une approche non paramétrique pour estimerla distribution des abondances sous contrainte de convexité. Cette contrainte définitun cadre théorique d'estimation d'une densité discrète. Le problème d'estimation dunombre de classes est donc abordé en deux volets. Nous montrons d'une part l'existenceet l'unicité d'un estimateur d'une densité discrète sous la contrainte de convexité.Sous cette contrainte, nous démontrons qu'une densité discrète s'écrit comme un mélange de densités triangulaires. À partir de l'algorithme de réduction du supportproposé par Groeneboom et al. (2008), nous proposons un algorithme exact pourestimer les proportions dans le mélange. D'autre part, la procédure d'estimationd'une densité discrète convexe nous sert de cadre pour l'estimation de la distributiontronquée en zéro des observations d'abondance. L'estimation de la loi tronquée obtenue est ensuite prolongée en zéro pour estimer la probabilité qu'une classe ne soit pasobservée. Ce prolongement en zéro est fait de façon à annuler la proportion dela première composante dans le mélange de densités triangulaires. Nousaboutissons à une estimation du nombre de classes à l'aide d'un modèle binomial ensupposant que chaque classe apparaît dans un échantillon par une épreuve deBernoulli. Nous montrons la convergence en loi de l'estimateur proposé. Sur le plan pratique, une application aux données réelles en écologie est présentée. La méthode est ensuite comparée à d'autres méthodes concurrentes à l'aide de simulations. La seconde partie présente l'analyse des données de pêche collectées dans le fleuveOuémé au Bénin. Nous proposons une démarche statistique permettant de regrouperles espèces selon leur profil temporel d'abondances, d'estimer le stock d'une espèceainsi que leur capturabilité par les engins de pêche artisanale. / This manuscript is structured in two parts. The #rst part composed of Chapters 2to 4 deals with the problem of estimating the number of classes in a population withan application in ecology. The second part, corresponding to Chapter 5, concernsthe application of statistical methods to analyze fisheries data.In the first part, we consider a heterogeneous population split into several classes.From a sample, the numbers of observed individuals per class, also called abun-dances, are used to estimate the total number of classes in the population. In theliterature devoted to the number of classes estimation, methods based on a mix-ture of Poisson distributions seem to be the most effcient (see for example the workof Chao and Bunge (2002) in the parametric framework and that of Wang and Lind-say (2005) in a non-parametric framework). Applications of these approaches to realdata show that the distribution of abundances can be approximated by a convexdistribution. We propose a non-parametric approach to estimate the distribution ofabundances under the constraint of convexity. This constraint defines a theoreticalframework for estimating a discrete density. The problem of estimating the numberof classes is then tackled in two steps.We show on the one hand the existence and uniqueness of an estimator of adiscrete density under the constraint of convexity. Under this constraint, we provethat a discrete density can be written as a mixture of triangular distributions. Usingthe support reduction algorithm proposed by Groeneboom et al. (2008), we proposean exact algorithm to estimate the proportions in the mixture.On the other hand, the estimation procedure of a discrete convex density is usedto estimate the zero-truncated distribution of the observed abundance data. Thezero-truncated distribution estimate is then extended at zero to derive an estimateof the probability that a class is not observed. This extension is made so as tocancel the first component in the mixture of triangular distributions. An estimateof the total number of classes is obtained through a binomial model assuming thateach class appears in a sample by a Bernoulli trial. We show the convergence inlaw of the proposed estimator. On practical view, an application to real ecologicaldata is presented. The method is then compared to other concurrent methods usingsimulations.The second part presents the analysis of fisheries data collected on the Ouémériver in Benin. We propose a statistical approach for grouping species accordingto their temporal abundance profile, to estimate the stock of a species and theircatchability by artisanal fishing gears.
|
32 |
Sur l'estimation semi paramétrique robuste pour statistique fonctionnelle / On the semiparametric robust estimation in functional statisticAttaoui, Said 10 December 2012 (has links)
Dans cette thèse, nous nous proposons d'étudier quelques paramètres fonctionnels lorsque les données sont générées à partir d'un modèle de régression à indice simple. Nous étudions deux paramètres fonctionnels. Dans un premier temps nous supposons que la variable explicative est à valeurs dans un espace de Hilbert (dimension infinie) et nous considérons l'estimation de la densité conditionnelle par la méthode de noyau. Nous traitons les propriétés asymptotiques de cet estimateur dans les deux cas indépendant et dépendant. Pour le cas où les observations sont indépendantes identiquement distribuées (i.i.d.), nous obtenons la convergence ponctuelle et uniforme presque complète avec vitesse de l'estimateur construit. Comme application nous discutons l'impact de ce résultat en prévision non paramétrique fonctionnelle à partir de l'estimation de mode conditionnelle. La dépendance est modélisée via la corrélation quasi-associée. Dans ce contexte nous établissons la convergence presque complète ainsi que la normalité asymptotique de l'estimateur à noyau de la densité condtionnelle convenablement normalisée. Nous donnons de manière explicite la variance asymptotique. Notons que toutes ces propriétés asymptotiques ont été obtenues sous des conditions standard et elles mettent en évidence le phénomène de concentration de la mesure de probabilité de la variable fonctionnelle sur des petites boules. Dans un second temps, nous supposons que la variable explicative est vectorielle et nous nous intéressons à un modèle de prévision assez général qui est la régression robuste. A partir d'observations quasi-associées, on construit un estimateur à noyau pour ce paramètre fonctionnel. Comme résultat asymptotique on établit la vitesse de convergence presque complète uniforme de l'estimateur construit. Nous insistons sur le fait que les deux modèles étudiés dans cette thèse pourraient être utilisés pour l'estimation de l'indice simple lorsque ce dernier est inconnu, en utilisant la méthode d'M-estimation ou la méthode de pseudo-maximum de vraisemblance, qui est un cas particulier de la première méthode. / In this thesis, we propose to study some functional parameters when the data are generated from a model of regression to a single index. We study two functional parameters. Firstly, we suppose that the explanatory variable take its values in Hilbert space (infinite dimensional space) and we consider the estimate of the conditional density by the kernel method. We establish some asymptotic properties of this estimator in both independent and dependent cases. For the case where the observations are independent identically distributed (i.i.d.), we obtain the pointwise and uniform almost complete convergence with rateof the estimator. As an application we discuss the impact of this result in fuctional nonparametric prevision for the estimation of the conditional mode. In the dependent case we modelize the later via the quasi-associated correlation. Note that all these asymptotic properties are obtained under standard conditions and they highlight the phenomenon of concentration properties on small balls probability measure of the functional variable. Secondly we suppose that the explanatory variable takes values in the _nite dimensional space and we interest in a rather general prevision model whichis the robust regression. From the quasi-associated data, we build a kernel estimator for this functional parameter. As an asymptotic result we establish the uniform almost complete convergence rate of the estimator. We point out by the fact that these two models studied in this thesis could be used for the estimation of the single index of the model when the latter is unknown, by using the method of M-estimation or the pseudo-maximum likelihood method which is a particular case of the first method.
|
33 |
Inférence statistique à travers les échelles / Statistical inference across time scalesDuval, Céline 07 December 2012 (has links)
Cette thèse porte sur le problème d'estimation à travers les échelles pour un processus stochastique. Nous étudions comment le choix du pas d'échantillonnage impacte les procédures statistiques. Nous nous intéressons à l'estimation de processus à sauts à partir de l'observation d'une trajectoire discrétisée sur [0, T]. Lorsque la longueur de l'intervalle d'observation T va à l'infini, le pas d'échantillonnage tend soit vers 0 (échelle microscopique), vers une constante positive (échelle intermédiaire) ou encore vers l'infini (échelle macroscopique). Dans chacun de ces régimes nous supposons que le nombre d'observations tend vers l'infini. Dans un premier temps le cas particulier d'un processus de Poisson composé d'intensité inconnue avec des sauts symétriques {-1,1} est étudié. Le Chapitre 2 illustre la notion d'estimation statistique dans les trois échelles définies ci-dessus. Dans ce modèle, on s'intéresse aux propriétés des expériences statistiques. On montre la propriété de Normalité Asymptotique Locale dans les trois échelles microscopiques, intermédiaires et macroscopiques. L'information de Fisher est alors connue pour chacun de ces régimes. Ensuite nous analysons comment se comporte une procédure d'estimation de l'intensité qui est efficace (de variance minimale) à une échelle donnée lorsqu'on l'applique à des observations venant d'une échelle différente. On regarde l'estimateur de la variation quadratique empirique, qui est efficace dans le régime macroscopique, et on l'utilise sur des données provenant des régimes intermédiaire ou microscopique. Cet estimateur reste efficace dans les échelles microscopiques, mais montre une perte substantielle d'information aux échelles intermédiaires. Une procédure unifiée d'estimation est proposée, elle est efficace dans tous les régimes. Les Chapitres 3 et 4 étudient l'estimation non paramétrique de la densité de saut d'un processus renouvellement composé dans les régimes microscopiques, lorsque le pas d'échantillonnage tend vers 0. Un estimateur de cette densité utilisant des méthodes d'ondelettes est construit. Il est adaptatif et minimax pour des pas d'échantillonnage qui décroissent en T^{-alpha}, pour alpha>0. La procédure d'estimation repose sur l'inversion de l'opérateur de composition donnant la loi des incréments comme une transformation non linéaire de la loi des sauts que l'on cherche à estimer. L'opérateur inverse est explicite dans le cas du processus de Poisson composé (Chapitre 3), mais n'a pas d'expression analytique pour les processus de renouvellement composés (Chapitre 4). Dans ce dernier cas, il est approché via une technique de point fixe. Le Chapitre 5 étudie le problème de perte d'identifiabilité dans les régimes macroscopiques. Si un processus à sauts est observé avec un pas d'échantillonnage grand, certaines approximations limites, telles que l'approximation gaussienne, deviennent valides. Ceci peut entraîner une perte d'identifiabilité de la loi ayant généré le processus, dès lors que sa structure est plus complexe que celle étudiée dans le Chapitre 2. Dans un premier temps un modèle jouet à deux paramètres est considéré. Deux régimes différents émergent de l'étude : un régime où le paramètre n'est plus identifiable et un où il reste identifiable mais où les estimateurs optimaux convergent avec des vitesses plus lentes que les vitesses paramétriques habituelles. De l'étude de cas particulier, nous dérivons des bornes inférieures montrant qu'il n'existe pas d'estimateur convergent pour les processus de Lévy de saut pur ou pour les processus de renouvellement composés dans les régimes macroscopiques tels que le pas d'échantillonnage croît plus vite que racine de T. Enfin nous identifions des régimes macroscopiques où les incréments d'un processus de Poisson composé ne sont pas distinguables de variables aléatoires gaussiennes, et des régimes où il n'existe pas d'estimateur convergent pour les processus de Poisson composés dépendant de trop de paramètres / This thesis studies the problem of statistical inference across time scales for a stochastic process. More particularly we study how the choice of the sampling parameter affects statistical procedures. We narrow down to the inference of jump processes from the discrete observation of one trajectory over [0,T]. As the length of the observation interval T tends to infinity, the sampling rate either goes to 0 (microscopic scale) or to some positive constant (intermediate scale) or grows to infinity (macroscopic scale). We set in a case where there are infinitely many observations. First we specialise in a toy model: a compound Poisson process of unknown intensity with symmetric Bernoulli jumps. Chapter 2 highlights the concept of statistical estimation in the three regimes defined above and the phenomena at stake. We study the properties of the statistical experiments in each regime, we show that the Local Asymptotic Normality property holds in every regimes (microscopic, intermediate and macroscopic). We also provide the formula of the associated Fisher information in each regime. Then we study how a statistical procedure which is optimal (of minimal variance) at a given scale is affected when we use it on data coming from another scale. We focus on the empirical quadratic variation estimator, it is an optimal procedure at macroscopic scales. We apply it on data coming from intermediate and microscopic regimes. Although the estimator remains efficient at microscopic scales, it shows a substantial loss of information when used on data coming from an intermediate regime. That loss can be explicitly related to the sampling rate. We provide an unified procedure, efficient in all regimes. Chapters 3 and 4 focus on microscopic regimes, when the sampling rate decreases to 0. The nonparametric estimation of the jump density of a renewal reward process is studied. We propose an adaptive wavelet threshold density estimator. It achieves minimax rates of convergence for sampling rates that vanish polynomially with T, namely in T^{-alpha} for alpha>0. The estimation procedure is based on the inversion of the compounding operator in the same spirit as Buchmann and Grübel (2003), which specialiase in the study of discrete compound laws. The inverse operator is explicit in the case of a compound Poisson process (see Chapter 3), but has no closed form expression for renewal reward processes (see Chapter 4). In that latter case the inverse operator is approached with a fixed point technique. Finally Chapter 5 studies at which rate identifiability is lost in macroscopic regimes. Indeed when a jump process is observed at an arbitrarily large sampling rate, limit approximations, like Gaussian approximations, become valid and the specificities of the jumps may be lost, as long as the structure of the process is more complex than the one introduced in Chapter 2. First we study a toy model depending on a 2-dimensional parameter. We distinguish two different regimes: fast (macroscopic) regimes where all information on the parameter is lost and slow regimes where the parameter remains identifiable but where optimal estimators converge with slower rates than the expected usual parametric ones. From this toy model lower bounds are derived, they ensure that consistent estimation of Lévy processes or renewal reward processes is not possible when the sampling rate grows faster than the square root of T. Finally we identify regimes where an experiment consisting in increments of a compound Poisson process is asymptotically equivalent to an experiment consisting in Gaussian random variables. We also give regimes where there is no consistent estimator for compound Poisson processes depending on too many parameters
|
34 |
Estimation des systèmes semi-markoviens à temps discret avec applications / Estimation of semi-Markov systems in discrete time with applicationsGeorgiadis, Stylianos 03 December 2013 (has links)
Le présent travail porte sur l’estimation d’un système en temps discret dont l’évolution est décrite par une chaîne semi-markovienne (CSM) d’espace d’état fini. Nous présentons le principe d’invariance sous forme multidimensionnelle pour le noyau semi-markovien (NSM), ainsi que diverses mesures du processus. Ensuite, nous étudions l’estimation non-paramétrique de la loi stationnaire de la CSM, en considérant deux estimateurs différents, et nous montrons qu’ils ont le même comportement asymptotique. La probabilité de la première entrée est également introduite. Nous proposons un estimateur et nous étudions ses propriétés asymptotiques : la convergence forte et la normalité asymptotique.D’autre part, nous nous concentrons sur l’étude de la fiabilité des systèmes semi-markoviens. Nous définissons la fiabilité sur intervalle d’un système dont la fiabilité et la disponibilité sont des cas particuliers et nous étudions les propriétés asymptotiques d’un estimateur proposé. De plus, nous présentons une comparaison de l’estimation des différentes mesures de fiabilité fondées sur deux estimateurs du NSM, en réalisant une trajectoire unique et des observations multiples indépendantes. Ce travail fournit aussi des résultats dans le cas semi-markovien à temps discret avec espace d’état général. Nous évaluons l’approximation de moyenne et de diffusion des chaînes de renouvellement markovien. Enfin, nous nous sommes aussi intéressés à une autre classe des processus pour laquelle nous obtenons des résultats dans le cadre des files d’attente. Nous étudions l’approximation de moyenne pour le modèle d’Engset en temps continu et nous appliquons ce résultat aux files d’attente avec ré-essais. / The present work concerns the estimation of a discrete-time system whose evolution is governed by a semi-Markov chain (SMC) with finitely many states. We present the invariance principle in a multidimensional form for the semi-Markov kernel (SMK) and some associated measures of the process. Afterwards, we study the nonparametric estimation of the stationary distribution of the SMC, considering two different estimators, and we prove that they hold the same asymptotic behavior. We introduce also the first hitting probability. We propose an estimator and study its asymptotic properties : the strong consistency and the asymptotic normality. On the other hand, we focus on the study of the dependability of semi-Markovsystems. We introduce the interval reliability whose special cases are the reliability and the availability measures and we study the asymptotic properties of a proposed estimator. Moreover, we present a comparison of nonparametric estimation for various reliability measures based on two estimators of the SMK, realizing a unique trajectory and multiple independent observations.Furthermore, this work provides results on the discrete-time semi-Markov case with general state space. We evaluate the average and diffusion approximation of Markov renewal chains. Finally, we are also interested in another class of processes for which we obtain results in the framework of queueing systems. We establish the average approximationfor the Engset model in continuous time and we apply this result to retrial queues.
|
35 |
Contributions à la localisation intra-muros. De la modélisation à la calibration théorique et pratique d'estimateurs / Contributions to the indoor localisation. From the modelization to the theoretical and practical calibration of estimatorsDumont, Thierry 13 December 2012 (has links)
Préfigurant la prochaine grande étape dans le domaine de la navigation, la géolocalisation intra-muros est un domaine de recherche très actif depuis quelques années. Alors que la géolocalisation est entrée dans le quotidien de nombreux professionnels et particuliers avec, notamment, le guidage routier assisté, les besoins d'étendre les applications à l'intérieur se font de plus en plus pressants. Cependant, les systèmes existants se heurtent à des contraintes techniques bien supérieures à celles rencontrées à l'extérieur, la faute, notamment, à la propagation chaotique des ondes électromagnétiques dans les environnements confinés et inhomogènes. Nous proposons dans ce manuscrit une approche statistique du problème de géolocalisation d'un mobile à l'intérieur d'un bâtiment utilisant les ondes WiFi environnantes. Ce manuscrit s'articule autour de deux questions centrales : celle de la détermination des cartes de propagation des ondes WiFi dans un bâtiment donné et celle de la construction d'estimateurs des positions du mobile à l'aide de ces cartes de propagation. Le cadre statistique utilisé dans cette thèse afin de répondre à ces questions est celui des modèles de Markov cachés. Nous proposons notamment, dans un cadre paramétrique, une méthode d'inférence permettant l'estimation en ligne des cartes de propagation, sur la base des informations relevées par le mobile. Dans un cadre non-paramétrique, nous avons étudié la possibilité d'estimer les cartes de propagation considérées comme simple fonction régulière sur l'environnement à géolocaliser. Nos résultats sur l'estimation non paramétrique dans les modèles de Markov cachés permettent d'exhiber un estimateur des fonctions de propagation dont la consistance est établie dans un cadre général. La dernière partie du manuscrit porte sur l'estimation de l'arbre de contextes dans les modèles de Markov cachés à longueur variable. / Foreshadowing the next big step in the field of navigation, indoor geolocation has been a very active field of research in the last few years. While geolocation entered the life of many individuals and professionals, particularly through assisted navigation systems on roads, needs to extend the applications inside the buildings are more and more present. However, existing systems face many more technical constraints than those encountered outside, including the chaotic propagation of electromagnetic waves in confined and inhomogeneous environments. In this manuscript, we propose a statistical approach to the problem of geolocation of a mobile device inside a building, using the WiFi surrounding waves. This manuscript focuses on two central issues: the determination of WiFi wave propagation maps inside a building and the construction of estimators of the mobile's positions using these propagation maps. The statistical framework used in this thesis to answer these questions is that of hidden Markov models. We propose, in a parametric framework, an inference method for the online estimation of the propagation maps, on the basis of the informations reported by the mobile. In a nonparametric framework, we investigated the possibility of estimating the propagation maps considered as a single regular function on the environment that we wish to geolocate. Our results on the nonparametric estimation in hidden Markov models make it possible to produce estimators of the propagation functions whose consistency is established in a general framework. The last part of the manuscript deals with the estimation of the context tree in variable length hidden Markov models.
|
36 |
Statistics for diffusion processes with low and high-frequency observationsChorowski, Jakub 11 November 2016 (has links)
Diese Dissertation betrachtet das Problem der nichtparametrischen Schätzung der Diffusionskoeffizienten eines ein-dimensionalen und zeitlich homogenen Itô-Diffusionsprozesses. Dabei werden verschiedene diskrete Sampling Regimes untersucht. Im ersten Teil zeigen wir, dass eine Variante des von Gobet, Hoffmann und Reiß konstruierten Niedrigfrequenz-Schätzers auch im Fall von zufälligen Beobachtungszeiten verwendet werden kann. Wir beweisen, dass der Schätzer optimal im Minimaxsinn und adaptiv bezüglich der Verteilung der Beobachtungszeiten ist. Außerdam wenden wir die Lepski Methode an um einen Schätzer zu erhalten, der zusätzlich adaptiv bezüglich der Sobolev-Glattheit des Drift- und Volatilitätskoeffizienten ist. Im zweiten Teil betrachten wir das Problem der Volatilitätsschätzung für äquidistante Beobachtungen. Im Fall eines stationären Prozesses, mit kompaktem Zustandsraum, erhalten wir einen Schätzer, der sowohl bei hochfrequenten als auch bei niedrigfrequenten Beobachtungen die optimale Minimaxrate erreicht. Die Konstruktion des Schätzers beruht auf spektralen Methoden. Im Fall von niedrigfrequenten Beobachtungen ist die Analyse des Schätzers ähnlich wie diejenige in der Arbeit von Gobet, Hoffmann und Reiß. Im hochfrequenten Fall hingegen finden wir die Konvergenzraten durch lokale Mittelwertbildung und stellen daubt eine Verbindung zum Hochfrequenzschätzer von Florens-Zmirou her. In der Analyse unseres universalen Schätzers benötigen wir scharfe obere Schranken für den Schätzfehler von Funktionalen der Occupation time für unstetige Funktionen. Wir untersuchen eine auf Riemannsummen basierende Approximation der Occupation time eines stationären, reversiblen Markov-Prozesses und leiten obere Schranken für den quadratischen Fehler her. Im Fall von Diffusionsprozessen erhalten wir Konvergenzraten für Sobolev Funktionen. / In this thesis, we consider the problem of nonparametric estimation of the diffusion coefficients of a scalar time-homogeneous Itô diffusion process from discrete observations under various sampling assumptions. In the first part, the low-frequency estimation method proposed by Gobet, Hoffmann and Reiß is modified to cover the case of random sampling times. The estimator is shown to be optimal in the minimax sense and adaptive to the sampling distribution. Moreover, Lepski''s method is applied to adapt to the unknown Sobolev smoothness of the drift and volatility coefficients. In the second part, we address the problem of volatility estimation from equidistant observations without a predefined frequency regime. In the case of a stationary diffusion with compact state space and boundary reflection, we introduce a universal estimator that attains the minimax optimal convergence rates for both low and high-frequency observations. Being based on the spectral method, the low-frequency analysis is similar to the study conducted by Gobet, Hoffmann and Reiß. On the other hand, the derivation of the convergence rates in the high-frequency regime requires local averaging of the low-frequency estimator, which makes it mimic the behaviour of the classical high-frequency estimator introduced by Florens-Zmirou. The analysis of the universal estimator requires tight upper bounds on the estimation error of the occupation time functional for non-continuous functions. In the third part of the thesis, we thus consider the Riemann sum approximation of the occupation time functional of a stationary, time-reversible Markov process. Upper bounds on the squared mean estimation error are provided. In the case of diffusion processes, convergence rates for Sobolev regular functions are obtained.
|
37 |
Estimation fonctionnelle non paramétrique au voisinage du bord / Functional non-parametric estimation near the edgeJemai, Asma 16 March 2018 (has links)
L’objectif de cette thèse est de construire des estimateurs non-paramétriques d’une fonction de distribution, d’une densité de probabilité et d’une fonction de régression en utilisant les méthodes d’approximation stochastiques afin de corriger l’effet du bord créé par les estimateurs à noyaux continus classiques. Dans le premier chapitre, on donne quelques propriétés asymptotiques des estimateurs continus à noyaux. Puis, on présente l’algorithme stochastique de Robbins-Monro qui permet d’introduire les estimateurs récursifs. Enfin, on rappelle les méthodes utilisées par Vitale, Leblanc et Kakizawa pour définir des estimateurs d’une fonction de distribution et d’une densité de probabilité en se basant sur les polynômes de Bernstein.Dans le deuxième chapitre, on a introduit un estimateur récursif d’une fonction de distribution en se basant sur l’approche de Vitale. On a étudié les propriétés de cet estimateur : biais, variance, erreur quadratique intégré (MISE) et on a établi sa convergence ponctuelle faible. On a comparé la performance de notre estimateur avec celle de Vitale et on a montré qu’avec le bon choix du pas et de l’ordre qui lui correspond notre estimateur domine en terme de MISE. On a confirmé ces résultatsthéoriques à l’aide des simulations. Pour la recherche pratique de l’ordre optimal, on a utilisé la méthode de validation croisée. Enfin, on a confirmé les meilleures qualités de notre estimateur à l’aide des données réelles. Dans le troisième chapitre, on a estimé une densité de probabilité d’une manière récursive en utilisant toujours les polynômes de Bernstein. On a donné les caractéristiques de cet estimateur et on les a comparées avec celles de l’estimateur de Vitale, de Leblanc et l’estimateur donné par Kakizawa en utilisant la méthode multiplicative de correction du biais. On a appliqué notre estimateur sur des données réelles. Dans le quatrième chapitre, on a introduit un estimateur récursif et non récursif d’une fonction de régression en utilisant les polynômes de Bernstein. On a donné les caractéristiques de cet estimateur et on les a comparées avec celles de l’estimateur à noyau classique. Ensuite, on a utilisé notre estimateur pour interpréter des données réelles. / The aim of this thesis is to construct nonparametric estimators of distribution, density and regression functions using stochastic approximation methods in order to correct the edge effect created by kernels estimators. In the first chapter, we givesome asymptotic properties of kernel estimators. Then, we introduce the Robbins-Monro stochastic algorithm which creates the recursive estimators. Finally, we recall the methods used by Vitale, Leblanc and Kakizawa to define estimators of distribution and density functions based on Bernstein polynomials. In the second chapter, we introduced a recursive estimator of a distribution function based on Vitale’s approach. We studied the properties of this estimator : bias, variance, mean integratedsquared error (MISE) and we established a weak pointwise convergence. We compared the performance of our estimator with that of Vitale and we showed that, with the right choice of the stepsize and its corresponding order, our estimator dominatesin terms of MISE. These theoretical results were confirmed using simulations. We used the cross-validation method to search the optimal order. Finally, we applied our estimator to interpret real dataset. In the third chapter, we introduced a recursive estimator of a density function using Bernstein polynomials. We established the characteristics of this estimator and we compared them with those of the estimators of Vitale, Leblanc and Kakizawa. To highlight our proposed estimator, we used real dataset. In the fourth chapter, we introduced a recursive and non-recursive estimator of a regression function using Bernstein polynomials. We studied the characteristics of this estimator. Then, we compared our proposed estimator with the classical kernel estimator using real dataset.
|
38 |
The Propagation-Separation ApproachBecker, Saskia 16 May 2014 (has links)
Lokal parametrische Modelle werden häufig im Kontext der nichtparametrischen Schätzung verwendet. Bei einer punktweisen Schätzung der Zielfunktion können die parametrischen Umgebungen mithilfe von Gewichten beschrieben werden, die entweder von den Designpunkten oder (zusätzlich) von den Beobachtungen abhängen. Der Vergleich von verrauschten Beobachtungen in einzelnen Punkten leidet allerdings unter einem Mangel an Robustheit. Der Propagations-Separations-Ansatz von Polzehl und Spokoiny [2006] verwendet daher einen Multiskalen-Ansatz mit iterativ aktualisierten Gewichten. Wir präsentieren hier eine theoretische Studie und numerische Resultate, die ein besseres Verständnis des Verfahrens ermöglichen. Zu diesem Zweck definieren und untersuchen wir eine neue Strategie für die Wahl des entscheidenden Parameters des Verfahrens, der Adaptationsbandweite. Insbesondere untersuchen wir ihre Variabilität in Abhängigkeit von der unbekannten Zielfunktion. Unsere Resultate rechtfertigen eine Wahl, die unabhängig von den jeweils vorliegenden Beobachtungen ist. Die neue Parameterwahl liefert für stückweise konstante und stückweise beschränkte Funktionen theoretische Beweise der Haupteigenschaften des Algorithmus. Für den Fall eines falsch spezifizierten Modells führen wir eine spezielle Stufenfunktion ein und weisen eine punktweise Fehlerschranke im Vergleich zum Schätzer des Algorithmus nach. Des Weiteren entwickeln wir eine neue Methode zur Entrauschung von diffusionsgewichteten Magnetresonanzdaten. Unser neues Verfahren (ms)POAS basiert auf einer speziellen Beschreibung der Daten, die eine zeitgleiche Glättung bezüglich der gemessenen Positionen und der Richtungen der verwendeten Diffusionsgradienten ermöglicht. Für den kombinierten Messraum schlagen wir zwei Distanzfunktionen vor, deren Eignung wir mithilfe eines differentialgeometrischen Ansatzes nachweisen. Schließlich demonstrieren wir das große Potential von (ms)POAS auf simulierten und experimentellen Daten. / In statistics, nonparametric estimation is often based on local parametric modeling. For pointwise estimation of the target function, the parametric neighborhoods can be described by weights that depend on design points or on observations. As it turned out, the comparison of noisy observations at single points suffers from a lack of robustness. The Propagation-Separation Approach by Polzehl and Spokoiny [2006] overcomes this problem by using a multiscale approach with iteratively updated weights. The method has been successfully applied to a large variety of statistical problems. Here, we present a theoretical study and numerical results, which provide a better understanding of this versatile procedure. For this purpose, we introduce and analyse a novel strategy for the choice of the crucial parameter of the algorithm, namely the adaptation bandwidth. In particular, we study its variability with respect to the unknown target function. This justifies a choice independent of the data at hand. For piecewise constant and piecewise bounded functions, this choice enables theoretical proofs of the main heuristic properties of the algorithm. Additionally, we consider the case of a misspecified model. Here, we introduce a specific step function, and we establish a pointwise error bound between this function and the corresponding estimates of the Propagation-Separation Approach. Finally, we develop a method for the denoising of diffusion-weighted magnetic resonance data, which is based on the Propagation-Separation Approach. Our new procedure, called (ms)POAS, relies on a specific description of the data, which enables simultaneous smoothing in the measured positions and with respect to the directions of the applied diffusion-weighting magnetic field gradients. We define and justify two distance functions on the combined measurement space, where we follow a differential geometric approach. We demonstrate the capability of (ms)POAS on simulated and experimental data.
|
39 |
Adaptive methods for modelling, estimating and forecasting locally stationary processesVan Bellegem, Sébastien 16 December 2003 (has links)
In time series analysis, most of the models are based on the assumption of covariance stationarity. However, many time series in the applied sciences show a time-varying second-order structure. That is, variance and covariance, or equivalently the spectral structure, are likely to change over time. Examples may be found in a growing number of fields, such as biomedical time series analysis, geophysics, telecommunications, or financial data analysis, to name but a few.
In this thesis, we are concerned with the modelling of such nonstationary time series, and with the subsequent questions of how to estimate their second-order structure and how to forecast these processes. We focus on univariate, discrete-time processes with zero-mean arising, for example, when the global trend has been removed from the data.
The first chapter presents a simple model for nonstationarity, where only the variance is time-varying. This model follows the approach of "local stationarity" introduced by [1]. We show that our model satisfactorily explains the nonstationary behaviour of several economic data sets, among which are the U.S. stock returns and exchange rates. This chapter is based on [5].
In the second chapter, we study more complex models, where not only the variance is evolutionary. A typical example of these models is given by time-varying ARMA(p,q) processes, which are ARMA(p,q) with time-varying coefficients. Our aim is to fit such semiparametric models to some nonstationary data. Our data-driven estimator is constructed from a minimisation of a penalised contrast function, where the contrast function is an approximation to the Gaussian likelihood of the model. The theoretical performance of the estimator is analysed via non asymptotic risk bounds for the quadratic risk. In our results, we do not assume that the observed data follow the semiparamatric structure, that is our results hold in the misspecified case.
The third chapter introduces a fully nonparametric model for local nonstationarity. This model is a wavelet-based model of local stationarity which enlarges the class of models defined by Nason et al. [3]. A notion of time-varying "wavelet spectrum' is uniquely defined as a wavelet-type transform of the autocovariance function with respect to so-called "autocorrelation wavelets'. This leads to a natural representation of the autocovariance which is localised on scales.
One particularly interesting subcase arises when this representation is sparse, meaning that the nonstationary autocovariance may be decomposed in the autocorrelation wavelet basis using few coefficients. We present a new test of sparsity for the wavelet spectrum in Chapter 4. It is based on a non-asymptotic result on the deviations of a functional of a periodogram. In this chapter, we also present another application of this result given by the pointwise adaptive estimation of the wavelet spectrum. Chapters 3 and 4 are based on [6]
Computational aspects of the test of sparsity and of the pointwise adaptive estimator are considered in Chapter 5. We give a description of a full algorithm, and an application in biostatistics. In this chapter, we also derive a new test of covariance stationarity, applied to another case study in biostatistics. This chapter is based on [7].
Finally, Chapter 6 address the problem how to forecast the general nonstationary process introduced in Chapter 3. We present a new predictor and derive the prediction equations as a generalisation of the Yule-Walker equations. We propose an automatic computational procedure for choosing the parameters of the forecasting algorithm. Then we apply the prediction algorithm to a meteorological data set. This chapter is based on [2,4].
References
[1] Dahlhaus, R. (1997). Fitting time series models to nonstationary processes. Ann. Statist., 25, 1-37, 1997.
[2] Fryzlewicz, P., Van Bellegem, S. and von Sachs, R. (2003). Forecasting non-stationary time series by wavelet process modelling. Annals of the Institute of Statistical Mathematics. 55, 737-764.
[3] Nason, G.P., von Sachs, R. and Kroisandt, G. (2000). Wavelet processes and adaptive estimation of evolutionary wavelet spectra. Journal of the Royal Statistical Society Series B. 62, 271-292.
[4] Van Bellegem, S., Fryzlewicz, P. and von Sachs, R. (2003). A wavelet-based model for forecasting non-stationary processes. In J-P. Gazeau, R. Kerner, J-P. Antoine, S. Metens and J-Y. Thibon (Eds.). GROUP 24: Physical and Mathematical Aspects of Symmetries. Bristol: IOP Publishing (in press).
[5] Van Bellegem, S. and von Sachs, R. (2003). Forecasting economic time series with unconditional time-varying variance. International Journal of Forecasting (in press).
[6] Van Bellegem, S. and von Sachs, R. (2003). Locally adaptive estimation of sparse, evolutionary wavelet spectra (submitted).
[7] Van Bellegem, S. and von Sachs, R. (2003). On adaptive estimation for locally stationary wavelet processes and its applications (submitted).
|
40 |
Modelling dependence in actuarial science, with emphasis on credibility theory and copulasPurcaru, Oana 19 August 2005 (has links)
One basic problem in statistical sciences is to understand the relationships among multivariate outcomes. Although it remains an important tool and is widely applicable,
the regression analysis is limited by the basic setup that requires to identify one dimension of the outcomes as the primary measure of interest (the "dependent"
variable) and other dimensions as supporting this variable (the "explanatory" variables). There are situations where this relationship is not of primary interest.
For example, in actuarial sciences, one might be interested to see the dependence between annual claim numbers of a policyholder and its impact on the premium
or the dependence between the claim amounts and the expenses related to them. In such cases the normality hypothesis fails, thus Pearson's correlation or concepts based
on linearity are no longer the best ones to be used. Therefore, in order to quantify the dependence between non-normal outcomes one needs different statistical tools,
such as, for example, the dependence concepts and the copulas.
This thesis is devoted to modelling dependence with applications in actuarial sciences and is divided in two parts: the first one concerns dependence in frequency
credibility models and the second one dependence between continuous outcomes. In each part of the thesis we resort to different tools, the stochastic orderings
(which arise from the dependence concepts), and copulas, respectively.
During the last decade of the 20th century, the world of insurance was confronted with important developments of the a posteriori tarification, especially in the
field of credibility. This was dued to the easing of insurance markets in the European Union, which gave rise to an advanced segmentation. The first important
contribution is due to Dionne & Vanasse (1989), who proposed a credibility model which integrates a priori and a posteriori information on an individual basis.
These authors introduced a regression component in the Poisson counting model in order to use all available information in the estimation of accident frequency.
The unexplained heterogeneity was then modeled by the introduction of a latent variable representing the influence of hidden policy characteristics. The vast majority
of the papers appeared in the actuarial literature considered time-independent (or static) heterogeneous models. Noticeable exceptions include the pioneering papers
by Gerber & Jones (1975), Sundt (1988) and Pinquet, Guillén & Bolancé (2001, 2003). The allowance for an unknown underlying random parameter
that develops over time is justified since unobservable factors influencing the driving abilities are not constant. One might consider either shocks (induced by
events like divorces or nervous breakdown, for instance) or continuous modifications (e.g. due to learning effect).
In the first part we study the recently introduced models in the frequency credibility theory, which can be seen as models of time series
for count data, adapted to actuarial problems. More precisely we will examine the kind of dependence induced among annual claim numbers by the introduction of random
effects taking unexplained heterogeneity, when these random effects are static and time-dependent. We will also make precise the effect of reporting claims on the
a posteriori distribution of the random effect. This will be done by establishing some stochastic monotonicity property of the a posteriori distribution
with respect to the claims history. We end this part by considering different models for the random effects and computing the a posteriori corrections of the
premiums on basis of a real data set from a Spanish insurance company.
Whereas dependence concepts are very useful to describe the relationship between multivariate outcomes, in practice (think for instance to the computation of reinsurance
premiums) one need some statistical tool easy to implement, which incorporates the structure of the data. Such tool is the copula, which allows the construction of multivariate
distributions for given marginals. Because copulas characterize the dependence structure of random vectors once the effect of the marginals has been factored out,
identifying and fitting a copula to data is not an easy task. In practice, it is often preferable to restrict the search of an appropriate copula to some reasonable
family, like the archimedean one. Then, it is extremely useful to have simple graphical procedures to select the best fitting model among some competing alternatives
for the data at hand.
In the second part of the thesis we propose a new nonparametric estimator for the generator, that takes into account the particularity of the data, namely censoring and truncation.
This nonparametric estimation then serves as a benchmark to select an appropriate parametric archimedean copula. This selection procedure will be illustrated
on a real data set.
|
Page generated in 0.1082 seconds