1 |
Modeling and computations of multivariate datasets in space and timeDemel, Samuel Seth January 1900 (has links)
Doctor of Philosophy / Department of Statistics / Juan Du / Spatio-temporal and/or multivariate dependence naturally occur in datasets obtained in various disciplines; such as atmospheric sciences, meteorology, engineering and agriculture. There is a great deal of need to effectively model the complex dependence and correlated structure exhibited in these datasets. For this purpose, this dissertation studies methods and application of the spatio-temporal modeling and multivariate computation.
First, a collection of spatio-temporal functions is proposed to model spatio-temporal processes which are continuous in space and discrete over time. Theoretically, we derived the necessary and sufficient conditions to ensure the model validity. On the other hand, the possibility of taking the advantage of well-established time series and spatial statistics tools makes it relatively easy to identify and fit the proposed model in practice. The spatio-temporal models with some ARMA discrete temporal margin are fitted to Kansas precipitation and Irish wind datasets for estimation or prediction, and compared with some general existing parametric models in terms of likelihood and mean squared prediction error.
Second, to deal with the immense computational burden of statistical inference for multi- ple attributes recorded at a large number of locations, we develop Wendland-type compactly supported covariance matrix function models and propose multivariate covariance tapering technique with those functions for computation reduction. Simulation studies and US tem- perature data are used to illustrate applications of the proposed multivariate tapering and computational gain in spatial cokriging.
Finally, to study the impact of weather change on corn yield in Kansas, we develop a spatial functional linear regression model accounting for the fact that weather data were recorded daily or hourly as opposed to the yearly crop yield data and the underlying spatial autocorrelation. The parameter function is estimated under the functional data analysis framework and its characteristics are investigated to show the influential factor and critical period of weather change dictating crop yield during the growing season.
|
2 |
Testing and Estimation for Functional Data with Applications to Magnetometer RecordsMaslova, Inga 01 May 2009 (has links)
The functional linear model, $Y_n = Psi X_n + varepsilon_n$, with functional response and explanatory variables is considered. A simple test of the nullity of $Psi$ based on the principal component decomposition is proposed. The test statistic has asymptotic chi-squared distribution, which is also an excellent approximation in finite samples. The methodology is applied to data from terrestrial magnetic observatories.
In recent years, the interaction of the auroral substorms with the equatorial and mid-latitude currents has been the subject of extensive research. We introduce a new statistical technique that allows us to test at a specified significance level whether such a dependence exists, and how long it persists. This quantitative statistical technique, relying on the concepts and tools of functional data analysis, uses directly magnetometer records in one minute resolution, and it can be applied to similar geophysical data which can be represented as daily curves. It is conceptually similar to testing the nullity of the slope in the straight line regression, but both the regressors and the responses are curves rather than points. When the regressors are daily high latitude $H$--component curves during substorm days and the responses are daily mid-- or low latitude $H$--component curves, our test shows significant dependence (the nullity hypothesis is rejected), which exists not only on the same UT day, but also extends into the next day for strong substorms.
We propose a novel approach based on wavelet and functional principal component analysis to produce a cleaner index of the intensity of the symmetric ring current. We use functional canonical correlations to show that the new approach more effectively extracts symmetric global features. The main result of our work is the construction of a new index, which is an improved version of the existing wavelet-based index (WISA) and the old Dst index, in which a constant daily variation is removed. Here, we address the fact that the daily component varies from day to day and construct a ``cleaner'' index by removing non-constant daily variations.
A wavelet-based method of deconvoluting the solar quiet variation from the low and mid-latitude H-component records is proposed. The resulting daily variation is non--constant, and its day--to--day variability is quantified by functional principal component scores. The procedure removes the signature of an enhanced ring current by comparing the scores at different stations. The method is fully algorithmic and is implemented in the statistical software R.
R package for space physics applications is developed. It consists of several functions that compute indices of the storm activity and estimate the daily variation. Storm indices are computed automatically without any human intervention using the most recent magnetometer data available. Functional principal component analysis techniques are used to extract day-to-day variations. This package will be publicly available at Comprehensive R Archive Network (CRAN).
|
3 |
Modélisation statistique de données fonctionnelles environnementales : application à l'analyse de profils océanographiques. / Statistical modeling of environmental functional data : application to the analyse of oceanographic profiles.Bayle, Severine 12 June 2014 (has links)
Afin d'étudier les processus biogéochimiques de l'Océan Austral, des balises posées sur des éléphants de mer ont permis de récolter en 2009-2010 des profils de variables océanographiques (Chlorophylle a (Chl a), température, salinité, lumière) dans une zone s'étalant du sud des îles Kerguelen jusqu'au continent Antarctique. Cette thèse se penche en particulier sur les données de Chl a, car celle-ci est contenue dans les organismes photosynthétiques qui jouent un rôle essentiel de pompe à carbone. Mais les profils verticaux de Chl a, récoltés peu fréquemment, ne permettent pas d'obtenir une cartographie de cette variable dans cette zone de l'océan. Cependant, nous disposons de profils de lumière, échantillonnés plus souvent. L'objectif était alors de développer une méthodologie permettant de reconstruire de manière indirecte les profils de Chl a à partir des profils de lumière, et qui prenne en compte les caractéristiques de ce type de données qui se présentent naturellement comme des données fonctionnelles. Pour cela, nous avons abordé la décomposition des profils à reconstruire ou explicatifs sur une base de splines, ainsi que les questions d'ajustement associées. Un modèle linéaire fonctionnel a été utilisé, permettant de prédire des profils de Chl a à partir des dérivées des profils de lumière. Il est montré que l'utilisation d'un tel modèle permet d'obtenir une bonne qualité de reconstruction pour accéder aux variations hautes fréquences des profils de Chl a à fine échelle. Enfin, une interpolation par krigeage fonctionnel permet de prédire la concentration en Chl a de nuit, car les mesures de lumière acquises à ce moment-là ne peuvent pas être exploitées. / To study biogeochemical processes in the Southern Ocean, tags placed on elephant seals allowed to collect during 2009-2010 oceanographic variables profiles (Chlorophyll a (Chl a), temperature, salinity, light) in an area ranging from southern Kerguelen until the Antarctic continent. This thesis focuses on Chl a data as it is contained in photosynthetic organisms and these ones play an essential role in the oceanic carbon cycle. The infrequently collected vertical Chl a profiles don't provide a mapping of this variable in this area of the ocean. However, we have light profiles sampled more often. The aim of this thesis was then to develop a methodology for reconstructing indirectly Chl a profiles from light profiles, and that takes into account characteristics of this kind of data that naturally occur as functional data. For this, we adressed the profiles decomposition to rebuild or explanations on splines basis, as well as issues related adjustment. A functional linear model was used to predict Chl a profiles from light profiles derivatives. It was shown that the use of such a model provides a good quality of reconstruction to access high frequency variations of Chl a profiles at fine scale. Finally, a functional kriging interpolation predicted the Chl a concentration during night, as light measurements acquired at that time can't be exploited. In the future, the methodology aims to be applied to any type of functional data.
|
4 |
Estimation de synchrones de consommation électrique par sondage et prise en compte d'information auxiliaire / Estimate the mean electricity consumption curve by survey and take auxiliary information into accountLardin, Pauline 26 November 2012 (has links)
Dans cette thèse, nous nous intéressons à l'estimation de la synchrone de consommation électrique (courbe moyenne). Etant donné que les variables étudiées sont fonctionnelles et que les capacités de stockage sont limitées et les coûts de transmission élevés, nous nous sommes intéressés à des méthodes d'estimation par sondage, alternatives intéressantes aux techniques de compression du signal. Nous étendons au cadre fonctionnel des méthodes d'estimation qui prennent en compte l'information auxiliaire disponible afin d'améliorer la précision de l'estimateur de Horvitz-Thompson de la courbe moyenne de consommation électrique. La première méthode fait intervenir l'information auxiliaire au niveau de l'estimation, la courbe moyenne est estimée à l'aide d'un estimateur basé sur un modèle de régression fonctionnelle. La deuxième l'utilise au niveau du plan de sondage, nous utilisons un plan à probabilités inégales à forte entropie puis l'estimateur de Horvitz-Thompson fonctionnel. Une estimation de la fonction de covariance est donnée par l'extension au cadre fonctionnel de l'approximation de la covariance donnée par Hájek. Nous justifions de manière rigoureuse leur utilisation par une étude asymptotique. Pour chacune de ces méthodes, nous donnons, sous de faibles hypothèses sur les probabilités d'inclusion et sur la régularité des trajectoires, les propriétés de convergence de l'estimateur de la courbe moyenne ainsi que de sa fonction de covariance. Nous établissons également un théorème central limite fonctionnel. Afin de contrôler la qualité de nos estimateurs, nous comparons deux méthodes de construction de bande de confiance sur un jeu de données de courbes de charge réelles. La première repose sur la simulation de processus gaussiens. Une justification asymptotique de cette méthode sera donnée pour chacun des estimateurs proposés. La deuxième utilise des techniques de bootstrap qui ont été adaptées afin de tenir compte du caractère fonctionnel des données / In this thesis, we are interested in estimating the mean electricity consumption curve. Since the study variable is functional and storage capacities are limited or transmission cost are high survey sampling techniques are interesting alternatives to signal compression techniques. We extend, in this functional framework, estimation methods that take into account available auxiliary information and that can improve the accuracy of the Horvitz-Thompson estimator of the mean trajectory. The first approach uses the auxiliary information at the estimation stage, the mean curve is estimated using model-assisted estimators with functional linear regression models. The second method involves the auxiliary information at the sampling stage, considering πps (unequal probability) sampling designs and the functional Horvitz-Thompson estimator. Under conditions on the entropy of the sampling design the covariance function of the Horvitz-Thompson estimator can be estimated with the Hájek approximation extended to the functional framework. For each method, we show, under weak hypotheses on the sampling design and the regularity of the trajectories, some asymptotic properties of the estimator of the mean curve and of its covariance function. We also establish a functional central limit theorem.Next, we compare two methods that can be used to build confidence bands. The first one is based on simulations of Gaussian processes and is assessed rigorously. The second one uses bootstrap techniques in a finite population framework which have been adapted to take into account the functional nature of the data
|
5 |
Contribution à la statistique spatiale et l'analyse de données fonctionnelles / Contribution to spatial statistics and functional data analysisAhmed, Mohamed Salem 12 December 2017 (has links)
Ce mémoire de thèse porte sur la statistique inférentielle des données spatiales et/ou fonctionnelles. En effet, nous nous sommes intéressés à l’estimation de paramètres inconnus de certains modèles à partir d’échantillons obtenus par un processus d’échantillonnage aléatoire ou non (stratifié), composés de variables indépendantes ou spatialement dépendantes.La spécificité des méthodes proposées réside dans le fait qu’elles tiennent compte de la nature de l’échantillon étudié (échantillon stratifié ou composé de données spatiales dépendantes).Tout d’abord, nous étudions des données à valeurs dans un espace de dimension infinie ou dites ”données fonctionnelles”. Dans un premier temps, nous étudions les modèles de choix binaires fonctionnels dans un contexte d’échantillonnage par stratification endogène (échantillonnage Cas-Témoin ou échantillonnage basé sur le choix). La spécificité de cette étude réside sur le fait que la méthode proposée prend en considération le schéma d’échantillonnage. Nous décrivons une fonction de vraisemblance conditionnelle sous l’échantillonnage considérée et une stratégie de réduction de dimension afin d’introduire une estimation du modèle par vraisemblance conditionnelle. Nous étudions les propriétés asymptotiques des estimateurs proposées ainsi que leurs applications à des données simulées et réelles. Nous nous sommes ensuite intéressés à un modèle linéaire fonctionnel spatial auto-régressif. La particularité du modèle réside dans la nature fonctionnelle de la variable explicative et la structure de la dépendance spatiale des variables de l’échantillon considéré. La procédure d’estimation que nous proposons consiste à réduire la dimension infinie de la variable explicative fonctionnelle et à maximiser une quasi-vraisemblance associée au modèle. Nous établissons la consistance, la normalité asymptotique et les performances numériques des estimateurs proposés.Dans la deuxième partie du mémoire, nous abordons des problèmes de régression et prédiction de variables dépendantes à valeurs réelles. Nous commençons par généraliser la méthode de k-plus proches voisins (k-nearest neighbors; k-NN) afin de prédire un processus spatial en des sites non-observés, en présence de co-variables spatiaux. La spécificité du prédicteur proposé est qu’il tient compte d’une hétérogénéité au niveau de la co-variable utilisée. Nous établissons la convergence presque complète avec vitesse du prédicteur et donnons des résultats numériques à l’aide de données simulées et environnementales.Nous généralisons ensuite le modèle probit partiellement linéaire pour données indépendantes à des données spatiales. Nous utilisons un processus spatial linéaire pour modéliser les perturbations du processus considéré, permettant ainsi plus de flexibilité et d’englober plusieurs types de dépendances spatiales. Nous proposons une approche d’estimation semi paramétrique basée sur une vraisemblance pondérée et la méthode des moments généralisées et en étudions les propriétés asymptotiques et performances numériques. Une étude sur la détection des facteurs de risque de cancer VADS (voies aéro-digestives supérieures)dans la région Nord de France à l’aide de modèles spatiaux à choix binaire termine notre contribution. / This thesis is about statistical inference for spatial and/or functional data. Indeed, weare interested in estimation of unknown parameters of some models from random or nonrandom(stratified) samples composed of independent or spatially dependent variables.The specificity of the proposed methods lies in the fact that they take into considerationthe considered sample nature (stratified or spatial sample).We begin by studying data valued in a space of infinite dimension or so-called ”functionaldata”. First, we study a functional binary choice model explored in a case-controlor choice-based sample design context. The specificity of this study is that the proposedmethod takes into account the sampling scheme. We describe a conditional likelihoodfunction under the sampling distribution and a reduction of dimension strategy to definea feasible conditional maximum likelihood estimator of the model. Asymptotic propertiesof the proposed estimates as well as their application to simulated and real data are given.Secondly, we explore a functional linear autoregressive spatial model whose particularityis on the functional nature of the explanatory variable and the structure of the spatialdependence. The estimation procedure consists of reducing the infinite dimension of thefunctional variable and maximizing a quasi-likelihood function. We establish the consistencyand asymptotic normality of the estimator. The usefulness of the methodology isillustrated via simulations and an application to some real data.In the second part of the thesis, we address some estimation and prediction problemsof real random spatial variables. We start by generalizing the k-nearest neighbors method,namely k-NN, to predict a spatial process at non-observed locations using some covariates.The specificity of the proposed k-NN predictor lies in the fact that it is flexible and allowsa number of heterogeneity in the covariate. We establish the almost complete convergencewith rates of the spatial predictor whose performance is ensured by an application oversimulated and environmental data. In addition, we generalize the partially linear probitmodel of independent data to the spatial case. We use a linear process for disturbancesallowing various spatial dependencies and propose a semiparametric estimation approachbased on weighted likelihood and generalized method of moments methods. We establishthe consistency and asymptotic distribution of the proposed estimators and investigate thefinite sample performance of the estimators on simulated data. We end by an applicationof spatial binary choice models to identify UADT (Upper aerodigestive tract) cancer riskfactors in the north region of France which displays the highest rates of such cancerincidence and mortality of the country.
|
Page generated in 0.1277 seconds