51 |
Regressão não-paramétrica com erros correlacionados via ondaletas. / Non-parametric regression with correlated errors using waveletsRogério de Faria Porto 03 October 2008 (has links)
Nesta tese, são obtidas taxas de convergência a zero, do risco de estimação obtido com regressão não-paramétrica via ondaletas, quando há erros correlacionados. Quatro métodos de regressão não-paramétrica via ondaletas, com delineamento desigualmente espaçado são estudados na presença de erros correlacionados, oriundos de processos estocásticos. São apresentadas condições sobre os erros e adaptações aos procedimentos necessárias à obtenção de taxas de convergência quase minimax, para os estimadores. Sempre que possível são obtidas taxas de convergência para os estimadores no domínio da função, sob condições bastante gerais a respeito da função a ser estimada, do delineamento e da correlação dos erros. Mediante estudos de simulação, são avaliados os comportamentos de alguns métodos propostos quando aplicados a amostras finitas. Em geral sugere-se usar um dos procedimentos estudados, porém aplicando-se limiares por níveis. Como a estimação da variância dos coecientes de detalhes pode ser problemática em alguns casos, também se propõe um procedimento iterativo semi-paramétrico geral para métodos que utilizam ondaletas, na presença de erros em séries temporais. / In this thesis, rates of convergence to zero are obtained for the estimation risk, for non-parametric regression using wavelets, when the errors are correlated. Four non-parametric regression methods using wavelets, with un-equally spaced design are studied in the presence of correlated errors, that come from stochastic processes. Conditions on the errors and adaptations to the procedures are presented, so that the estimators achieve quasi-minimax rates of convergence. Whenever is possible, rates of convergence are obtained for the estimators in the domain of the function, under mild conditions on the function to be estimated, on the design and on the error correlation. Through simulation studies, the behavior of some of the proposed methods is evaluated, when used on finite samples. Generally, it is suggested to use one of the studied methods, however applying thresholds by level. Since the estimation of the detail coecients can be dicult in some cases, it is also proposed a general semi-parametric iterative procedure, for wavelet methods in the presence of time-series errors.
|
52 |
Estimation of the mincerian wage model addressing its specification and different econometric issuesBhatti, Sajjad Haider 03 December 2012 (has links) (PDF)
In the present doctoral thesis, we estimated Mincer's (1974) semi logarithmic wage function for the French and Pakistani labour force data. This model is considered as a standard tool in order to estimate the relationship between earnings/wages and different contributory factors. Despite of its vide and extensive use, simple estimation of the Mincerian model is biased because of different econometric problems. The main sources of bias noted in the literature are endogeneity of schooling, measurement error, and sample selectivity. We have tackled the endogeneity and measurement error biases via instrumental variables two stage least squares approach for which we have proposed two new instrumental variables. The first instrumental variable is defined as "the average years of schooling in the family of the concerned individual" and the second instrumental variable is defined as "the average years of schooling in the country, of particular age group, of particular gender, at the particular time when an individual had joined the labour force". Schooling is found to be endogenous for the both countries. Comparing two said instruments we have selected second instrument to be more appropriate. We have applied the Heckman (1979) two-step procedure to eliminate possible sample selection bias which found to be significantly positive for the both countries which means that in the both countries, people who decided not to participate in labour force as wage worker would have earned less than participants if they had decided to work as wage earner. We have estimated a specification that tackled endogeneity and sample selectivity problems together as we found in respect to present literature relative scarcity of such studies all over the globe in general and absence of such studies for France and Pakistan, in particular. Differences in coefficients proved worth of such specification. We have also estimated model semi-parametrically, but contrary to general norm in the context of the Mincerian model, our semi-parametric estimation contained non-parametric component from first-stage schooling equation instead of non-parametric component from selection equation. For both countries, we have found parametric model to be more appropriate. We found errors to be heteroscedastic for the data from both countries and then applied adaptive estimation to control adverse effects of heteroscedasticity. Comparing simple and adaptive estimations, we prefer adaptive specification of parametric model for both countries. Finally, we have applied quantile regression on the selected model from mean regression. Quantile regression exposed that different explanatory factors influence differently in different parts of the wage distribution of the two countries. For both Pakistan and France, it would be the first study that corrected both sample selectivity and endogeneity in single specification in quantile regression framework
|
53 |
Um estudo sobre a produtividade total dos fatores em setores de diferentes intensidades tecnólogicasSouza, José Antonio de 26 November 2009 (has links)
Made available in DSpace on 2010-04-20T20:58:08Z (GMT). No. of bitstreams: 4
JOSE_ANTONIO_DE_SOUZA_DISSERTACAO_VERSAO_FINAL.pdf.jpg: 17403 bytes, checksum: e10358d7e12871cef2b0316788b3e376 (MD5)
JOSE_ANTONIO_DE_SOUZA_DISSERTACAO_VERSAO_FINAL.pdf.txt: 192545 bytes, checksum: bd219ee8e4077c7534538b47349df885 (MD5)
license.txt: 4810 bytes, checksum: 5a0053361f1e90aa2d2231437718e9df (MD5)
JOSE_ANTONIO_DE_SOUZA_DISSERTACAO_VERSAO_FINAL.pdf: 761735 bytes, checksum: 652c91e503be04b555cfabf4dcbabf1e (MD5)
Previous issue date: 2009-11-26T00:00:00Z / The basic hypothesis and core of this dissertation is that various methods of estimating production functions produce different results when applied to sectors of different technological intensity. This dissertation focused on determining the total factor productivity in several industries. Four sectors with high technological intensity and four sectors of low technology intensity were selected for assess this hypothesis. Production functions were estimated and its residue used to calculate the productivity. The correlation between residuals and the explanatory variables inherent to this procedure, including that of simultaneity, omitted variables and selection, was taken into account. One goal of this study was to identify whether a particular method would be more suitable to estimate production functions for industries with low/high technological intensity. This work studied several methods to estimate production functions, including: Olley & Pakes, and Levinsohn & Petrin. Our results show that, for industries with low and with high technological intensity, the Olley & Pakes method estimates are marginally better than the ones from Levinsohn & Petrin. In our opinion, such results do not provide enough advantage to put away the Levinsohn & Petrin method as a method to estimate production functions. The sensitivity of results to the different methods suggests that all of them should be consulted. In addition to the previously stated results, this work identified that the sectors studied experienced a productivity decline or stagnation from 1996 to 2005. / Este trabalho investigou o problema da determinação da produtividade total dos fatores em diversos setores industriais. Tal determinação se dá por meio de estimação de funções de produção, obtendo-se a produtividade a partir do resíduo destas estimações. A questão que aflora deste procedimento é a existência de correlação entre os resíduos e as variáveis explicativas, implicando em diversos vieses, entre eles o de simultaneidade, de variáveis omitidas e de seleção. Neste trabalho foram abordados diversos métodos de estimação de funções de produção, entre eles os métodos de Olley e Pakes e Levinsohn e Petrin. Todos os métodos foram aplicados a diversos setores da economia. A escolha dos setores se deu com base na intensidade tecnológica de cada um, sendo então escolhidos quatro setores de alta intensidade tecnológica e quatro de baixa intensidade tecnológica. A hipótese básica, fio condutor deste trabalho, é que os diversos métodos de estimação de funções de produção apresentam diferentes resultados quando aplicados a setores de diferentes intensidades tecnológicas. Um dos objetivos deste estudo foi identificar se determinado método seria mais adequado a setores de baixa intensidade tecnológica, enquanto outro seria mais apropriado a setores de alta intensidade tecnológica. Conclui-se que o método de Olley e Pakes é levemente superior ao de Levinsohn e Petrin em ambos os grupos de setores, mas não a ponto de se descartar o segundo método. A sensibilidade dos resultados aos diferentes métodos sugere que todos devem ser consultados. Um resultado adicional deste trabalho é a constatação de que houve queda ou estagnação da produtividade nos setores selecionados para a década de 1996 a 2005.
|
54 |
N?o v?cio assint?tico, consist?ncia forte e uniformemente forte de estimadores do tipo n?cleo para dados direcionais sobre uma esfera unit?ria k-dimensionalSantos, Marconio Silva dos 28 June 2010 (has links)
Made available in DSpace on 2014-12-17T15:26:38Z (GMT). No. of bitstreams: 1
MarconioSS_DISSERT.pdf: 828358 bytes, checksum: d4bc4c24d61f5cdfad5c76519c34784e (MD5)
Previous issue date: 2010-06-28 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / In this work we studied the asymptotic unbiasedness, the strong and the uniform strong consistencies of a class of kernel estimators fn as an estimator of the density function f taking values on a k-dimensional sphere / Nesse trabalho estudamos o n?o-v?cio assint?tico, a consist?ncia forte e a consist?ncia uniformemente forte de um estimador do tipo n?cleo, que como a maioria dos estimadores ? constru?do com base em n observa??es i.i.d. X1,..., Xn de X, para a densidade f(x) de um vetor aleat?rio X que assume valores em uma esfera unit?ria k-dimensional
|
55 |
Estimation paramétriques et tests d'hypothèses pour des modèles avec plusieurs ruptures d'un processus de poisson / Parametric estimation and hypothesis testing for models with multiple change-point of poisson processTop, Alioune 20 June 2016 (has links)
Ce travail est consacré aux problèmes d’estimation paramétriques, aux tests d’hypothèses et aux tests d’ajustement pour les processus de Poisson non homogènes.Tout d’abord on a étudié deux modèles ayant chacun deux sauts localisés par un paramètre inconnu. Pour le premier modèle la somme des sauts est positive. Tandis que le second a un changement de régime et constant par morceaux. La somme de ses deux sauts est nulle. Ainsi pour chacun de ces modèles nous avons étudié les propriétés asymptotiques de l’estimateur bayésien (EB) et celui du maximum de vraisemblance(EMV). Nous avons montré la consistance, la convergence en distribution et la convergence des moments. En particulier l’estimateur bayésien est asymptotiquement efficace. Pour le second modèle nous avons aussi considéré le test d’une hypothèse simple contre une alternative unilatérale et nous avons décrit les propriétés asymptotiques (choix du seuil et puissance ) du test de Wald (WT)et du test du rapport de vraisemblance généralisé (GRLT).Les démonstrations sont basées sur la méthode d’Ibragimov et Khasminskii. Cette dernière repose sur la convergence faible du rapport de vraisemblance normalisé dans l’espace de Skorohod sous certains critères de tension des familles demesure correspondantes.Par des simulations numériques, les variances limites nous ont permis de conclure que l’EB est meilleur que celui du EMV. Lorsque la somme des sauts est nulle, nous avons développé une approche numérique pour le EMV.Ensuite on a considéré le problème de construction d’un test d’ajustement pour un modèle avec un paramètre d’échelle. On a montré que dans ce cas, le test de Cramer-von Mises est asymptotiquement ”parameter-free” et est consistent. / This work is devoted to the parametric estimation, hypothesis testing and goodnessof-fit test problems for non homogenous Poisson processes. First we consider two models having two jumps located by an unknown parameter.For the first model the sum of jumps is positive. The second is a model of switching intensity, piecewise constant and the sum of jumps is zero. Thus, for each model, we studied the asymptotic properties of the Bayesian estimator (BE) andthe likelihood estimator (MLE). The consistency, the convergence in distribution and the convergence of moments are shown. In particular we show that the BE is asymptotically efficient. For the second model we also consider the problem of asimple hypothesis testing against a one- sided alternative. The asymptotic properties (choice of the threshold and power) of Wald test (WT) and the generalized likelihood ratio test (GRLT) are described.For the proofs we use the method of Ibragimov and Khasminskii. This method is based on the weak convergence of the normalized likelihood ratio in the Skorohod space under some tightness criterion of the corresponding families of measure.By numerical simulations, the limiting variances of estimators allows us to conclude that the BE outperforms the MLE. In the situation where the sum of jumps is zero, we developed a numerical approach to obtain the MLE.Then we consider the problem of construction of goodness-of-test for a model with scale parameter. We show that the Cram´er-von Mises type test is asymptotically parameter-free. It is also consistent.
|
56 |
Sur l'estimation non paramétrique de la densité et du mode dans les modèles de données incomplètes et associées / Non parametric estimation of the density and mode for incompletes and associated dataFerrani, Yacine 23 November 2014 (has links)
Cette thèse porte sur l'étude des propriétés asymptotiques d'un estimateur non paramétrique de la densité de type Parzen-Rosenblatt, sous un modèle de données censurées à droite, vérifiant une structure de dépendance de type associé. Dans ce cadre, nous rappelons d'abord les résultats existants, avec détails, dans les cas i.i.d. et fortement mélangeant (α-mélange). Sous des conditions de régularité classiques, il est établi que la vitesse de coonvergence uniforme presque sûre de l'estimateur étudié, est optimale. Dans la partie dédiée aux résultats de cette thèse, deux résultats principaux et originaux sont présentés : le premier résultat concerne la convergence uniforme presque sûre de l'estimateur étudié sous l'hypothèse d'association. L'outil principal ayant permis l'obtention de la vitesse optimale est l'adaptation du Théorème de Doukhan et Neumann (2007), dans l'étude du terme des fluctuations (partie aléatoire) de l'écart entre l'estimateur considéré et le paramètre étudié (densité). Comme application, la convergence presque sûre de l'estimateur non paramétrique du mode est établie. Les résultats obtenus ont fait l'objet d'un article accepté pour publication dans Communications in Statistics-Theory and Methods ; Le deuxième résultat établit la normalité asymptotique de l'estimateur étudié sous le même modèle et constitute ainsi une extension au cas censuré, du résultat obtenu par Roussas (2000). Ce résultat est soumis pour publication. / This thesis deals with the study of asymptotic properties of e kernel (Parzen-Rosenblatt) density estimate under associated and censored model. In this setting, we first recall with details the existing results, studied in both i.i.d. and strong mixing condition (α-mixing) cases. Under mild standard conditions, it is established that the strong uniform almost sure convergence rate, is optimal. In the part dedicated to the results of this thesis, two main and original stated results are presented : the first result concerns the strong uniform consistency rate of the studied estimator under association hypothesis. The main tool having permitted to achieve the optimal speed, is the adaptation of the Theorem due to Doukhan and Neumann (2007), in studying the term of fluctuations (random part) of the gap between the considered estimator and the studied parameter (density). As an application, the almost sure convergence of the kernel mode estimator is established. The stated results have been accepted for publication in Communications in Statistics-Theory & Methods ; The second result establishes the asymptotic normality of the estimator studied under the same model and then, constitute an extension to the censored case, the result stated by Roussas (2000). This result is submitted for publication.
|
57 |
Étude des fonctions B-splines pour la fusion d'images segmentées par approche bayésienne / Study of B-spline function for fusion of segmented images by Bayesian approachHadrich Ben Arab, Atizez 02 December 2015 (has links)
Dans cette thèse nous avons traité le problème de l'estimation non paramétrique des lois de probabilités. Dans un premier temps, nous avons supposé que la densité inconnue f a été approchée par un mélange de base B-spline quadratique. Puis, nous avons proposé un nouvel estimateur de la densité inconnue f basé sur les fonctions B-splines quadratiques, avec deux méthodes d'estimation. La première est base sur la méthode du maximum de vraisemblance et la deuxième est basée sur la méthode d'estimation Bayésienne MAP. Ensuite, nous avons généralisé notre étude d'estimation dans le cadre du mélange et nous avons proposé un nouvel estimateur du mélange de lois inconnues basé sur les deux méthodes d'estimation adaptées. Dans un deuxième temps, nous avons traité le problème de la segmentation statistique semi supervisée des images en se basant sur le modèle de Markov caché et les fonctions B-splines. Nous avons montré l'apport de l'hybridation du modèle de Markov caché et les fonctions B-splines en segmentation statistique bayésienne semi supervisée des images. Dans un troisième temps, nous avons présenté une approche de fusion basée sur la méthode de maximum de vraisemblance, à travers l'estimation non paramétrique des probabilités, pour chaque pixel de l'image. Nous avons ensuite appliqué cette approche sur des images multi-spectrales et multi-temporelles segmentées par notre algorithme non paramétrique et non supervisé. / In this thesis we are treated the problem of nonparametric estimation probability distributions. At first, we assumed that the unknown density f was approximated by a basic mixture quadratic B-spline. Then, we proposed a new estimate of the unknown density function f based on quadratic B-splines, with two methods estimation. The first is based on the maximum likelihood method and the second is based on the Bayesian MAP estimation method. Then we have generalized our estimation study as part of the mixture and we have proposed a new estimator mixture of unknown distributions based on the adapted estimation of two methods. In a second time, we treated the problem of semi supervised statistical segmentation of images based on the hidden Markov model and the B-sline functions. We have shown the contribution of hybridization of the hidden Markov model and B-spline functions in unsupervised Bayesian statistical image segmentation. Thirdly, we presented a fusion approach based on the maximum likelihood method, through the nonparametric estimation of probabilities, for each pixel of the image. We then applied this approach to multi-spectral and multi-temporal images segmented by our nonparametric and unsupervised algorithm.
|
58 |
Estimation of the mincerian wage model addressing its specification and different econometric issues / Estimation de la relation de salaires de Mincer : choix de specification et enjeux économétriquesBhatti, Sajjad Haider 03 December 2012 (has links)
Dans cette thèse, notre cadre d’analyse repose sur l’estimation de la fonction de gain proposée par Mincer (1974). Le but est de reprendre la spécification de ce modèle en s'intéressant aux problèmes d’estimation liés. Le but est aussi une comparaison pour les marchés du travail français et pakistanais en utilisant une spécification plus robuste.[...] Toutefois, suivant une nombreuse littérature, la simple estimation du modèle de Mincer est biaisée, ceci en raison de différents problèmes. [...] Dans la présente thèse deux nouvelles variables instrumentales sont proposées dans une application de type IV2SLS. [...] D'après l'analyse menée dans cette thèse, la seconde variable instrumentale apparaît être la plus appropriée, cela puisqu’elle possède un faible effet direct sur la variable de réponse par rapport à la première variable instrumentale proposée. Par ailleurs, la définition de cette variable instrumentale est plus robuste que la première variable instrumentale. [...] Pour éliminer une autre source potentielle de biais, dans l'estimation du modèle de Mincer, i.e. le biais de sélection, la classique méthode à deux étapes de correction proposée par Heckman (1979) a été appliquée. Par cette méthode le biais de sélection a été trouvé positif et statistiquement significatif pour les deux pays. [...] Dans la littérature relative à l'estimation du modèle de Mincer, nous avons noté qu’il y a très peu d'études qui corrigent les deux sources de biais simultanément et aucune étude de cette nature n’existe pas pour la France ou le Pakistan.[...] Donc, en réponse, nous estimons ici une seule spécification corrigeant de manière simultanée le biais de sélection de l'échantillon et le biais d'endogénéité de l'éducation. Nous avons également noté, toujours d'après la littérature, que la robustesse des hypothèses du modèle linéaire utilisé pour estimer le modèle de Mincer a rarement été discutée et testée.[...] Nous avons donc testé formellement la validité de l'hypothèse d'homoscédasticité, cela en appliquant le test de White (1980).[...] Donc, afin d'éviter les effets de l'hétéroscédasticité des erreurs sur le processus d'estimation, nous avons réalisé une estimation adaptative du modèle de Mincer.[...]Basées sur la performance globale des modèles paramétrique et semi-paramétrique, nous avons constaté que, pour la France, les deux formes d'estimation apparaissent bien spécifiées. Toujours dans l'idée de maintenir la facilité d’estimation, le modèle paramétrique a été sélectionné afin d'être le plus approprié pour les données françaises. Pour l'analyse du Pakistan, nous avons conclu que le modèle semi-paramétrique produit des résultats en désaccord avec l’agrément général au Pakistan, mais aussi en rapport à la littérature internationale pour certaines des variables.[...] Donc, comme pour les données françaises, pour les données pakistanaises, nous avons aussi choisi le modèle paramétrique comme le plus robuste qu’afin d'estimer les impacts exercés par les différents facteurs explicatifs sur le processus de la détermination des salaires. Pour les deux pays, après avoir comparé les versions simples et adaptatives du modèle paramétrique et du modèle semi-paramétrique, nous avons trouvé que le modèle paramétrique dans la spécification adaptative est plus performant dans l’objectif d'estimer les impacts des différents facteurs contributifs au processus de détermination des salaires.Enfin, nous avons estimé le modèle de Mincer dans une forme paramétrique choisie de ces estimations, comme le plus approprié en rapport à la forme semi-paramétrique, et à partir de l'analyse de régression en moyenne, comme pour le modèle de régression par quantile.[...]La méthode de régression par quantile a révélé que la plupart des variables explicatives influencent les gains salariaux, ceci différemment suivant les différentes parties de la distribution des salaires, pour les deux marchés du travail considérés. / In the present doctoral thesis, we estimated Mincer’s (1974) semi logarithmic wage function for the French and Pakistani labour force data. This model is considered as a standard tool in order to estimate the relationship between earnings/wages and different contributory factors. Despite of its vide and extensive use, simple estimation of the Mincerian model is biased because of different econometric problems. The main sources of bias noted in the literature are endogeneity of schooling, measurement error, and sample selectivity. We have tackled the endogeneity and measurement error biases via instrumental variables two stage least squares approach for which we have proposed two new instrumental variables. The first instrumental variable is defined as "the average years of schooling in the family of the concerned individual" and the second instrumental variable is defined as "the average years of schooling in the country, of particular age group, of particular gender, at the particular time when an individual had joined the labour force". Schooling is found to be endogenous for the both countries. Comparing two said instruments we have selected second instrument to be more appropriate. We have applied the Heckman (1979) two-step procedure to eliminate possible sample selection bias which found to be significantly positive for the both countries which means that in the both countries, people who decided not to participate in labour force as wage worker would have earned less than participants if they had decided to work as wage earner. We have estimated a specification that tackled endogeneity and sample selectivity problems together as we found in respect to present literature relative scarcity of such studies all over the globe in general and absence of such studies for France and Pakistan, in particular. Differences in coefficients proved worth of such specification. We have also estimated model semi-parametrically, but contrary to general norm in the context of the Mincerian model, our semi-parametric estimation contained non-parametric component from first-stage schooling equation instead of non-parametric component from selection equation. For both countries, we have found parametric model to be more appropriate. We found errors to be heteroscedastic for the data from both countries and then applied adaptive estimation to control adverse effects of heteroscedasticity. Comparing simple and adaptive estimations, we prefer adaptive specification of parametric model for both countries. Finally, we have applied quantile regression on the selected model from mean regression. Quantile regression exposed that different explanatory factors influence differently in different parts of the wage distribution of the two countries. For both Pakistan and France, it would be the first study that corrected both sample selectivity and endogeneity in single specification in quantile regression framework
|
59 |
Non-parametric methodologies for reconstruction and estimation in nonlinear state-space models / Méthodologies non-paramétriques pour la reconstruction et l’estimation dans les modèles d’états non linéairesChau, Thi Tuyet Trang 26 February 2019 (has links)
Le volume des données disponibles permettant de décrire l’environnement, en particulier l’atmosphère et les océans, s’est accru à un rythme exponentiel. Ces données regroupent des observations et des sorties de modèles numériques. Les observations (satellite, in situ, etc.) sont généralement précises mais sujettes à des erreurs de mesure et disponibles avec un échantillonnage spatio-temporel irrégulier qui rend leur exploitation directe difficile. L’amélioration de la compréhension des processus physiques associée à la plus grande capacité des ordinateurs ont permis des avancées importantes dans la qualité des modèles numériques. Les solutions obtenues ne sont cependant pas encore de qualité suffisante pour certaines applications et ces méthodes demeurent lourdes à mettre en œuvre. Filtrage et lissage (les méthodes d’assimilation de données séquentielles en pratique) sont développés pour abonder ces problèmes. Ils sont généralement formalisées sous la forme d’un modèle espace-état, dans lequel on distingue le modèle dynamique qui décrit l’évolution du processus physique (état), et le modèle d’observation qui décrit le lien entre le processus physique et les observations disponibles. Dans cette thèse, nous abordons trois problèmes liés à l’inférence statistique pour les modèles espace-états: reconstruction de l’état, estimation des paramètres et remplacement du modèle dynamique par un émulateur construit à partir de données. Pour le premier problème, nous introduirons tout d’abord un algorithme de lissage original qui combine les algorithmes Conditional Particle Filter (CPF) et Backward Simulation (BS). Cet algorithme CPF-BS permet une exploration efficace de l’état de la variable physique, en raffinant séquentiellement l’exploration autour des trajectoires qui respectent le mieux les contraintes du modèle dynamique et des observations. Nous montrerons sur plusieurs modèles jouets que, à temps de calcul égal, l’algorithme CPF-BS donne de meilleurs résultats que les autres CPF et l’algorithme EnKS stochastique qui est couramment utilisé dans les applications opérationnelles. Nous aborderons ensuite le problème de l’estimation des paramètres inconnus dans les modèles espace-état. L’algorithme le plus usuel en statistique pour estimer les paramètres d’un modèle espace-état est l’algorithme EM qui permet de calculer itérativement une approximation numérique des estimateurs du maximum de vraisemblance. Nous montrerons que les algorithmes EM et CPF-BS peuvent être combinés efficacement pour estimer les paramètres d’un modèle jouet. Pour certaines applications, le modèle dynamique est inconnu ou très coûteux à résoudre numériquement mais des observations ou des simulations sont disponibles. Il est alors possible de reconstruire l’état conditionnellement aux observations en utilisant des algorithmes de filtrage/lissage dans lesquels le modèle dynamique est remplacé par un émulateur statistique construit à partir des observations. Nous montrerons que les algorithmes EM et CPF-BS peuvent être adaptés dans ce cadre et permettent d’estimer de manière non-paramétrique le modèle dynamique de l’état à partir d'observations bruitées. Pour certaines applications, le modèle dynamique est inconnu ou très coûteux à résoudre numériquement mais des observations ou des simulations sont disponibles. Il est alors possible de reconstruire l’état conditionnellement aux observations en utilisant des algorithmes de filtrage/lissage dans lesquels le modèle dynamique est remplacé par un émulateur statistique construit à partir des observations. Nous montrerons que les algorithmes EM et CPF-BS peuvent être adaptés dans ce cadre et permettent d’estimer de manière non-paramétrique le modèle dynamique de l’état à partir d'observations bruitées. Enfin, les algorithmes proposés sont appliqués pour imputer les données de vent (produit par Météo France). / The amount of both observational and model-simulated data within the environmental, climate and ocean sciences has grown at an accelerating rate. Observational (e.g. satellite, in-situ...) data are generally accurate but still subject to observational errors and available with a complicated spatio-temporal sampling. Increasing computer power and understandings of physical processes have permitted to advance in models accuracy and resolution but purely model driven solutions may still not be accurate enough. Filtering and smoothing (or sequential data assimilation methods) have developed to tackle the issues. Their contexts are usually formalized under the form of a space-state model including the dynamical model which describes the evolution of the physical process (state), and the observation model which describes the link between the physical process and the available observations. In this thesis, we tackle three problems related to statistical inference for nonlinear state-space models: state reconstruction, parameter estimation and replacement of the dynamic model by an emulator constructed from data. For the first problem, we will introduce an original smoothing algorithm which combines the Conditional Particle Filter (CPF) and Backward Simulation (BS) algorithms. This CPF-BS algorithm allows for efficient exploration of the state of the physical variable, sequentially refining exploration around trajectories which best meet the constraints of the dynamic model and observations. We will show on several toy models that, at the same computation time, the CPF-BS algorithm gives better results than the other CPF algorithms and the stochastic EnKS algorithm which is commonly used in real applications. We will then discuss the problem of estimating unknown parameters in state-space models. The most common statistical algorithm for estimating the parameters of a space-state model is based on EM algorithm, which makes it possible to iteratively compute a numerical approximation of the maximum likelihood estimators. We will show that the EM and CPF-BS algorithms can be combined to effectively estimate the parameters in toy models. In some applications, the dynamical model is unknown or very expensive to solve numerically but observations or simulations are available. It is thence possible to reconstruct the state conditionally to the observations by using filtering/smoothing algorithms in which the dynamical model is replaced by a statistical emulator constructed from the observations. We will show that the EM and CPF-BS algorithms can be adapted in this framework and allow to provide non-parametric estimation of the dynamic model of the state from noisy observations. Finally the proposed algorithms are applied to impute wind data (produced by Méteo France).
|
60 |
Estimation de la loi du milieu d'une marche aléatoire en milieu aléatoire / Estimation of the environment distribution of a random walk in random environmentHavet, Antoine 19 August 2019 (has links)
Introduit dans les années 1960, le modèle de la marche aléatoire en milieu aléatoire i.i.d. sur les entiers relatifs (ou MAMA) a récemment été l'objet d'un regain d'intérêt dans la communauté statistique.Divers travaux se sont en particulier intéressés à la question de l'estimation de la loi du milieu à partir de l'observation d'une unique trajectoire de la MAMA.Cette thèse s'inscrit dans cette dynamique.Dans un premier temps, nous considérons le problème d'estimation d'un point de vue fréquentiste. Lorsque la MAMA est transiente à droite ou récurrente, nous construisons le premier estimateur non paramétrique de la densité de la loi du milieu et obtenons une majoration du risque associé mesuré en norme infinie.Dans un deuxième temps, nous envisageons le problème d'estimation sous un angle Bayésien. Lorsque la MAMA est transiente à droite, nous démontrons la consistance à posteriori de l'estimateur Bayésien de la loi du milieu.La principale difficulté mathématique de la thèse a été l'élaboration des outils nécessaires à la preuve du résultat de consistance bayésienne.Nous démontrons pour cela une version quantitative de l'inégalité de concentration de type Mac Diarmid pour chaînes de Markov.Nous étudions également le temps de retour en 0 d'un processus de branchement en milieu aléatoire avec immigration. Nous montrons l'existence d'un moment exponentiel fini uniformément valable sur une classe de processus de branchement en milieu aléatoire. Le processus de branchement en milieu aléatoire constituant une chaîne de Markov, ce résultat permet alors d'expliciter la dépendance des constantes de l'inégalité de concentration en fonction des caractéristiques de ce processus. / Introduced in the 1960s, the model of random walk in i.i.d. environment on integers (or RWRE) raised only recently interest in the statistical community. Various works have in particular focused on the estimation of the environment distribution from a single trajectory of the RWRE.This thesis extends the advances made in those works and offers new approaches to the problem.First, we consider the estimation problem from a frequentist point of view. When the RWRE is transient to the right or recurrent, we build the first non-parametric estimator of the density of the environment distribution and obtain an upper-bound of the associated risk in infinite norm.Then, we consider the estimation problem from a Bayesian perspective. When the RWRE is transient to the right, we prove the posterior consistency of the Bayesian estimator of the environment distribution.The main difficulty of the thesis was to develop the tools necessary to the proof of Bayesian consistency.For this purpose, we demonstrate a quantitative version of a Mac Diarmid's type concentration inequality for Markov chains.We also study the return time to 0 of a branching process with immigration in random environment (or BPIRE). We show the existence of a finite exponential moment uniformly valid on a class of BPIRE. The BPIRE being a Markov chain, this result enables then to make explicit the dependence of the constants of the concentration inequality with respect to the characteristics of the BPIRE.
|
Page generated in 0.1137 seconds