1 |
Re-sampling in instrumental variables regressionKoziuk, Andzhey 13 July 2020 (has links)
Diese Arbeit behandelt die Instrumentalvariablenregression im Kontext der Stichprobenwiederholung. Es wird ein Rahmen geschaffen, der das Ziel der Inferenz identifiziert. Diese Abhandlung versucht die Instrumentalvariablenregression von einer neuen Perspektive aus zu motivieren. Dabei wird angenommen, dass das Ziel der Schätzung von zwei Faktoren gebildet wird, einer Umgebung und einer zu einem internen Model spezifischen Struktur.
Neben diesem Rahmen entwickelt die Arbeit eine Methode der Stichprobenwiederholung, die geeignet für das Testen einer linearen Hypothese bezüglich der Schätzung des Ziels ist. Die betreffende technische Umgebung und das Verfahren werden im Zusammenhang in der Einleitung und im Hauptteil der folgenden Arbeit erklärt. Insbesondere, aufbauend auf der Arbeit von Spokoiny, Zhilova 2015, rechtfertigt und wendet diese Arbeit ein numerisches ’multiplier-bootstrap’ Verfahren an, um nicht asymptotische Konfidenzintervalle für den Hypothesentest zu konstruieren. Das Verfahren und das zugrunde liegende statistische Werkzeug wurden so gewählt und angepasst, um ein im Model auftretendes und von asymptotischer Analysis übersehenes Problem zu erklären, das formal als Schwachheit der Instrumentalvariablen bekannt ist. Das angesprochene Problem wird jedoch durch den endlichen Stichprobenansatz von Spokoiny 2014 adressiert. / Instrumental variables regression in the context of a re-sampling is considered. In the work a framework is built to identify an inferred target function. It attempts to approach an idea of a non-parametric regression and motivate instrumental variables regression from a new perspective. The framework assumes a target of estimation to be formed by two factors - an environment and an internal, model specific structure.
Aside from the framework, the work develops a re-sampling method suited to test linear hypothesis on the target. Particular technical environment and procedure are given and explained in the introduction and in the body of the work. Specifically, following the work of Spokoiny, Zhilova 2015, the writing justifies and applies numerically 'multiplier bootstrap' procedure to construct confidence intervals for the testing problem. The procedure and underlying statistical toolbox were chosen to account for an issue appearing in the model and overlooked by asymptotic analysis, that is weakness of instrumental variables. The issue, however, is addressed by design of the finite sample approach by Spokoiny 2014.
|
2 |
Tests de type fonction caractéristique en inférence de copulesBahraoui, Tarik January 2017 (has links)
Une classe générale de statistiques de rangs basées sur la fonction caractéristique est introduite afin de tester l'hypothèse composite d'appartenance à une famille de copules multidimensionnelles. Ces statistiques d'adéquation sont définies comme des distances fonctionnelles de type L_2 pondérées entre une version non paramétrique et une version semi-paramétrique de la fonction caractéristique que l'on peut associer à une copule. Il est démontré que ces statistiques de test se comportent asymptotiquement comme des V-statistiques dégénérées d'ordre quatre et que leurs lois limites s'expriment en termes de sommes pondérées de variables khi-deux indépendantes. La convergence des tests sous des alternatives générales est établie, de même que la validité du bootstrap paramétrique pour le calcul de valeurs critiques. Le comportement des nouveaux tests sous des tailles d'échantillons faibles et modérées est étudié à l'aide de simulations et est comparé à celui d'un test concurrent fondé sur la copule empirique. La méthodologie est finalement illustrée sur un jeu de données à plusieurs dimensions.
|
3 |
Distributed Bootstrap for Massive DataYang Yu (12466911) 27 April 2022 (has links)
<p>Modern massive data, with enormous sample size and tremendous dimensionality, are usually stored and processed using a cluster of nodes in a master-worker architecture. A shortcoming of this architecture is that inter-node communication can be over a thousand times slower than intra-node computation, which makes communication efficiency a desirable feature when developing distributed learning algorithms. In this dissertation, we tackle this challenge and propose communication-efficient bootstrap methods for simultaneous inference in the distributed computational framework.</p>
<p> </p>
<p>First, we propose two generic distributed bootstrap methods, \texttt{k-grad} and \texttt{n+k-1-grad}, which apply multiplier bootstrap at the master node on the gradients communicated across nodes. Based on them, we develop a communication-efficient method of producing an $\ell_\infty$-norm confidence region using distributed data with dimensionality not exceeding the local sample size. Our theory establishes the communication efficiency by providing a lower bound on the number of communication rounds $\tau_{\min}$ that warrants the statistical accuracy and efficiency and showing that $\tau_{\min}$ only increases logarithmically with the number of workers and the dimensionality. Our simulation studies validate our theory.</p>
<p> </p>
<p>Then, we extend \texttt{k-grad} and \texttt{n+k-1-grad} to the high-dimensional regime and propose a distributed bootstrap method for simultaneous inference on high-dimensional distributed data. The method produces an $\ell_\infty$-norm confidence region based on a communication-efficient de-biased lasso, and we propose an efficient cross-validation approach to tune the method at every iteration. We theoretically prove a lower bound on the number of communication rounds $\tau_{\min}$ that warrants the statistical accuracy and efficiency. Furthermore, $\tau_{\min}$ only increases logarithmically with the number of workers and the intrinsic dimensionality, while nearly invariant to the nominal dimensionality. We test our theory by extensive simulation studies and a variable screening task on a semi-synthetic dataset based on the US Airline On-Time Performance dataset.</p>
|
4 |
Dimension Flexible and Adaptive Statistical LearningKhowaja, Kainat 02 March 2023 (has links)
Als interdisziplinäre Forschung verbindet diese Arbeit statistisches Lernen mit aktuellen fortschrittlichen Methoden, um mit hochdimensionalität und Nichtstationarität umzugehen. Kapitel 2 stellt Werkzeuge zur Verfügung, um statistische Schlüsse auf die Parameterfunktionen von Generalized Random Forests zu ziehen, die als Lösung der lokalen Momentenbedingung identifiziert wurden. Dies geschieht entweder durch die hochdimensionale Gaußsche Approximationstheorie oder durch Multiplier-Bootstrap. Die theoretischen Aspekte dieser beiden Ansätze werden neben umfangreichen Simulationen und realen Anwendungen im Detail diskutiert. In Kapitel 3 wird der lokal parametrische Ansatz auf zeitvariable Poisson-Prozesse ausgeweitet, um ein Instrument zur Ermittlung von Homogenitätsintervallen innerhalb der Zeitreihen von Zähldaten in einem nichtstationären Umfeld bereitzustellen. Die Methodik beinhaltet rekursive Likelihood-Ratio-Tests und hat ein Maximum in der Teststatistik mit unbekannter Verteilung. Um sie zu approximieren und den kritischen Wert zu finden, verwenden wir den Multiplier-Bootstrap und demonstrieren den Nutzen dieses Algorithmus für deutsche M\&A Daten. Kapitel 4 befasst sich mit der Erstellung einer niedrigdimensionalen Approximation von hochdimensionalen Daten aus dynamischen Systemen. Mithilfe der Resampling-Methoden, der Hauptkomponentenanalyse und Interpolationstechniken konstruieren wir reduzierte dimensionale Ersatzmodelle, die im Vergleich zu den ursprünglichen hochauflösenden Modellen schnellere Ausgaben liefern. In Kapitel 5 versuchen wir, die Verteilungsmerkmale von Kryptowährungen mit den von ihnen zugrunde liegenden Mechanismen zu verknüpfen. Wir verwenden charakteristikbasiertes spektrales Clustering, um Kryptowährungen mit ähnlichem Verhalten in Bezug auf Preis, Blockzeit und Blockgröße zu clustern, und untersuchen diese Cluster, um gemeinsame Mechanismen zwischen verschiedenen Krypto-Clustern zu finden. / As an interdisciplinary research, this thesis couples statistical learning with current advanced methods to deal with high dimensionality and nonstationarity. Chapter 2 provides tools to make statistical inference (uniformly over covariate space) on the parameter functions from Generalized Random Forests identified as the solution of the local moment condition. This is done by either highdimensional Gaussian approximation theorem or via multiplier bootstrap. The theoretical aspects of both of these approaches are discussed in detail alongside extensive simulations and real life applications. In Chapter 3, we extend the local parametric approach to time varying Poisson processes, providing a tool to find intervals of homogeneity within the time series of count data in a nonstationary setting. The methodology involves recursive likelihood ratio tests and has a maxima in test statistic with unknown distribution. To approximate it and find the critical value, we use multiplier bootstrap and demonstrate the utility of this algorithm on German M\&A data. Chapter 4 is concerned with creating low dimensional approximation of high dimensional data from dynamical systems. Using various resampling methods, Principle Component Analysis, and interpolation techniques, we construct reduced dimensional surrogate models that provide faster responses as compared to the original high fidelity models. In Chapter 5, we aim to link the distributional characteristics of cryptocurrencies to their underlying mechanism. We use characteristic based spectral clustering to cluster cryptos with similar behaviour in terms of price, block time, and block size, and scrutinize these clusters to find common mechanisms between various crypto clusters.
|
5 |
Bootstrap confidence sets under model misspecificationZhilova, Mayya 07 December 2015 (has links)
Diese Arbeit befasst sich mit einem Multiplier-Bootstrap Verfahren für die Konstruktion von Likelihood-basierten Konfidenzbereichen in zwei verschiedenen Fällen. Im ersten Fall betrachten wir das Verfahren für ein einzelnes parametrisches Modell und im zweiten Fall erweitern wir die Methode, um Konfidenzbereiche für eine ganze Familie von parametrischen Modellen simultan zu schätzen. Theoretische Resultate zeigen die Validität der Bootstrap-Prozedur für eine potenziell begrenzte Anzahl an Beobachtungen, eine große Anzahl an betrachteten parametrischen Modellen, wachsende Parameterdimensionen und eine mögliche Misspezifizierung der parametrischen Annahmen. Im Falle eines einzelnen parametrischen Modells funktioniert die Bootstrap-Approximation, wenn die dritte Potenz der Parameterdimension ist kleiner als die Anzahl an Beobachtungen. Das Hauptresultat über die Validität des Bootstrap gilt unter der sogenannten Small-Modeling-Bias Bedingung auch im Falle, dass das parametrische Modell misspezifiert ist. Wenn das wahre Modell signifikant von der betrachteten parametrischen Familie abweicht, ist das Bootstrap Verfahren weiterhin anwendbar, aber es führt zu etwas konservativeren Schätzungen: die Konfidenzbereiche werden durch den Modellfehler vergrößert. Für die Konstruktion von simultanen Konfidenzbereichen entwickeln wir ein Multiplier-Bootstrap Verfahren um die Quantile der gemeinsamen Verteilung der Likelihood-Quotienten zu schätzen und eine Multiplizitätskorrektur der Konfidenzlevels vorzunehmen. Theoretische Ergebnisse zeigen die Validität des Verfahrens; die resultierende Approximationsfehler hängt von der Anzahl an betrachteten parametrischen Modellen logarithmisch. Hier betrachten wir auch wieder den Fall, dass die parametrischen Modelle misspezifiziert sind. Wenn die Misspezifikation signifikant ist, werden Bootstrap-generierten kritischen Werte größer als die wahren Werte sein und die Bootstrap-Konfidenzmengen sind konservativ. / The thesis studies a multiplier bootstrap procedure for construction of likelihood-based confidence sets in two cases. The first one focuses on a single parametric model, while the second case extends the construction to simultaneous confidence estimation for a collection of parametric models. Theoretical results justify the validity of the bootstrap procedure for a limited sample size, a large number of considered parametric models, growing parameters’ dimensions, and possible misspecification of the parametric assumptions. In the case of one parametric model the bootstrap approximation works if the cube of the parametric dimension is smaller than the sample size. The main result about bootstrap validity continues to apply even if the underlying parametric model is misspecified under a so-called small modelling bias condition. If the true model deviates significantly from the considered parametric family, the bootstrap procedure is still applicable but it becomes conservative: the size of the constructed confidence sets is increased by the modelling bias. For the problem of construction of simultaneous confidence sets we suggest a multiplier bootstrap procedure for estimating a joint distribution of the likelihood ratio statistics, and for adjustment of the confidence level for multiplicity. Theoretical results state the bootstrap validity; a number of parametric models enters a resulting approximation error logarithmically. Here we also consider the case when parametric models are misspecified. If the misspecification is significant, then the bootstrap critical values exceed the true ones and the bootstrap confidence set becomes conservative. The theoretical approach includes non-asymptotic square-root Wilks theorem, Gaussian approximation of Euclidean norm of a sum of independent vectors, comparison and anti-concentration bounds for Euclidean norm of Gaussian vectors. Numerical experiments for misspecified regression models nicely confirm our theoretical results.
|
6 |
Modelling Financial and Social NetworksKlochkov, Yegor 04 October 2019 (has links)
In dieser Arbeit untersuchen wir einige Möglichkeiten, financial und soziale Netzwerke zu analysieren, ein Thema, das in letzter Zeit in der ökonometrischen Literatur große Beachtung gefunden hat.
Kapitel 2 untersucht den Risiko-Spillover-Effekt über das in White et al. (2015) eingeführte multivariate bedingtes autoregressives Value-at-Risk-Modell. Wir sind an der Anwendung auf nicht stationäre Zeitreihen interessiert und entwickeln einen sequentiellen statistischen Test, welcher das größte verfügbare Homogenitätsintervall auswählt. Unser Ansatz basiert auf der Changepoint-Teststatistik und wir verwenden einen neuartigen Multiplier Bootstrap Ansatz zur Bewertung der kritischen Werte.
In Kapitel 3 konzentrieren wir uns auf soziale Netzwerke. Wir modellieren Interaktionen zwischen Benutzern durch ein Vektor-Autoregressivmodell, das Zhu et al. (2017) folgt. Um für die hohe Dimensionalität kontrollieren, betrachten wir ein Netzwerk, das einerseits von Influencers und Andererseits von Communities gesteuert wird, was uns hilft, den autoregressiven Operator selbst dann abzuschätzen, wenn die Anzahl der aktiven Parameter kleiner als die Stichprobegröße ist.
Kapitel 4 befasst sich mit technischen Tools für die Schätzung des Kovarianzmatrix und Kreuzkovarianzmatrix. Wir entwickeln eine neue Version von der Hanson-Wright- Ungleichung für einen Zufallsvektor mit subgaußschen Komponenten. Ausgehend von unseren Ergebnissen zeigen wir eine Version der dimensionslosen Bernstein-Ungleichung, die für Zufallsmatrizen mit einer subexponentiellen Spektralnorm gilt. Wir wenden diese Ungleichung auf das Problem der Schätzung der Kovarianzmatrix mit fehlenden Beobachtungen an und beweisen eine verbesserte Version des früheren Ergebnisses von (Lounici 2014). / In this work we explore some ways of studying financial and social networks, a topic that has recently received tremendous amount of attention in the Econometric literature.
Chapter 2 studies risk spillover effect via Multivariate Conditional Autoregressive Value at Risk model introduced in White et al. (2015). We are particularly interested in application to non-stationary time series and develop a sequential test procedure that chooses the largest available interval of homogeneity. Our approach is based on change point test statistics and we use a novel Multiplier Bootstrap approach for the evaluation of critical values.
In Chapter 3 we aim at social networks. We model interactions between users through a vector autoregressive model, following Zhu et al. (2017). To cope with high dimensionality we consider a network that is driven by influencers on one side, and communities on the other, which helps us to estimate the autoregressive operator even when the number of active parameters is smaller than the sample size.
Chapter 4 is devoted to technical tools related to covariance cross-covariance estimation. We derive uniform versions of the Hanson-Wright inequality for a random vector with independent subgaussian components. The core technique is based on the entropy method combined with truncations of both gradients of functions of interest and of the coordinates itself. We provide several applications of our techniques: we establish a version of the standard Hanson-Wright inequality, which is tighter in some regimes. Extending our results we show a version of the dimension-free matrix Bernstein inequality that holds for random matrices with a subexponential spectral norm. We apply the derived inequality to the problem of covariance estimation with missing observations and prove an improved high probability version of the recent result of Lounici (2014).
|
Page generated in 0.0572 seconds