Global ETD Search

1	Sample Size Determination in Multivariate Parameters With Applications to Nonuniform Subsampling in Big Data High Dimensional Linear Regression Wang, Yu 12 1900 (has links) Indiana University-Purdue University Indianapolis (IUPUI) / Subsampling is an important method in the analysis of Big Data. Subsample size determination (SSSD) plays a crucial part in extracting information from data and in breaking the challenges resulted from huge data sizes. In this thesis, (1) Sample size determination (SSD) is investigated in multivariate parameters, and sample size formulas are obtained for multivariate normal distribution. (2) Sample size formulas are obtained based on concentration inequalities. (3) Improved bounds for McDiarmid’s inequalities are obtained. (4) The obtained results are applied to nonuniform subsampling in Big Data high dimensional linear regression. (5) Numerical studies are conducted. The sample size formula in univariate normal distribution is a melody in elementary statistics. It appears that its generalization to multivariate normal (or more generally multivariate parameters) hasn’t been caught much attention to the best of our knowledge. In this thesis, we introduce a definition for SSD, and obtain explicit formulas for multivariate normal distribution, in gratifying analogy of the sample size formula in univariate normal. Commonly used concentration inequalities provide exponential rates, and sample sizes based on these inequalities are often loose. Talagrand (1995) provided the missing factor to sharpen these inequalities. We obtained the numeric values of the constants in the missing factor and slightly improved his results. Furthermore, we provided the missing factor in McDiarmid’s inequality. These improved bounds are used to give shrunken sample sizes. Sample size determination Concentration inequality Subsampling
2	Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et Modèles statistiques appliqués à l'économie et à la finance Cornec, Matthieu 04 June 2009 (has links) (PDF) L'objectif initial de la première partie de cette thèse est d'éclairer par la théorie une pratique communément répandue au sein des practiciens pour l'audit (ou risk assessment en anglais) de méthodes prédictives (ou prédicteurs) : la validation croisée (ou cross-validation en anglais). La seconde partie s'inscrit principalement dans la théorie des processus et son apport concerne essentiellement les applications à des données économiques et financières. Le chapitre 1 s'intéresse au cas classique de prédicteurs de Vapnik-Chernovenkis dimension (VC-dimension dans la suite) finie obtenus par minimisation du risque empirique. Le chapitre 2 s'intéresse donc à une autre classe de prédicteurs plus large que celle du chapitre 1 : les estimateurs stables. Dans ce cadre, nous montrons que les méthodes de validation croisée sont encore consistantes. Dans le chapitre 3, nous exhibons un cas particulier important le subagging où la méthode de validation croisée permet de construire des intervalles de confiance plus étroits que la méthodologie traditionnelle issue de la minimisation du risque empirique sous l'hypothèse de VC-dimension finie. Le chapitre 4 propose un proxy mensuel du taux de croissance du Produit Intérieur Brut français qui est disponible officiellement uniquement à fréquence trimestrielle. Le chapitre 5 décrit la méthodologie pour construire un indicateur synthétique mensuel dans les enquêtes de conjoncture dans le secteur des services en France. L'indicateur synthétique construit est publié mensuellement par l'Insee dans les Informations Rapides. Le chapitre 6 décrit d'un modèle semi-paramétrique de prix spot d'électricité sur les marchés de gros ayant des applications dans la gestion du risque de la production d'électricité. [MATH] Mathematics cross-validation stability concentration inequality bagging Empirical risk minimisation Kalman filter
3	Inégalités de concentration pour des fonctions de variables aléatoires indépendantes / Concentration inequalities for functions of independent random variables Marchina, Antoine 08 December 2017 (has links) Cette thèse porte sur l'étude de la concentration autour de la moyenne de fonctions de variables aléatoires indépendantes à l'aide de techniques de martingales et d'inégalités de comparaison.Dans une première partie, nous prouvons des inégalités de comparaison pour des fonctions générales séparément convexes de variables aléatoires indépendantes non nécessairement bornées. Ces résultats sont établis à partir de nouvelles inégalités de comparaison dans des classes de fonctions convexes (contenant, en particulier, les fonctions exponentielles croissantes) pour des variables aléatoires réelles uniquement dominées stochastiquement.Dans la seconde partie, nous nous intéressons aux suprema de processus empiriques associés à des observations i.i.d. Le point clé de cette partie est un résultat d'échangeabilité des variables. Nous montrons d'abord des inégalités de type Fuk-Nagaev avec constantes explicites lorsque les fonctions de la classe ne sont pas bornées. Ensuite, nous prouvons de nouvelles inégalités de déviation avec une meilleure fonction de taux dans les bandes de grandes déviations dans le cas des classes de fonctions uniformément bornées. Nous donnons également des inégalités de comparaison de moments généralisés dans les cas uniformément borné et uniformément majoré. Enfin, les résultats de la première partie nous permettent d'obtenir une inégalité de concentration lorsque les fonctions de la classe ont une variance infinie. / This thesis deals with concentration properties around the mean of functions of independent random variables using martingale techniques and comparison inequalities.In the first part, we prove comparison inequalities for general separately convex functions of independent and non necessarily bounded random variables. These results are based on new comparison inequalities in convex classes of functions (including, in particular, the increasing exponential functions) for real-valued random variables which are only stochastically dominated.In the second part, we are interested in suprema of empirical processes associated to i.i.d. random variables. The key point of this part is a result of exchangeability of variables. We first give Fuk-Nagaev type inequalities with explicit constants when the functions of the considered class are unbounded. Next, we provide new deviation inequalities with an improved rate function in the large deviations bandwidth in the case of classes of uniformly bounded functions. We also provide generalized moment comparison inequalities in uniformly bounded and uniformly bounded from above cases. Finally, results from the first part allow us to prove a concentration inequality when the functions of the class have an infinite variance. Inégalité de concentration Indépendance Inégalité de comparaison Martingale Processus empirique Concentration inequality Independent data Comparison inequality Martingale Empirical process 519.28
4	Tests d’indépendance par bootstrap et permutation : étude asymptotique et non-asymptotique. Application en neurosciences / Tests of independence by bootstrap and permutation : an asymptotic and non-asymptotic study. Application to neurosciences. Albert, Mélisande 16 November 2015 (has links) Premièrement, nous construisons de tels tests basés sur des approches par bootstrap ou par permutation, et étudions leurs propriétés asymptotiques dans un cadre de processus ponctuels, à travers l'étude du comportement asymptotique des lois conditionnelles des statistiques de test bootstrappée et permutée, sous l'hypothèse nulle ainsi que toute alternative. Nous les validons en pratique par simulation et les comparons à des méthodes classiques en neurosciences. Ensuite, nous nous concentrons sur les tests par permutation, connus pour contrôler non-asymptotiquement leur niveau. Les p-valeurs basées sur la notion de coïncidences avec délai, sont implémentées dans une procédure de tests multiples, appelée méthode Permutation Unitary Events, pour détecter les synchronisations entre deux neurones. Nous validons la méthode par simulation avant de l'appliquer à de vraies données. Deuxièmement, nous étudions les propriétés non-asymptotiques des tests par permutation en termes de vitesse de séparation uniforme. Nous construisons une procédure de tests agrégés, basée sur du seuillage par ondelettes dans un cadre de variables aléatoires à densité. Nous déduisons d'une inégalité fondamentale de Talagrand, une nouvelle inégalité de concentration de type Bernstein pour des sommes permutées aléatoirement qui nous permet de majorer la vitesse de séparation uniforme sur des espaces de Besov faibles et d'en déduire que cette procédure semble être optimale et adaptative au sens du minimax. / On the one hand, we construct such tests based on bootstrap and permutation approaches. Their asymptotic performance are studied in a point process framework through the analysis of the asymptotic behavior of the conditional distributions of both bootstrapped and permuted test statistics, under the null hypothesis as well as under any alternative. A simulation study is performed verifying the usability of these tests in practice, and comparing them to existing classical methods in Neuroscience. We then focus on the permutation tests, well known for their non-asymptotic level properties. Their p-values, based on the delayed coincidence count, are implemented in a multiple testing procedure, called Permutation Unitary Events method, to detect the synchronization occurrences between two neurons. The practical validity of the method is verified on a simulation study before being applied on real data. On the other hand, the non-asymptotic performances of the permutation tests are studied in terms of uniform separation rates. A new aggregated procedure based on a wavelet thresholding method is developed in the density framework. Based on Talagrand's fundamental inequalities, we provide a new Bernstein-type concentration inequality for randomly permuted sums. In particular, it allows us to upper bound the uniform separation rate of the aggregated procedure over weak Besov spaces and deduce that this procedure seems to be optimal and adaptive in the minimax sens. Test d'indépendance Bootstrap Permutation U-statistiques Processus ponctuel Neurosciences Synchronisation Tests multiples Inégalité de concentration Vitesse de séparation uniforme Test adaptatif Ondelettes Espace de Besov faible Tests agrégés Independence test Bootstrap Permutation U-statistics Point processes Neroscience Synchronization Multiple testing Concentration inequality Uniform separation rate Adaptative test Wavelets Weak Besov body Aggregated tests

1

Page generated in 0.1426 seconds