Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ |Q[f]|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime « régulier » et un régime « irrégulier ». On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités / Real-world data are often extremely high-dimensional, severely under constrained and interspersed with a large number of irrelevant or redundant features. Relevant variable selection is a compelling approach for addressing statistical issues in the scenario of high-dimensional and noisy data with small sample size. First, we address the issue of variable selection in the regression model when the number of variables is very large. The main focus is on the situation where the number of relevant variables is much smaller than the ambient dimension. Without assuming any parametric form of the underlying regression function, we get tight conditions making it possible to consistently estimate the set of relevant variables. Secondly, we consider the problem of testing a particular type of composite null hypothesis under a nonparametric multivariate regression model. For a given quadratic functional $Q$, the null hypothesis states that the regression function $f$ satisfies the constraint $Q[f] = 0$, while the alternative corresponds to the functions for which $Q[f]$ is bounded away from zero. We provide minimax rates of testing and the exact separation constants, along with a sharp-optimal testing procedure, for diagonal and nonnegative quadratic functionals. We can apply this to testing the relevance of a variable. Studying minimax rates for quadratic functionals which are neither positive nor negative, makes appear two different regimes: “regular” and “irregular”. We apply this to the issue of testing the equality of norms of two functions observed in noisy environments
Identifer | oai:union.ndltd.org:theses.fr/2012PEST1068 |
Date | 12 December 2012 |
Creators | Comminges, Laëtitia |
Contributors | Paris Est, Dalalyan, Arnak S. |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0024 seconds