1 |
Sur l'estimation adaptative d'une densité multivariée sous l'hypothèse de la structure d'indépendance / On adaptive estimation of a multivariate density under independence hypothesis.Rebelles, Gilles 10 December 2015 (has links)
Les résultats obtenus dans cette thèse concernent l'estimation non paramétrique de densités de probabilité. Principalement, nous nous intéressons à estimer une densité de probabilité multidimensionnelle de régularité anisotrope et inhomogène. Nous proposons des procédures d'estimation qui sont adaptatives, non seulement par rapport aux paramètres de régularité, mais aussi par rapport à la structure d'indépendance de la densité de probabilité estimée. Cela nous permet de réduire l'influence de la dimension du domaine d'observation sur la qualité d'estimation et de faire en sorte que cette dernière soit la meilleure possible. Pour analyser la performance de nos méthodes nous adoptons le point de vue minimax et nous généralisons un critère d'optimalité pour l'estimation adaptative. L'utilisation du critère que nous proposons s'impose lorsque le paramètre d'intérêt est estimé en un point fixé car, dans ce cas, il y a un "prix à payer" pour l'adaptation par rapport à la régularité et à la structure d'indépendance. Cela n'est plus vrai lorsque l'estimation est globale. Dans le modèle de densité (avec des observations directes) nous considérons le problème de l'estimation ponctuelle et celui de l'estimation en norme $bL_p$, $pin[1,infty)$. Dans le modèle de déconvolution (avec des observations bruitées) nous étudions le problème de l'estimation en norme $bL_p$, $pin[1,infty]$, dans le cas où la fonction caractéristique du bruit décroît polynomialement à l'infini. Chaque estimateur que nous proposons est obtenu par une procédure de sélection aléatoire dans une famille d'estimateurs à noyau. / The results obtained in this thesis concern the non parametric estimation of probability densities. Primarily, we are interested in estimating a multivariate probability density which is anisotropic and inhomogeneous. We propose estimation procedures that enable us to take into account the regularity properties of the underlying probability density and its independence structure simultaneously. This allows us to reduce the influence of the dimension of the observation space on the accuracy of estimation and then to improve it. To analyze the performance of our methods we adopt the minimax point of view and we generalize a criterion of optimality for adaptive estimation. The use of the criterion we propose is necessary for estimation at a fixed point. Indeed, in this setting, there is a "penalty" for adaptation with respect to the regularity and to the independence structure. This is no longer true for global estimation. In the density model (with direct observations) we consider both the problem of pointwise estimation and the problem of estimation under $bL_p$-loss ($pin[1,infty)$). In the deconvolution model (with noisy observations) we study the problem of estimation with an $bL_p$-risk ($pin[1,infty]$) when the characteristic function of the noise decreases polynomially at infinity. Any estimator that we propose is obtained by a random selection procedure in a family of kernel estimators.
|
2 |
Quantification vectorielle en grande dimension : vitesses de convergence et sélection de variables / High-dimensional vector quantization : convergence rates and variable selectionLevrard, Clément 30 September 2014 (has links)
Ce manuscrit étudie dans un premier temps la dépendance de la distorsion, ou erreur en quantification, du quantificateur construit à partir d'un n-échantillon d'une distribution de probabilité via l'algorithme des k-means. Plus précisément, l'objectif de ce travail est de donner des bornes en probabilité sur l'écart entre la distorsion de ce quantificateur et la plus petite distorsion atteignable parmi les quantificateurs, à nombre d'images k fixé, décrivant l'influence des divers paramètres de ce problème: support de la distribution de probabilité à quantifier, nombre d'images k, dimension de l'espace vectoriel sous-jacent, et taille de l'échantillon servant à construire le quantificateur k-mean. Après un bref rappel des résultats précédents, cette étude établit l'équivalence des diverses conditions existantes pour établir une vitesse de convergence rapide en la taille de l'échantillon de l'écart de distorsion considéré, dans le cas des distributions à densité, à une condition technique ressemblant aux conditions requises en classification supervisée pour l'obtention de vitesses rapides de convergence. Il est ensuite prouvé que, sous cette condition technique, une vitesse de convergence de l'ordre de 1/n pouvait être atteinte en espérance. Ensuite, cette thèse énonce une condition facilement interprétable, appelée condition de marge, suffisante à la satisfaction de la condition technique établie précédemment. Plusieurs exemples classiques de distributions satisfaisant cette condition sont donnés, tels les mélanges gaussiens. Si cette condition de marge se trouve satisfaite, une description précise de la dépendance de l'écart de distorsion étudié peut être donné via une borne en espérance: la taille de l'échantillon intervient via un facteur 1/n, le nombre d'images k intervient via différentes quantités géométriques associées à la distribution à quantifier, et de manière étonnante la dimension de l'espace sous-jacent semble ne jouer aucun rôle. Ce dernier point nous a permis d'étendre nos résultats au cadre des espaces de Hilbert, propice à la quantification des courbes. Néanmoins, la quantification effective en grande dimension nécessite souvent en pratique une étape de réduction du nombre de variables, ce qui nous a conduit dans un deuxième temps à étudier une procédure de sélection de variables associée à la quantification. Plus précisément, nous nous sommes intéressés à une procédure de type Lasso adaptée au cadre de la quantification vectorielle, où la pénalité Lasso porte sur l'ensemble des points images du quantificateur, dans le but d'obtenir des points images parcimonieux. Si la condition de marge introduite précédemment est satisfaite, plusieurs garanties théoriques sont établies concernant le quantificateur issu d'une telle procédure, appelé quantificateur Lasso k-means, à savoir que les points images de ce quantificateur sont proches des points images d'un quantificateur naturellement parcimonieux, réalisant un compromis entre erreur en quantification et taille du support des points images, et que l'écart en distorsion du quantificateur Lasso k-means est de l'ordre de 1/n^(1/2) en la taille de l'échantillon. Par ailleurs la dépendance de cette distorsion en les différents autres paramètres de ce problème est donnée explicitement. Ces prédictions théoriques sont illustrées par des simulations numériques confirmant globalement les propriétés attendues d'un tel quantificateur parcimonieux, mais soulignant néanmoins quelques inconvénients liés à l'implémentation effective de cette procédure. / The distortion of the quantizer built from a n-sample of a probability distribution over a vector space with the famous k-means algorithm is firstly studied in this thesis report. To be more precise, this report aims to give oracle inequalities on the difference between the distortion of the k-means quantizer and the minimum distortion achievable by a k-point quantizer, where the influence of the natural parameters of the quantization issue should be precisely described. For instance, some natural parameters are the distribution support, the size k of the quantizer set of images, the dimension of the underlying Euclidean space, and the sample size n. After a brief summary of the previous works on this topic, an equivalence between the conditions previously stated for the excess distortion to decrease fast with respect to the sample size and a technical condition is stated, in the continuous density case. Interestingly, this condition looks like a technical condition required in statistical learning to achieve fast rates of convergence. Then, it is proved that the excess distortion achieves a fast convergence rate of 1/n in expectation, provided that this technical condition is satisfied. Next, a so-called margin condition is introduced, which is easier to understand, and it is established that this margin condition implies the technical condition mentioned above. Some examples of distributions satisfying this margin condition are exposed, such as the Gaussian mixtures, which are classical distributions in the clustering framework. Then, provided that this margin condition is satisfied, an oracle inequality on the excess distortion of the k-means quantizer is given. This convergence result shows that the excess distortion decreases with a rate 1/n and depends on natural geometric properties of the probability distribution with respect to the size of the set of images k. Suprisingly the dimension of the underlying Euclidean space seems to play no role in the convergence rate of the distortion. Following the latter point, the results are directly extended to the case where the underlying space is a Hilbert space, which is the adapted framework when dealing with curve quantization. However, high-dimensional quantization often needs in practical a dimension reduction step, before proceeding to a quantization algorithm. This motivates the following study of a variable selection procedure adapted to the quantization issue. To be more precise, a Lasso type procedure adapted to the quantization framework is studied. The Lasso type penalty applies to the set of image points of the quantizer, in order to obtain sparse image points. The outcome of this procedure is called the Lasso k-means quantizer, and some theoretical results on this quantizer are established, under the margin condition introduced above. First it is proved that the image points of such a quantizer are close to the image points of a sparse quantizer, achieving a kind of tradeoff between excess distortion and size of the support of image points. Then an oracle inequality on the excess distortion of the Lasso k-means quantizer is given, providing a convergence rate of 1/n^(1/2) in expectation. Moreover, the dependency of this convergence rate on different other parameters is precisely described. These theoretical predictions are illustrated with numerical experimentations, showing that the Lasso k-means procedure mainly behaves as expected. However, the numerical experimentations also shed light on some drawbacks concerning the practical implementation of such an algorithm.
|
3 |
Inégalités d'oracle et mélanges / Oracle inequalities and mixturesMontuelle, Lucie 04 December 2014 (has links)
Ce manuscrit se concentre sur deux problèmes d'estimation de fonction. Pour chacun, une garantie non asymptotique des performances de l'estimateur proposé est fournie par une inégalité d'oracle. Pour l'estimation de densité conditionnelle, des mélanges de régressions gaussiennes à poids exponentiels dépendant de la covariable sont utilisés. Le principe de sélection de modèle par maximum de vraisemblance pénalisé est appliqué et une condition sur la pénalité est établie. Celle-ci est satisfaite pour une pénalité proportionnelle à la dimension du modèle. Cette procédure s'accompagne d'un algorithme mêlant EM et algorithme de Newton, éprouvé sur données synthétiques et réelles. Dans le cadre de la régression à bruit sous-gaussien, l'agrégation à poids exponentiels d'estimateurs linéaires permet d'obtenir une inégalité d'oracle en déviation, au moyen de techniques PAC-bayésiennes. Le principal avantage de l'estimateur proposé est d'être aisément calculable. De plus, la prise en compte de la norme infinie de la fonction de régression permet d'établir un continuum entre inégalité exacte et inexacte. / This manuscript focuses on two functional estimation problems. A non asymptotic guarantee of the proposed estimator’s performances is provided for each problem through an oracle inequality.In the conditional density estimation setting, mixtures of Gaussian regressions with exponential weights depending on the covariate are used. Model selection principle through penalized maximum likelihood estimation is applied and a condition on the penalty is derived. If the chosen penalty is proportional to the model dimension, then the condition is satisfied. This procedure is accompanied by an algorithm mixing EM and Newton algorithm, tested on synthetic and real data sets. In the regression with sub-Gaussian noise framework, aggregating linear estimators using exponential weights allows to obtain an oracle inequality in deviation,thanks to pac-bayesian technics. The main advantage of the proposed estimator is to be easily calculable. Furthermore, taking the infinity norm of the regression function into account allows to establish a continuum between sharp and weak oracle inequalities.
|
4 |
Non-asymptotic bounds for prediction problems and density estimation.Minsker, Stanislav 05 July 2012 (has links)
This dissertation investigates the learning scenarios where a high-dimensional parameter has to be estimated from a given sample of fixed size, often smaller than the dimension of the problem. The first part answers some open questions for the binary classification problem in the framework of active learning.
Given a random couple (X,Y) with unknown distribution P, the goal of binary classification is to predict a label Y based on the observation X. Prediction rule is constructed from a sequence of observations sampled from P. The concept of active learning can be informally characterized as follows: on every iteration, the algorithm is allowed to request a label Y for any instance X which it considers to be the most informative. The contribution of this work consists of two parts: first, we provide the minimax lower bounds for the performance of active learning methods. Second, we propose an active learning algorithm which attains nearly optimal rates over a broad class of underlying distributions and is adaptive with respect to the unknown parameters of the problem.
The second part of this thesis is related to sparse recovery in the framework of dictionary learning. Let (X,Y) be a random couple with unknown distribution P. Given a collection of functions H, the goal of dictionary learning is to construct a prediction rule for Y given by a linear combination of the elements of H. The problem is sparse if there exists a good prediction rule that depends on a small number of functions from H. We propose an estimator of the unknown optimal prediction rule based on penalized empirical risk minimization algorithm. We show that the proposed estimator is able to take advantage of the possible sparse structure of the problem by providing probabilistic bounds for its performance.
|
5 |
Algorithmes optimaux de traitement de données pour des systèmes complexes d'information et télécommunication dans un environnement incertain / Optimal algorithms of data processing for complex information and telecommunication systems in an uncertain environmentBeltaief, Slim 08 September 2017 (has links)
Ce travail est consacré au problème d'estimation non paramétrique dans des modèles de régression en temps continu. On considère le problème d'estimation d'une fonction inconnue S supposée périodique. Cette estimation est basée sur des observations générées par un processus stochastique; ces observations peuvent être en temps continu ou discret. Pour ce faire, nous construisons une série d'estimateurs par projection et nous approchons la fonction inconnue S par une série de Fourier finie. Dans cette thèse, nous considérons le problème d'estimation dans le cadre adaptatif, c'est-à-dire le cas où la régularité de la fonction S est inconnue. Pour ce problème, nous développons une nouvelle méthode d'adaptation basée sur la procédure de sélection de modèle proposée par Konev et Pergamenshchikov (2012). Tout d'abord, cette procédure nous donne une famille d'estimateurs ; après nous choisissons le meilleur estimateur possible en minimisant une fonction coût. Nous donnons également une inégalité d'Oracle pour le risque de nos estimateurs et nous donnons la vitesse de convergence minimax. / This thesis is devoted to the problem of non parametric estimation for continuous-time regression models. We consider the problem of estimating an unknown periodoc function S. This estimation is based on observations generated by a stochastic process; these observations may be in continuous or discrete time. To this end, we construct a series of estimators by projection and thus we approximate the unknown function S by a finite Fourier series. In this thesis we consider the estimation problem in the adaptive setting, i.e. in situation when the regularity of the fonction S is unknown. In this way, we develop a new adaptive method based on the model selection procedure proposed by Konev and Pergamenshchikov (2012). Firstly, this procedure give us a family of estimators, then we choose the best possible one by minimizing a cost function. We give also an oracle inequality for the risk of our estimators and we give the minimax convergence rate.
|
6 |
Adaptation via des inéqualités d'oracle dans le modèle de regression avec design aléatoire / Adaptation via oracle inequality in regression model with random designNguyen, Ngoc Bien 21 May 2014 (has links)
À partir des observations Z(n) = {(Xi, Yi), i = 1, ..., n} satisfaisant Yi = f(Xi) + ζi, nous voulons reconstruire la fonction f. Nous évaluons la qualité d'estimation par deux critères : le risque Ls et le risque uniforme. Dans ces deux cas, les hypothèses imposées sur la distribution du bruit ζi serons de moment borné et de type sous-gaussien respectivement. En proposant une collection des estimateurs à noyau, nous construisons une procédure, qui est initié par Goldenshluger et Lepski, pour choisir l'estimateur dans cette collection, sans aucune condition sur f. Nous prouvons ensuite que cet estimateur satisfait une inégalité d'oracle, qui nous permet d'obtenir les estimations minimax et minimax adaptatives sur les classes de Hölder anisotropes. / From the observation Z(n) = {(Xi, Yi), i = 1, ..., n} satisfying Yi = f(Xi) + ζi, we would like to approximate the function f. This problem will be considered in two cases of loss function, Ls-risk and uniform risk, where the condition imposed on the distribution of the noise ζi is of bounded moment and of type sub-gaussian, respectively. From a proposed family of kernel estimators, we construct a procedure, which is initialized by Goldenshluger and Lepski, to choose in this family a final estimator, with no any assumption imposed on f. Then, we show that this estimator satisfies an oracle inequality which implies the minimax and minimax adaptive estimation over the anisotropic Hölder classes.
|
7 |
Modèles de mélange pour la régression en grande dimension, application aux données fonctionnelles / High-dimensional mixture regression models, application to functional dataDevijver, Emilie 02 July 2015 (has links)
Les modèles de mélange pour la régression sont utilisés pour modéliser la relation entre la réponse et les prédicteurs, pour des données issues de différentes sous-populations. Dans cette thèse, on étudie des prédicteurs de grande dimension et une réponse de grande dimension. Tout d’abord, on obtient une inégalité oracle ℓ1 satisfaite par l’estimateur du Lasso. On s’intéresse à cet estimateur pour ses propriétés de régularisation ℓ1. On propose aussi deux procédures pour pallier ce problème de classification en grande dimension. La première procédure utilise l’estimateur du maximum de vraisemblance pour estimer la densité conditionnelle inconnue, en se restreignant aux variables actives sélectionnées par un estimateur de type Lasso. La seconde procédure considère la sélection de variables et la réduction de rang pour diminuer la dimension. Pour chaque procédure, on obtient une inégalité oracle, qui explicite la pénalité nécessaire pour sélectionner un modèle proche de l’oracle. On étend ces procédures au cas des données fonctionnelles, où les prédicteurs et la réponse peuvent être des fonctions. Dans ce but, on utilise une approche par ondelettes. Pour chaque procédure, on fournit des algorithmes, et on applique et évalue nos méthodes sur des simulations et des données réelles. En particulier, on illustre la première méthode par des données de consommation électrique. / Finite mixture regression models are useful for modeling the relationship between a response and predictors, arising from different subpopulations. In this thesis, we focus on high-dimensional predictors and a high-dimensional response. First of all, we provide an ℓ1-oracle inequality satisfied by the Lasso estimator. We focus on this estimator for its ℓ1-regularization properties rather than for the variable selection procedure. We also propose two procedures to deal with this issue. The first procedure leads to estimate the unknown conditional mixture density by a maximum likelihood estimator, restricted to the relevant variables selected by an ℓ1-penalized maximum likelihood estimator. The second procedure considers jointly predictor selection and rank reduction for obtaining lower-dimensional approximations of parameters matrices. For each procedure, we get an oracle inequality, which derives the penalty shape of the criterion, depending on the complexity of the random model collection. We extend these procedures to the functional case, where predictors and responses are functions. For this purpose, we use a wavelet-based approach. For each situation, we provide algorithms, apply and evaluate our methods both on simulations and real datasets. In particular, we illustrate the first procedure on an electricity load consumption dataset.
|
8 |
Exponential weighted aggregation : oracle inequalities and algorithms / Agrégation à poids exponentiels : inégalités oracles et algorithmesLuu, Duy tung 23 November 2017 (has links)
Dans plusieurs domaines des statistiques, y compris le traitement du signal et des images, l'estimation en grande dimension est une tâche importante pour recouvrer un objet d'intérêt. Toutefois, dans la grande majorité de situations, ce problème est mal-posé. Cependant, bien que la dimension ambiante de l'objet à restaurer (signal, image, vidéo) est très grande, sa ``complexité'' intrinsèque est généralement petite. La prise en compte de cette information a priori peut se faire au travers de deux approches: (i) la pénalisation (très populaire) et (ii) l'agrégation à poids exponentiels (EWA). L'approche penalisée vise à chercher un estimateur qui minimise une attache aux données pénalisée par un terme promouvant des objets de faible complexité (simples). L'EWA combine une famille des pré-estimateurs, chacun associé à un poids favorisant exponentiellement des pré-estimateurs, lesquels privilègent les mêmes objets de faible complexité.Ce manuscrit se divise en deux grandes parties: une partie théorique et une partie algorithmique. Dans la partie théorique, on propose l'EWA avec une nouvelle famille d'a priori favorisant les signaux parcimonieux à l'analyse par group dont la performance est garantie par des inégalités oracle. Ensuite, on analysera l'estimateur pénalisé et EWA, avec des a prioris généraux favorisant des objets simples, dans un cardre unifié pour établir des garanties théoriques. Deux types de garanties seront montrés: (i) inégalités oracle en prédiction, et (ii) bornes en estimation. On les déclinera ensuite pour des cas particuliers dont certains ont été étudiés dans littérature. Quant à la partie algorithmique, on y proposera une implémentation de ces estimateurs en alliant simulation Monte-Carlo (processus de diffusion de Langevin) et algorithmes d'éclatement proximaux, et montrera leurs garanties de convergence. Plusieurs expériences numériques seront décrites pour illustrer nos garanties théoriques et nos algorithmes. / In many areas of statistics, including signal and image processing, high-dimensional estimation is an important task to recover an object of interest. However, in the overwhelming majority of cases, the recovery problem is ill-posed. Fortunately, even if the ambient dimension of the object to be restored (signal, image, video) is very large, its intrinsic ``complexity'' is generally small. The introduction of this prior information can be done through two approaches: (i) penalization (very popular) and (ii) aggregation by exponential weighting (EWA). The penalized approach aims at finding an estimator that minimizes a data loss function penalized by a term promoting objects of low (simple) complexity. The EWA combines a family of pre-estimators, each associated with a weight exponentially promoting the same objects of low complexity.This manuscript consists of two parts: a theoretical part and an algorithmic part. In the theoretical part, we first propose the EWA with a new family of priors promoting analysis-group sparse signals whose performance is guaranteed by oracle inequalities. Next, we will analysis the penalized estimator and EWA, with a general prior promoting simple objects, in a unified framework for establishing some theoretical guarantees. Two types of guarantees will be established: (i) prediction oracle inequalities, and (ii) estimation bounds. We will exemplify them for particular cases some of which studied in the literature. In the algorithmic part, we will propose an implementation of these estimators by combining Monte-Carlo simulation (Langevin diffusion process) and proximal splitting algorithms, and show their guarantees of convergence. Several numerical experiments will be considered for illustrating our theoretical guarantees and our algorithms.
|
9 |
Dependence modeling between continuous time stochastic processes : an application to electricity markets modeling and risk management / Modélisation de la dépendance entre processus stochastiques en temps continu : une application aux marchés de l'électricité et à la gestion des risquesDeschatre, Thomas 08 December 2017 (has links)
Cette thèse traite de problèmes de dépendance entre processus stochastiques en temps continu. Ces résultats sont appliqués à la modélisation et à la gestion des risques des marchés de l'électricité.Dans une première partie, de nouvelles copules sont établies pour modéliser la dépendance entre deux mouvements Browniens et contrôler la distribution de leur différence. On montre que la classe des copules admissibles pour les Browniens contient des copules asymétriques. Avec ces copules, la fonction de survie de la différence des deux Browniens est plus élevée dans sa partie positive qu'avec une dépendance gaussienne. Les résultats sont appliqués à la modélisation jointe des prix de l'électricité et d'autres commodités énergétiques. Dans une seconde partie, nous considérons un processus stochastique observé de manière discrète et défini par la somme d'une semi-martingale continue et d'un processus de Poisson composé avec retour à la moyenne. Une procédure d'estimation pour le paramètre de retour à la moyenne est proposée lorsque celui-ci est élevé dans un cadre de statistique haute fréquence en horizon fini. Ces résultats sont utilisés pour la modélisation des pics dans les prix de l'électricité.Dans une troisième partie, on considère un processus de Poisson doublement stochastique dont l'intensité stochastique est une fonction d'une semi-martingale continue. Pour estimer cette fonction, un estimateur à polynômes locaux est utilisé et une méthode de sélection de la fenêtre est proposée menant à une inégalité oracle. Un test est proposé pour déterminer si la fonction d'intensité appartient à une certaine famille paramétrique. Grâce à ces résultats, on modélise la dépendance entre l'intensité des pics de prix de l'électricité et de facteurs exogènes tels que la production éolienne. / In this thesis, we study some dependence modeling problems between continuous time stochastic processes. These results are applied to the modeling and risk management of electricity markets. In a first part, we propose new copulae to model the dependence between two Brownian motions and to control the distribution of their difference. We show that the class of admissible copulae for the Brownian motions contains asymmetric copulae. These copulae allow for the survival function of the difference between two Brownian motions to have higher value in the right tail than in the Gaussian copula case. Results are applied to the joint modeling of electricity and other energy commodity prices. In a second part, we consider a stochastic process which is a sum of a continuous semimartingale and a mean reverting compound Poisson process and which is discretely observed. An estimation procedure is proposed for the mean reversion parameter of the Poisson process in a high frequency framework with finite time horizon, assuming this parameter is large. Results are applied to the modeling of the spikes in electricity prices time series. In a third part, we consider a doubly stochastic Poisson process with stochastic intensity function of a continuous semimartingale. A local polynomial estimator is considered in order to infer the intensity function and a method is given to select the optimal bandwidth. An oracle inequality is derived. Furthermore, a test is proposed in order to determine if the intensity function belongs to some parametrical family. Using these results, we model the dependence between the intensity of electricity spikes and exogenous factors such as the wind production.
|
Page generated in 0.0806 seconds