Global ETD Search

1	Estimation par sélection de modèle en régression hétéroscédastique Gendre, Xavier 15 June 2009 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-asymptotique et de la théorie statistique de la sélection de modèle. Son objet est la construction de procédures d'estimation de paramètres en régression hétéroscédastique. Ce cadre reçoit un intérêt croissant depuis plusieurs années dans de nombreux champs d'application. Les résultats présentés reposent principalement sur des inégalités de concentration et sont illustrés par des applications à des données simulées.<br /><br />La première partie de cette thèse consiste dans l'étude du problème d'estimation de la moyenne et de la variance d'un vecteur gaussien à coordonnées indépendantes. Nous proposons une méthode de choix de modèle basée sur un critère de vraisemblance pénalisé. Nous validons théoriquement cette approche du point de vue non-asymptotique en prouvant des majorations de type oracle du risque de Kullback de nos estimateurs et des vitesses de convergence uniforme sur les boules de Hölder.<br /><br />Un second problème que nous abordons est l'estimation de la fonction de régression dans un cadre hétéroscédastique à dépendances connues. Nous développons des procédures de sélection de modèle tant sous des hypothèses gaussiennes que sous des conditions de moment. Des inégalités oracles non-asymptotiques sont données pour nos estimateurs ainsi que des propriétés d'adaptativité. Nous appliquons en particulier ces résultats à l'estimation d'une composante dans un modèle de régression additif. [MATH] Mathematics statistique non-asymptotique sélection de modèle pénalisation inégalité oracle régression non-paramétrique hétéroscédastique modèle additif adaptativité vitesse minimax risque de Kullback
2	Statistique pour l’anticipation des niveaux de sécurité secondaire des générations de véhicules / Statistics for anticipating the levels of secondary safety for generations of vehicles Ouni, Zaïd 19 July 2016 (has links) La sécurité routière est une priorité mondiale, européenne et française. Parce que les véhicules légers (ou simplement “les véhicules”) sont évidemment l’un des acteurs principaux de l’activité routière, l'amélioration de la sécurité routière passe nécessairement par l’analyse de leurs caractéristiques accidentologiques. Si les nouveaux véhicules sont développés en bureau d’étude et validés en laboratoire, c’est la réalité accidentologique qui permet de vraiment cerner comment ils se comportent en matière de sécurité secondaire, c’est-à-dire quelle sécurité ils offrent à leurs occupants lors d’un accident. C’est pourquoi les constructeurs souhaitent procéder au classement des générations de véhicules en fonction de leurs niveaux de sécurité secondaire réelle. Nous abordons cette thématique en exploitant les données nationales d’accidents corporels de la route appelées BAAC (Bulletin d’Analyse d’Accident Corporel de la Circulation). En complément de celles-ci, les données de parc automobile permettent d’associer une classe générationelle (CG) à chaque véhicule. Nous élaborons deux méthodes de classement de CGs en termes de sécurité secondaire. La première produit des classements contextuels, c’est-à-dire des classements de CGs plongées dans des contextes d’accident. La seconde produit des classements globaux, c’est-`a-dire des classements de CGs déterminés par rapport à une distribution de contextes d’accident. Pour le classement contextuel, nous procédons par “scoring” : nous cherchons une fonction de score qui associe un nombre réel à toute combinaison de CG et de contexte d’accident ; plus ce nombre est petit, plus la CG est sûre dans le contexte d’accident donné. La fonction de score optimale est estimée par “ensemble learning”, sous la forme d’une combinaison convexe optimale de fonctions de score produites par une librairie d’algorithmes de classement par scoring. Une inégalité oracle illustre les performances du méta-algorithme ainsi obtenu. Le classement global est également basé sur le principe de “scoring” : nous cherchons une fonction de score qui associe à toute CG un nombre réel ; plus ce nombre est petit, plus la CG est jugée sûre globalement. Des arguments causaux permettent d’adapter le méta-algorithme évoqué ci-dessus en s’affranchissant du contexte d’accident. Les résultats des deux méthodes de classement sont conformes aux attentes des experts. / Road safety is a world, European and French priority. Because light vehicles (or simply“vehicles”) are obviously one of the main actors of road activity, the improvement of roadsafety necessarily requires analyzing their characteristics in terms of traffic road accident(or simply “accident”). If the new vehicles are developed in engineering department and validated in laboratory, it is the reality of real-life accidents that ultimately characterizesthem in terms of secondary safety, ie, that demonstrates which level of security they offer to their occupants in case of an accident. This is why car makers want to rank generations of vehicles according to their real-life levels of safety. We address this problem by exploiting a French data set of accidents called BAAC (Bulletin d’Analyse d’Accident Corporel de la Circulation). In addition, fleet data are used to associate a generational class (GC) to each vehicle. We elaborate two methods of ranking of GCs in terms of secondary safety. The first one yields contextual rankings, ie, rankings of GCs in specified contexts of accident. The second one yields global rankings, ie, rankings of GCs determined relative to a distribution of contexts of accident. For the contextual ranking, we proceed by “scoring”: we look for a score function that associates a real number to any combination of GC and a context of accident; the smaller is this number, the safer is the GC in the given context. The optimal score function is estimated by “ensemble learning”, under the form of an optimal convex combination of scoring functions produced by a library of ranking algorithms by scoring. An oracle inequality illustrates the performance of the obtained meta-algorithm. The global ranking is also based on “scoring”: we look for a scoring function that associates any GC with a real number; the smaller is this number, the safer is the GC. Causal arguments are used to adapt the above meta-algorithm by averaging out the context. The results of the two ranking procedures are in line with the experts’ expectations. Agrégation Analyse causale Classement Inégalité oracle Sécurité routière Statistique Ensemble learning Causal analysis Oracle ineguality Ranking Road safety Statistics
3	Quantification vectorielle en grande dimension : vitesses de convergence et sélection de variables / High-dimensional vector quantization : convergence rates and variable selection Levrard, Clément 30 September 2014 (has links) Ce manuscrit étudie dans un premier temps la dépendance de la distorsion, ou erreur en quantification, du quantificateur construit à partir d'un n-échantillon d'une distribution de probabilité via l'algorithme des k-means. Plus précisément, l'objectif de ce travail est de donner des bornes en probabilité sur l'écart entre la distorsion de ce quantificateur et la plus petite distorsion atteignable parmi les quantificateurs, à nombre d'images k fixé, décrivant l'influence des divers paramètres de ce problème: support de la distribution de probabilité à quantifier, nombre d'images k, dimension de l'espace vectoriel sous-jacent, et taille de l'échantillon servant à construire le quantificateur k-mean. Après un bref rappel des résultats précédents, cette étude établit l'équivalence des diverses conditions existantes pour établir une vitesse de convergence rapide en la taille de l'échantillon de l'écart de distorsion considéré, dans le cas des distributions à densité, à une condition technique ressemblant aux conditions requises en classification supervisée pour l'obtention de vitesses rapides de convergence. Il est ensuite prouvé que, sous cette condition technique, une vitesse de convergence de l'ordre de 1/n pouvait être atteinte en espérance. Ensuite, cette thèse énonce une condition facilement interprétable, appelée condition de marge, suffisante à la satisfaction de la condition technique établie précédemment. Plusieurs exemples classiques de distributions satisfaisant cette condition sont donnés, tels les mélanges gaussiens. Si cette condition de marge se trouve satisfaite, une description précise de la dépendance de l'écart de distorsion étudié peut être donné via une borne en espérance: la taille de l'échantillon intervient via un facteur 1/n, le nombre d'images k intervient via différentes quantités géométriques associées à la distribution à quantifier, et de manière étonnante la dimension de l'espace sous-jacent semble ne jouer aucun rôle. Ce dernier point nous a permis d'étendre nos résultats au cadre des espaces de Hilbert, propice à la quantification des courbes. Néanmoins, la quantification effective en grande dimension nécessite souvent en pratique une étape de réduction du nombre de variables, ce qui nous a conduit dans un deuxième temps à étudier une procédure de sélection de variables associée à la quantification. Plus précisément, nous nous sommes intéressés à une procédure de type Lasso adaptée au cadre de la quantification vectorielle, où la pénalité Lasso porte sur l'ensemble des points images du quantificateur, dans le but d'obtenir des points images parcimonieux. Si la condition de marge introduite précédemment est satisfaite, plusieurs garanties théoriques sont établies concernant le quantificateur issu d'une telle procédure, appelé quantificateur Lasso k-means, à savoir que les points images de ce quantificateur sont proches des points images d'un quantificateur naturellement parcimonieux, réalisant un compromis entre erreur en quantification et taille du support des points images, et que l'écart en distorsion du quantificateur Lasso k-means est de l'ordre de 1/n^(1/2) en la taille de l'échantillon. Par ailleurs la dépendance de cette distorsion en les différents autres paramètres de ce problème est donnée explicitement. Ces prédictions théoriques sont illustrées par des simulations numériques confirmant globalement les propriétés attendues d'un tel quantificateur parcimonieux, mais soulignant néanmoins quelques inconvénients liés à l'implémentation effective de cette procédure. / The distortion of the quantizer built from a n-sample of a probability distribution over a vector space with the famous k-means algorithm is firstly studied in this thesis report. To be more precise, this report aims to give oracle inequalities on the difference between the distortion of the k-means quantizer and the minimum distortion achievable by a k-point quantizer, where the influence of the natural parameters of the quantization issue should be precisely described. For instance, some natural parameters are the distribution support, the size k of the quantizer set of images, the dimension of the underlying Euclidean space, and the sample size n. After a brief summary of the previous works on this topic, an equivalence between the conditions previously stated for the excess distortion to decrease fast with respect to the sample size and a technical condition is stated, in the continuous density case. Interestingly, this condition looks like a technical condition required in statistical learning to achieve fast rates of convergence. Then, it is proved that the excess distortion achieves a fast convergence rate of 1/n in expectation, provided that this technical condition is satisfied. Next, a so-called margin condition is introduced, which is easier to understand, and it is established that this margin condition implies the technical condition mentioned above. Some examples of distributions satisfying this margin condition are exposed, such as the Gaussian mixtures, which are classical distributions in the clustering framework. Then, provided that this margin condition is satisfied, an oracle inequality on the excess distortion of the k-means quantizer is given. This convergence result shows that the excess distortion decreases with a rate 1/n and depends on natural geometric properties of the probability distribution with respect to the size of the set of images k. Suprisingly the dimension of the underlying Euclidean space seems to play no role in the convergence rate of the distortion. Following the latter point, the results are directly extended to the case where the underlying space is a Hilbert space, which is the adapted framework when dealing with curve quantization. However, high-dimensional quantization often needs in practical a dimension reduction step, before proceeding to a quantization algorithm. This motivates the following study of a variable selection procedure adapted to the quantization issue. To be more precise, a Lasso type procedure adapted to the quantization framework is studied. The Lasso type penalty applies to the set of image points of the quantizer, in order to obtain sparse image points. The outcome of this procedure is called the Lasso k-means quantizer, and some theoretical results on this quantizer are established, under the margin condition introduced above. First it is proved that the image points of such a quantizer are close to the image points of a sparse quantizer, achieving a kind of tradeoff between excess distortion and size of the support of image points. Then an oracle inequality on the excess distortion of the Lasso k-means quantizer is given, providing a convergence rate of 1/n^(1/2) in expectation. Moreover, the dependency of this convergence rate on different other parameters is precisely described. These theoretical predictions are illustrated with numerical experimentations, showing that the Lasso k-means procedure mainly behaves as expected. However, the numerical experimentations also shed light on some drawbacks concerning the practical implementation of such an algorithm. Quantification K-means Localisation Conditions de marge Inégalité oracle Sélection de variables Lasso Quantization K-means Localization Margin condition Oracle inequality Variable selection Lasso
4	Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures Celisse, Alain 09 December 2008 (has links) (PDF) L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement parmi eux, du leave-p-out. Très utilisés en pratique, ces algorithmes sont encore mal compris d'un point de vue théorique, notamment sur un plan non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal $p$ de l'ensemble test dont elle dépend. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-$p$-out n'est habituellement pas applicable en pratique, à cause d'une trop grande complexité algorithmique. Pourtant, nous parvenons à obtenir des formules closes (parfaitement calculables) de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs très employés. Nous envisageons le problème de la sélection de modèle par validation-croisée sous deux aspects. L'un repose sur l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de $p$ entièrement fondé sur les données. Une application naturelle au problème des tests multiples est envisagée. L'autre aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité de la procédure leave-$p$-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité dans le cadre de l'estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Sur cette base, nous proposons une procédure entièrement tournée vers le rééchantillonnage, permettant de traiter le cas difficile de données hétéroscédastiques avec une complexité algorithmique raisonnable. [MATH] Mathematics Rééchantillonnage Validation-croisée Leave-$p$-out Statistique non-paramétrique Sélection de modèles Inégalité oracle Adaptativité Estimation de densité Détection de ruptures Tests multiples FDR
5	Modèles de mélange pour la régression en grande dimension, application aux données fonctionnelles / High-dimensional mixture regression models, application to functional data Devijver, Emilie 02 July 2015 (has links) Les modèles de mélange pour la régression sont utilisés pour modéliser la relation entre la réponse et les prédicteurs, pour des données issues de différentes sous-populations. Dans cette thèse, on étudie des prédicteurs de grande dimension et une réponse de grande dimension. Tout d’abord, on obtient une inégalité oracle ℓ1 satisfaite par l’estimateur du Lasso. On s’intéresse à cet estimateur pour ses propriétés de régularisation ℓ1. On propose aussi deux procédures pour pallier ce problème de classification en grande dimension. La première procédure utilise l’estimateur du maximum de vraisemblance pour estimer la densité conditionnelle inconnue, en se restreignant aux variables actives sélectionnées par un estimateur de type Lasso. La seconde procédure considère la sélection de variables et la réduction de rang pour diminuer la dimension. Pour chaque procédure, on obtient une inégalité oracle, qui explicite la pénalité nécessaire pour sélectionner un modèle proche de l’oracle. On étend ces procédures au cas des données fonctionnelles, où les prédicteurs et la réponse peuvent être des fonctions. Dans ce but, on utilise une approche par ondelettes. Pour chaque procédure, on fournit des algorithmes, et on applique et évalue nos méthodes sur des simulations et des données réelles. En particulier, on illustre la première méthode par des données de consommation électrique. / Finite mixture regression models are useful for modeling the relationship between a response and predictors, arising from different subpopulations. In this thesis, we focus on high-dimensional predictors and a high-dimensional response. First of all, we provide an ℓ1-oracle inequality satisfied by the Lasso estimator. We focus on this estimator for its ℓ1-regularization properties rather than for the variable selection procedure. We also propose two procedures to deal with this issue. The first procedure leads to estimate the unknown conditional mixture density by a maximum likelihood estimator, restricted to the relevant variables selected by an ℓ1-penalized maximum likelihood estimator. The second procedure considers jointly predictor selection and rank reduction for obtaining lower-dimensional approximations of parameters matrices. For each procedure, we get an oracle inequality, which derives the penalty shape of the criterion, depending on the complexity of the random model collection. We extend these procedures to the functional case, where predictors and responses are functions. For this purpose, we use a wavelet-based approach. For each situation, we provide algorithms, apply and evaluate our methods both on simulations and real datasets. In particular, we illustrate the first procedure on an electricity load consumption dataset. Modèles de mélange en régression Classification non supervisée Grande dimension Sélection de variables Sélection de modèles Inégalité oracle Données fonctionnelles Consommation électrique Ondelettes Mixture regression models Clustering High dimension Variable selection Model selection Oracle inequality Functional data Electricity consumption Wavelets
6	PERFORMANCES STATISTIQUES D'ALGORITHMES D'APPRENTISSAGE : ``KERNEL PROJECTION<br /> MACHINE'' ET ANALYSE EN COMPOSANTES PRINCIPALES A NOYAU. Zwald, Laurent 23 November 2005 (has links) (PDF) La thèse se place dans le cadre de l'apprentissage statistique. Elle apporte<br />des contributions à la communauté du machine learning en utilisant des<br />techniques de statistiques modernes basées sur des avancées dans l'étude<br />des processus empiriques. Dans une première partie, les propriétés statistiques de<br />l'analyse en composantes principales à noyau (KPCA) sont explorées. Le<br />comportement de l'erreur de reconstruction est étudié avec un point de vue<br />non-asymptotique et des inégalités de concentration des valeurs propres de la matrice de<br />Gram sont données. Tous ces résultats impliquent des vitesses de<br />convergence rapides. Des propriétés <br />non-asymptotiques concernant les espaces propres de la KPCA eux-mêmes sont également<br />proposées. Dans une deuxième partie, un nouvel <br />algorithme de classification a été<br />conçu : la Kernel Projection Machine (KPM). <br />Tout en s'inspirant des Support Vector Machines (SVM), il met en lumière que la sélection d'un espace vectoriel par une méthode de<br />réduction de la dimension telle que la KPCA régularise <br />convenablement. Le choix de l'espace vectoriel utilisé par la KPM est guidé par des études statistiques de sélection de modéle par minimisation pénalisée de la perte empirique. Ce<br />principe de régularisation est étroitement relié à la projection fini-dimensionnelle étudiée dans les travaux statistiques de <br />Birgé et Massart. Les performances de la KPM et de la SVM sont ensuite comparées sur différents jeux de données. Chaque thème abordé dans cette thèse soulève de nouvelles questions d'ordre théorique et pratique. [MATH] Mathematics Apprentissage statistique inégalité de concentration processus empirique minimisation empirique du risque <br />classification réduction de dimension régularisation Support Vector<br />Machines (SVM) sélection de modèle inégalité oracle vitesse rapide
7	Apprentissage statistique multi-tâches Solnon, Matthieu 25 November 2013 (has links) (PDF) Cette thèse a pour objet la construction, la calibration et l'étude d'estimateurs multi-tâches, dans un cadre fréquentiste non paramétrique et non asymptotique. Nous nous plaçons dans le cadre de la régression ridge à noyau et y étendons les méthodes existantes de régression multi-tâches. La question clef est la calibration d'un paramètre de régularisation matriciel, qui encode la similarité entre les tâches. Nous proposons une méthode de calibration de ce paramètre, fondée sur l'estimation de la matrice de covariance du bruit entre les tâches. Nous donnons ensuite pour l'estimateur obtenu des garanties d'optimalité, via une inégalité oracle, puis vérifions son comportement sur des exemples simulés. Nous obtenons par ailleurs un encadrement précis des risques des estimateurs oracles multi-tâches et mono-tâche dans certains cas. Cela nous permet de dégager plusieurs situations intéressantes, où l'oracle multi-tâches est plus efficace que l'oracle mono-tâche, ou vice versa. Cela nous permet aussi de nous assurer que l'inégalité oracle force l'estimateur multi-tâches à avoir un risque inférieur à l'estimateur mono-tâche dans les cas étudiés. Le comportement des oracles multi-tâches et mono-tâche est vérifié sur des exemples simulés. [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning [MATH:MATH_ST] Mathematics/Statistics Calibration de paramètres Inégalité oracle Méthodes à noyau Multi-tâches Régression \textit{ridge} Statistique fréquentiste Statistique non asymptotique Statistique non paramétrique
8	Dependence modeling between continuous time stochastic processes : an application to electricity markets modeling and risk management / Modélisation de la dépendance entre processus stochastiques en temps continu : une application aux marchés de l'électricité et à la gestion des risques Deschatre, Thomas 08 December 2017 (has links) Cette thèse traite de problèmes de dépendance entre processus stochastiques en temps continu. Ces résultats sont appliqués à la modélisation et à la gestion des risques des marchés de l'électricité.Dans une première partie, de nouvelles copules sont établies pour modéliser la dépendance entre deux mouvements Browniens et contrôler la distribution de leur différence. On montre que la classe des copules admissibles pour les Browniens contient des copules asymétriques. Avec ces copules, la fonction de survie de la différence des deux Browniens est plus élevée dans sa partie positive qu'avec une dépendance gaussienne. Les résultats sont appliqués à la modélisation jointe des prix de l'électricité et d'autres commodités énergétiques. Dans une seconde partie, nous considérons un processus stochastique observé de manière discrète et défini par la somme d'une semi-martingale continue et d'un processus de Poisson composé avec retour à la moyenne. Une procédure d'estimation pour le paramètre de retour à la moyenne est proposée lorsque celui-ci est élevé dans un cadre de statistique haute fréquence en horizon fini. Ces résultats sont utilisés pour la modélisation des pics dans les prix de l'électricité.Dans une troisième partie, on considère un processus de Poisson doublement stochastique dont l'intensité stochastique est une fonction d'une semi-martingale continue. Pour estimer cette fonction, un estimateur à polynômes locaux est utilisé et une méthode de sélection de la fenêtre est proposée menant à une inégalité oracle. Un test est proposé pour déterminer si la fonction d'intensité appartient à une certaine famille paramétrique. Grâce à ces résultats, on modélise la dépendance entre l'intensité des pics de prix de l'électricité et de facteurs exogènes tels que la production éolienne. / In this thesis, we study some dependence modeling problems between continuous time stochastic processes. These results are applied to the modeling and risk management of electricity markets. In a first part, we propose new copulae to model the dependence between two Brownian motions and to control the distribution of their difference. We show that the class of admissible copulae for the Brownian motions contains asymmetric copulae. These copulae allow for the survival function of the difference between two Brownian motions to have higher value in the right tail than in the Gaussian copula case. Results are applied to the joint modeling of electricity and other energy commodity prices. In a second part, we consider a stochastic process which is a sum of a continuous semimartingale and a mean reverting compound Poisson process and which is discretely observed. An estimation procedure is proposed for the mean reversion parameter of the Poisson process in a high frequency framework with finite time horizon, assuming this parameter is large. Results are applied to the modeling of the spikes in electricity prices time series. In a third part, we consider a doubly stochastic Poisson process with stochastic intensity function of a continuous semimartingale. A local polynomial estimator is considered in order to infer the intensity function and a method is given to select the optimal bandwidth. An oracle inequality is derived. Furthermore, a test is proposed in order to determine if the intensity function belongs to some parametrical family. Using these results, we model the dependence between the intensity of electricity spikes and exogenous factors such as the wind production. Dépendance Copule Mouvement Brownien Statistique haute fréquence Semimartingale Processus de Poisson Intensité stochastique Estimation non paramétrique Estimateur à polynômes locaux Sélection de fenêtre Inégalité oracle Marchés de l'électricité Pics Production éolienne Gestion des risques Finance mathématique Dependence Copula Brownian motion High frequency statistics Semimartingale Poisson process Stochastic intensity Non parametric estimation Local polynomial estimation Bandwidth selection Oracle inequality Electricity markets Spikes Wind production Risk management Mathematical finance 519

Search results