Global ETD Search

1	Estimation for counting processes with high-dimensional covariates / Estimation pour les processus de comptage avec beaucoup de covariables Lemler, Sarah 09 December 2014 (has links) Nous cherchons à estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables. Nous proposons deux approches. D’abord, nous considérons une intensité non-paramétrique et nous l’estimons par le meilleur modèle de Cox étant donné deux dictionnaires de fonctions. Le premier dictionnaire est utilisé pour construire une approximation du logarithme du risque de base et le second pour approximer le risque relatif. Nous considérons une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres inconnus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non-asymptotiques pour l’estimateur Lasso obtenu. Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski. Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein. / We consider the problem of estimating the intensity of a counting process adjusted on high-dimensional covariates. We propose two different approaches. First, we consider a non-parametric intensity function and estimate it by the best Cox proportional hazards model given two dictionaries of functions. The first dictionary is used to construct an approximation of the logarithm of the baseline hazard function and the second to approximate the relative risk. In this high-dimensional setting, we consider the Lasso procedure to estimate simultaneously the unknown parameters of the best Cox model approximating the intensity. We provide non-asymptotic oracle inequalities for the resulting Lasso estimator. In a second part, we consider an intensity that rely on the Cox model. We propose two two-step procedures to estimate the unknown parameters of the Cox model. Both procedures rely on a first step which consists in estimating the regression parameter in high-dimension via a Lasso procedure. The baseline function is then estimated either via model selection or by a kernel estimator with a bandwidth selected by the Goldenshluger and Lepski method. We establish non-asymptotic oracle inequalities for the two resulting estimators of the baseline function. We conduct a comparative study of these estimators on simulated data, and finally, we apply the implemented procedure to a real dataset on breast cancer. Modèle de Cox Inégalités oracles non-asymptotiques Procédure Lasso
2	Recherche d'inégalités oracles pour des problèmes inverses Marteau, Clément 28 November 2007 (has links) (PDF) Cette thèse s'intéresse aux problèmes inverses dans un cadre statistique. A partir des observations $Y=Af+\epsilon \xi$, le but est d'approximer aussi fidèlement que possible la fonction f où $A$ représente un opérateur compact, $\epsilon>0$ le niveau de bruit et $\xi$ un bruit blanc gaussien. Etant données une procédure $f^{\star}$ et une collection d'estimateurs $\Lambda$, une inégalité<br />oracle permet de comparer, sans aucune hypothèse sur la fonction cible $f$ et d'un point de vue non-asymptotique, les performances de $f^{\star}$ à celles du meilleur estimateur dans $\Lambda$<br />connaissant $f$. Dans l'optique d'obtenir de telles inégalités, cette thèse s'articule autour de deux objectifs: une meilleure compréhension des problèmes inverses lorsque l'opérateur est<br />mal-connu et l'extension de l'algorithme de minimisation de l'enveloppe du risque (RHM) à un domaine d'application plus large.<br /> La connaissance complète de l'opérateur A est en effet une hypothèse implicite dans la plupart des méthodes existantes. Il est cependant raisonnable de penser que ce dernier puisse être en partie, voire totalement inconnu. Dans un premier temps, nous généralisons donc la méthode de Stein par blocs pénalisée ainsi que l'algorithme RHM à cette situation. Ce dernier, initié par L. Cavalier et Y. Golubev, améliore considérablement les performances de la traditionnelle méthode d'estimation du risque sans biais. Cependant, cette nouvelle procédure ne concerne que les estimateurs par projection. En pratique, ces derniers sont souvent moins performants que les estimateurs de Tikhonov ou les procédures itératives, dans un certain sens beaucoup plus fines. Dans la dernière partie, nous étendons donc l'utilisation de l'enveloppe du risque à une gamme beaucoup plus large d'estimateurs. [MATH] Mathematics problèmes inverses inégalités oracles enveloppe du risque régularisation
3	Approches statistiques en apprentissage : boosting et ranking Vayatis, Nicolas 09 December 2006 (has links) (PDF) Depuis une dizaine d'années, la théorie statistique de l'apprentissage a connu une forte expansion. L'avènement d'algorithmes hautement performants pour la classification de données en grande dimension, tels que le boosting ou les machines à noyaux (SVM) a engendré de nombreuses questions statistiques que la théorie de Vapnik-Chervonenkis (VC) ne permettait pas de résoudre. En effet, le principe de Minimisation du Risque Empirique ne rend pas compte des méthodes d'apprentissage concrètes et le concept de complexité combinatoire de VC dimension ne permet pas d'expliquer les capacités de généralisation d'algorithmes<br />sélectionnant un estimateur au sein d'une classe massive telle que l'enveloppe convexe d'une classe de VC. Dans le premier volet du mémoire, on rappelle les interprétations des algorithmes de boosting comme des implémentations de principes de minimisation<br />de risques convexes et on étudie leurs propriétés sous cet angle. En particulier, on montre l'importance de la<br />régularisation pour obtenir des stratégies consistantes. On développe également une nouvelle classe d'algorithmes de type gradient stochastique appelés algorithmes de descente miroir avec moyennisation et on évalue leur comportement à travers des simulations informatiques. Après avoir présenté les principes fondamentaux du boosting, on s'attache dans le<br />deuxième volet à des questions plus avancées telles que<br />l'élaboration d'inégalités d'oracle. Ainsi, on étudie la<br />calibration précise des pénalités en fonction des critères<br />de coût utilisés. On présente des résultats<br />non-asymptotiques sur la performance des estimateurs du boosting pénalisés, notamment les vitesses rapides sous les conditions de marge de type Mammen-Tsybakov et on décrit les capacités d'approximation du boosting utilisant les "rampes" (stumps) de décision. Le troisième volet du mémoire explore le problème du ranking. Un enjeu important dans des applications<br />telles que la fouille de documents ou le "credit scoring" est d'ordonner les instances plutôt que de les catégoriser. On propose une formulation simple de ce problème qui permet d'interpréter le ranking comme une classification sur des paires d'observations. La différence dans ce cas vient du fait que les<br />critères empiriques sont des U-statistiques et on développe donc la théorie de la classification adaptée à ce contexte. On explore également la question de la généralisation de l'erreur de ranking afin de pouvoir inclure des a priori sur l'ordre des instances, comme dans le cas où on ne s'intéresse qu'aux "meilleures" instances. [MATH] Mathematics apprentissage<br />statistique algorithmes de classification inégalités oracles vitesses rapides <br />approximation stochastique critère AUC $U$-processus
4	Segmentation de Processus de Comptage et modèles Dynamiques / Segmentation of counting processes and dynamical models Alaya, Elmokhtar Ezzahdi 27 June 2016 (has links) Dans la première partie de cette thèse, nous cherchons à estimer l'intensité d'un processus de comptage par des techniques d'apprentissage statistique en grande dimension. Nous introduisons une procédure d'estimation basée sur la pénalisation par variation totale avec poids. Un premier ensemble de résultats vise à étudier l'intensité sous une hypothèse a priori de segmentation sparse. Dans une seconde partie, nous étudions la technique de binarisation de variables explicatives continues, pour laquelle nous construisons une régularisation spécifique à ce problème. Cette régularisation est intitulée ``binarsity'', elle pénalise les valeurs différentes d'un vecteur de paramètres. Dans la troisième partie, nous nous intéressons à la régression dynamique pour les modèles d'Aalen et de Cox avec coefficients et covariables en grande dimension, et pouvant dépendre du temps. Pour chacune des procédures d'estimation proposées, nous démontrons des inégalités oracles non-asymptotiques en prédiction. Nous utilisons enfin des algorithmes proximaux pour résoudre les problèmes convexes sous-jacents, et nous illustrons nos méthodes sur des données simulées et réelles. / In the first part of this thesis, we deal with the problem of learning the inhomogeneous intensity of a counting process, under a sparse segmentation assumption. We introduce a weighted total-variation penalization, using data-driven weights that correctly scale the penalization along the observation interval. In the second part, we study the binarization technique of continuous features, for which we construct a specific regularization. This regularization is called “binarsity”, it computes the different values of a parameter. In the third part, we are interested in the dynamic regression models of Aalen and Cox with time-varying covariates and coefficients in high-dimensional settings. For each proposed estimation procedure, we give theoretical guaranties by proving non-asymptotic oracle inequalities in prediction. We finally present proximal algorithms to solve the underlying studied convex problems, and we illustrate our methods with simulated and real datasets. Processus de comptage Points de rupture Binarisation de variables Régression dynamique Variation-Totale Inégalités oracles Algorithmes proximaux Counting processes Change-points Features binarization 519.5
5	Agrégation d'estimateurs et de classificateurs : théorie et méthodes Guedj, Benjamin 04 December 2013 (has links) (PDF) Ce manuscrit de thèse est consacré à l'étude des propriétés théoriques et méthodologiques de différentes procédures d'agrégation d'estimateurs. Un premier ensemble de résultats vise à étendre la théorie PAC-bayésienne au contexte de la grande dimension, dans les modèles de régression additive et logistique. Nous prouvons dans ce contexte l'optimalité, au sens minimax et à un terme logarithmique près, de nos estimateurs. La mise en \oe uvre pratique de cette stratégie, par des techniques MCMC, est étayée par des simulations numériques. Dans un second temps, nous introduisons une stratégie originale d'agrégation non linéaire d'estimateurs de la fonction de régression. Les qualités théoriques et pratiques de cette approche --- dénommée COBRA --- sont étudiées, et illustrées sur données simulées et réelles. Enfin, nous présentons une modélisation bayésienne --- et l'implémentation MCMC correspondante --- d'un problème de génétique des populations. Les différentes approches développées dans ce document sont toutes librement téléchargeables depuis le site de l'auteur. [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning [MATH:MATH_ST] Mathematics/Statistics Agrégation régression classification inégalités oracles théorie PAC-bayésienne COBRA MCMC parcimonie
6	Inférence Adaptative, Inductive et Transductive, pour l'Estimation de la Regression et de la Densité Alquier, Pierre 08 December 2006 (has links) (PDF) Cette thèse a pour objet l'étude des<br />propriétés statistiques d'algorithmes d'apprentissage dans le cas de<br />l'estimation de la régression et de la densité. Elle est divisée en<br />trois parties.<br /><br />La première partie consiste en une généralisation des théorèmes<br />PAC-Bayésiens, sur la classification, d'Olivier Catoni, au cas de la régression avec une fonction de perte<br />générale.<br /><br />Dans la seconde partie, on étudie plus particulièrement le cas de la<br />régression aux moindres carrés et on propose un nouvel algorithme de<br />sélection de variables. Cette méthode peut être appliquée notamment<br />au cas d'une base de fonctions orthonormales, et conduit alors à des<br />vitesses de convergence optimales, mais aussi au cas de fonctions de<br />type noyau, elle conduit alors à une variante des méthodes dites<br />"machines à vecteurs supports" (SVM).<br /><br />La troisième partie étend les résultats de la seconde au cas de<br />l'estimation de densité avec perte quadratique. [MATH] Mathematics théorie de l'apprentissage statistique sélection de modèles régression aux moindres carrés régions de confiance inégalités de concentration bornes pac-bayésiennes estimation non-paramétrique estimation adaptative mesures empiriques de la complexité schémas de compression machines à vecteur support inégalités oracles estimateurs randomisés distribution de Gibbs estimation de la densité ondelettes borne sur le risque

1

Page generated in 0.051 seconds