Global ETD Search

21	Statistiques discrètes et Statistiques bayésiennes en grande dimension Bontemps, Dominique 02 December 2010 (has links) (PDF) Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible. [MATH] Mathematics Alphabet infini dénombrable A-priori bayésien le moins favorable Codage universel Compression adaptative Compression de données sans perte Redondance minimax Estimation adaptative Modèles exponentiels Normalité asymptotique a-posteriori Paramètre de la valeur moyenne Théorème de Bernstein-von Mises Biostatistiques Génotypes multilocus Heuristique de pente Mélange de multinomiales multivariées Modèles à classes latentes Sélection de modèle Sélection de variables Vraissemblance pénalisée
22	Validation croisée et pénalisation pour l'estimation de densité / Cross-validation and penalization for density estimation Magalhães, Nelo 26 May 2015 (has links) Cette thèse s'inscrit dans le cadre de l'estimation d'une densité, considéré du point de vue non-paramétrique et non-asymptotique. Elle traite du problème de la sélection d'une méthode d'estimation à noyau. Celui-ci est une généralisation, entre autre, du problème de la sélection de modèle et de la sélection d'une fenêtre. Nous étudions des procédures classiques, par pénalisation et par rééchantillonnage (en particulier la validation croisée V-fold), qui évaluent la qualité d'une méthode en estimant son risque. Nous proposons, grâce à des inégalités de concentration, une méthode pour calibrer la pénalité de façon optimale pour sélectionner un estimateur linéaire et prouvons des inégalités d'oracle et des propriétés d'adaptation pour ces procédures. De plus, une nouvelle procédure rééchantillonnée, reposant sur la comparaison entre estimateurs par des tests robustes, est proposée comme alternative aux procédures basées sur le principe d'estimation sans biais du risque. Un second objectif est la comparaison de toutes ces procédures du point de vue théorique et l'analyse du rôle du paramètre V pour les pénalités V-fold. Nous validons les résultats théoriques par des études de simulations. / This thesis takes place in the density estimation setting from a nonparametric and nonasymptotic point of view. It concerns the statistical algorithm selection problem which generalizes, among others, the problem of model and bandwidth selection. We study classical procedures, such as penalization or resampling procedures (in particular V-fold cross-validation), which evaluate an algorithm by estimating its risk. We provide, thanks to concentration inequalities, an optimal penalty for selecting a linear estimator and we prove oracle inequalities and adaptative properties for resampling procedures. Moreover, new resampling procedure, based on estimator comparison by the mean of robust tests, is introduced as an alternative to procedures relying on the unbiased risk estimation principle. A second goal of this work is to compare these procedures from a theoretical point of view and to understand the role of V for V-fold penalization. We validate these theoretical results on empirical studies. Statistiques non-paramétriques Estimation de densité Sélection d'estimateur Sélection d'une méthode d'estimation Estimateurs linéaires Validation croisée V-fold Pénalisation T-estimation Inégalités d'oracle Heuristique de pente Estimation adaptative Perte Hellinger Non-parametric statistics Density estimation Estimator selection Statistical algorithm selection Linear estimators V-fold cross-validation Penalization T-estimation Oracle inequalities Slope heuristics Adaptative estimation Hellinger loss
23	Estimation bayésienne non paramétrique Rivoirard, Vincent 13 December 2002 (has links) (PDF) Dans le cadre d'une analyse par ondelettes, nous nous intéressons à l'étude statistique d'une classe particulière d'espaces de Lorentz : les espaces de Besov faibles qui apparaissent naturellement dans le contexte de la théorie maxiset. Avec des hypothèses de type "bruit blanc gaussien", nous montrons, grâce à des techniques bayésiennes, que les vitesses minimax des espaces de Besov forts ou faibles sont les mêmes. Les distributions les plus défavorables que nous exhibons pour chaque espace de Besov faible sont construites à partir des lois de Pareto et diffèrent en cela de celles des espaces de Besov forts. Grâce aux simulations de ces distributions, nous construisons des représentations visuelles des "ennemis typiques". Enfin, nous exploitons ces distributions pour bâtir une procédure d'estimation minimax, de type "seuillage" appelée ParetoThresh, que nous étudions d'un point de vue pratique. Dans un deuxième temps, nous nous plaçons sous le modèle hétéroscédastique de bruit blanc gaussien et sous l'approche maxiset, nous établissons la sous-optimalité des estimateurs linéaires par rapport aux procédures adaptatives de type "seuillage". Puis, nous nous interrogeons sur la meilleure façon de modéliser le caractère "sparse" d'une suite à travers une approche bayésienne. À cet effet, nous étudions les maxisets des estimateurs bayésiens classiques - médiane, moyenne - associés à une modélisation construite sur des densités à queues lourdes. Les espaces maximaux pour ces estimateurs sont des espaces de Lorentz, et coïncident avec ceux associés aux estimateurs de type "seuillage". Nous prolongeons de manière naturelle ce résultat en obtenant une condition nécessaire et suffisante sur les paramètres du modèle pour que la loi a priori se concentre presque sûrement sur un espace de Lorentz précis. [MATH] Mathematics Estimation adaptative Ondelettes Théorie minimax Théorie maxiset Vitesse de convergence Sparsité Modélisation bayésienne Modèle de bruit blanc gaussien Modèle hétéreoscédastique Problème statistique inverse Estimateur bayésien Estimateur de type "seuillage" Estimateur linéaire Espace de Lorentz Espace de Besov faible Espace de Besov fort Distributions les plus défavorables Loi de Pareto
24	Inférence Adaptative, Inductive et Transductive, pour l'Estimation de la Regression et de la Densité Alquier, Pierre 08 December 2006 (has links) (PDF) Cette thèse a pour objet l'étude des<br />propriétés statistiques d'algorithmes d'apprentissage dans le cas de<br />l'estimation de la régression et de la densité. Elle est divisée en<br />trois parties.<br /><br />La première partie consiste en une généralisation des théorèmes<br />PAC-Bayésiens, sur la classification, d'Olivier Catoni, au cas de la régression avec une fonction de perte<br />générale.<br /><br />Dans la seconde partie, on étudie plus particulièrement le cas de la<br />régression aux moindres carrés et on propose un nouvel algorithme de<br />sélection de variables. Cette méthode peut être appliquée notamment<br />au cas d'une base de fonctions orthonormales, et conduit alors à des<br />vitesses de convergence optimales, mais aussi au cas de fonctions de<br />type noyau, elle conduit alors à une variante des méthodes dites<br />"machines à vecteurs supports" (SVM).<br /><br />La troisième partie étend les résultats de la seconde au cas de<br />l'estimation de densité avec perte quadratique. [MATH] Mathematics théorie de l'apprentissage statistique sélection de modèles régression aux moindres carrés régions de confiance inégalités de concentration bornes pac-bayésiennes estimation non-paramétrique estimation adaptative mesures empiriques de la complexité schémas de compression machines à vecteur support inégalités oracles estimateurs randomisés distribution de Gibbs estimation de la densité ondelettes borne sur le risque
25	Estimation de la diffusion thermique et du terme source du modèle de transport de la chaleur dans les plasmas de tokamaks. / Joint Diffusion and source term estimation in tokamak plasma heat transport. Mechhoud, Sarah 17 December 2013 (has links) Cette thèse porte sur l'estimation simultanée du coefficient de diffusion et du terme source régissant le modèle de transport de la température dans les plasmas chauds. Ce phénomène physique est décrit par une équation différentielle partielle (EDP) linéaire, parabolique du second-ordre et non-homogène, où le coefficient de diffusion est distribué et le coefficient de réaction est constant. Ce travail peut se présenter en deux parties. Dans la première, le problème d'estimation est traité en dimension finie ("Early lumping approach"). Dans la deuxième partie, le problème d'estimation est traité dans le cadre initial de la dimension infinie ("Late lumping approach"). Pour l'estimation en dimension finie, une fois le modèle établi, la formulation de Galerkin et la méthode d'approximation par projection sont choisies pour convertir l'EDP de transport en un système d'état linéaire, temps-variant et à entrées inconnues. Sur le modèle réduit, deux techniques dédiées à l'estimation des entrées inconnues sont choisies pour résoudre le problème. En dimension infinie, l'estimation en-ligne adaptative est adoptée pour apporter des éléments de réponse aux contraintes et limitations dues à la réduction du modèle. Des résultats de simulations sur des données réelles et simulées sont présentées dans ce mémoire. / This work deals with the diffusion and source term estimation in a heat transport model for tokamaks plasma . This phenomenon is described by a second-order linear parabolic partial differential equation (PDE) with distributed diffusion parameter and input. Both "Early lumping" and "Late lumping" approaches are considered in this thesis. First, once the heat model is chosen, the Galerkin formulation and the parameter projection method are combined to convert the PDE to a set of ordinary differential equations (ODEs). Then, two estimation methods able to give optimal estimates of the inputs are applied on the reduced model to identify simultaneously the source term and the diffusion coefficient. In the infinite dimensional method, the adaptive estimation technique is chosen in order to reconstruct "freely" the unknown parameters without the constraints due to the model reduction method. Simulation results on both simulated and real data are provided to attest the performance of the proposed methodologies. Fusion thermonucléaire contrôlée Formulation de Galerkin (FEM) B-splines Filtre de Kalman Étendu à Entrées Inconnues (FKE-EI) Auto-régla Controlled thermonuclear fusion Galerkin formulation Finite Element Method (FEM) B-splines Extended Kalman
26	Estimation non-paramétrique adaptative pour des modèles bruités / Nonparametric adaptive estimation in measurement error models Mabon, Gwennaëlle 26 May 2016 (has links) Dans cette thèse, nous nous intéressons au problème d'estimation de densité dans le modèle de convolution. Ce cadre correspond aux modèles avec erreurs de mesures additives, c'est-à-dire que nous observons une version bruitée de la variable d'intérêt. Pour mener notre étude, nous adoptons le point de vue de l'estimation non-paramétrique adaptative qui repose sur des procédures de sélection de modèle développées par Birgé & Massart ou sur les méthodes de Lepski. Cette thèse se divise en deux parties. La première développe des méthodes spécifiques d'estimation adaptative quand les variables d'intérêt et les erreurs sont des variables aléatoires positives. Ainsi nous proposons des estimateurs adaptatifs de la densité ou encore de la fonction de survie dans ce modèle, puis de fonctionnelles linéaires de la densité cible. Enfin nous suggérons une procédure d'agrégation linéaire. La deuxième partie traite de l'estimation adaptative de densité dans le modèle de convolution lorsque la loi des erreurs est inconnue. Dans ce cadre il est supposé qu'un échantillon préliminaire du bruit est disponible ou que les observations sont disponibles sous forme de données répétées. Les résultats obtenus pour des données répétées dans le modèle de convolution permettent d'élargir cette méthodologie au cadre des modèles linéaires mixtes. Enfin cette méthode est encore appliquée à l'estimation de la densité de somme de variables aléatoires observées avec du bruit. / In this thesis, we are interested in nonparametric adaptive estimation problems of density in the convolution model. This framework matches additive measurement error models, which means we observe a noisy version of the random variable of interest. To carry out our study, we follow the paradigm of model selection developped by Birgé & Massart or criterion based on Lepski's method. The thesis is divided into two parts. In the first one, the main goal is to build adaptive estimators in the convolution model when both random variables of interest and errors are distributed on the nonnegative real line. Thus we propose adaptive estimators of the density along with the survival function, then of linear functionals of the target density. This part ends with a linear density aggregation procedure. The second part of the thesis deals with adaptive estimation of density in the convolution model when the distribution is unknown and distributed on the real line. To make this problem identifiable, we assume we have at hand either a preliminary sample of the noise or we observe repeated data. So, we can derive adaptive estimation with mild assumptions on the noise distribution. This methodology is then applied to linear mixed models and to the problem of density estimation of the sum of random variables when the latter are observed with an additive noise. Modèles de convolution Modèles de durées Modèles mixtes Estimation non-paramétrique Estimation adaptative Estimation par projection Sélection de modèles Méthodes de Goldenshluger et Lepski Agrégation Vitesses optimales minimax Convolution models Duration models Mixed models Nonparametric estimation Adaptive estimation Projection estimators Model selection Goldenshluger and Lepski method Aggregation Minimax optimal rates 519

Page generated in 0.1727 seconds