Global ETD Search

1	Estimation par Minimum de Contraste Régulier et Heuristique de Pente en Sélection de Modèles Saumard, Adrien 22 October 2010 (has links) (PDF) Cette thèse est consacrée à l'étude théorique d'une méthode de calibration automatique des pénalités en sélection de modèles. Cette méthode se base sur une heuristique, appelée "heuristique de pente", qui stipule l'existence d'une pénalité minimale telle que la solution optimale du problème de pénalisation vaut deux fois celle-ci. En pratique, on estime la pénalité optimale en estimant préalablement la pénalité minimale, caractérisée par un changement brutal dans le comportement de la procédure de sélection de modèles autour de ce seuil de pénalisation. L'analyse théorique du phénomène de pente se base sur un contrôle à la constante près des déviations de l'excès de risque et de l'excès de risque empirique des estimateurs considérés, mesurant respectivement leur performance en prédiction et leur performance empirique. Ceci suggère en premier lieu, une forte spécification de la structure du problème étudié. Nous validons l'heuristique de pente dans un cadre général qui s'articule autour d'une notion nouvelle en M-estimation, que nous appelons "contraste régulier", et nous développons une méthodologie de preuve inédite, permettant de traiter à la fois la question des bornes supérieures et des bornes inférieures de déviation des excès de risque à modèle fixé. Nous retrouvons ainsi la plupart des résultats déjà connus sur l'heuristique de pente. En effet, nous donnons trois exemples d'estimation par minimum de contraste régulier, à savoir la régression par moindres carrés sur des modèles linéaires, l'estimation de la densité par moindres carrés sur des modèles affines et l'estimation de la densité par maximum de vraisemblance sur des ensembles convexes. Ceci nous permet d'étendre les résultats précédemment établis dans le cas de la régression à des modèles plus généraux et de valider l'heuristique de pente pour un risque non quadratique en considérant le cas de l'estimation par maximum de vraisemblance. Enfin, notre méthodologie de preuve fournit des pistes précises de recherche pour des situations non régulières, comme on en trouve en classification ou plus généralement en théorie de l'apprentissage statistique. [MATH] Mathematics sélection de modèles heuristique de pente excès de risque bornes inférieures processus empirique inégalité de concentration
2	Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. Baudry, Jean-Patrick 03 December 2009 (has links) (PDF) Le cadre principal de cette thèse est la classification non supervisée, traitée par une approche statistique dans le cadre des modèles de mélange. Plus particulièrement, nous nous intéressons au choix du nombre de classes et au critère de sélection de modèle ICL. Une approche fructueuse de son étude théorique consiste à considérer un contraste adapté à la classification non supervisée : ce faisant, un nouvel estimateur ainsi que de nouveaux critères de sélection de modèle sont proposés et étudiés. Des solutions pratiques pour leur calcul s'accompagnent de retombées positives pour le calcul du maximum de vraisemblance dans les modèles de mélange. La méthode de l'heuristique de pente est appliquée pour la calibration des critères pénalisés considérés. Aussi les bases théoriques en sont-elles rappelées en détails, et deux approches pour son application sont étudiées. Une autre approche de la classification non supervisée est considérée : chaque classe peut être modélisée elle-même par un mélange. Une méthode est proposée pour répondre notamment à la question du choix des composantes à regrouper. Enfin, un critère est proposé pour permettre de lier le choix du nombre de composantes, lorsqu'il est identifié au nombre de classes, à une éventuelle classification externe connue a priori. [MATH] Mathematics Classification non supervisée Sélection de modèle Modèles de mélange Vraisemblance classifiante Critères pénalisés BIC ICL Minimisation de contraste Sélection de modèle data-driven Heuristique de pente EM Point d'effondrement Mélanges de mélanges SICL
3	Calibration d'algorithmes de type Lasso et analyse statistique de données métallurgiques en aéronautique / Calibration of Lasso-type algorithms & statistical analysis of metallurgical data in aeronautics Connault, Pierre 06 April 2011 (has links) Notre thèse comprend deux parties : l’une méthodologique, l’autre appliquée.La partie méthodologique porte sur le Lasso et une variante de cet algorithme, le Lasso projeté, en vue de leur calibration par pente. Notre méthode tire parti des propriétés de parcimonie du Lasso, en envisageant le problème de sa calibration comme un problème de sélection de modèles, permettant l’emploi de critères pénalisés nécessitant le réglage d’une constante. Pour déterminer la forme de la pénalité et la valeur de la constante, nous adaptons les approches classiques de Birgé et Massart. Ceci permet de dégager la notion de pénalité canonique. Pente et validation croisée sont ensuite comparées. La proximité des résultats suggère qu’en pratique on utilise les deux conjointement, avec des corrections visuelles concernant la pente. Des améliorations sur le temps de calcul des pénalités canoniques sont ensuite proposées, mais sans succès patent. La partie appliquée analyse certaines questions métallurgiques en aéronautique. En fiabilité, le grand nombre de variables présentes, relativement au nombre limité de données, mène à une instabilité des solutions par modèles linéaires et à des temps de calculs trop élevés ; c’est pourquoi le Lasso constitue une solution intéressante. Notre méthode de réglage permet souvent de retenir les variables conformes à l’expérience métier. La question de la qualité du procédé de fabrication, par contre, ne peut se traiter au moyen du Lasso. Quatre aspects sont alors envisagés : la détermination des facteurs du procédé, la mise en évidence de recettes, l’étude de la stabilité du procédé dans le temps et la détection de pièces hors-normes. Un schéma général d’étude procédé est ainsi dégagé,en qualité comme en fiabilité. / Our work contains a methodological and an applied part.In the methodological part we study Lasso and a variant of this algorithm : the projectedLasso. We develop slope heuristics to calibrate them.Our approach uses sparsity properties of the Lasso, showing how to remain to a modelselection framework. This both involves a penalized criterion and the tuning of a constant.To this aim, we adopt the classical approaches of Birgé and Massart about slope heuristics.This leads to the notion of canonical penalty.Slope and (tenfold) crossvalidation are then compared through simulations studies.Results suggest the user to consider both of them. In order to increase calculation speed,simplified penalties are (unsuccessfully) tried.The applied part is about aeronautics. The results of the methodological part doapply in reliability : in classical approaches (without Lasso) the large number of variables/number of data ratio leads to an instability of linear models, and to huge calculustimes. Lasso provides a helpful solution.In aeronautics, dealing with reliability questions first needs to study quality of theelaboration and forging processes. Four major axis have to be considered : analysing thefactor of the process, discrimining recipes, studying the impact of time on quality anddetecting outliers. This provides a global statistical strategy of impowerment for processes. Lasso Calibration Heuristique de pente Pénalité Pénalité minimale Simulation Validation croisée Procédé Fatigue Fiabilité Qualité Analyse en composantes principales Classification Lasso Calibration Slope heuristics Penalty Minimal penalty Simulation Crossvalidation Process Fatigue Reliability Quality Principal component analysis Clustering
4	Statistiques discrètes et Statistiques bayésiennes en grande dimension Bontemps, Dominique 02 December 2010 (has links) (PDF) Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible. [MATH] Mathematics Alphabet infini dénombrable A-priori bayésien le moins favorable Codage universel Compression adaptative Compression de données sans perte Redondance minimax Estimation adaptative Modèles exponentiels Normalité asymptotique a-posteriori Paramètre de la valeur moyenne Théorème de Bernstein-von Mises Biostatistiques Génotypes multilocus Heuristique de pente Mélange de multinomiales multivariées Modèles à classes latentes Sélection de modèle Sélection de variables Vraissemblance pénalisée
5	Validation croisée et pénalisation pour l'estimation de densité / Cross-validation and penalization for density estimation Magalhães, Nelo 26 May 2015 (has links) Cette thèse s'inscrit dans le cadre de l'estimation d'une densité, considéré du point de vue non-paramétrique et non-asymptotique. Elle traite du problème de la sélection d'une méthode d'estimation à noyau. Celui-ci est une généralisation, entre autre, du problème de la sélection de modèle et de la sélection d'une fenêtre. Nous étudions des procédures classiques, par pénalisation et par rééchantillonnage (en particulier la validation croisée V-fold), qui évaluent la qualité d'une méthode en estimant son risque. Nous proposons, grâce à des inégalités de concentration, une méthode pour calibrer la pénalité de façon optimale pour sélectionner un estimateur linéaire et prouvons des inégalités d'oracle et des propriétés d'adaptation pour ces procédures. De plus, une nouvelle procédure rééchantillonnée, reposant sur la comparaison entre estimateurs par des tests robustes, est proposée comme alternative aux procédures basées sur le principe d'estimation sans biais du risque. Un second objectif est la comparaison de toutes ces procédures du point de vue théorique et l'analyse du rôle du paramètre V pour les pénalités V-fold. Nous validons les résultats théoriques par des études de simulations. / This thesis takes place in the density estimation setting from a nonparametric and nonasymptotic point of view. It concerns the statistical algorithm selection problem which generalizes, among others, the problem of model and bandwidth selection. We study classical procedures, such as penalization or resampling procedures (in particular V-fold cross-validation), which evaluate an algorithm by estimating its risk. We provide, thanks to concentration inequalities, an optimal penalty for selecting a linear estimator and we prove oracle inequalities and adaptative properties for resampling procedures. Moreover, new resampling procedure, based on estimator comparison by the mean of robust tests, is introduced as an alternative to procedures relying on the unbiased risk estimation principle. A second goal of this work is to compare these procedures from a theoretical point of view and to understand the role of V for V-fold penalization. We validate these theoretical results on empirical studies. Statistiques non-paramétriques Estimation de densité Sélection d'estimateur Sélection d'une méthode d'estimation Estimateurs linéaires Validation croisée V-fold Pénalisation T-estimation Inégalités d'oracle Heuristique de pente Estimation adaptative Perte Hellinger Non-parametric statistics Density estimation Estimator selection Statistical algorithm selection Linear estimators V-fold cross-validation Penalization T-estimation Oracle inequalities Slope heuristics Adaptative estimation Hellinger loss

1

Page generated in 0.0944 seconds