Global ETD Search

61	Contrôle des fausses découvertes lors de la sélection de variables en grande dimension / Control of false discoveries in high-dimensional variable selection Bécu, Jean-Michel 10 March 2016 (has links) Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables. / In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection. Sélection de variables Grande dimension Taux de fausses découvertes Régression linéaire Régression Lasso Méthodes à deux étapes Variable selection High-dimension False discovery rate Linear model Ridge regression (Statistics) Lasso Two-step approaches
62	Approches "problèmes inverses" régularisées pour l'imagerie sans lentille et la microscopie holographique en ligne / Regularized inverse problems approaches for lensless imaging and in-line holographie microscopy Jolivet, Frederic 13 April 2018 (has links) En imagerie numérique, les approches «problèmes inverses» régularisées reconstruisent une information d'intérêt à partir de mesures et d'un modèle de formation d'image. Le problème d'inversion étant mal posé, mal conditionné et le modèle de formation d'image utilisé peu contraint, il est nécessaire d'introduire des a priori afin de restreindre l'ambiguïté de l'inversion. Ceci permet de guider la reconstruction vers une solution satisfaisante. Les travaux de cette thèse ont porté sur le développement d'algorithmes de reconstruction d'hologrammes numériques, basés sur des méthodes d'optimisation en grande dimension (lisse ou non-lisse). Ce cadre général a permis de proposer différentes approches adaptées aux problématiques posées par cette technique d'imagerie non conventionnelle : la super-résolution, la reconstruction hors du champ du capteur, l'holographie «couleur» et enfin la reconstruction quantitative d'objets de phase (c.a.d. transparents). Dans ce dernier cas, le problème de reconstruction consiste à estimer la transmittance complexe 2D des objets ayant absorbé et/ou déphasé l'onde d'éclairement lors de l'enregistrement de l'hologramme. Les méthodes proposées sont validées à l'aide de simulations numériques puis appliquées sur des données expérimentales issues de l'imagerie sans lentille ou de la microscopie holographique en ligne (imagerie cohérente en transmission, avec un objectif de microscope). Les applications vont de la reconstruction de mires de résolution opaques à la reconstruction d'objets biologiques (bactéries), en passant par la reconstruction de gouttelettes d'éther en évaporation dans le cadre d'une étude de la turbulence en mécanique des fluides. / In Digital Imaging, the regularized inverse problems methods reconstruct particular information from measurements and an image formation model. With an inverse problem that is ill-posed and illconditioned, and with the used image formation mode! having few constraints, it is necessary to introduce a priori conditions in order to restrict ambiguity for the inversion. This allows us to guide the reconstruction towards a satisfying solution. The works of the following thesis delve into the development of reconstruction algorithms of digital holograms based on large-scale optimization methods (smooth and non-smooth). This general framework allowed us to propose different approaches adapted to the challenges found with this unconventional imaging technique: the super-resolution, reconstruction outside the sensor's field, the color holography and finally, the quantitative reconstruction of phase abjects (i.e. transparent). For this last case, the reconstruction problem consists of estimating the complex 2D transmittance of abjects having absorbed and/or dephased the light wave during the recording of the hologram. The proposed methods are validated with the help of numerical simulations that are then applied on experimental data taken from the lensless imaging or from the in-line holographie microscopy (coherent imaging in transmission, with a microscope abject glass). The applications range from the reconstruction of opaque resolution sights, to the reconstruction of biological objects (bacteria), passing through the reconstruction of evaporating ether droplets from a perspective of turbulence study in fluid mechanics. Reconstruction de phase Optimisation grande dimension Optimisation non-lisse Imagerie biomédicale Techniques de reconstruction d'image Approches régularisées Digital Imaging Inverse problems Digital holograms Reconstruction of biological objects Large-scale optimization methods Imaging technique
63	Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation Gerchinovitz, Sébastien 12 December 2011 (has links) (PDF) Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique. Apprentissage statistique Prévision séquentielle Suites individuelles Agrégation PAC-bayésienne Pondération exponentielle Régression parcimonieuse Grande dimension Calibration automatique Vitesses minimax Regret externe Regret interne Sélection de modèles Apprentissage automatique Bornes de regret
64	Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale Hamon, Julie 26 November 2013 (has links) (PDF) Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant ﬂexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les diﬀérentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diﬀusion. [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [MATH:MATH_CO] Mathematics/Combinatorics Sélection de variables régression optimisation combinatoire modèle mixte grande dimension génomique animale
65	Détection d'anomalies à la volée dans des flux de données de grande dimension Bellas, Anastasios 28 January 2014 (has links) (PDF) Le thème principal de cette thèse est d'étudier la détection d'anomalies dans des flux de données de grande dimension avec une application spécifique au \emph{Health Monitoring} des moteurs d'avion. Dans ce travail, on considère que le problème de la détection d'anomalies est un problème d'apprentissage non supervisée. Les données modernes, notamment celles issues de la surveillance des systèmes industriels sont souvent des flux d'observations de grande dimension, puisque plusieurs mesures sont prises à de hautes fréquences et à un horizon de temps qui peut être infini. De plus, les données peuvent contenir des anomalies (pannes) du système surveillé. La plupart des algorithmes existants ne peuvent pas traiter des données qui ont ces caractéristiques. Nous introduisons d'abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des données de grande dimension qui repose sur l'algorithme d'espérance-maximisation (EM) et qui est, en plus, robuste aux anomalies grâce à la technique du trimming. Ensuite, nous nous intéressons à la question du clustering probabiliste online de flux de données de grande dimension en développant l'inférence online du modèle de mélange d'analyse en composantes principales probabiliste. Pour les deux méthodes proposées, nous montrons leur efficacité sur des données simulées et réelles, issues par exemple des moteurs d'avion. Enfin, nous développons une application intégrée pour le Health Monitoring des moteurs d'avion dans le but de détecter des anomalies de façon dynamique. Le système proposé introduit des techniques originales de détection et de visualisation d'anomalies reposant sur les cartes auto-organisatrices. Des résultats de détection sont présentés et la question de l'identification des anomalies est aussi discutée. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Classification détection d'anomalies données de grande dimension flux de données trimming clustering online mélange de PPCA online cartes auto-organisatrices moteurs d'avions Health Monitoring
66	Contributions à l'apprentissage statistique dans les modèles parcimonieux Alquier, Pierre 06 December 2013 (has links) (PDF) Ce mémoire d'habilitation a pour objet diverses contributions à l'estimation et à l'apprentissage statistique dans les modeles en grande dimension, sous différentes hypothèses de parcimonie. Dans une première partie, on introduit la problématique de la statistique en grande dimension dans un modèle générique de régression linéaire. Après avoir passé en revue les différentes méthodes d'estimation populaires dans ce modèle, on présente de nouveaux résultats tirés de (Alquier & Lounici 2011) pour des estimateurs agrégés. La seconde partie a essentiellement pour objet d'étendre les résultats de la première partie à l'estimation de divers modèles de séries temporelles (Alquier & Doukhan 2011, Alquier & Wintenberger 2013, Alquier & Li 2012, Alquier, Wintenberger & Li 2012). Enfin, la troisième partie présente plusieurs extensions à des modèles non param\étriques ou à des applications plus spécifiques comme la statistique quantique (Alquier & Biau 2013, Guedj & Alquier 2013, Alquier, Meziani & Peyré 2013, Alquier, Butucea, Hebiri, Meziani & Morimae 2013, Alquier 2013, Alquier 2008). Dans chaque section, des estimateurs sont proposés, et, aussi souvent que possible, des inégalités oracles optimales sont établies. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Théorie de l'apprentissage statistique estimateurs agrégés inégalités PAC-Bayésiennes statistique en grande dimension parcimonie estimateur LASSO estimateurs pénalisés dépendance faible statistique quantique régression matricielle méthodes de Monte-Carlo
67	Autour de l'approximation de Born-Oppenheimer de collisions moléculaires Jecko, Thierry 09 December 2004 (has links) (PDF) Ce texte constitue le document de synthèse de l'habilitation à diriger des recherches de l'auteur. Il constitue une présentation des résultats obtenus par l'auteur au cours de son activité de recherche. La liste des articles, dans lesquels ces résultats ont été démontrés, est fournie dans ce texte. Les thèmes de recherche de l'auteur relèvent de la physique mathématique. Ils concernent essentiellement la théorie semi-classique des collisions moléculaires. [MATH] Mathematics [MATH] Mathématiques [PHYS:MPHY] Physics/Mathematical Physics approximation de Born-Oppenheimer opérateurs de Schrödinger matriciel théorie des collisions analyse semi-classique théorie du commutateur de Mourre correlations problèmes en grande dimension
68	Inférence statistique dans un modèle à variances isolées de grande dimension Passemier, Damien 04 December 2012 (has links) (PDF) Cette thèse s'intéresse à l'estimation statistique dans un modèle à variances isolées (modèle spike) de grande dimension. La théorie des matrices aléatoires permet de prendre en compte cette spécificité, puisque la plupart des résultats limites s'appliquent aux matrices dont la taille tend vers l'infini. Une part importante de ces résultats concerne la matrice de covariance empirique. Dans un premier temps, nous nous intéressons à l'estimation du nombre de facteurs/spikes. La différence de comportement des valeurs propres de la matrice de covariance empirique, selon que l'on considère celles correspondant aux spikes ou non, nous permet de construire un estimateur. Ce dernier correspond à la différence de deux valeurs propres consécutives ordonnées. Nous établissons la consistance de l'estimateur dans le cas où toutes les spikes sont distinctes, et le comparons à deux méthodes existantes à travers des simulations. L'estimateur dépend d'un seuil qui doit remplir certaines conditions. Dans la suite, nous étendons le résultat de consistance au cas d'égalité et améliorons l'estimateur en changeant de seuil. Dans un second temps, nous considérons les estimateurs du maximum de vraisemblance d'un modèle à facteurs strict à variance homoscédastique. En utilisant un théorème limite pour les statistiques spectrales linéaires, nous corrigeons l'estimateur de la variance commune en grande dimension en donnant l'expression de son biais et en établissant sa loi limite. Nous présentons une version corrigée du test du rapport de vraisemblance d'adéquation à un modèle à facteurs. Finalement, nous construisons un test d'égalité de deux spikes. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Matrices aléatoires grande dimension modèle à facteurs modèle à variances isolées mesure spectrale matrice de covariance test d'hypothèses valeurs propres extrêmes estimation paramétrique maximum de vraisemblance
69	Regularized Jackknife estimation with many instruments Doukali, Mohamed 10 1900 (has links) No description available. Modèles de grande dimension Jackknife Régularisation Variables instrumentales faibles Test de suridentification Erreur quadratique moyenne Hétéroscédasticité High-dimensional models Regularization methods Overidentification test Many weak instruments, MSE
70	Algorithmes stochastiques pour la statistique robuste en grande dimension / Stochastic algorithms for robust statistics in high dimension Godichon-Baggioni, Antoine 17 June 2016 (has links) Cette thèse porte sur l'étude d'algorithmes stochastiques en grande dimension ainsi qu'à leur application en statistique robuste. Dans la suite, l'expression grande dimension pourra aussi bien signifier que la taille des échantillons étudiés est grande ou encore que les variables considérées sont à valeurs dans des espaces de grande dimension (pas nécessairement finie). Afin d'analyser ce type de données, il peut être avantageux de considérer des algorithmes qui soient rapides, qui ne nécessitent pas de stocker toutes les données, et qui permettent de mettre à jour facilement les estimations. Dans de grandes masses de données en grande dimension, la détection automatique de points atypiques est souvent délicate. Cependant, ces points, même s'ils sont peu nombreux, peuvent fortement perturber des indicateurs simples tels que la moyenne ou la covariance. On va se concentrer sur des estimateurs robustes, qui ne sont pas trop sensibles aux données atypiques. Dans une première partie, on s'intéresse à l'estimation récursive de la médiane géométrique, un indicateur de position robuste, et qui peut donc être préférée à la moyenne lorsqu'une partie des données étudiées est contaminée. Pour cela, on introduit un algorithme de Robbins-Monro ainsi que sa version moyennée, avant de construire des boules de confiance non asymptotiques et d'exhiber leurs vitesses de convergence $L^{p}$ et presque sûre.La deuxième partie traite de l'estimation de la "Median Covariation Matrix" (MCM), qui est un indicateur de dispersion robuste lié à la médiane, et qui, si la variable étudiée suit une loi symétrique, a les mêmes sous-espaces propres que la matrice de variance-covariance. Ces dernières propriétés rendent l'étude de la MCM particulièrement intéressante pour l'Analyse en Composantes Principales Robuste. On va donc introduire un algorithme itératif qui permet d'estimer simultanément la médiane géométrique et la MCM ainsi que les $q$ principaux vecteurs propres de cette dernière. On donne, dans un premier temps, la forte consistance des estimateurs de la MCM avant d'exhiber les vitesses de convergence en moyenne quadratique.Dans une troisième partie, en s'inspirant du travail effectué sur les estimateurs de la médiane et de la "Median Covariation Matrix", on exhibe les vitesses de convergence presque sûre et $L^{p}$ des algorithmes de gradient stochastiques et de leur version moyennée dans des espaces de Hilbert, avec des hypothèses moins restrictives que celles présentes dans la littérature. On présente alors deux applications en statistique robuste: estimation de quantiles géométriques et régression logistique robuste.Dans la dernière partie, on cherche à ajuster une sphère sur un nuage de points répartis autour d'une sphère complète où tronquée. Plus précisément, on considère une variable aléatoire ayant une distribution sphérique tronquée, et on cherche à estimer son centre ainsi que son rayon. Pour ce faire, on introduit un algorithme de gradient stochastique projeté et son moyenné. Sous des hypothèses raisonnables, on établit leurs vitesses de convergence en moyenne quadratique ainsi que la normalité asymptotique de l'algorithme moyenné. / This thesis focus on stochastic algorithms in high dimension as well as their application in robust statistics. In what follows, the expression high dimension may be used when the the size of the studied sample is large or when the variables we consider take values in high dimensional spaces (not necessarily finite). In order to analyze these kind of data, it can be interesting to consider algorithms which are fast, which do not need to store all the data, and which allow to update easily the estimates. In large sample of high dimensional data, outliers detection is often complicated. Nevertheless, these outliers, even if they are not many, can strongly disturb simple indicators like the mean and the covariance. We will focus on robust estimates, which are not too much sensitive to outliers.In a first part, we are interested in the recursive estimation of the geometric median, which is a robust indicator of location which can so be preferred to the mean when a part of the studied data is contaminated. For this purpose, we introduce a Robbins-Monro algorithm as well as its averaged version, before building non asymptotic confidence balls for these estimates, and exhibiting their $L^{p}$ and almost sure rates of convergence.In a second part, we focus on the estimation of the Median Covariation Matrix (MCM), which is a robust dispersion indicator linked to the geometric median. Furthermore, if the studied variable has a symmetric law, this indicator has the same eigenvectors as the covariance matrix. This last property represent a real interest to study the MCM, especially for Robust Principal Component Analysis. We so introduce a recursive algorithm which enables us to estimate simultaneously the geometric median, the MCM, and its $q$ main eigenvectors. We give, in a first time, the strong consistency of the estimators of the MCM, before exhibiting their rates of convergence in quadratic mean.In a third part, in the light of the work on the estimates of the median and of the Median Covariation Matrix, we exhibit the almost sure and $L^{p}$ rates of convergence of averaged stochastic gradient algorithms in Hilbert spaces, with less restrictive assumptions than in the literature. Then, two applications in robust statistics are given: estimation of the geometric quantiles and application in robust logistic regression.In the last part, we aim to fit a sphere on a noisy points cloud spread around a complete or truncated sphere. More precisely, we consider a random variable with a truncated spherical distribution, and we want to estimate its center as well as its radius. In this aim, we introduce a projected stochastic gradient algorithm and its averaged version. We establish the strong consistency of these estimators as well as their rates of convergence in quadratic mean. Finally, the asymptotic normality of the averaged algorithm is given. Grande Dimension Données Fonctionnelles Algorithmes Stochastiques Algorithmes Récursifs Algorithmes de Gradient Stochastiques Moyennisation Statistique Robuste Médiane Géométrique High Dimension Functional Data Stochastic Algorithms Recursive Algorithms Stochastic Gradient Algorithms Averaging Robust Statistics Geometric Median 519

Search results