Global ETD Search

21	Modélisation de données cliniques de grande dimension : application aux pathologies respiratoires / High-Dimensional Clinical Data Modeling : Application To Respiratory Diseases Marin, Grégory 26 June 2014 (has links) Cette thèse est consacrée à l'application et au développement de méthodes biostatistiques originales pour des applications médicales et cliniques concernant plus particulièrement les pathologies respiratoires. Il s'agit ainsi d'un travail de recherche transversale, visant à la modélisation de données hétérogènes, colinéaires et de grande dimension pour des applications cliniques. Un état de l'art traitant du diagnostic de l'asthme et de hyperactivité bronchique a tout d'abord été dressé, avant de proposer une première application statistique, prenant la forme de modèles de régressions multiples. Ce type de modèle étant particulièrement sensible à la dimension et la colinéarité des données, les chapitres suivants proposent plusieurs améliorations, après avoir explicité en détail l'enjeu et les méthodes actuelles d'analyse de données de grande dimension. Un premier modèle de classification hiérarchique non supervisé a été mis au point et appliqué au cas de la quantification du piégeage aérique. Un algorithme de régression Partial Least Square a également été mis en œuvre, prédisant une ou plusieurs variables Y à partir d'un set de variables X hétérogènes et colinéaires, ce qui a permis de mettre en évidence l'impact de l'âge sur les petites voies aériennes, tout en considérant de nombreux autres paramètres. Enfin, un algorithme d'analyse fractale a été créé, en vue de quantifier en une seule valeur la complexité spatiale et géométrique d'images de scanners thoraciques, cela constituant un innovant outil d'aide au diagnostic radiologique. / This thesis outlines new statistic methods devoted to clinical and medical applications, dealing more precisely with respiratory diseases. Our goal was to model and analyze high-dimensional clinical data, often heterogeneous, and collinear. A clinical state of the art of asthma diagnosis and bronchial hyperreactivity was first stated, before proposing a first statistical application, which took the shape of multiple regression models. This type of models is particularly tricky when treating high-dimensional collinear data, which is why the other chapters are an enhancement of this first model. Firstly, a non-supervised hierarchical classification was carried out and applied to air trapping quantification. A Partial Least Square regression model was also executed, allowing prediction of one or more variables from a set of X variables, which allowed us to highlight the impact of age on small airway impairment. Finally, a fractal analysis was performed, in order to quantify the geometrical and spatial complexity of a CT scan image into a single value. This kind a prospective methodology, where the statistics are directly involved in the clinical work, represents a brand new tool which can help medical diagnosis. Grande dimension Classification Régression PLS Analyse fractale Asthme Piégeage aérique Big data Classification PLS algorithm Fractal analysis Asthma Air trapping
22	Etude des projections de données comme support interactif de l’analyse visuelle de la structure de données de grande dimension / Study of multidimensional scaling as an interactive visualization to help the visual analysis of high dimensional data Heulot, Nicolas 04 July 2014 (has links) Acquérir et traiter des données est de moins en moins coûteux, à la fois en matériel et en temps, mais encore faut-il pouvoir les analyser et les interpréter malgré leur complexité. La dimensionnalité est un des aspects de cette complexité intrinsèque. Pour aider à interpréter et à appréhender ces données le recours à la visualisation est indispensable au cours du processus d’analyse. La projection représente les données sous forme d’un nuage de points 2D, indépendamment du nombre de dimensions. Cependant cette technique de visualisation souffre de distorsions dues à la réduction de dimension, ce qui pose des problèmes d’interprétation et de confiance. Peu d’études ont été consacrées à la considération de l’impact de ces artefacts, ainsi qu’à la façon dont des utilisateurs non-familiers de ces techniques peuvent analyser visuellement une projection. L’approche soutenue dans cette thèse repose sur la prise en compte interactive des artefacts, afin de permettre à des analystes de données ou des non-experts de réaliser de manière fiable les tâches d’analyse visuelle des projections. La visualisation interactive des proximités colore la projection en fonction des proximités d’origine par rapport à une donnée de référence dans l’espace des données. Cette technique permet interactivement de révéler les artefacts de projection pour aider à appréhender les détails de la structure sous-jacente aux données. Dans cette thèse, nous revisitons la conception de cette technique et présentons ses apports au travers de deux expérimentations contrôlées qui étudient l’impact des artefacts sur l’analyse visuelle des projections. Nous présentons également une étude de l’espace de conception d’une technique basée sur la métaphore de lentille et visant à s’affranchir localement des problématiques d’artefacts de projection. / The cost of data acquisition and processing has radically decreased in both material and time. But we also need to analyze and interpret the large amounts of complex data that are stored. Dimensionality is one aspect of their intrinsic complexity. Visualization is essential during the analysis process to help interpreting and understanding these data. Projection represents data as a 2D scatterplot, regardless the amount of dimensions. However, this visualization technique suffers from artifacts due to the dimensionality reduction. Its lack of reliability implies issues of interpretation and trust. Few studies have been devoted to the consideration of the impact of these artifacts, and especially to give feedbacks on how non-expert users can visually analyze projections. The main approach of this thesis relies on an taking these artifacts into account using interactive techniques, in order to allow data scientists or non-expert users to perform a trustworthy visual analysis of projections. The interactive visualization of the proximities applies a coloring of the original proximities relatives to a reference in the data-space. This interactive technique allows revealing projection artifacts in order to help grasping details of the underlying data-structure. In this thesis, we redesign this technique and we demonstrate its potential by presenting two controlled experiments studying the impact of artifacts on the visual analysis of projections. We also present a design-space based on the lens metaphor, in order to improve this technique and to locally visualize a projection free of artifacts issues. Visualisation d’information Fouille visuelle de données Données de grande dimension Projection de données Information Visualization Visual Analytics High-Dimensional Data Multidimensional Scaling
23	Construction et estimation de copules en grande dimension / Construction and estimation of high-dimensional copulas Mazo, Gildas 17 November 2014 (has links) Ces dernières décennies, nous avons assisté à l'émergence du concept de copule en modélisation statistique. Les copules permettent de faire une analyse séparée des marges et de la structure de dépendance induite par une distribution statistique. Cette séparation facilite l'incorporation de lois non gaussiennes, et en particulier la prise en compte des dépendances non linéaires entre les variables aléatoires. La finance et l'hydrologie sont deux exemples de sciences où les copules sont très utilisées. Cependant, bien qu'il existe beaucoup de familles de copules bivariées, le choix reste limité en plus grande dimension: la construction de copules multivariées/en grande dimension reste un problème ouvert aujourd'hui. Cette thèse présente trois contributions à la modélisation et à l'inférence de copules en grande dimension. Le premier modèle proposé s'écrit comme un produit de copules bivariées, où chaque copule bivariée se combine aux autres via un graphe en arbre. Elle permet de prendre en compte les différents degrés de dépendance entre les différentes paires. La seconde copule est un modèle à facteurs basé sur une classe nonparamétrique de copules bivariées. Elle permet d'obtenir un bon équilibre entre flexibilité et facilité d'utilisation. Cette thèse traite également de l'inférence paramétrique de copules dans le cas général, en établissant les propriétés asymptotiques d'un estimateur des moindres carrés pondérés basé sur les coefficients de dépendance. Les modèles et méthodes proposés sont appliqués sur des données hydrologiques (pluies et débits de rivières). / In the last decades, copulas have been more and more used in statistical modeling. Their popularity owes much to the fact that they allow to separate the analysis of the margins from the analysis of the dependence structure induced by the underlying distribution. This renders easier the modeling of non Gaussian distributions, and, in particular, it allows to take into account non linear dependencies between random variables. Finance and hydrology are two examples of scientific fields where the use of copulas is nowadays standard. However, while many bivariate families exist in the literature, multivariate/high dimensional copulas are much more difficult to construct. This thesis presents three contributions to copula modeling and inference, with an emphasis on high dimensional problems. The first model writes as a product of bivariate copulas and is underlain by a tree structure where each edge represents a bivariate copula. Hence, we are able to model different pairs with different dependence properties. The second one is a factor model built on a nonparametric class of bivariate copulas. It exhibits a good balance between tractability and flexibility. This thesis also deals with the parametric inference of copula models in general. Indeed, the asymptotic properties of a weighted least-squares estimator based on dependence coefficients are established. The models and methods have been applied to hydrological data (flow rates and rain falls). Copules Grande dimension Inférence Valeurs extrêmes Modèles à facteurs Copulas High dimension Inference Extreme values Factor models 510
24	Estimation Statistique En Grande Dimension, Parcimonie et Inégalités D'Oracle Lounici, Karim 24 November 2009 (has links) (PDF) Dans cette thèse nous traitons deux sujets. Le premier sujet concerne l'apprentissage statistique en grande dimension, i.e. les problèmes où le nombre de paramètres potentiels est beaucoup plus grand que le nombre de données à disposition. Dans ce contexte, l'hypothèse généralement adoptée est que le nombre de paramètres intervenant effectivement dans le modèle est petit par rapport au nombre total de paramètres potentiels et aussi par rapport au nombre de données. Cette hypothèse est appelée ``\emph{sparsity assumption}''. Nous étudions les propriétés statistiques de deux types de procédures : les procédures basées sur la minimisation du risque empirique muni d'une pénalité $l_{1}$ sur l'ensemble des paramètres potentiels et les procédures à poids exponentiels. Le second sujet que nous abordons concerne l'étude de procédures d'agrégation dans un modèle de densité. Nous établissons des inégalités oracles pour la norme $L^{\pi}$, $1\leqslant \pi \leqslant \infty$. Nous proposons ensuite une application à l'estimation minimax et adaptative en la régularité de la densité. [MATH] Mathematics Inégalités d'oracle optimisation stochastique agrégation apprentissage statistique grande dimension sparsité sélection de variables Lasso Dantzig Selector estimation adaptative minimax
25	Modélisation et classification des données de grande dimension : application à l'analyse d'images. Bouveyron, Charles 28 September 2006 (has links) (PDF) Le thème principal d'étude de cette thèse est la modélisation et la classification des données de grande<br />dimension. Partant du postulat que les données de grande dimension vivent dans des sous-espaces de<br />dimensions intrinsèques inférieures à la dimension de l'espace original et que les données de classes<br />différentes vivent dans des sous-espaces différents dont les dimensions intrinsèques peuvent être aussi<br />différentes, nous proposons une re-paramétrisation du modèle de mélange gaussien. En forçant certains<br />paramètres à être communs dans une même classe ou entre les classes, nous exhibons une famille de 28 modèles gaussiens adaptés aux données de grande dimension, allant du modèle le plus général au modèle le plus parcimonieux. Ces modèles gaussiens sont ensuite utilisés pour la discrimination et la classification<br />automatique de données de grande dimension. Les classifieurs associés à ces modèles sont baptisés respectivement High Dimensional Discriminant Analysis (HDDA) et High Dimensional Data Clustering (HDDC) et<br />leur construction se base sur l'estimation par la méthode du maximum de vraisemblance des paramètres du<br />modèle. La nature de notre re-paramétrisation permet aux méthodes HDDA et HDDC de ne pas être perturbées par le mauvais conditionnement ou la singularité des matrices de covariance empiriques des classes et d'être<br />efficaces en terme de temps de calcul. Les méthodes HDDA et HDDC sont ensuite mises en dans le cadre d'une<br />approche probabiliste de la reconnaissance d'objets dans des images. Cette approche, qui peut être<br />supervisée ou faiblement supervisée, permet de localiser de manière probabiliste un objet dans une<br />nouvelle image. Notre approche est validée sur des bases d'images récentes et comparée aux meilleures<br />méthodes actuelles de reconnaissance d'objets. [MATH] Mathematics Classification données de grande dimension modèle de mélange gaussien réduction de dimension modèles parcimonieux
26	Observation et commande des systèmes de grande dimension Mansouri, Mejda 08 December 2012 (has links) (PDF) Dans ce mémoire, on s'est intéressé aux problèmes d'estimation, de ﬁltrage H-infini et de la commande basée observateur des systèmes de grande dimension. L'étude porte sur les systèmes linéaires standards mais aussi sur les systèmes algèbro-diﬀérentiels appelés aussi systèmes singuliers pour couvrir la classe la plus large possible des systèmes de grande dimension. Ainsi, on a commencé notre travail en proposant des méthodes de synthèse d'observateurs décentralisés à interconnexions inconnues pour des systèmes de grande dimension standards et singuliers. On a cherché à éliminer l'eﬀet des interconnections inconnues sur la dynamique de l'erreur d'observation. La synthèse de l'observateur est basée sur des LMIs permettant de déterminer la matrice de gain paramétrant toutes les matrices de l'observateur. La formulation LMI est basée sur l'approche Lyapunov et déduite des diﬀérents lemmes bornés. Ensuite, on a proposé des ﬁltres décentralisés qui permettent d'assurer, en plus de la stabilité, un critère de performance H-infini, c'est à dire qu'on a cherché à atténuer l'eﬀet des perturbations, supposées être inconnues mais à énergie bornée, sur la dynamique de l'erreur d'estimation. On a abordé après l'étude des observateurs interconnectés pour les systèmes de grande dimension, où on a proposé une nouvelle méthode permettant de synthétiser une nouvelle forme d'observateurs interconnectés connectivement stable. On s'est intéressé à la capacité d'un tel observateur à être stable de manière robuste vis-a-vis des incertitudes sur les interconnexions entre les sous observateurs qui les forment. Enﬁn, on s'est intéressé à l'application des méthodes d'estimation proposées dans le cadre de la commande. En eﬀet, dans un premier temps, on a proposé une commande décentralisée basée sur un ﬁltre H-infini pour une classe de systèmes de grande dimension standards à interconnections non-linéaires. L'approche est une extension des travaux de Kalsi et al. aux cas des systèmes perturbés standards. En eﬀet, on a commencé par le calcul du gain de retour d'état qui satisfait les spéciﬁcations du système bouclé. Puis, on a synthétisé un ﬁltre qui a pour but de fournir en sortie une estimée de ce retour d'état. L'approche a été validée sur un exemple de système composé de trois machines électriques interconnectées. Dans le second volet du chapitre, on a considéré le problème de la commande via un ﬁltre H-infini pour une classe de système singulier de grande dimension soumis à des perturbations à énergie bornée. L'approche est une extension des travaux de Kalsi et al. au cas des systèmes singuliers perturbés L'un des principaux apports de nos travaux, a été de proposer une nouvelle méthode de synthèse de commande basée sur un ﬁltre H-infini qui générée par des conditions de solvabilité moins restrictives que celles introduites dans les travaux de Kalsi et al. Ainsi, on a relaxé les contraintes qui portait sur la distance entre la paire de matrices formée par la matrice d'état et la matrice d'entrée d'une part et l'ensemble de paires de matrices incontrôlables d'autre part. De plus, on tient compte de la maximisation des bornes de l'interconnexion, ce qui est très important en pratique. Système de grande dimension Système singulier Observateur décentralisé Observateur interconnecté Filtrage H-infini Commande basée observateur
27	Style du génome exploré par analyse textuelle de l'ADN Lespinats, Sylvain 10 April 2006 (has links) (PDF) Les séquences d'ADN peuvent être considérées comme des textes écrits dans un alphabet de 4 lettres. Des techniques inspirées de l'analyse textuelle permettent donc de les caractériser, entre autres à partir de fréquences d'apparition de courtes suites de caractères (les oligonucléotides ou mots). L'ensemble des fréquences des mots d'une longueur donnée est appelé « signature génomique » (cet ensemble est spécifique de l'espèce, ce qui justifie le terme de « signature »). La signature d'espèce est observable sur la plupart des courts fragments d'ADN, ce qui donne à penser qu'elle résulte d'un « style d'écriture ». De plus, la proximité entre espèces du point de vue de la signature génomique correspond bien souvent à une proximité en terme taxonomique. Pourtant, l'analyse des signatures génomiques se confronte rapidement à des limitations dues à la malédiction de la dimension. En effet, les données de grande dimension (la signature génomique a généralement 256 dimensions) montrent des propriétés qui mettent en défaut l'intuition. Par exemple, le phénomène de concentration des distances euclidiennes est bien connu.<br />Partant de ces constatations, nous avons mis en place des procédures d'évaluation des distances entre signatures de façon à rendre plus manifeste les informations biologiques sur lesquelles s'appuient nos analyses. Une méthode de projection non-linéaire des voisinages y est associée ce qui permet de s'affranchir des problèmes de grande dimension et de visualiser l'espace occupé par les données. L'analyse des relations entre les signatures pose le problème de la contribution de chaque variable (les mots) à la distance entre les signatures. Un Z-score original basé sur la variation de la fréquence des mots le long des génomes a permis de quantifier ces contributions. L'étude des variations de l'ensemble des fréquences le long d'un génomes permet d'extraire des segments originaux. Une méthode basée sur l'analyse du signal permet d'ailleurs de segmenter précisément ces zones originales.<br />Grâce à cet ensemble de méthodes, nous proposons des résultats biologiques. En particulier, nous mettons en évidence une organisation de l'espace des signatures génomiques cohérente avec la taxonomie des espèces. De plus, nous constatons la présence d'une syntaxe de l'ADN : il existe des « mots à caractère syntaxique » et des « mots à caractère sémantique », la signature s'appuyant surtout sur les mots à caractère syntaxique. Enfin, l'analyse des signatures le long du génome permet une détection et une segmentation précise des ARN et de probables transferts horizontaux. Une convergence du style des transferts horizontaux vers la signature de l'hôte a d'ailleurs pu être observée.<br />Des résultats variés ont été obtenus par analyse des signatures. Ainsi, la simplicité d'utilisation et la rapidité de l'analyse des séquences par signatures en font un outil puissant pour extraire de l'information biologique à partir des génomes. [SDV] Life Sciences Signature génomique fouille de données réduction de dimension données de grande dimension apprentissage statistique metrique taxonomie transferts horizontaux
28	Conception d'heuristiques d'optimisation pour les problèmes de grande dimension : application à l'analyse de données de puces à ADN Gardeux, Vincent 30 November 2011 (has links) (PDF) Cette thèse expose la problématique récente concernant la résolution de problèmes de grande dimension. Nous présentons les méthodes permettant de les résoudre ainsi que leurs applications, notamment pour la sélection de variables dans le domaine de la fouille de données. Dans la première partie de cette thèse, nous exposons les enjeux de la résolution de problèmes de grande dimension. Nous nous intéressons principalement aux méthodes de recherche linéaire, que nous jugeons particulièrement adaptées pour la résolution de tels problèmes. Nous présentons ensuite les méthodes que nous avons développées, basées sur ce principe : CUS, EUS et EM323. Nous soulignons en particulier la très grande vitesse de convergence de CUS et EUS, ainsi que leur simplicité de mise en oeuvre. La méthode EM323 est issue d'une hybridation entre la méthode EUS et un algorithme d'optimisation unidimensionnel développé par F. Glover : l'algorithme 3-2-3. Nous montrons que ce dernier algorithme obtient des résultats d'une plus grande précision, notamment pour les problèmes non séparables, qui sont le point faible des méthodes issues de la recherche linéaire. Dans une deuxième partie, nous nous intéressons aux problèmes de fouille de données, et plus particulièrement l'analyse de données de puces à ADN. Le but est de classer ces données et de prédire le comportement de nouveaux exemples. Dans un premier temps, une collaboration avec l'hôpital Tenon nous permet d'analyser des données privées concernant le cancer du sein. Nous développons alors une méthode exacte, nommée delta-test, enrichie par la suite d'une méthode permettant la sélection automatique du nombre de variables. Dans un deuxième temps, nous développons une méthode heuristique de sélection de variables, nommée ABEUS, basée sur l'optimisation des performances du classifieur DLDA. Les résultats obtenus sur des données publiques montrent que nos méthodes permettent de sélectionner des sous-ensembles de variables de taille très faible,ce qui est un critère important permettant d'éviter le sur-apprentissage [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Métaheuristiques Problèmes de grande dimension Fouille de données Génomique Recherche linéaire Analyse de puces à ADN
29	Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension / Stability of variable selection in regression and classification issues for correlated data in high dimension Perthame, Emeline 16 October 2015 (has links) Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, sont alors remises en question car elles peuvent conduire à des décisions erronées. L'objectif de cette thèse est de contribuer à l'amélioration des méthodes de sélection de variables pour la régression et la classification supervisée, par une meilleure prise en compte de la dépendance entre les statistiques de sélection. L'ensemble des méthodes proposées s'appuie sur la description de la dépendance entre covariables par un petit nombre de variables latentes. Ce modèle à facteurs suppose que les covariables sont indépendantes conditionnellement à un vecteur de facteurs latents. Une partie de ce travail de thèse porte sur l'analyse de données de potentiels évoqués (ERP). Les ERP sont utilisés pour décrire par électro-encéphalographie l'évolution temporelle de l'activité cérébrale. Sur les courts intervalles de temps durant lesquels les variations d'ERPs peuvent être liées à des conditions expérimentales, le signal psychologique est faible, au regard de la forte variabilité inter-individuelle des courbes ERP. En effet, ces données sont caractérisées par une structure de dépendance temporelle forte et complexe. L'analyse statistique de ces données revient à tester pour chaque instant un lien entre l'activité cérébrale et des conditions expérimentales. Une méthode de décorrélation des statistiques de test est proposée, basée sur la modélisation jointe du signal et de la dépendance à partir d'une connaissance préalable d'instants où le signal est nul. Ensuite, l'apport du modèle à facteurs dans le cadre général de l'Analyse Discriminante Linéaire est étudié. On démontre que la règle linéaire de classification optimale conditionnelle aux facteurs latents est plus performante que la règle non-conditionnelle. Un algorithme de type EM pour l'estimation des paramètres du modèle est proposé. La méthode de décorrélation des données ainsi définie est compatible avec un objectif de prédiction. Enfin, on aborde de manière plus formelle les problématiques de détection et d'identification de signal en situation de dépendance. On s'intéresse plus particulièrement au Higher Criticism (HC), défini sous l'hypothèse d'un signal rare de faible amplitude et sous l'indépendance. Il est montré dans la littérature que cette méthode atteint des bornes théoriques de détection. Les propriétés du HC en situation de dépendance sont étudiées et les bornes de détectabilité et d'estimabilité sont étendues à des situations arbitrairement complexes de dépendance. Dans le cadre de l'identification de signal, une adaptation de la méthode Higher Criticism Thresholding par décorrélation par les innovations est proposée. / The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships between event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null. Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Discriminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parameters is proposed. This method of data decorrelation is compatible with a prediction purpose. At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed. Statistique Grande dimension Sélection de variables Dépendance Régression Modèle linéaire généralisé Statistics High dimension Variable selection Dependence Regression Generalized linear model
30	On unsupervised learning in high dimension / Sur l'apprentissage non supervisé en haute dimension Sebbar, Mehdi 12 December 2017 (has links) Dans ce mémoire de thèse, nous abordons deux thèmes, le clustering en haute dimension d'une part et l'estimation de densités de mélange d'autre part. Le premier chapitre est une introduction au clustering. Nous y présentons différentes méthodes répandues et nous nous concentrons sur un des principaux modèles de notre travail qui est le mélange de Gaussiennes. Nous abordons aussi les problèmes inhérents à l'estimation en haute dimension et la difficulté d'estimer le nombre de clusters. Nous exposons brièvement ici les notions abordées dans ce manuscrit. Considérons une loi mélange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les paramètres du mélange est d'utiliser l'estimateur du maximum de vraisemblance. Ce problème n'étant pas convexe, on ne peut garantir la convergence des méthodes classiques. Cependant, en exploitant la biconvexité de la log-vraisemblance négative, on peut utiliser la procédure itérative 'Expectation-Maximization' (EM). Malheureusement, cette méthode n'est pas bien adaptée pour relever les défis posés par la grande dimension. Par ailleurs, cette méthode requiert de connaître le nombre de clusters. Le Chapitre 2 présente trois méthodes que nous avons développées pour tenter de résoudre les problèmes décrits précédemment. Les travaux qui y sont exposés n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La première méthode, 'lasso graphique sur des mélanges de Gaussiennes', consiste à estimer les matrices inverses des matrices de covariance dans l'hypothèse où celles-ci sont parcimonieuses. Nous adaptons la méthode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un mélange et nous évaluons expérimentalement cette méthode. Les deux autres méthodes abordent le problème d'estimation du nombre de clusters dans le mélange. La première est une estimation pénalisée de la matrice des probabilités postérieures dont la composante (i,j) est la probabilité que la i-ème observation soit dans le j-ème cluster. Malheureusement, cette méthode s'est avérée trop coûteuse en complexité. Enfin, la deuxième méthode considérée consiste à pénaliser le vecteur de poids afin de le rendre parcimonieux. Cette méthode montre des résultats prometteurs. Dans le Chapitre 3, nous étudions l'estimateur du maximum de vraisemblance d'une densité de n observations i.i.d. sous l’hypothèse qu'elle est bien approximée par un mélange de plusieurs densités données. Nous nous intéressons aux performances de l'estimateur par rapport à la perte de Kullback-Leibler. Nous établissons des bornes de risque sous la forme d'inégalités d'oracle exactes, que ce soit en probabilité ou en espérance. Nous démontrons à travers ces bornes que, dans le cas du problème d’agrégation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale à un terme logarithmique près, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l’hypothèse supplémentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilité, les inégalités d'oracles obtenues donnent la vitesse optimale dans le scénario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En complément de ces inégalités d'oracle, nous introduisons la notion d’agrégation (presque)-D-parcimonieuse et établissons pour ce type d’agrégation les bornes inférieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui réalise l'agrégation en Kullback-Leibler de composantes d'un dictionnaire telle qu'étudiée dans le Chapitre 3. Nous comparons sa performance avec différentes méthodes. Nous proposons ensuite une méthode pour construire le dictionnaire de densités et l’étudions de manière numérique. Cette thèse a été effectué dans le cadre d’une convention CIFRE avec l’entreprise ARTEFACT. / In this thesis, we discuss two topics, high-dimensional clustering on the one hand and estimation of mixing densities on the other. The first chapter is an introduction to clustering. We present various popular methods and we focus on one of the main models of our work which is the mixture of Gaussians. We also discuss the problems with high-dimensional estimation (Section 1.3) and the difficulty of estimating the number of clusters (Section 1.1.4). In what follows, we present briefly the concepts discussed in this manuscript. Consider a mixture of $K$ Gaussians in $RR^p$. One of the common approaches to estimate the parameters is to use the maximum likelihood estimator. Since this problem is not convex, we can not guarantee the convergence of classical methods such as gradient descent or Newton's algorithm. However, by exploiting the biconvexity of the negative log-likelihood, the iterative 'Expectation-Maximization' (EM) procedure described in Section 1.2.1 can be used. Unfortunately, this method is not well suited to meet the challenges posed by the high dimension. In addition, it is necessary to know the number of clusters in order to use it. Chapter 2 presents three methods that we have developed to try to solve the problems described above. The works presented there have not been thoroughly researched for various reasons. The first method that could be called 'graphical lasso on Gaussian mixtures' consists in estimating the inverse matrices of covariance matrices $Sigma$ (Section 2.1) in the hypothesis that they are parsimonious. We adapt the graphic lasso method of [Friedman et al., 2007] to a component in the case of a mixture and experimentally evaluate this method. The other two methods address the problem of estimating the number of clusters in the mixture. The first is a penalized estimate of the matrix of posterior probabilities $ Tau in RR ^ {n times K} $ whose component $ (i, j) $ is the probability that the $i$-th observation is in the $j$-th cluster. Unfortunately, this method proved to be too expensive in complexity (Section 2.2.1). Finally, the second method considered is to penalize the weight vector $ pi $ in order to make it parsimonious. This method shows promising results (Section 2.2.2). In Chapter 3, we study the maximum likelihood estimator of density of $n$ i.i.d observations, under the assumption that it is well approximated by a mixture with a large number of components. The main focus is on statistical properties with respect to the Kullback-Leibler loss. We establish risk bounds taking the form of sharp oracle inequalities both in deviation and in expectation. A simple consequence of these bounds is that the maximum likelihood estimator attains the optimal rate $((log K)/n)^{1/2}$, up to a possible logarithmic correction, in the problem of convex aggregation when the number $K$ of components is larger than $n^{1/2}$. More importantly, under the additional assumption that the Gram matrix of the components satisfies the compatibility condition, the obtained oracle inequalities yield the optimal rate in the sparsity scenario. That is, if the weight vector is (nearly) $D$-sparse, we get the rate $(Dlog K)/n$. As a natural complement to our oracle inequalities, we introduce the notion of nearly-$D$-sparse aggregation and establish matching lower bounds for this type of aggregation. Finally, in Chapter 4, we propose an algorithm that performs the Kullback-Leibler aggregation of components of a dictionary as discussed in Chapter 3. We compare its performance with different methods: the kernel density estimator , the 'Adaptive Danzig' estimator, the SPADES and EM estimator with the BIC criterion. We then propose a method to build the dictionary of densities and study it numerically. This thesis was carried out within the framework of a CIFRE agreement with the company ARTEFACT. Clustering Agrégation Grande dimension Estimation de densité Mélange de gaussiennes Gaussian mixtures Clustering High dimension Density estimation Aggregation 519

Search results