Global ETD Search

1	Sparse and discriminative clustering for complex data : application to cytology / Classification non supervisée discriminante et parcimonieuse pour des données complexes : une application à la cytologie Brunet, Camille 01 December 2011 (has links) Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans un première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles est introduite et se base sur deux idées clefs: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de dimensions K-1 est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Puisque chaque axe engendrant le sous-espace discriminant est une combinaison linéaire des variables d'origine, nous avons proposé trois méthodes différentes basées sur des critères pénalisés afin de faciliter l'interprétation des résultats. En particulier, ces méthodes permettent d'introduire de la parcimonie directement dans les composantes de la matrice de projection et peut se traduite comme une étape de sélection de variables discriminantes pour la classification. Dans une seconde partie, nous nous plaçons dans le contexte de la sériation. Nous proposons une mesure de dissimilarités basée sur le voisinage commun qui permet d'introduire de la parcimonie dans les données. Une procédure algorithmique appelée l'algorithme PB-Clus est introduite et permet d'obtenir une représentation diagonale par blocs des données. Cet outil permet de révéler la structure intrinsèque des données même dans le cas de données fortement bruitées ou de recouvrement de groupes. Ces deux méthodes ont été validées dans le cadre d'une application biologique basée sur la détection de cellules cancéreuses. / The main topics of this manuscript are sparsity and discrimination for modeling complex data. In a first part, we focus on the GMM context: we introduce a new family of probabilistic models which both clusters and finds a discriminative subspace chosen such as it best discriminates the groups. A family of 12 DLM models is introduced and is based on two three-ideas: firstly, the actual data live in a latent subspace with an intrinsic dimension lower than the dimension of the observed space; secondly, a subspace of K-1 dimensions is theoretically sufficient to discriminate K groups; thirdly, the observation and the latent spaces are linked by a linear transformation. An estimation procedure, named Fisher-EM is proposed and improves, most of the time, clustering performances owing to the use of a discriminative subspace. As each axis, spanning the discriminative subspace, is a linear combination of all original variables, we therefore proposed 3 different methods based on a penalized criterion in order to ease the interpretation results. In particular, it allows to introduce sparsity directly in the loadings of the projection matrix which enables also to make variable selection for clustering. In a second part, we deal with the seriation context. We propose a dissimilarity measure based on a common neighborhood which allows to deal with noisy data and overlapping groups. A forward stepwise seriation algorithm, called the PB-Clus algorithm, is introduced and allows to obtain a block representation form of the data. This tool enables to reveal the intrinsic structure of data even in the case of noisy data, outliers, overlapping and non-Gaussian groups. Both methods has been validated on a biological application based on the cancer cell detection. Méthode de sériation parcimonieuse Sparse seriation method
2	Aspects des cultes mémoriels privés, dans la documentation archéologique et épigraphique, de la VIe à la XIIe dynasties (env. 2300-1793 av. J.-C.) / Aspects of private memorial cults, in the archaeological and epigraphical documentation, from VIth to XIIth dynasties (circ. 2300-1793 BC) Legros, Rémi 28 June 2010 (has links) Les cultes mémoriels sont abordés de manière pragmatique pour établir la réalité des pratiques, leur durée, leur importance et leur évolution. Pour cela, la nécropole de Pépy Ier, à Saqqâra, fait l’objet d’une attention particulière et un corpus inédit de 160 tables d’offrandes est présenté en intégralité.Dans une première partie, l’étude cherche à caractériser les lieux d’implantation du culte. Elle permet de constater une hiérarchie de ces lieux par une sectorisation de l’espace funéraire et un investissement progressif de l’espace urbain avec les chapelles privées puis les temples divins. La deuxième partie se concentre sur les pratiques elles-mêmes. Les principaux supports sont analysés : la table d’offrandes, la stèle, la statue. Chacun est décrit dans sa spécificité et en relation avec les rites prévus. Une attention particulière est portée également aux bâtiments, notamment les différents types de chapelles privées.La dernière partie analyse les motivations du culte, que l’on peut répartir en trois grandes catégories : les pratiques administratives, les intentions relevant de la piété et les pratiques dévotionnelles.Ces trois aspects démontrent conjointement une évolution des mentalités avec le développement, à partir de la VIe dynastie, des pratiques individualistes, en suppléance des pratiques administratives et collectives traditionnelles.Le second volume présente le corpus des tables d’offrandes de la nécropole de Pépy Ier. Une analyse approfondie de leur datation est réalisée au moyen d’une sériation par permutation matricielle. Elle met en évidence pour la première fois 8 périodes successives entre le début de la VIe dynastie et l’avènement du Moyen Empire. / Memorial cults are discussed in a pragmatic way to establish the actual practices, their duration, their importance and their evolution. For this, the necropolis of Pepy Ist at Saqqara, is the subject of special attention and a corpus of 160 unpublished offering tables is presented in full.In the first part, the study seeks to characterize locations of cult places. It reveals a hierarchy of these places by a sectorization of the necropolises and a progressive intrusion in urban area with private chapels and divine temples.The second part focuses on the practices themselves. The main materials are analyzed: the offering table, the stele, the statue. Each is described in its specificity and relation to rituals provided. Particular attention is paid also to buildings, including the different types of private chapels.The final section analyzes the motivations of cults that can be divided into three main categories: administrative practices, intentions within the piety and devotional practices.These three aspects together indicate a change in social history with the development, from the sixth dynasty, of individualistic practices, in substitution of administrative and communal traditional practices.The second volume presents the corpus of offering tables from the necropolis of Pepy Ist. A thorough analysis of their dating is performed using a matrix permutation seriation. It reveals for the first time eight successive periods between the beginning of the sixth dynasty and the advent of the Middle Kingdom. Ancêtres Espace cultuel Nécropole Saqqâra Permutation matricielle Sériation Datation Première Période Intermédiaire Pépy Ier Ancestors Cultual area Necropolis Saqqara Matrix permutation Seriation Datation First Intermediate Periode Pépy Ist
3	Stochastic approximation and least-squares regression, with applications to machine learning / Approximation stochastique et régression par moindres carrés : applications en apprentissage automatique Flammarion, Nicolas 24 July 2017 (has links) De multiples problèmes en apprentissage automatique consistent à minimiser une fonction lisse sur un espace euclidien. Pour l’apprentissage supervisé, cela inclut les régressions par moindres carrés et logistique. Si les problèmes de petite taille sont résolus efficacement avec de nombreux algorithmes d’optimisation, les problèmes de grande échelle nécessitent en revanche des méthodes du premier ordre issues de la descente de gradient. Dans ce manuscrit, nous considérons le cas particulier de la perte quadratique. Dans une première partie, nous nous proposons de la minimiser grâce à un oracle stochastique. Dans une seconde partie, nous considérons deux de ses applications à l’apprentissage automatique : au partitionnement de données et à l’estimation sous contrainte de forme. La première contribution est un cadre unifié pour l’optimisation de fonctions quadratiques non-fortement convexes. Celui-ci comprend la descente de gradient accélérée et la descente de gradient moyennée. Ce nouveau cadre suggère un algorithme alternatif qui combine les aspects positifs du moyennage et de l’accélération. La deuxième contribution est d’obtenir le taux optimal d’erreur de prédiction pour la régression par moindres carrés en fonction de la dépendance au bruit du problème et à l’oubli des conditions initiales. Notre nouvel algorithme est issu de la descente de gradient accélérée et moyennée. La troisième contribution traite de la minimisation de fonctions composites, somme de l’espérance de fonctions quadratiques et d’une régularisation convexe. Nous étendons les résultats existants pour les moindres carrés à toute régularisation et aux différentes géométries induites par une divergence de Bregman. Dans une quatrième contribution, nous considérons le problème du partitionnement discriminatif. Nous proposons sa première analyse théorique, une extension parcimonieuse, son extension au cas multi-labels et un nouvel algorithme ayant une meilleure complexité que les méthodes existantes. La dernière contribution de cette thèse considère le problème de la sériation. Nous adoptons une approche statistique où la matrice est observée avec du bruit et nous étudions les taux d’estimation minimax. Nous proposons aussi un estimateur computationellement efficace. / Many problems in machine learning are naturally cast as the minimization of a smooth function defined on a Euclidean space. For supervised learning, this includes least-squares regression and logistic regression. While small problems are efficiently solved by classical optimization algorithms, large-scale problems are typically solved with first-order techniques based on gradient descent. In this manuscript, we consider the particular case of the quadratic loss. In the first part, we are interestedin its minimization when its gradients are only accessible through a stochastic oracle. In the second part, we consider two applications of the quadratic loss in machine learning: clustering and estimation with shape constraints. In the first main contribution, we provided a unified framework for optimizing non-strongly convex quadratic functions, which encompasses accelerated gradient descent and averaged gradient descent. This new framework suggests an alternative algorithm that exhibits the positive behavior of both averaging and acceleration. The second main contribution aims at obtaining the optimal prediction error rates for least-squares regression, both in terms of dependence on the noise of the problem and of forgetting the initial conditions. Our new algorithm rests upon averaged accelerated gradient descent. The third main contribution deals with minimization of composite objective functions composed of the expectation of quadratic functions and a convex function. Weextend earlier results on least-squares regression to any regularizer and any geometry represented by a Bregman divergence. As a fourth contribution, we consider the the discriminative clustering framework. We propose its first theoretical analysis, a novel sparse extension, a natural extension for the multi-label scenario and an efficient iterative algorithm with better running-time complexity than existing methods. The fifth main contribution deals with the seriation problem. We propose a statistical approach to this problem where the matrix is observed with noise and study the corresponding minimax rate of estimation. We also suggest a computationally efficient estimator whose performance is studied both theoretically and experimentally. Optimisation convexe Accélération Moyennage Gradient stochastique Régression par moindres carrés Approximation stochastique Algorithme dual moyenné Descente miroire Partionnement discriminatif Relaxation convexe Parcimonie Sériation statistique Apprentissage de permutation Estimation minimax Contraintes de forme Convex optimization Acceleration Averaging Stochastic gradient Least-squares regression Stochastic approximation Dual averaging Mirror descent Discriminative clustering Convex relaxation Sparsity Statistical seriation Permutation learning Minimax estimation Shape constraints 519

1

Page generated in 0.0603 seconds