Spelling suggestions: "subject:"3analyse géométriques dess données"" "subject:"3analyse géométriques deus données""
1 |
Tests combinatoires en analyse géométrique des données : Etude de l'absentéisme dans les industries électriques et gazières de 1995 à 2011 à travers des données de cohorte / Combinatorial tests in Geometric Data Analysis : Study of absenteeism in the French Electricity and Gas Industries from 1995 to 2011 trough cohort dataBienaise, Solène 03 October 2013 (has links)
La première partie de la thèse traite d’inférence combinatoire en Analyse Géométrique des Données (AGD). Nous proposons des tests multidimensionnels sans hypothèse sur le processus d’obtention des données ou les distributions. Nous nous intéressons ici aux problèmes de typicalité (comparaison d’un point moyen à un point de référence ou d’un groupe d’observations à une population de référence) et d’homogénéité (comparaison de plusieurs groupes). Nous utilisons des procédures combinatoires pour construire un ensemble de référence par rapport auquel nous situons les données. Les statistiques de test choisies mènent à des prolongements originaux : interprétation géométrique du seuil observé et construction d’une zone de compatibilité.La seconde partie présente l’étude de l’absentéisme dans les Industries Electriques et Gazières de 1995 à 2011 (avec construction d’une cohorte épidémiologique). Des méthodes d’AGD sont utilisées afin d’identifier des pathologies émergentes et des groupes d’agents sensibles. / The first part of this PhD thesis deals with combinatorial inference methods forGeometric Data Analysis (GDA). We propose multidimensional tests that make no assumption on the process of generating data or distributions. We focus particularly on problems of typicality (comparison of a mean point to a reference point or comparison of a group of observations to a reference population) and on problems of homogeneity (comparison of several groups). These methods consist in using combinatorial procedures to build a reference set with respect to which we situate the data. The chosen test statistics lead to original extensions: geometric interpretation of the observed level and construction of a compatibilityzone.The second part of this thesis presents the study of absenteeism in the French Electricity and Gas Industries from 1995 to 2011 (with construction of an epidemiological cohort). GDA methods are used to identify emerging diseases and sensitive groups of agents.
|
2 |
Tests combinatoires en analyse géométrique des données - Etude de l'absentéisme dans les industries électriques et gazières de 1995 à 2011 à travers des données de cohorteBienaise, Solène 03 October 2013 (has links) (PDF)
La première partie de la thèse traite d'inférence combinatoire en Analyse Géométrique des Données (AGD). Nous proposons des tests multidimensionnels sans hypothèse sur le processus d'obtention des données ou les distributions. Nous nous intéressons ici aux problèmes de typicalité (comparaison d'un point moyen à un point de référence ou d'un groupe d'observations à une population de référence) et d'homogénéité (comparaison de plusieurs groupes). Nous utilisons des procédures combinatoires pour construire un ensemble de référence par rapport auquel nous situons les données. Les statistiques de test choisies mènent à des prolongements originaux : interprétation géométrique du seuil observé et construction d'une zone de compatibilité.La seconde partie présente l'étude de l'absentéisme dans les Industries Electriques et Gazières de 1995 à 2011 (avec construction d'une cohorte épidémiologique). Des méthodes d'AGD sont utilisées afin d'identifier des pathologies émergentes et des groupes d'agents sensibles.
|
3 |
Vers une vision robuste de l'inférence géométrique / Toward a Robust Vision of Geometrical InferenceBrécheteau, Claire 24 September 2018 (has links)
Le volume de données disponibles est en perpétuelle expansion. Il est primordial de fournir des méthodes efficaces et robustes permettant d'en extraire des informations pertinentes. Nous nous focalisons sur des données pouvant être représentées sous la forme de nuages de points dans un certain espace muni d'une métrique, e.g. l'espace Euclidien R^d, générées selon une certaine distribution. Parmi les questions naturelles que l'on peut se poser lorsque l'on a accès à des données, trois d'entre elles sont abordées dans cette thèse. La première concerne la comparaison de deux ensembles de points. Comment décider si deux nuages de points sont issus de formes ou de distributions similaires ? Nous construisons un test statistique permettant de décider si deux nuages de points sont issus de distributions égales (modulo un certain type de transformations e.g. symétries, translations, rotations...). La seconde question concerne la décomposition d'un ensemble de points en plusieurs groupes. Étant donné un nuage de points, comment faire des groupes pertinents ? Souvent, cela consiste à choisir un système de k représentants et à associer chaque point au représentant qui lui est le plus proche, en un sens à définir. Nous développons des méthodes adaptées à des données échantillonnées selon certains mélanges de k distributions, en présence de données aberrantes. Enfin, lorsque les données n'ont pas naturellement une structure en k groupes, par exemple, lorsqu'elles sont échantillonnées à proximité d'une sous-variété de R^d, une question plus pertinente est de construire un système de k représentants, avec k grand, à partir duquel on puisse retrouver la sous-variété. Cette troisième question recouvre le problème de la quantification d'une part, et le problème de l'approximation de la distance à un ensemble d'autre part. Pour ce faire, nous introduisons et étudions une variante de la méthode des k-moyennes adaptée à la présence de données aberrantes dans le contexte de la quantification. Les réponses que nous apportons à ces trois questions dans cette thèse sont de deux types, théoriques et algorithmiques. Les méthodes proposées reposent sur des objets continus construits à partir de distributions et de sous-mesures. Des études statistiques permettent de mesurer la proximité entre les objets empiriques et les objets continus correspondants. Ces méthodes sont faciles à implémenter en pratique lorsque des nuages de points sont à disposition. L'outil principal utilisé dans cette thèse est la fonction distance à la mesure, introduite à l'origine pour adapter les méthodes d'analyse topologique des données à des nuages de points corrompus par des données aberrantes / It is primordial to establish effective and robust methods to extract pertinent information from datasets. We focus on datasets that can be represented as point clouds in some metric space, e.g. Euclidean space R^d; and that are generated according to some distribution. Of the natural questions that may arise when one has access to data, three are addressed in this thesis. The first question concerns the comparison of two sets of points. How to decide whether two datasets have been generated according to similar distributions? We build a statistical test allowing to one to decide whether two point clouds have been generated from distributions that are equal (up to some rigid transformation e.g. symmetry, translation, rotation...).The second question is about the decomposition of a set of points into clusters. Given a point cloud, how does one make relevant clusters? Often, it consists of selecting a set of k representatives, and associating every point to its closest representative (in some sense to be defined). We develop methods suited to data sampled according to some mixture of k distributions, possibly with outliers. Finally, when the data can not be grouped naturally into $k$ clusters, e.g. when they are generated in a close neighborhood of some sub-manifold in R^d, a more relevant question is the following. How to build a system of $k$ representatives, with k large, from which it is possible to recover the sub-manifold? This last question is related to the problems of quantization and compact set inference. To address it, we introduce and study a modification of the $k$-means method adapted to the presence of outliers, in the context of quantization. The answers we bring in this thesis are of two types, theoretical and algorithmic. The methods we develop are based on continuous objects built from distributions and sub-measures. Statistical studies allow us to measure the proximity between the empirical objects and the continuous ones. These methods are easy to implement in practice, when samples of points are available. The main tool in this thesis is the function distance-to-measure, which was originally introduced to make topological data analysis work in the presence of outliers.
|
Page generated in 0.0948 seconds