Spelling suggestions: "subject:"statistique""
61 |
Propriétés théoriques et applications en statistique et en simulation de processus et de champs aléatoires stationnairesLionel, Truquet 10 December 2008 (has links) (PDF)
Ce travail doctoral étudie les propriétés théoriques et asymptotiques des processus et des champs aléatoires stationnaires dont se déduisent des applications en statistique et en simulation. Une premi ère partie (Chapitres 2, 3 et 4) a pour objectif de construire des nouveaux modèles de champs aléatoires de type autorégressifs, sous forme de schémas de Bernoulli, et de donner des résultats au sujet de leur théorie limite. Des notions de dépendance faible sont utilisées, plus générale que les notions bien connues de mélange fort ou d'association. Nous envisagerons un principe d'invariance, faible et fort, pour les champs aléatoires considérés. Dans un deuxième temps, nous nous intéressons à quelques problèmes d'estimation dans deux contextes de dépendance bien précis. Nous étudions au Chapitre 5 un problème de simulation de textures dans un contexte de rééchantillonnage pour des champs de Markov fortement mélangeants dans un cadre non paramétrique. Le Chapitre 6 est consacré à la construction et à l'estimation des paramètres d'une nouvelle série chronologique à valeurs entières de type ARCH. La construction est établie en utilisant des arguments de contraction établis dans le cadre des champs aléatoires et le comportement asymptotique des estimateurs des paramètres, obtenus par quasi-maximum de vraisemblance gaussien est fondée sur des arguments de type diérence de martingales. Enn nous présentons au Chapitre 7 une nouvelle méthode d'estimation des paramètres pour des modèles ARCH de type markoviens, mé- thode obtenue en lissant la quasi vraisemblance gaussienne et nous appliquons cette méthode à une série hétéroscedastique de type LARCH pour laquelle les faibles valeurs de la variance conditionnelle rendent dicile l'utilisation de la méthode classique du quasi maximum de vraisemblance
|
62 |
Statistiques bayésiennes en génétique des populations : modèle à facteurs et processus gaussiens pour étudier la variation génétique neutre et adaptative / Bayesian statistics in population genetics : factor model and gaussian processes to study neutral and adaptive genetic variationDuforet-Frebourg, Nicolas 02 October 2014 (has links)
Nous présentons dans cette thèse plusieurs travaux de statistiques bayésiennes appliquées à la génétique des populations. La génétique des populations a pour but d'expliquer les variations génétiques au sein d'une espèce, et d'inférer les processus ayant conduits à ces variations. Pour cela, des données génétiques massives sont utilisées et il y a un besoin grandissant de méthodes statistiques pour traiter ces données. Le travail de cette thèse s'inscrit dans cet effort de modélisation statistique pour répondre aux enjeux de la génétique des populations, et de la biologie de l'évolution. Nous nous intéressons tout particulièrement à la détection de traces d'adaptation locale dans les génomes, et à l'inférence des variations spatiales non stationnaires.Un modèle d'analyse factorielle bayésien est proposé pour détecter les traces d'adaptation locale. Nous comparons notre approche aux méthodes existantes, et démontrons qu'elle permet d'obtenir un plus faible taux de fausses découvertes. Nous présentons également un modèle bayésien basé sur des processus gaussiens pour caractériser les variations génétiques spatiales dans l'aire de répartition d'une espèce. Les performances de ces méthodes sont démontrées sur différents exemples issus de simulations ou de données. Plusieurs logiciels open source qui implémentent ces méthodes ont été développés pendant la thèse. / In this thesis we present several works related to Bayesian statistics in population genetics. Population genetics aims at explaining genetic variation within natural species, and infer the different processes that lead to current genetic variation. Large scale genomic datasets are produced, and there is an increasing need of statistical methods to extract information from these datasets. My thesis work is part of this statistical modeling effort to answer to evolutionary biology and population genetic questions. We are interested in detecting footprints of local adaptation without, and infering non-stationary patterns of spatial variation. A Bayesian factor model is used to detect genes involved in local adaptation. We compare our factor model to existing methods, and show that it can reduce the false discovery rate. We also present a Bayesian model based on Gaussian processes to caracterize spatial genetic variations within species. The performances of these methods are tested on simulations and real datasets. Several open source software are available online.
|
63 |
Approche qualitative et quantitative de l'usage du mobilier non céramique dans les agglomérations (IIe s. av.J-C. - IIIe s. apr. J-C.) : l'exemple des territoires Turon, Biturige et carnute / Quantitative and qualitative approach to instrumental consumption between the second century BC and the third century AD in small towns : example from Carnuti, Biturigi and Senoni's territoriesRoux, Émilie 20 April 2013 (has links)
La présente étude consiste en une approche quantitative et qualitative de la consommation d’instrumentum entre le IIe s. av. J.-C. et le IIIe s. apr. J.-C. dans les agglomérations, sur une territoire correspondant à l’actuelle région Centre. Une analyse globale du petit mobilier a été réalisée pour douze sites. Un essai de formalisation des données est proposé par l’utilisation des analyses statistiques. L’analyse de l’évolution des mobiliers au cours du temps est révélatrice des rythmes de changements différents selon les catégories de mobilier. La deuxième problématique s’attache à comprendre ce qui caractérise ce type d’habitat intercalé entre le chef-lieu du territoire et les habitats ruraux. L’approche effectuée sur un temps long permet la mise en évidence de caractères communs entre les sites de la fin de l’âge du Fer et ceux de la période antique, sur le plan fonctionnel et apporte de nouveaux éléments sur l’histoire des phénomènes d’urbanisation pendant cette période charnière. / The present study is a quantitative and qualitative approach to instrumental consumption between the second century BC and the third century AD in small towns - a territory corresponding to the current region Centre. A global analysis of small artifacts was performed for twelve sites. An attempt to formalize data is offered by the use of statistical analysis . The analysis of the evolution of artefacts over time reveals the rhythms of different changes depending on the categories of artifacts chosen. The second issue focuses on the understanding that characterizes this type of settlement interposed between the capital of the territory and the rural group settlements. . The approach performed over a long time allows the identification of common characteristics between the sites at the end of the Iron Age and those of ancient times on the functional plan and provides new information on the history of urbanization phenomena during this transitional period.
|
64 |
Statistical Methods of Detection of Current Flow Structures in Stretches of Water. / Méthodes statistiques de détection des structures de courant dans les étendues d'eau.Novikov, Dmitri 14 December 2011 (has links)
Ce projet adresse le problème de détection des structures directionnelles précises dans les champs de courant. L'accent est mis surtout sur la détection des structures tourbillonnaires, puisque les chercheurs dans le domaine de la dynamique des fluides considèrent ces structures comme étant particulièrement importantes. Chapitre 1 présente la motivation de ce projet et fournit les détails du contexte environnemental et mathématique du problème en soulignant les parties essentielles de la théorie qu'on utilise après pour la solution. Chapitre 2 propose une méthode statistique, basée sur la proportion des vraisemblances, pour adresser le problème particulier de la détection des tourbillons et montre l'efficacité de cette méthode sur les données simulées et réelles en discutant aussi les limitations. Chapitre 3 développe les idées discutées dans les chapitres 1 et 2 pour trouver un outil statistique plus général qui répare les défauts de la première méthode et permet la détection de toutes les structures directionnelles qui peuvent intéresser les chercheurs. Tous les outils nécessaires pour l'analyse des données en utilisant les deux méthodes développées dans ce projet se trouvent dans les annexes A et B de la thèse. / This work addresses the problem of detecting specific directional structures in flows of current. Specific emphasis is placed on vortex detection, as scientists studying fluid dynamics consider this structure to be of particular importance. Chapter 1 presents the motivation behind the project and provides details about the environmental and, subsequently, the mathematical context of the problem, highlighting the essential parts of the theory that is later used to propose the solution. Chapter 2 offers a statistical approach, based on a likelihood ratio, to solving the specific problem of vortex detection and demonstrates the effectiveness of the method on simulated and real data, also discussing the limitations of the approach. Chapter 3 expands on the ideas discussed in Chapters 1 and 2 to derive a generalized statistical test that remedies the flaws of the first approach and extends to the problem of detecting any directional structure of interest. All necessary tools for the analysis of data using the two methods developed in this project are given in Appendix A and B.
|
65 |
Vitesses de convergence en inférence géométrique / Rates of Convergence for Geometric InferenceAamari, Eddie 01 September 2017 (has links)
Certains jeux de données présentent des caractéristiques géométriques et topologiques non triviales qu'il peut être intéressant d'inférer.Cette thèse traite des vitesses non-asymptotiques d'estimation de différentes quantités géométriques associées à une sous-variété M ⊂ RD. Dans chaque cas, on dispose d'un n-échantillon i.i.d. de loi commune P ayant pour support M. On étudie le problème d'estimation de la sous-variété M pour la perte donnée par la distance de Hausdorff, du reach τM, de l'espace tangent TX M et de la seconde forme fondamentale I I MX, pour X ∈ M à la fois déterministe et aléatoire.Les vitesses sont données en fonction la taille $n$ de l'échantillon, de la dimension intrinsèque de M ainsi que de sa régularité.Dans l'analyse, on obtient des résultats de stabilité pour des techniques de reconstruction existantes, une procédure de débruitage ainsi que des résultats sur la géométrie du reach τM. Une extension du lemme d'Assouad est exposée, permettant l'obtention de bornes inférieures minimax dans des cadres singuliers. / Some datasets exhibit non-trivial geometric or topological features that can be interesting to infer.This thesis deals with non-asymptotic rates for various geometric quantities associated with submanifolds M ⊂ RD. In all the settings, we are given an i.i.d. n-sample with common distribution P having support M. We study the optimal rates of estimation of the submanifold M for the loss given by the Hausdorff metric, of the reach τM, of the tangent space TX M and the second fundamental form I I MX, for X ∈ M both deterministic and random.The rates are given in terms of the sample size n, the instrinsic dimension of M, and its smoothness.In the process, we obtain stability results for existing reconstruction techniques, a denoising procedure and results on the geometry of the reach τM. An extension of Assouad's lemma is presented, allowing to derive minimax lower bounds in singular frameworks.
|
66 |
Quelques contributions à l'optimisation globale / Global optimization : contributionsMalherbe, Cédric 24 November 2017 (has links)
Ce travail de thèse s’intéresse au problème d’optimisation séquentielle d’une fonction inconnue définie sur un ensemble continu et borné. Ce type de problème apparaît notamment dans la conception de systèmes complexes, lorsque l’on cherche à optimiser le résultat de simulations numériques ou plus simplement lorsque la fonction que l’on souhaite optimiser ne présente aucune forme de régularité évidente comme la linéarité ou la convexité. Dans un premier temps, nous nous focalisons sur le cas particulier des fonctions lipschitziennes. Nous introduisons deux nouvelles stratégies ayant pour but d’optimiser n’importe quelle fonction de coefficient de Lipschitz connu puis inconnu. Ensuite, en introduisant différentes mesures de régularité, nous formulons et obtenons des résultats de consistance pour ces méthodes ainsi que des vitesses de convergence sur leurs erreurs d’approximation. Dans une seconde partie, nous nous proposons d’explorer le domaine de l’ordonnancement binaire dans le but de développer des stratégies d’optimisation pour fonctions non régulières. En observant que l’apprentissage de la règle d’ordonnancement induite par la fonction inconnue permet l’identification systématique de son optimum, nous faisons le lien entre théorie de l’ordonnancement et théorie de l’optimisation, ce qui nous permet de développer de nouvelles méthodes reposant sur le choix de n’importe quelle technique d’ordonnancement et de formuler différents résultats de convergence pour l’optimisation de fonctions non régulières. Enfin, les stratégies d’optimisation développées au cours de la thèse sont comparées aux méthodes présentes dans l’état de l’art sur des problèmes de calibration de systèmes d’apprentissages ainsi que sur des problèmes synthétiques fréquemment rencontrés dans le domaine de l’optimisation globale. / This work addresses the sequential optimization of an unknown and potentially non-convex function over a continuous and bounded set. These problems are of particular interest when evaluating the function requires numerical simulations with significant computational cost or when the objective function does not satisfy the standard properties used in optimization such as linearity or convexity. In a first part, we consider the problem of designing sequential strategies which lead to efficient optimization of an unknown function under the only assumption that it has finite Lipschitz constant. We introduce and analyze two strategies which aim at optimizing any function with fixed and unknown Lipschitz constant. Consistency and minimax rates for these algorithms are proved, as well as fast rates under an additional Hölder like condition. In a second part, we propose to explore concepts from ranking theory based on overlaying level sets in order to develop optimization methods that do not rely on the smoothness of the function. We observe that the optimization of the function essentially relies on learning the bipartite rule it induces. Based on this idea, we relate global optimization to bipartite ranking which allows to address the cases of functions with weak regularity properties. Novel meta algorithms for global optimization which rely on the choice of any bipartite ranking method are introduced and theoretical properties are provided in terms of statistical consistency and finite-time convergence toward the optimum. Eventually, the algorithms developed in the thesis are compared to existing state-of-the-art methods over typical benchmark problems for global optimization.
|
67 |
Les anisotropies du fond diffus infrarouge : un nouvel outil pour sonder l'évolution des structures / The anisotropies of the cosmic infrared backgrounda new tool to probe the evolution of structure : a new tool to probe the evolution of structurePenin, Aurelie 26 September 2011 (has links)
Le fond diffus infrarouge est la contribution de toutes les galaxies infrarouges intégrée sur toute l’histoire de l’Univers. Il émet entre 8 et 1000 µm et à un pic vers 200 µm. On résout une large fraction de ce fond dans l’infrarouge proche mais seule une petite fraction l’est dans l’infrarouge moyen et lointain à cause de la confusion. Les sources les plus faibles sont perdues dans le bruit de confusion. Cela forme des fluctuations de brillance, les anisotropies du fond diffus infrarouge. L’étude de ces fluctuations permet l’étude des galaxies sous le seuil de détection, donc des galaxies les plus faibles. Grâce au spectre de puissance on peut mesurer la puissance conte- nue dans ces fluctuations en fonction de l’échelle spatiale. Cette mesure contient, entre autre, le regroupement des galaxies infrarouges. Dans un premier temps, j’ai isolé du spectre de puissance d’une carte infrarouge, le spectre de puissance dû uniquement aux galaxies infrarouges. En effet, aux grandes échelles spatiales, il est contaminé par l’émission des cirrus Galactiques. Ces cirrus sont des nuages d’hydrogène neutre, tracés par la raie à 21 cm. J’ai donc utilisé des données à 21 cm pour estimer l’émission infrarouge de ces cirrus pour ensuite la soustraire aux cartes infrarouge à 100 et 160 µm. Cela m’a aussi permis de faire une mesure précise du niveau absolu du fond diffus infrarouge à ces longueurs d’onde. Afin d’analyser ces spectres de puissances, j’ai mis en place un modèle de regroupement des galaxies infrarouges reliant un modèle d’évolution des galaxies infrarouge reproduisant les données existantes dont celles d’Herschel et un modèle de halo. C’est un modèle complétement paramétré ce qui permet l’étude des dégénérescences de ces paramètres. J’en ai aussi tiré des mesures physiques et leur évolution avec la longueur d’onde. De plus, j’ai ajusté les données existantes de 100 à 1380 µm. Grâce au modèle on peut déterminer les contributions en redshift à chaque longueur d’onde. Les courtes longueurs d’onde tracent les bas redshifts alors que les grandes longueurs d’onde tracent les hauts redshifts. Cependant la contribution des bas redshifts est loin d’être négligeable à ces longueurs d’onde. Afin de déterminer l’évolution du regroupement avec le redshift des cartes des anisotropies du fond diffus infrarouge sont nécessaires. Je vais expliciter une méthode de séparation de composantes dédiée à cela. / The Cosmic Infrared Background is the contribution of all infrared galaxies integrated on the history of the Universe. It emits between 8 and 1000 um with a peak around 200 um. A large fraction of this background is resolved into sources in the near infrared but only a tiny fraction is in the mid and far infrared because of confusion. The least luminous sources are lost in the confusion noise which forms brightness fluctuations, the anisotropies of the cosmic infrared background. The study of these fluctuations enables the study of the galaxies below the detection threshold, thus the less luminous galaxies. Thanks to the power spectrum we can measure the power contained in these fluctuations as a function of the scale. This measure contains, among others, the clustering of the infrared galaxies. First, I have isolated from the power spectrum of an infrared map, the power spectrum only due to infrared galaxies. Indeed, at large spatial scales, it is contaminated by the emission of Galactic cirrus. These cirrus are clouds of neutral hydrogen traced by the 21 cm line. Therefore, I made use of data at 21 cm to estimate the infrared emission of these cirrus that I have then subtracted from infrared maps at 100 and 160 um.This has also enabled me to compute the absolute level of the cosmic infrared background at these wavelengths. In order to analyse these power spectra, I developped a model of clustering of infrared galaxies. To do so I linked a model of evolution of galaxies that reproduces very well existing data including those of Herschel and a halo model. This is a fully parametric model that enables the study of the degeneracies of these parameters. I was also able to study the evolution with the wavelength of several physical measures. Furthermore, I fitted data from 100 um to 1380 um. Thanks to that model, I can determine the redshift distribution at each wavelength. Short wavelength probe small redshifts whereas long wavelength probe high redshifts. However the contribution of small redshift is far from being negligeable at long wavelength. As a long term purpose of determining the evolution of the clustering if the infrared galaxies, maps of the anisotropies of the cosmic infrared background are needed. I will then detail a component separation method dedicated to this problem.
|
68 |
Statistiques géométriques pour l'anatomie numérique / Geometric statistics for computational anatomyMiolane, Nina 16 December 2016 (has links)
Cette thèse développe les statistiques géométriques pour l'analyse de lavariabilité normale et pathologique des formes d'organe en anatomienumérique. Les statistiques géométriques s’intéressent aux données issues devariétés avec structures géométriques additionnelles. En anatomie numérique,les formes d'un organe peuvent être vues comme des déformations d'un organede référence - i.e. comme éléments d'un groupe de Lie, une variété avec unestructure de groupe - ou comme les classes d'équivalence de leur configuration3D sous l'action de transformations - i.e. comme éléments d'un quotient, unevariété avec une stratification. Les images médicales peuvent êtrereprésentées par des variétés avec une distribution horizontale. Lacontribution de cette thèse est d'étendre les statistiques géométriques au delàdes géométries riemanniennes ou métriques maintenant classiques pourprendre en compte des structures additionnelles. Premièrement, nousdéfinissons les statistiques géométriques sur les groupes de Lie. Nousproposons une construction algorithmique de (pseudo-)métriqueRiemannienne, compatible avec la structure de groupe, lorsqu'elle existe. Noustrouvons que certains groupes n'admettent pas de telle (pseudo-)métrique etdéfendons l'idée de statistiques non-métriques sur les groupes de Lie. Ensuite,nous utilisons les statistiques géométriques pour analyser l'algorithme decalcul d'organe de référence, reformulé avec des espaces quotient. Nousmontrons son biais et suggérons un algorithme amélioré. Enfin, nousappliquons les statistiques géométriques au traitement d'images, engénéralisant les structures sous-Riemanniennes, utilisées en 2D, au 3D / This thesis develops Geometric Statistics to analyze the normal andpathological variability of organ shapes in Computational Anatomy. Geometricstatistics consider data that belong to manifolds with additional geometricstructures. In Computational Anatomy, organ shapes may be modeled asdeformations of a template - i.e. as elements of a Lie group, a manifold with agroup structure - or as the equivalence classes of their 3D configurations underthe action of transformations - i.e. as elements of a quotient space, a manifoldwith a stratification. Medical images can be modeled as manifolds with ahorizontal distribution. The contribution of this thesis is to extend GeometricStatistics beyond the now classical Riemannian and metric geometries in orderto account for these additional structures. First, we tackle the definition ofGeometric Statistics on Lie groups. We provide an algorithm that constructs a(pseudo-)Riemannian metric compatible with the group structure when itexists. We find that some groups do not admit such a (pseudo-)metric andadvocate for non-metric statistics on Lie groups. Second, we use GeometricStatistics to analyze the algorithm of organ template computation. We show itsasymptotic bias by considering the geometry of quotient spaces. We illustratethe bias on brain templates and suggest an improved algorithm. We then showthat registering organ shapes induces a bias in their statistical analysis, whichwe offer to correct. Third, we apply Geometric Statistics to medical imageprocessing, providing the mathematics to extend sub-Riemannian structures,already used in 2D, to our 3D images
|
69 |
Communication et statistiques publiques. Représentations dominantes / Communication and public statistics. Main representationsJucobin, Anne-Claire 14 December 2009 (has links)
Outils dominants de représentation du monde social, les statistiques publiques jouent en France un rôledéterminant dans la revendication actuelle de rationalisation de l’action de l’Etat. A partir de l’étude dumode de publicité des statistiques de la délinquance et de la criminalité, ce travail analyse la place de cesdonnées chiffrées dans les stratégies de communication publique. Il apparaît ainsi que cetteprééminence tient à la fois au régime sémiotique spécifique des chiffres, à l’importance du quantitatifdans l’imaginaire individuel et collectif, autant qu’à une combinaison de légitimations (historiques,éthiques, politiques, scientifiques). Mais les rapports de pouvoir en jeu se définissent également par lamanipulation des signes en vue d’imposer un système de valeurs. Ils se distinguent par la force d’uneesthétique qui parvient à concilier complexité du savoir et apparente évidence de l’information,objectivité et subjectivité, opacité des instances auctoriales et transparence revendiquée. / As the prevailing tools of the representation of the social world, official statistics in France play akey role in the current claim to rationalise government actions. Studying the communicationalchoices concerning criminal statistics in France, this work emphasizes the role of statistics in thestrategies of public communication: their importance lies in the semiotic nature of figures, theinfluence of quantitative matters in the individual and collective imagination, as well as acombination of legitimacy (historical, ethical, political, scientific). But the balance of powersinvolved is also defined by the manipulation of signs in order to establish a system of values. Theseare distinguished by the strength of an aesthetic, which strikes a balance between complexity ofknowledge and apparent evidence of information, objectivity and subjectivity, opacity of auctorialauthorities and claimed transparency.
|
70 |
Prévision multi-échelle par agrégation de forêts aléatoires. Application à la consommation électrique. / Multi-scale forecasting by aggregation of random forests. Application to load forecasting.Goehry, Benjamin 10 December 2019 (has links)
Cette thèse comporte deux objectifs. Un premier objectif concerne la prévision d’une charge totale dans le contexte des Smart Grids par des approches qui reposent sur la méthode de prévision ascendante. Le deuxième objectif repose quant à lui sur l’étude des forêts aléatoires dans le cadre d’observations dépendantes, plus précisément des séries temporelles. Nous étendons dans ce cadre les résultats de consistance des forêts aléatoires originelles de Breiman ainsi que des vitesses de convergence pour une forêt aléatoire simplifiée qui ont été tout deux jusqu’ici uniquement établis pour des observations indépendantes et identiquement distribuées. La dernière contribution sur les forêts aléatoires décrit une nouvelle méthodologie qui permet d’incorporer la structure dépendante des données dans la construction des forêts et permettre ainsi un gain en performance dans le cas des séries temporelles, avec une application à la prévision de la consommation d’un bâtiment. / This thesis has two objectives. A first objective concerns the forecast of a total load in the context of Smart Grids using approaches that are based on the bottom-up forecasting method. The second objective is based on the study of random forests when observations are dependent, more precisely on time series. In this context, we are extending the consistency results of Breiman’s random forests as well as the convergence rates for a simplified random forest that have both been hitherto only established for independent and identically distributed observations. The last contribution on random forests describes a new methodology that incorporates the time-dependent structure in the construction of forests and thus have a gain in performance in the case of time series, illustrated with an application of load forecasting of a building.
|
Page generated in 0.0876 seconds