Spelling suggestions: "subject:"statistique ®""
61 |
Statistical Methods of Detection of Current Flow Structures in Stretches of Water. / Méthodes statistiques de détection des structures de courant dans les étendues d'eau.Novikov, Dmitri 14 December 2011 (has links)
Ce projet adresse le problème de détection des structures directionnelles précises dans les champs de courant. L'accent est mis surtout sur la détection des structures tourbillonnaires, puisque les chercheurs dans le domaine de la dynamique des fluides considèrent ces structures comme étant particulièrement importantes. Chapitre 1 présente la motivation de ce projet et fournit les détails du contexte environnemental et mathématique du problème en soulignant les parties essentielles de la théorie qu'on utilise après pour la solution. Chapitre 2 propose une méthode statistique, basée sur la proportion des vraisemblances, pour adresser le problème particulier de la détection des tourbillons et montre l'efficacité de cette méthode sur les données simulées et réelles en discutant aussi les limitations. Chapitre 3 développe les idées discutées dans les chapitres 1 et 2 pour trouver un outil statistique plus général qui répare les défauts de la première méthode et permet la détection de toutes les structures directionnelles qui peuvent intéresser les chercheurs. Tous les outils nécessaires pour l'analyse des données en utilisant les deux méthodes développées dans ce projet se trouvent dans les annexes A et B de la thèse. / This work addresses the problem of detecting specific directional structures in flows of current. Specific emphasis is placed on vortex detection, as scientists studying fluid dynamics consider this structure to be of particular importance. Chapter 1 presents the motivation behind the project and provides details about the environmental and, subsequently, the mathematical context of the problem, highlighting the essential parts of the theory that is later used to propose the solution. Chapter 2 offers a statistical approach, based on a likelihood ratio, to solving the specific problem of vortex detection and demonstrates the effectiveness of the method on simulated and real data, also discussing the limitations of the approach. Chapter 3 expands on the ideas discussed in Chapters 1 and 2 to derive a generalized statistical test that remedies the flaws of the first approach and extends to the problem of detecting any directional structure of interest. All necessary tools for the analysis of data using the two methods developed in this project are given in Appendix A and B.
|
62 |
Vitesses de convergence en inférence géométrique / Rates of Convergence for Geometric InferenceAamari, Eddie 01 September 2017 (has links)
Certains jeux de données présentent des caractéristiques géométriques et topologiques non triviales qu'il peut être intéressant d'inférer.Cette thèse traite des vitesses non-asymptotiques d'estimation de différentes quantités géométriques associées à une sous-variété M ⊂ RD. Dans chaque cas, on dispose d'un n-échantillon i.i.d. de loi commune P ayant pour support M. On étudie le problème d'estimation de la sous-variété M pour la perte donnée par la distance de Hausdorff, du reach τM, de l'espace tangent TX M et de la seconde forme fondamentale I I MX, pour X ∈ M à la fois déterministe et aléatoire.Les vitesses sont données en fonction la taille $n$ de l'échantillon, de la dimension intrinsèque de M ainsi que de sa régularité.Dans l'analyse, on obtient des résultats de stabilité pour des techniques de reconstruction existantes, une procédure de débruitage ainsi que des résultats sur la géométrie du reach τM. Une extension du lemme d'Assouad est exposée, permettant l'obtention de bornes inférieures minimax dans des cadres singuliers. / Some datasets exhibit non-trivial geometric or topological features that can be interesting to infer.This thesis deals with non-asymptotic rates for various geometric quantities associated with submanifolds M ⊂ RD. In all the settings, we are given an i.i.d. n-sample with common distribution P having support M. We study the optimal rates of estimation of the submanifold M for the loss given by the Hausdorff metric, of the reach τM, of the tangent space TX M and the second fundamental form I I MX, for X ∈ M both deterministic and random.The rates are given in terms of the sample size n, the instrinsic dimension of M, and its smoothness.In the process, we obtain stability results for existing reconstruction techniques, a denoising procedure and results on the geometry of the reach τM. An extension of Assouad's lemma is presented, allowing to derive minimax lower bounds in singular frameworks.
|
63 |
Quelques contributions à l'optimisation globale / Global optimization : contributionsMalherbe, Cédric 24 November 2017 (has links)
Ce travail de thèse s’intéresse au problème d’optimisation séquentielle d’une fonction inconnue définie sur un ensemble continu et borné. Ce type de problème apparaît notamment dans la conception de systèmes complexes, lorsque l’on cherche à optimiser le résultat de simulations numériques ou plus simplement lorsque la fonction que l’on souhaite optimiser ne présente aucune forme de régularité évidente comme la linéarité ou la convexité. Dans un premier temps, nous nous focalisons sur le cas particulier des fonctions lipschitziennes. Nous introduisons deux nouvelles stratégies ayant pour but d’optimiser n’importe quelle fonction de coefficient de Lipschitz connu puis inconnu. Ensuite, en introduisant différentes mesures de régularité, nous formulons et obtenons des résultats de consistance pour ces méthodes ainsi que des vitesses de convergence sur leurs erreurs d’approximation. Dans une seconde partie, nous nous proposons d’explorer le domaine de l’ordonnancement binaire dans le but de développer des stratégies d’optimisation pour fonctions non régulières. En observant que l’apprentissage de la règle d’ordonnancement induite par la fonction inconnue permet l’identification systématique de son optimum, nous faisons le lien entre théorie de l’ordonnancement et théorie de l’optimisation, ce qui nous permet de développer de nouvelles méthodes reposant sur le choix de n’importe quelle technique d’ordonnancement et de formuler différents résultats de convergence pour l’optimisation de fonctions non régulières. Enfin, les stratégies d’optimisation développées au cours de la thèse sont comparées aux méthodes présentes dans l’état de l’art sur des problèmes de calibration de systèmes d’apprentissages ainsi que sur des problèmes synthétiques fréquemment rencontrés dans le domaine de l’optimisation globale. / This work addresses the sequential optimization of an unknown and potentially non-convex function over a continuous and bounded set. These problems are of particular interest when evaluating the function requires numerical simulations with significant computational cost or when the objective function does not satisfy the standard properties used in optimization such as linearity or convexity. In a first part, we consider the problem of designing sequential strategies which lead to efficient optimization of an unknown function under the only assumption that it has finite Lipschitz constant. We introduce and analyze two strategies which aim at optimizing any function with fixed and unknown Lipschitz constant. Consistency and minimax rates for these algorithms are proved, as well as fast rates under an additional Hölder like condition. In a second part, we propose to explore concepts from ranking theory based on overlaying level sets in order to develop optimization methods that do not rely on the smoothness of the function. We observe that the optimization of the function essentially relies on learning the bipartite rule it induces. Based on this idea, we relate global optimization to bipartite ranking which allows to address the cases of functions with weak regularity properties. Novel meta algorithms for global optimization which rely on the choice of any bipartite ranking method are introduced and theoretical properties are provided in terms of statistical consistency and finite-time convergence toward the optimum. Eventually, the algorithms developed in the thesis are compared to existing state-of-the-art methods over typical benchmark problems for global optimization.
|
64 |
Les anisotropies du fond diffus infrarouge : un nouvel outil pour sonder l'évolution des structures / The anisotropies of the cosmic infrared backgrounda new tool to probe the evolution of structure : a new tool to probe the evolution of structurePenin, Aurelie 26 September 2011 (has links)
Le fond diffus infrarouge est la contribution de toutes les galaxies infrarouges intégrée sur toute l’histoire de l’Univers. Il émet entre 8 et 1000 µm et à un pic vers 200 µm. On résout une large fraction de ce fond dans l’infrarouge proche mais seule une petite fraction l’est dans l’infrarouge moyen et lointain à cause de la confusion. Les sources les plus faibles sont perdues dans le bruit de confusion. Cela forme des fluctuations de brillance, les anisotropies du fond diffus infrarouge. L’étude de ces fluctuations permet l’étude des galaxies sous le seuil de détection, donc des galaxies les plus faibles. Grâce au spectre de puissance on peut mesurer la puissance conte- nue dans ces fluctuations en fonction de l’échelle spatiale. Cette mesure contient, entre autre, le regroupement des galaxies infrarouges. Dans un premier temps, j’ai isolé du spectre de puissance d’une carte infrarouge, le spectre de puissance dû uniquement aux galaxies infrarouges. En effet, aux grandes échelles spatiales, il est contaminé par l’émission des cirrus Galactiques. Ces cirrus sont des nuages d’hydrogène neutre, tracés par la raie à 21 cm. J’ai donc utilisé des données à 21 cm pour estimer l’émission infrarouge de ces cirrus pour ensuite la soustraire aux cartes infrarouge à 100 et 160 µm. Cela m’a aussi permis de faire une mesure précise du niveau absolu du fond diffus infrarouge à ces longueurs d’onde. Afin d’analyser ces spectres de puissances, j’ai mis en place un modèle de regroupement des galaxies infrarouges reliant un modèle d’évolution des galaxies infrarouge reproduisant les données existantes dont celles d’Herschel et un modèle de halo. C’est un modèle complétement paramétré ce qui permet l’étude des dégénérescences de ces paramètres. J’en ai aussi tiré des mesures physiques et leur évolution avec la longueur d’onde. De plus, j’ai ajusté les données existantes de 100 à 1380 µm. Grâce au modèle on peut déterminer les contributions en redshift à chaque longueur d’onde. Les courtes longueurs d’onde tracent les bas redshifts alors que les grandes longueurs d’onde tracent les hauts redshifts. Cependant la contribution des bas redshifts est loin d’être négligeable à ces longueurs d’onde. Afin de déterminer l’évolution du regroupement avec le redshift des cartes des anisotropies du fond diffus infrarouge sont nécessaires. Je vais expliciter une méthode de séparation de composantes dédiée à cela. / The Cosmic Infrared Background is the contribution of all infrared galaxies integrated on the history of the Universe. It emits between 8 and 1000 um with a peak around 200 um. A large fraction of this background is resolved into sources in the near infrared but only a tiny fraction is in the mid and far infrared because of confusion. The least luminous sources are lost in the confusion noise which forms brightness fluctuations, the anisotropies of the cosmic infrared background. The study of these fluctuations enables the study of the galaxies below the detection threshold, thus the less luminous galaxies. Thanks to the power spectrum we can measure the power contained in these fluctuations as a function of the scale. This measure contains, among others, the clustering of the infrared galaxies. First, I have isolated from the power spectrum of an infrared map, the power spectrum only due to infrared galaxies. Indeed, at large spatial scales, it is contaminated by the emission of Galactic cirrus. These cirrus are clouds of neutral hydrogen traced by the 21 cm line. Therefore, I made use of data at 21 cm to estimate the infrared emission of these cirrus that I have then subtracted from infrared maps at 100 and 160 um.This has also enabled me to compute the absolute level of the cosmic infrared background at these wavelengths. In order to analyse these power spectra, I developped a model of clustering of infrared galaxies. To do so I linked a model of evolution of galaxies that reproduces very well existing data including those of Herschel and a halo model. This is a fully parametric model that enables the study of the degeneracies of these parameters. I was also able to study the evolution with the wavelength of several physical measures. Furthermore, I fitted data from 100 um to 1380 um. Thanks to that model, I can determine the redshift distribution at each wavelength. Short wavelength probe small redshifts whereas long wavelength probe high redshifts. However the contribution of small redshift is far from being negligeable at long wavelength. As a long term purpose of determining the evolution of the clustering if the infrared galaxies, maps of the anisotropies of the cosmic infrared background are needed. I will then detail a component separation method dedicated to this problem.
|
65 |
Statistiques géométriques pour l'anatomie numérique / Geometric statistics for computational anatomyMiolane, Nina 16 December 2016 (has links)
Cette thèse développe les statistiques géométriques pour l'analyse de lavariabilité normale et pathologique des formes d'organe en anatomienumérique. Les statistiques géométriques s’intéressent aux données issues devariétés avec structures géométriques additionnelles. En anatomie numérique,les formes d'un organe peuvent être vues comme des déformations d'un organede référence - i.e. comme éléments d'un groupe de Lie, une variété avec unestructure de groupe - ou comme les classes d'équivalence de leur configuration3D sous l'action de transformations - i.e. comme éléments d'un quotient, unevariété avec une stratification. Les images médicales peuvent êtrereprésentées par des variétés avec une distribution horizontale. Lacontribution de cette thèse est d'étendre les statistiques géométriques au delàdes géométries riemanniennes ou métriques maintenant classiques pourprendre en compte des structures additionnelles. Premièrement, nousdéfinissons les statistiques géométriques sur les groupes de Lie. Nousproposons une construction algorithmique de (pseudo-)métriqueRiemannienne, compatible avec la structure de groupe, lorsqu'elle existe. Noustrouvons que certains groupes n'admettent pas de telle (pseudo-)métrique etdéfendons l'idée de statistiques non-métriques sur les groupes de Lie. Ensuite,nous utilisons les statistiques géométriques pour analyser l'algorithme decalcul d'organe de référence, reformulé avec des espaces quotient. Nousmontrons son biais et suggérons un algorithme amélioré. Enfin, nousappliquons les statistiques géométriques au traitement d'images, engénéralisant les structures sous-Riemanniennes, utilisées en 2D, au 3D / This thesis develops Geometric Statistics to analyze the normal andpathological variability of organ shapes in Computational Anatomy. Geometricstatistics consider data that belong to manifolds with additional geometricstructures. In Computational Anatomy, organ shapes may be modeled asdeformations of a template - i.e. as elements of a Lie group, a manifold with agroup structure - or as the equivalence classes of their 3D configurations underthe action of transformations - i.e. as elements of a quotient space, a manifoldwith a stratification. Medical images can be modeled as manifolds with ahorizontal distribution. The contribution of this thesis is to extend GeometricStatistics beyond the now classical Riemannian and metric geometries in orderto account for these additional structures. First, we tackle the definition ofGeometric Statistics on Lie groups. We provide an algorithm that constructs a(pseudo-)Riemannian metric compatible with the group structure when itexists. We find that some groups do not admit such a (pseudo-)metric andadvocate for non-metric statistics on Lie groups. Second, we use GeometricStatistics to analyze the algorithm of organ template computation. We show itsasymptotic bias by considering the geometry of quotient spaces. We illustratethe bias on brain templates and suggest an improved algorithm. We then showthat registering organ shapes induces a bias in their statistical analysis, whichwe offer to correct. Third, we apply Geometric Statistics to medical imageprocessing, providing the mathematics to extend sub-Riemannian structures,already used in 2D, to our 3D images
|
66 |
Communication et statistiques publiques. Représentations dominantes / Communication and public statistics. Main representationsJucobin, Anne-Claire 14 December 2009 (has links)
Outils dominants de représentation du monde social, les statistiques publiques jouent en France un rôledéterminant dans la revendication actuelle de rationalisation de l’action de l’Etat. A partir de l’étude dumode de publicité des statistiques de la délinquance et de la criminalité, ce travail analyse la place de cesdonnées chiffrées dans les stratégies de communication publique. Il apparaît ainsi que cetteprééminence tient à la fois au régime sémiotique spécifique des chiffres, à l’importance du quantitatifdans l’imaginaire individuel et collectif, autant qu’à une combinaison de légitimations (historiques,éthiques, politiques, scientifiques). Mais les rapports de pouvoir en jeu se définissent également par lamanipulation des signes en vue d’imposer un système de valeurs. Ils se distinguent par la force d’uneesthétique qui parvient à concilier complexité du savoir et apparente évidence de l’information,objectivité et subjectivité, opacité des instances auctoriales et transparence revendiquée. / As the prevailing tools of the representation of the social world, official statistics in France play akey role in the current claim to rationalise government actions. Studying the communicationalchoices concerning criminal statistics in France, this work emphasizes the role of statistics in thestrategies of public communication: their importance lies in the semiotic nature of figures, theinfluence of quantitative matters in the individual and collective imagination, as well as acombination of legitimacy (historical, ethical, political, scientific). But the balance of powersinvolved is also defined by the manipulation of signs in order to establish a system of values. Theseare distinguished by the strength of an aesthetic, which strikes a balance between complexity ofknowledge and apparent evidence of information, objectivity and subjectivity, opacity of auctorialauthorities and claimed transparency.
|
67 |
Prévision multi-échelle par agrégation de forêts aléatoires. Application à la consommation électrique. / Multi-scale forecasting by aggregation of random forests. Application to load forecasting.Goehry, Benjamin 10 December 2019 (has links)
Cette thèse comporte deux objectifs. Un premier objectif concerne la prévision d’une charge totale dans le contexte des Smart Grids par des approches qui reposent sur la méthode de prévision ascendante. Le deuxième objectif repose quant à lui sur l’étude des forêts aléatoires dans le cadre d’observations dépendantes, plus précisément des séries temporelles. Nous étendons dans ce cadre les résultats de consistance des forêts aléatoires originelles de Breiman ainsi que des vitesses de convergence pour une forêt aléatoire simplifiée qui ont été tout deux jusqu’ici uniquement établis pour des observations indépendantes et identiquement distribuées. La dernière contribution sur les forêts aléatoires décrit une nouvelle méthodologie qui permet d’incorporer la structure dépendante des données dans la construction des forêts et permettre ainsi un gain en performance dans le cas des séries temporelles, avec une application à la prévision de la consommation d’un bâtiment. / This thesis has two objectives. A first objective concerns the forecast of a total load in the context of Smart Grids using approaches that are based on the bottom-up forecasting method. The second objective is based on the study of random forests when observations are dependent, more precisely on time series. In this context, we are extending the consistency results of Breiman’s random forests as well as the convergence rates for a simplified random forest that have both been hitherto only established for independent and identically distributed observations. The last contribution on random forests describes a new methodology that incorporates the time-dependent structure in the construction of forests and thus have a gain in performance in the case of time series, illustrated with an application of load forecasting of a building.
|
68 |
Text prediction for translatorsFoster, George January 2002 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
69 |
La surveillance et les facteurs de risque associés au VIH au RwandaKayibanda, Jeanne Françoise 18 April 2018 (has links)
Les trois études présentées dans cette thèse portent sur 1) la comparaison de la prévalence du VIH mesurée par le programme de surveillance du VIH chez les femmes enceintes (surveillance sentinelle) et celle mesurée chez les femmes de la population générale en 2005, 2) l'analyse de l'utilité des données du programme de prévention de la transmission du VIH de la mère à l'enfant (PTME) pour la surveillance du VIH chez les femmes enceintes (données de 2007) et 3) l'analyse des liens entre les déterminants liés au genre et la séropositivité au VIH dans la population générale en 2005. Les trois études ont été conduites au Rwanda. En premier lieu, la prévalence mesurée par la surveillance sentinelle sous-estime significativement celle mesurée dans la population générale féminine dans les villes urbaines autres que la capitale (5% contre 7,7 %, p=0,008). La distribution différente des facteurs sociodémographiques dans les deux populations est la principale cause de la différence des prévalences du VIH constatée. En deuxième lieu, la prévalence du VIH mesurée par le programme de PTME sous-estime celle mesurée par la surveillance sentinelle (3,27 % contre 4,35 % p=0,03). La faible qualité des données du programme de PTME a été associée à la différence constatée. En troisième lieu, 29,2%; 22,2% et 12,4% des femmes en union ont respectivement rapporté avoir subi la violence physique, psychologique et sexuelle. Après ajustement pour les variables socio-démographiques et les facteurs de risque sexuels chez les femmes, le rapport de cote (RCajUsté) de l'infection à VIH était de 3,23 [Intervalle de confiance (IC) à 95% : 1,30-8,03] chez les femmes qui avaient un score allant de 3 à 4 sur l'échelle de la violence psychologique perpétrée par le partenaire. Le RCajUsté chez les femmes qui ont rapporté avoir été exposée à la violence interparentale était de 1,95 (IC à 95% : 1,11-3,43). La correction du biais de classement des femmes enceintes recrutées par la surveillance sentinelle dans les villes urbaines autres que la Capitale est nécessaire pour améliorer les estimations de prévalence du VIH réalisées par ce programme. La gestion et la qualité des données du programme de PTME doivent être améliorées avant de confier à ce programme l'activité de surveillance du VIH. Les interventions ciblant la réduction de la violence basée sur le genre devraient être intégrées dans les politiques de lutte contre le VIH/SIDA.
|
70 |
Stratégie d'échantillonnage des mesures LIBS in situ de la teneur en or dans des échantillons miniers : optimisation par analyse statistiqueNguegang Kamwa, Blandine 31 May 2021 (has links)
Au Québec, 19 mines d'or produisent plus de 1.8 milliard dollars canadiens d'or annuellement. Dans ces mines, des centaines d'échantillons de roches sont collectées quotidiennement, et envoyées au laboratoire afin de déterminer leurs concentrations en or. Étant donné que les résultats du laboratoire ne sont disponibles qu'après 24 à 48 heures, il s'en suit un impact direct négatif sur les activités minières. Les avancées technologiques des dernières années laissent croire que la spectroscopie sur plasma induite par laser (LIBS) pourrait constituer une technologie prometteuse pour mesurer en temps réel et in-situ, la teneur en or de la roche. Considérant la taille de chaque tir produit par le laser sur un échantillon de roche, à savoir 500 µm, de très nombreux tirs seront requis afin d'obtenir un résultat représentatif de l'échantillon analysé. À titre d'exemple, pour un échantillon de carotte de 50 cm de long, et une surface analysée comprise entre 70 et 80%, 10000 tirs lasers ont été effectués afin de s'assurer d'obtenir un résultat représentatif de l'échantillon, avec un temps d'acquisition d'une demi-journée en laboratoire, soit une durée trop longue pour une application pratique dans les mines. Pour cette raison, l'objectif de ce projet est de développer une stratégie afin de minimiser le nombre de tirs LIBS requis sur un échantillon à analyser, tout en demeurant représentatif de ce dernier, et ainsi obtenir une mesure fiable et précise de la teneur en or. Pour ce faire, une analyse statistique descriptive combinée à plusieurs motifs élaborés à partir des 10000 points de mesure est appliquée sur les données LIBS. En se fixant un compromis entre le nombre de tirs à réaliser sur un échantillon (roche) et le temps d'analyse, le motif défini « Boucle » minimise le mieux le nombre de tirs avec un temps d'analyse acceptable par une opération minière. À partir de ce dernier, un protocole d'échantillonnage a été élaboré, où pour être représentatif des échantillons de carottes, 1500 tirs sont nécessaires tandis que pour les échantillons de roches, seuls 100 tirs suffisent. Cependant, il serait important de pouvoir tester ce protocole d'échantillonnage sur plusieurs échantillons miniers afin de pouvoir valider ce dernier. / In Quebec, 19 gold mines produce more than C (dollar) 1.8 billion of gold annually. In these mines, hundreds of rock samples are collected daily and sent to the laboratory to determine their gold concentrations. Since laboratory results are only available after 24 to 48 hours, there is a direct negative impact on mining activities. Technological advances in recent years suggest that Laser Induced Breakdown Spectroscopy (LIBS) may be a promising technology for real-time and in-situ measurement of the gold content of rock samples. Considering the size of each shot produced by the laser on a rock sample, namely 500 µm, many shots will be required in order to obtain a representative result of the sample analyzed. For example, for a 50 cm long core sample, and a surface analyzed between 70 and 80%, 10,000 laser shots were fired to ensure to obtain a result representative of the sample, with an acquisition time of half a day in the laboratory, which is a too long period of time for a practical application in mines. For this reason, the objective of this project is to minimize the number of LIBS shots required on a sample to be analyzed, while remaining representative of the latter, and thus obtain a reliable and accurate measurement of the gold content. For this, a descriptive statistical analysis combined with several elaborate patterns is applied to the 10,000 LIBS data obtained. By setting a compromise between the number of shots to be made on a sample and the analysis time, the Loop pattern minimizes the number of shots with an acceptable analysis time. From the latter, a sampling protocol has been developed, where to be representative of core samples, 1500 shots are needed whereas for rock samples, only 100 shots are needed. However, it would be important to be
|
Page generated in 0.0904 seconds