Spelling suggestions: "subject:"méthodes statistique""
31 |
Les anisotropies du fond diffus infrarouge : un nouvel outil pour sonder l'évolution des structuresPénin, Aurélie 26 September 2011 (has links) (PDF)
Le fond diffus infrarouge est la contribution de toutes les galaxies infrarouges intégrée sur toute l'histoire de l'Univers. Il émet entre 8 et 1000 µm et à un pic vers 200 µm. On résout une large fraction de ce fond dans l'infrarouge proche mais seule une petite fraction l'est dans l'infrarouge moyen et lointain à cause de la confusion. Les sources les plus faibles sont perdues dans le bruit de confusion. Cela forme des fluctuations de brillance, les anisotropies du fond diffus infrarouge. L'étude de ces fluctuations permet l'étude des galaxies sous le seuil de détection, donc des galaxies les plus faibles. Grâce au spectre de puissance on peut mesurer la puissance conte- nue dans ces fluctuations en fonction de l'échelle spatiale. Cette mesure contient, entre autre, le regroupement des galaxies infrarouges. Dans un premier temps, j'ai isolé du spectre de puissance d'une carte infrarouge, le spectre de puissance dû uniquement aux galaxies infrarouges. En effet, aux grandes échelles spatiales, il est contaminé par l'émission des cirrus Galactiques. Ces cirrus sont des nuages d'hydrogène neutre, tracés par la raie à 21 cm. J'ai donc utilisé des données à 21 cm pour estimer l'émission infrarouge de ces cirrus pour ensuite la soustraire aux cartes infrarouge à 100 et 160 µm. Cela m'a aussi permis de faire une mesure précise du niveau absolu du fond diffus infrarouge à ces longueurs d'onde. Afin d'analyser ces spectres de puissances, j'ai mis en place un modèle de regroupement des galaxies infrarouges reliant un modèle d'évolution des galaxies infrarouge reproduisant les données existantes dont celles d'Herschel et un modèle de halo. C'est un modèle complétement paramétré ce qui permet l'étude des dégénérescences de ces paramètres. J'en ai aussi tiré des mesures physiques et leur évolution avec la longueur d'onde. De plus, j'ai ajusté les données existantes de 100 à 1380 µm. Grâce au modèle on peut déterminer les contributions en redshift à chaque longueur d'onde. Les courtes longueurs d'onde tracent les bas redshifts alors que les grandes longueurs d'onde tracent les hauts redshifts. Cependant la contribution des bas redshifts est loin d'être négligeable à ces longueurs d'onde. Afin de déterminer l'évolution du regroupement avec le redshift des cartes des anisotropies du fond diffus infrarouge sont nécessaires. Je vais expliciter une méthode de séparation de composantes dédiée à cela.
|
32 |
Epidémiologie des traumatismes: quelles contributions des (méthodes) statistiques aux approches descriptive et analytique?Senterre, Christelle 28 November 2014 (has links)
L’épidémiologie de terrain peut être définie comme un ensemble de méthodes de collecte et de traitement de l’information combinant successivement les approches de l’épidémiologie descriptive mais aussi celles de l’épidémiologie analytique. La finalité de l’analyse descriptive sera de décrire et de quantifier la survenue du phénomène étudié dans une population donnée, permettant ainsi la formulation d’hypothèses préalables à la phase analytique. Phase, qui se focalisera sur les "associations" entre des "facteurs de risque" et la survenue du phénomène étudié. Dans la réponse aux questionnements posés ces deux phases les méthodes statistiques seront des outils incontournables. Afin que les résultats produits par ces analyses soient non seulement utiles mais aussi valables et utilisables, une bonne identification et une application adéquate des méthodes d’analyse s’avèreront primordiales. <p>A côté de ce constat méthodologique, il y a, dans le champ des traumatismes, tant en Belgique, qu’en pays en développement, la quasi absence d’informations pertinentes et rigoureuses pour documenter l’importance de cette problématique dans le champ de la santé. Pourtant, selon l’Organisation Mondiale de la Santé, plus de 5 millions de personnes décèdent des suites d’un traumatisme chaque année, avec 90% de ces décès survenant dans les pays à faible revenu ou à revenu intermédiaire. En Europe, les données montrent qu’une personne décède toutes les deux minutes des suites d’un traumatisme, et que pour chaque citoyen européen qui en meure, 25 personnes sont admises à l’hôpital, 145 sont traitées en ambulatoire et plus encore se font soigner ailleurs. <p> Au vu du double constat, qui est, d’une part, que les méthodes statistiques ne sont pas toujours exploitées correctement, et d’autre part, qu’il y a un manque d’informations appropriées et rigoureuses pour documenter l’ampleur du problème des traumatismes; ce travail de thèse poursuit l’objectif majeur, de montrer l’intérêt qu’il y a à appliquer de manière pertinente, adéquate et complète, des méthodes statistiques (univariées, multivariables et multivariées) adaptées aux différentes sources de données disponibles, afin de documenter l’importance des traumatismes, et des facteurs qui y sont associés, tant en pays industrialisés (exemple de la Belgique) qu’en pays en développement (exemple du Cameroun).<p>La partie classiquement appelée "résultats", correspond dans ce travail à deux chapitres distincts. Le premier fait la synthèse de ce qui a été objectivé par la revue de la littérature en termes de sources de données exploitées et de méthodes d’analyse statistique utilisées. Le second correspond à l’exploitation de quatre bases de données :une "généraliste et populationnelle" (First Health of Young People Survey - Cameroun), une "généraliste et hospitalière" (Résumé Hospitalier Minimum - Belgique), une "spécifique et populationnelle" (données issue de compagnies d’assurances belges), et une " spécifique et hospitalière" (Service SOS Enfants du CHU St Pierre - Belgique). <p>Les constats majeurs à l’issue de ce travail sont qu’il est possible de trouver dans le panel des méthodes statistiques "classiques", les méthodes nécessaires pour répondre aux questionnements de surveillance "en routine" en termes d’occurrence et de facteurs associés. L’accent devrait être mis sur une (meilleure) utilisation (justifiée, correcte et complète) de ces méthodes et sur une meilleure présentation (plus complète) des résultats. L’utilisation adéquate s’assurant d’une part, par une meilleure formation en méthodologie statistique pour les praticiens mais aussi par l’intégration, à part entière, des statisticiens dans les équipes de recherches. En ce qui concerne les sources de données utilisées, le potentiel d’information existe. Chaque source de données a ses avantages et ses inconvénients mais utilisées conjointement elles permettent d’avoir une vision plus globale du fardeau des traumatismes. L’accent devrait être mis sur l’amélioration de la disponibilité, la mise en commun mais aussi sur la qualité des données qui seraient disponibles. Dès lors, en vue de s’intégrer dans une dynamique de "Système de Surveillance des Traumatismes", une réflexion sur une utilisation globale (qu’elle soit couplée ou non) de ces différentes sources de données devrait être menée. <p>En Belgique, de nombreuses données, contenant de l’information sur les traumatismes, sont collectées en routine, au travers des données hospitalières, et ponctuellement, au travers de données d’enquêtes. Actuellement, ces données, dont la qualité reste discutable pour certaines, sont sous-utilisées dans le champ qui nous intéresse. Dans le futur, "plutôt que de ne rien savoir", il est important de continuer à exploiter l’existant pour produire et diffuser de l’information, mais cette exploitation et cette diffusion doivent s’accompagner non seulement de réflexion mais aussi d’action sur la qualité des données. En ce qui concerne l’utilisation des méthodes statistiques, nous préconisons une double approche :l’intégration et la formation. Par intégration, nous entendons le fait qu’il faut d’une part considérer le statisticien comme un professionnel ayant à la fois des compétences techniques pointues sur les méthodes, qui pourront être mises à disposition pour garantir le bon déroulement de la collecte et de l’analyse des données, mais aussi comme un chercheur capable de s’intéresser plus spécifiquement à des problématiques de santé publique, comme la problématique des traumatismes par exemple. Par formation, nous entendons le fait qu’il est essentiel d’augmenter et/ou de parfaire non seulement les connaissances des futurs professionnels de la santé (publique) en cours de formation mais aussi celles des praticiens déjà actifs sur le terrain et dès lors premiers acteurs de la collecte de l’information et de son utilisation dans une démarche de prise de décision, de détermination de priorité d’action et d’évaluation. <p>L’objectif majeur de ce travail de thèse était de montrer l’intérêt qu’il y a à appliquer de manière pertinente, adéquate et complète, des méthodes statistiques adaptées aux différentes sources de données disponibles, afin de documenter l’importance des traumatismes, et des facteurs qui y sont associés. En ayant discuté de l’existence de plusieurs sources potentielles de données en Belgique et en ayant appliqué une série de méthodes statistiques univariées, multivariables et multivariées, sur quelques-unes de celles-ci, nous avons montré qu’il était possible de documenter le fardeau des traumatismes au-travers de résultats utiles mais aussi valables et utilisables dans une approche de santé publique.<p> / Doctorat en Sciences de la santé publique / info:eu-repo/semantics/nonPublished
|
33 |
Deep exploratory regression modelling of survey data. With applications to electoral survey data of the 2014 elections in Belgium.Henry, Lionel 29 June 2020 (has links) (PDF)
This thesis contributes practical and conceptual tools for discovering and understanding the variation of quantitative patterns in social and political survey data. It uses regression modelling as an exploratory method with a focus on deep rather than wide model specifications, i.e. on interaction terms rather than control variables. Our main research question is how can we learn from survey data with an exploratory approach of regression modelling. We also seek to answer two more specific questions, what sort of quantitative variations should an exploratory approach seek to model, and how do we deal with statistical uncertainty within an exploratory approach. Our work shows how to use regression modelling for exploratory purposes by interpreting the results descriptively, and connecting these summaries to theory through an act of interpretation. Using data from the Partirep electoral survey of the 2014 elections in Belgium, we illustrate how the emphasis on group variations and interactions has both empirical and theoretical value. We propose to summarise the results of exploratory modelling in a notebook containing a series of increasingly disaggregated prediction graphs. These notebooks help researchers to increase their domain numeracy, i.e. develop a quantitative understanding of the patterns in the data. Regarding statistical uncertainty, we mitigate the risks of modelling sampling noise by using standard errors of binned averages as precision hints that serve as an indication of excessive disaggregation. We also lay out the path for regularising the estimates of the final results with Bayesian models by exploring methods of including the sampling weights in these models. / Doctorat en Sciences politiques et sociales / info:eu-repo/semantics/nonPublished
|
34 |
Applications et comparaison de méthodes statistiques pour prédire la croissance du pin gris sur le territoire québécoisJulien, Pierre-Olivier 13 April 2018 (has links)
La modélisation de la croissance des arbres en milieu naturel est un élément clé de la gestion des forêts. Les unités d’observations sont des placettes, soit une surface de forêt circulaire de 400 m2. L’abondance des arbres sur une placette est caractérisée par leur nombre, la hauteur dominante, la surface terrière et le volume de bois. La prévision de la croissance de ces variables est donc un sujet d’intérêt pour les ingénieurs forestiers. On retrouve dans la littérature diverses méthodes de prédiction, entre autres, celles basées sur des modèles économétriques ou, plus récemment, sur des modèles de régression linéaire mixte multivariée. Ce mémoire est un compte rendu théorique et pratique de ces méthodes statistiques. Celles-ci sont appliquées et comparées à partir d’un jeu de données provenant du réseau de placettes échantillons permanentes du Ministère des Ressources naturelles et de la Faune du Québec, l’espèce d’arbre utilisé étant le pin gris. / The establishment of model for growth of trees in a natural environment is a key element to the management of forests. The units of observations are plots, which is a circular 400 m2 area of forest. The abundance of the trees on a plot is characterized by their number, the dominant height, the basal area and the volume. Forecasting of the growth of these variables is thus a subject of interest for the foresters. One finds in the literature various methods of prediction, those based on econometric models or, more recently, on multivariate mixed linear models. This essay is a theoretical and practical report of these statistical methods. Those are applied and compared starting from a data file coming from the network of permanent plots samples from ”le Ministère des Ressources naturelles et de la Faune du Québec”. The species of tree used here is the Jack pine.
|
35 |
Contrôle de qualité des anodes de carbone à partir de méthodes statistiques multivariéesParis, Adéline 10 February 2024 (has links)
L’aluminium primaire est produit à partir du procédé électrolytique Hall-Héroult qui nécessite des anodes de carbone pour véhiculer le courant et fournir la source de carbone pour la réaction. La qualité des anodes influence les performances dans les cuves. Or, l’augmentation de la variabilité des matières premières rend la fabrication d’anodes de bonne qualité de plus en plus difficile. L’objectif de ce projet est d’améliorer le contrôle de qualité des anodes avant la cuisson à l’aide de mesures de résistivité électrique. À partir de méthodes statistiques multivariées, les mesures ont été utilisées dans deux optiques différentes : prédictive et explicative. L’optimum de brai qui est défini comme étant la quantité optimale de brai menant aux meilleures propriétés de l’anode pour un mélange d’agrégats donné change plus fréquemment avec l’accroissement de la variabilité de la matière première. Le dépassement de l’optimum peut engendrer des problèmes de collage lors de la cuisson. Un capteur virtuel conçu à partir d’un modèle d’analyse en composantes principales a permis de montrer qu’un bris dans la structure de corrélation mesuré par l’erreur de prédiction (SPE) semble se produire lorsque les anodes ont un risque de coller lors de la cuisson. Son application sur des données d’optimisation de brai a aussi été réalisée. Afin d’améliorer la compréhension des paramètres influençant la résistivité de l’anode, un modèle par projection des moindres carrés partiels en blocs séquentiels (SMB-PLS) a été développé. Il a permis d’expliquer 54 % des variations contenues dans les mesures de résistivité à partir des données opératoires, de matières premières et de formulation. Son interprétation a montré que la variabilité de la résistivité de l’anode verte est principalement causée par les matières premières utilisées et que les relations observées sont conformes avec la littérature et les connaissances du procédé. / Primary aluminum is produced through the Hall-Héroult process. Carbon anodes are used in this electrolytic process to provide the carbon source for the reaction and to distribute electrical current across the cells. Anode quality influences cell performance. However,increasing raw material variability has rendered the production of high-quality anodes more difficult. The objective of this project is to improve carbon anode quality control before baking by using anode electrical resistivity measurements. Multivariate statistical methods were applied to create two types of models: predictive and explanatory. For a given aggregate, the optimum pitch demand (OPD) is the amount of pitch that yields the best anode properties. High raw material variability causes the OPD to change more frequently, which makes it difficult to add the correct amount of pitch. This can lead to post-baking sticking problems when the optimum is exceeded. A soft sensor was developed based on a principal component analysis (PCA). The integrity of the correlation structure,as measured by the Squared Prediction Error (SPE), appears to break down during high-risk periods for anode sticking. The soft sensor was also tested on data collected during pitch optimization experiments.A sequential multi-block PLS model (SMB-PLS) was developed to determine which parameters influence anode resistivity. Raw material properties, anode formulation and process parameters collectively explain 54 % of the variability in the anode resistivity measurements.The model shows that coke and pitch properties have the greatest impact on green anode electrical resistivity. In addition, the main relationships between process variables implied by the model agree with the relevant literature and process knowledge.
|
36 |
Sévérité des sanctions et récidive criminelle : identification au moyen d'une reforme canadienneRaymond, Nicolas 13 December 2023 (has links)
Dans ce mémoire, nous étudions l'impact du projet de loi C-10 (« Tough on Crime ») implanté par le gouvernement fédéral conservateur en 2012 sur le risque de récidive instantané de la population carcérale. Nous cherchons à déterminer si des peines plus sévères allongent ou réduisent le temps entre deux condamnations. À cet effet, ce mémoire met en œuvre un modèle de durée à risques proportionnels de type Cox. Les variables d'intérêt tiennent compte des caractéristiques individuelles des détenus, mais aussi de certaines conditions économiques et démographiques. Ainsi, par le biais de données fournies par le ministère de la Sécurité publique, nous construisons une base de données qui nous permet de prendre en compte pour l'âge de l'individu, son sexe, s'il est autochtone ou non, son score LS/CMI, le nombre de personnes à sa charge, le type de crime commis et son état civil, en plus du taux de chômage et du rapport des sexes dans la région de sa libération, au moment de celle-ci. Nous trouvons que la période qui suit la mise en place des politiques « Tough on Crime » est caractérisée par un taux de risque inférieur pour tous les groupes à l'étude. Cette diminution du taux de risque se traduit par une augmentation de l'espérance de la période de survie entre deux condamnations de 298 jours pour les hommes, de 243 jours pour les femmes et de 264 jours pour les autochtones. L'effet est plus faible pour les individus n'ayant pas reçu de peine de plus de six mois, mais est toujours positif, soit une hausse de 42, 40 et 114 jours pour les hommes, les femmes et les autochtones respectivement. L'augmentation de la sévérité des sanctions aura donc allongé le temps entre deux récidives dans le contexte québécois.
|
37 |
Quality control of complex polymer materials using hyperspectral imaging associated with multivariate statistical analysisGhasemzadeh-Barvarz, Massoud 23 April 2018 (has links)
Dans la première étape de ce travail, des composites formulés à partir d'anhydride maléique greffé polyéthylène (MAPE) et de différentes charges de fibres de chanvre (entre 0 et 60%) ont été produits et analysés par imagerie NIR. Trois méthodes chimiométriques ont été utilisées puis comparées pour la prédiction des propriétés mécaniques, cartographier la distribution des constituants et détecter les défauts physiques des matériaux: la calibration multivariée traditionnelle basée sur la régression PLS, la résolution multivariée de courbes (MCR) et l’analyse d’images et la régression sur les images multivariées (MIA/MIR). Dans la deuxième partie de ce projet, une série de films multicouches complexes (échantillons industriels) ont été étudiés par imagerie NIR combinée à l’analyse d’images multivariée. Le potentiel et l'efficacité de la méthode proposée pour détecter les défauts causés par la (les) couche(s) manquant(es) ont été étudiés pour des films non imprimés et imprimés. Dans la dernière partie, les composites hybrides polypropylène (PP) / fibre de verre / fibre de lin ont été étudiés. L'effet de la teneur en fibres (0 à 40% en volume) et de la composition sur les propriétés mécaniques ont été investigués, ainsi que l’effet de l’exposition à l’eau et la dégradation thermique et aux rayons UV (vieillissement accéléré des matériaux). Les images de microscopie électronique à balayage (MEB) des composites non vieillis ont été analysées en combinant des méthodes d’analyse de texture et des méthodes multivariées. Enfin, l'imagerie NIR a été mise en œuvre sur des composites non vieillis et vieillis afin de prédire leurs propriétés finales ainsi que pour modéliser les variations de composition chimique et celles dues au vieillissement accéléré. En résumé, les résultats montrent que la combinaison de l'imagerie hyperspectrale et des méthodes statistiques multivariées est un outil puissant pour le contrôle de la qualité des composites polymères complexes. De plus, la méthode proposée est rapide et non destructive, elle peut être mise en œuvre en ligne, pour le contrôle de la qualité des matériaux composites. D'autre part, il a été démontré que l'analyse de la texture des images peut être appliquée à la quantification de la dispersion et du degré d’homogénéité de la distribution des charges dans des matériaux composites. / In the first step of this work, maleic anhydride grafted polyethylene (MAPE)/hemp fiber composites with different filler concentration between 0 to 60% were analyzed by NIR imaging. Three chemometrics methods including Partial Least Squares (PLS), Multivariate Curve Resolution (MCR) and Multivariate Image Analysis/Multivariate Image Regression (MIA/MIR) were implemented and compared for predicting mechanical properties as well as mapping chemical compositions and material physical variations. In the second part of this project, a series of complex multilayer films (industrial samples) were investigated using NIR hyperspectral imaging and Multivariate Image Analysis (MIA). The potential and effectiveness of the proposed method for detecting defects caused by missing layer(s) were studied for unprinted and printed films. In the final part, polypropylene (PP)/glass/flax hybrid composites were studied. The effect of composition (fiber content between 0 and 40 vol%), as well as water, thermal and UV aging on mechanical properties was investigated. Then, Scanning Electron Microscopy (SEM) images of unaged hybrid composites were analyzed using texture analysis and multivariate methods. Finally, NIR imaging was implemented on unaged and aged composites to predict their final properties as well as to capture chemical composition and aging variations. In summary, the results show that combining hyperspectral imaging and multivariate statistical methods is a powerful tool for quality control of complex polymer composites. Since the proposed method is rapid and nondestructive, one can implement it for on-line quality control of finished plastic products. On the other hand, texture analysis and multivariate methods can be applied for quantifying the mixing aspects of composites.
|
38 |
Un test pour la bonne spécification d'un modèle structurel marginalSall, Alioune 11 January 2025 (has links)
Estimer l’effet d’une exposition variant dans le temps à l’aide de modèles de régression ordinaires peut entraîner un biais si des variables confondantes variant dans le temps sont un effet des expositions passées. Les modèles structurels marginaux (MSMs) sont une solution à ce problème qui est de plus en plus utilisée, notamment dans les études en santé. L’une des hypothèses principales des MSMs est que la relation entre l’issue et les expositions antérieures est bien spécifiée. Ainsi, nous avons développé un test statistique de cette hypothèse. Différentes pondérations peuvent être utilisées pour estimer les paramètres du MSM et celles-ci devraient produire des estimations similaires lorsque le modèle est correctement spécifié. Un test statistique vérifiant si les différences observées sont au-delà de celles attendues permet donc de tester que le modèle est correct. La performance du test est étudiée à l’aide d’une étude de simulations sur des données synthétiques, où différentes véritables relations entre les expositions et l’issue, ainsi que différentes tailles d’échantillons étaient considérées. L’étude de simulation démontre une bonne performance du test : les taux de rejet de modèles corrects sont faibles alors que ceux de modèles incorrects sont généralement élevés, surtout pour des tailles d’échantillons élevées. Cependant, il existe des situations où le test est incapable de détecter des erreurs de spécification. Le test est appliqué pour étudier l’effet d’une exposition répétée au stress au travail sur une période de 5 ans sur la pression artérielle ambulatoire dans une cohorte de 1576 travailleurs cols-blancs. / Estimating the effect of a time-varying exposure using ordinary regression models may lead to bias if time-varying confounding variables are an effect of past exposures. Marginal structural models (MSMs) are a solution to this problem that is increasingly used, especially in health studies. One of the main assumptions of MSMs is that the relationship between outcome and past exposures is well specified. Thus, we developed a statistical test of this hypothesis. Different weights can be used to estimate MSM parameters and these should produce similar estimates when the model is correctly specified. A statistical test verifying if the differences observed are beyond those expected makes it possible to test that the model is correct. The performance of the test is investigated using a synthetic data simulation study, where different true relationships between exposures and outcome, as well as different sample sizes were considered. The simulation study demonstrates good test performance: rejection rates for correct models are low, while rejection rates for incorrect models are generally high, especially for large sample sizes. However, there are situations where the test is unable to detect specification errors. The test is applied to study the effect of repeated psychosocial work stressor exposure over a 5-year period on ambulatory blood pressure in a cohort of 1576 white-collar workers.
|
39 |
Développement d'un modèle statistique non stationnaire et régional pour les précipitations extrêmes simulées par un modèle numérique de climatJalbert, Jonathan 19 July 2024 (has links)
Les inondations constituent le risque naturel prédominant dans le monde et les dégâts qu’elles causent sont les plus importants parmi les catastrophes naturelles. Un des principaux facteurs expliquant les inondations sont les précipitations extrêmes. En raison des changements climatiques, l’occurrence et l’intensité de ces dernières risquent fort probablement de s’accroître. Par conséquent, le risque d’inondation pourrait vraisemblablement s’intensifier. Les impacts de l’évolution des précipitations extrêmes sont désormais un enjeu important pour la sécurité du public et pour la pérennité des infrastructures. Les stratégies de gestion du risque d’inondation dans le climat futur sont essentiellement basées sur les simulations provenant des modèles numériques de climat. Un modèle numérique de climat procure notamment une série chronologique des précipitations pour chacun des points de grille composant son domaine spatial de simulation. Les séries chronologiques simulées peuvent être journalières ou infrajournalières et elles s’étendent sur toute la période de simulation, typiquement entre 1961 et 2100. La continuité spatiale des processus physiques simulés induit une cohérence spatiale parmi les séries chronologiques. Autrement dit, les séries chronologiques provenant de points de grille avoisinants partagent souvent des caractéristiques semblables. De façon générale, la théorie des valeurs extrêmes est appliquée à ces séries chronologiques simulées pour estimer les quantiles correspondants à un certain niveau de risque. La plupart du temps, la variance d’estimation est considérable en raison du nombre limité de précipitations extrêmes disponibles et celle-ci peut jouer un rôle déterminant dans l’élaboration des stratégies de gestion du risque. Par conséquent, un modèle statistique permettant d’estimer de façon précise les quantiles de précipitations extrêmes simulées par un modèle numérique de climat a été développé dans cette thèse. Le modèle développé est spécialement adapté aux données générées par un modèle de climat. En particulier, il exploite l’information contenue dans les séries journalières continues pour améliorer l’estimation des quantiles non stationnaires et ce, sans effectuer d’hypothèse contraignante sur la nature de la non-stationnarité. Le modèle exploite également l’information contenue dans la cohérence spatiale des précipitations extrêmes. Celle-ci est modélisée par un modèle hiérarchique bayésien où les lois a priori des paramètres sont des processus spatiaux, en l’occurrence des champs de Markov gaussiens. L’application du modèle développé à une simulation générée par le Modèle régional canadien du climat a permis de réduire considérablement la variance d’estimation des quantiles en Amérique du Nord.
|
40 |
Génération de données synthétiques pour des variables continues : étude de différentes méthodes utilisant les copulesDesbois-Bédard, Laurence 19 June 2024 (has links)
L’intérêt des agences statistiques à permettre l’accès aux microdonnées d’enquête est grandissant. À cette fin, plusieurs méthodes permettant de publier les microdonnées tout en protégeant la confidentialité des répondants ont été proposées ; ce mémoire se penche sur l’une d’entre-elles : la génération de données synthétiques. Deux approches sont présentées, GADP et C-GADP, et une nouvelle est proposée. La méthode GADP suppose que les variables des données originales et synthétiques sont de loi normale, alors que la méthode C-GADP suppose qu’elles sont jointes par une copule normale. La nouvelle méthode est basée sur les modèles de copules en vigne. Ces modèles sont employés dans l’espoir de mieux modéliser les liens entre les variables. Les trois approches sont évaluées selon les concepts d’utilité et de risque. L’utilité de données confidentielles s’apprécie selon la similitude qu’elles ont avec les données originales et le risque, par la possibilité d’une violation de la confidentialité des répondants. Le risque peut survenir par identification ou par inférence. Seul le risque d’inférence est possible dans le cadre de ce mémoire. Précisément, l’utilité est évaluée avec quelques mesures faites à partir d’analyses spécifiques et une mesure globale basée sur les scores de propension calculés avec une régression logistique. Quant au risque, il est évalué avec une prévision basée sur la distance. / Statistical agencies face a growing demand for releasing microdata to the public. To this end, many techniques have been proposed for publishing microdata while providing confidentiality : synthetic data generation in particular. This thesis focuses on such technique by presenting two existing methods, GAPD and C-GADP, as well as suggesting one based on vine copula models. GADP assumes that the variables of original and synthetic data are normally distributed, while C-GADP assumes that they have a normal copula distribution. Vine copula models are proposed due to their flexibility. These three methods are then assessed according to utility and risk. Data utility depends on maintaining certain similarities between the original and confidential data, while risk can be observed in two types : reidentification and inference. This work will focus on the utility examined with different analysis-specific measures, a global measure based on propensity scores and the risk of inference evaluated with a distance-based prediction.
|
Page generated in 0.1411 seconds