Global ETD Search

1	Contribution to the statistical analysis of compositional data with an application to political economy / Contribuation à l'analyse statistique de données de composition avec une application à l'économie politique Nguyen, Thi Huong An 14 October 2019 (has links) L’objectif de cette thèse est d’étudier le résultat d’élections et l’impact des facteurs socio-économiques sur les parts de vote dans le système multipartite d’un point de vue mathématique. Les votes de l’élection départementale en France en 2015 forment un vecteur appelé composition. Ainsi, le modèle de régression classique ne peut pas être utilisé directement pour modéliser ces parts de vote en raison de contraintes de données de composition. Au chapitre 2, nous présentons un modèle de régression dans lequel la variable dépendante est une variable de composition et les variables explicatives contiennent à la fois des variables classiques et des variables de composition. Nous analysons les impacts des facteurs socio-économiques sur l’issue de l’élection en prédisant les parts de vote en fonction d’une variable explicative classique ou d’une variable explicative de composition. Quelques techniques graphiques sont également présentées. Néanmoins, il serait plus judicieux d’interpréter les coefficients du modèle de régression sur le simplexe. Par ailleurs, certains auteurs montrent que les données électorales présentent souvent un comportement extrême. Nous proposons donc de remplacer la distribution Normale par la distribution de Student. Cependant, il existe deux versions de la distribution Student : la distribution Student non corrélée (UT) et la distribution Independent Student(IT). Dans la troisième partie, nous présentons un résumé complet de la distribution Student, comprenant les distributions Student univariée et multivariée, IT et UT à degrés de liberté fixes. Nous prouvons que l’estimateur de maximum de vraisemblance de la matrice de covariance dans le modèle UT est asymptotiquement biaisé. Nous fournissons également un algorithme itératif repondéré pour calculer l’estimateur du maximum de vraisemblance du paramètre du modèle IT. Une simulation est fournie et certains tests de Kolmogorov – Smirnov basés sur la distance de Mahalanobis sont effectués pour sélectionner le bon modèle. Cependant, cela ne fonctionne pas pour le modèle UT en raison d’une seule réalisation de n observations de la distribution multivariée. Enfin, nous étudions l’hypothèse d’indépendance statistique entre unités territoriales, qui peut être mise en doute du fait de l’autocorrélation spatiale potentielle des données de composition. Nous développons un modèle autorégressif spatial simultané pour les données de composition qui permet à la fois la corrélation spatiale et les corrélations entre équations en utilisant des méthodes de moindres carrés à deux étages et à trois étages. Nous présentons une étude de simulation pour illustrer ces méthodes. Une application à un ensemble de données de l’élection départementale française de 2015 est également présentée. Il reste encore du travail à faire pour surmonter le problème des zéros dans les parts de vote. Ce problème est déjà présent pour les élections départementales françaises au niveau cantonal lorsque l’on regroupe les partis électoraux en trois catégories. Cela aurait été encore plus grave si l’on considérait les partis politiques d’origine sans agrégation. En outre, une autre direction consiste à examiner la distribution multivariée de Student pour le modèle spatial. / The objective of this thesis is to investigate the outcome of an election and the impacts of the socio-economics factors on the vote shares in the multiparty system from mathematical point of view. The vote shares of the departmental election in France in 2015 form a vector called composition. Thus, the classical regression model cannot be used directly to model these vote shares because of contraints of compositional data. In Chapter 2, we present a regression model in which the dependent variable is a compositional variable and the set of explanatory variables contains both classical variables and compositional variables. We analyze the impacts of socio-economic factors on the outcome of the election through predicting the vote shares according to either a classical explanatory variable or a compositional explanatory variable. Some graphical techniques are also presented. However, it would be more appreciated to interpret the coefficients of regression model on the simplex. Furthermore, some authors show that electoral data often exhibit heavy tail behavior. Thus, we propose to replace the Normal distribution by the Student distribution. However, there are two versions of the Student distribution: the uncorrelated Student(UT) distribution and the independent Student (IT) distribution. In Chapter 3, we present a complete summary for the Student distributions which includes the univariate and multivariate Student, the IT and the UT distribution with fixed degrees of freedom. We prove that the maximum likelihood estimator of the covariance matrix in the UTmodel is asymptotically biased. We also provide an iterative reweighted algorithm to compute the maximum likelihood estimator of parameter of the IT model. A simulation is provided and some Kolmogorov–Smirnov tests based on the Mahalanobis distance are carried out to select the right model. However, this does not work for the UT model because of a single realization of n observation of the multivariate distribution. In Chapter 4, we apply the multivariate Student (IT) regression model to our political economy data. We then compare this model to the multivariate Normal regression model. We also apply the Kolmogorov–Smirnov tests based on the Mahalanobis distance which is proposed in chapter 3 to select a better model. Finally, we investigate the assumption of statistical independence across territorial units which may be questionable due to potential spatial autocorrelation for compositional data. We develop a simultaneous spatial autoregressive model for compositional data which allows for both spatial correlation and correlations across equations by using two-stage and three-stage least squares methods. We present a simulation study to illustrate these methods. An application to a data set from the 2015 French departmental election are also showed. There is still work to continue in the direction of overcoming the problem of zeros in vote shares. This problem is already present for the departmental French elections at the canton level when aggregating the electoral parties in three categories. It would have been even more serious when considering the original political parties with no aggregation. Besides, another direction consists in considering the multivariate Student distribution for a spatial model. Résultat d'élections Modèle de régression Distribution de Student
2	Méthodes probabilistes pour l'évaluation de risques en production industrielle / Probabilistic methodes for risks evaluation in industrial production Oger, Julie 16 April 2014 (has links) Dans un contexte industriel compétitif, une prévision fiable du rendement est une information primordiale pour déterminer avec précision les coûts de production et donc assurer la rentabilité d'un projet. La quantification des risques en amont du démarrage d'un processus de fabrication permet des prises de décision efficaces. Durant la phase de conception d'un produit, les efforts de développement peuvent être alors identifiés et ordonnés par priorité. Afin de mesurer l'impact des fluctuations des procédés industriels sur les performances d'un produit donné, la construction de la probabilité du risque défaillance est développée dans cette thèse. La relation complexe entre le processus de fabrication et le produit conçu (non linéaire, caractéristiques multi-modales...) est assurée par une méthode de régression bayésienne. Un champ aléatoire représente ainsi, pour chaque configuration du produit, l'information disponible concernant la probabilité de défaillance. Après une présentation du modèle gaussien, nous décrivons un raisonnement bayésien évitant le choix a priori des paramètres de position et d'échelle. Dans notre modèle, le mélange gaussien a priori, conditionné par des données mesurées (ou calculées), conduit à un posterior caractérisé par une distribution de Student multivariée. La nature probabiliste du modèle est alors exploitée pour construire une probabilité de risque de défaillance, définie comme une variable aléatoire. Pour ce faire, notre approche consiste à considérer comme aléatoire toutes les données inconnues, inaccessibles ou fluctuantes. Afin de propager les incertitudes, une approche basée sur les ensembles flous fournit un cadre approprié pour la mise en œuvre d'un modèle bayésien imitant le raisonnement d'expert. L'idée sous-jacente est d'ajouter un minimum d'information a priori dans le modèle du risque de défaillance. Notre méthodologie a été mise en œuvre dans un logiciel nommé GoNoGo. La pertinence de cette approche est illustrée par des exemples théoriques ainsi que sur un exemple réel provenant de la société STMicroelectronics. / In competitive industries, a reliable yield forecasting is a prime factor to accurately determine the production costs and therefore ensure profitability. Indeed, quantifying the risks long before the effective manufacturing process enables fact-based decision-making. From the development stage, improvement efforts can be early identified and prioritized. In order to measure the impact of industrial process fluctuations on the product performances, the construction of a failure risk probability estimator is developed in this thesis. The complex relationship between the process technology and the product design (non linearities, multi-modal features...) is handled via random process regression. A random field encodes, for each product configuration, the available information regarding the risk of non-compliance. After a presentation of the Gaussian model approach, we describe a Bayesian reasoning avoiding a priori choices of location and scale parameters. The Gaussian mixture prior, conditioned by measured (or calculated) data, yields a posterior characterized by a multivariate Student distribution. The probabilistic nature of the model is then operated to derive a failure risk probability, defined as a random variable. To do this, our approach is to consider as random all unknown, inaccessible or fluctuating data. In order to propagate uncertainties, a fuzzy set approach provides an appropriate framework for the implementation of a Bayesian model mimicking expert elicitation. The underlying leitmotiv is to insert minimal a priori information in the failure risk model. Our reasoning has been implemented in a software called GoNoGo. The relevancy of this concept is illustrated with theoretical examples and on real-data example coming from the company STMicroelectronics. Krigeage Inférence bayésienne Mélange de processus gaussiens Distribution de Student multivariée Analyse d'incertitude Évaluation de rendement industriel Kriging Bayesian inference Gaussian processes mixture prior Multivariate t-distribution Uncertainty analysis Manufacturing yield evaluation
3	Méthodes probabilistes pour l'évaluation de risques en production industrielle. Oger, Julie 16 April 2014 (has links) (PDF) Dans un contexte industriel compétitif, une prévision fiable du rendement est une information primordiale pour déterminer avec précision les coûts de production et donc assurer la rentabilité d'un projet. La quantification des risques en amont du démarrage d'un processus de fabrication permet des prises de décision efficaces. Durant la phase de conception d'un produit, les efforts de développement peuvent être alors identifiés et ordonnés par priorité. Afin de mesurer l'impact des fluctuations des procédés industriels sur les performances d'un produit donné, la construction de la probabilité du risque défaillance est développée dans cette thèse. La relation complexe entre le processus de fabrication et le produit conçu (non linéaire, caractéristiques multi-modales...) est assurée par une méthode de régression bayésienne. Un champ aléatoire représente ainsi, pour chaque configuration du produit, l'information disponible concernant la probabilité de défaillance. Après une présentation du modèle gaussien, nous décrivons un raisonnement bayésien évitant le choix a priori des paramètres de position et d'échelle. Dans notre modèle, le mélange gaussien a priori, conditionné par des données mesurées (ou calculées), conduit à un posterior caractérisé par une distribution de Student multivariée. La nature probabiliste du modèle est alors exploitée pour construire une probabilité de risque de défaillance, définie comme une variable aléatoire. Pour ce faire, notre approche consiste à considérer comme aléatoire toutes les données inconnues, inaccessibles ou fluctuantes. Afin de propager les incertitudes, une approche basée sur les ensembles flous fournit un cadre approprié pour la mise en oeuvre d'un modèle bayésien imitant le raisonnement d'expert. L'idée sous-jacente est d'ajouter un minimum d'information a priori dans le modèle du risque de défaillance. Notre méthodologie a été mise en oeuvre dans un logiciel nommé GoNoGo. La pertinence de cette approche est illustrée par des exemples théoriques ainsi que sur un exemple réel provenant de la société STMicroelectronics. [MATH:MATH_PR] Mathematics/Probability [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Krigeage inférence bayésienne mélange de processus gaussiens distribution de Student multivariée analyse d'incertitude évaluation de rendement industriel

1

Page generated in 0.1472 seconds