Global ETD Search

1	Bayesian adaptive variable selection in linear models : a generalization of Zellner's informative g-prior Ndiaye, Djibril 14 May 2022 (has links) Bayesian inference is about recovering the full conditional posterior distribution of the parameters of a statistical model. This exercise, however, can be challenging to undertake if the model specification is not available a priori, as is typically the case. This thesis proposes a new framework to select the subset of regressors that are the relevant features that explain a target variable in linear regression models. We generalize Zellner's g-prior with a random matrix, and we present a likelihood-based search algorithm, which uses Bayesian tools to compute the posterior distribution of the model parameters over all possible models generated, based on the maximum a posteriori (MAP). We use Markov chain Monte Carlo (MCMC) methods to gather samples of the model parameters and specify all distributions underlying these model parameters. We then use these simulations to derive a posterior distribution for the model parameters by introducing a new parameter that allows us to control how the selection of variables is done. Using simulated datasets, we show that our algorithm yields a higher frequency of choosing the correct variables and has a higher predictive power relative to other widely used variable selection models such as adaptive Lasso, Bayesian adaptive Lasso, and relative to well-known machine learning algorithms. Taken together, this framework and its promising performance under various model environments highlight that simulation tools and Bayesian inference methods can be efficiently combined to deal with well-known problems that have long loomed the variable selection literature. / L'inférence bayésienne consiste à retrouver la distribution conditionnelle a posteriori complète des paramètres d'un modèle statistique. Cet exercice, cependant, peut être difficile à entreprendre si la spécification du modèle n'est pas disponible a priori, comme c'est généralement le cas. Cette thèse propose une nouvelle approche pour sélectionner le sous-ensemble de régresseurs qui sont les caractéristiques pertinentes qui expliquent une variable cible dans les modèles de régression linéaire. Nous généralisons le g-prior de Zellner avec une matrice aléatoire et nous présentons un algorithme de recherche basé sur la vraisemblance, qui utilise des outils bayésiens pour calculer la distribution a posteriori des paramètres du modèle sur tous les modèles possibles générés. La sélection du modèle se fera sur la base du maximum a posteriori (MAP). Nous utilisons les méthodes de Monte Carlo par chaînes de Markov pour échantillonner suivant les distributions a posteriori de ces paramètres du modèle. Nous utilisons ensuite ces simulations pour dériver une estimation a posteriori des paramètres du modèle en introduisant un autre paramètre qui nous permet de contrôler la manière dont la sélection de la variable est effectuée. À l'aide de données simulées, nous montrons que notre méthode donne une fréquence plus élevée de choix des variables importantes et a un pouvoir prédictif plus élevé par rapport à d'autres modèles de sélection de variables largement utilisés tels que le Lasso adaptatif, le Lasso adaptatif bayésien, et par rapport aux algorithmes d'apprentissage automatique bien connus. Pris ensemble, cette approche et ses performances prometteuses dans divers scénarios de données mettent en évidence le fait que les outils de simulation et les techniques d'inférence bayésienne puissent être efficacement combinés pour traiter des problèmes bien connus qui ont longtemps pesé sur la littérature de la sélection de variables (en particulier en grande dimension). Théorème de Bayes. Modèles linéaires (Statistique)
2	Ingénierie de la représentation des variables pour la classification binaire à partir des données déséquilibrées Ajakan, Nora 20 April 2022 (has links) De nombreuses applications de classification binaire, telles que la prédiction de fraude et la prédiction de rétention, impliquent des ensembles de données déséquilibrées. Bien que les méthodes d'ensemble soient les mieux adaptées à ces contraintes, les règles de décision produites sont difficiles à interpréter en tant que groupe en raison de leur nombre et de leurs redondances sous-jacentes. Il est donc intéressant de simplifier les méthodes d'ensemble apprises en un petit ensemble équivalent de conditions sans sacrifier la performance à la simplicité. En interprétant simplement un arbre de décision comme un empilement de fonctions indicatrices binaires et un modèle linéaire, nous proposons une méthode qui apprend le sous-ensemble efficace d'indicateurs qui relie les données à un espace de représentation de faible dimension où elles deviennent linéairement séparables. Ces fonctions binaires permettent à un large éventail d'algorithmes d'apprentissage automatique simples d'être efficaces et sont également plus faciles à analyser, à étudier ou à valider par les experts du domaine que les branches initiales de l'arbre dans l'ensemble appris. / Many binary classification applications, such as churn prediction and fraud detection, involve unbalanced large datasets. While ensemble trees are the most suited algorithms given these constraints, the decision rules produced are hard to interpret as a group due to their number and their underlying redundancies. It is then of interest to simplify the learned ensemble trees into a small equivalent set of conditions without trading performance for simplicity. By simply interpreting a decision tree as a stack of binary indicator functions and a linear model, we propose a method that learns the effective subset of indicators that map the data to a low dimension feature space where it becomes linearly separable. These binary functions enable a wide range of simple machine learning algorithms to be efficient and are also easier to analyze, investigate or validate by domain experts than the initial tree branches in the learned ensemble. Arbres de décision. Système binaire (Mathématiques) Classification. Modèles linéaires (Statistique)
3	Modélisation de réclamations en assurance générale avec gradient boosting et dépendance Power, Justine 20 December 2021 (has links) En assurance générale, la prévision des réclamations est d'une importance capitale. Une modélisation précise des pertes futures permet aux assureurs d'offrir des prix compétitifs, de cibler les assurés les plus profitables et de conserver leur solidité financière. Le domaine de l'assurance étant en constante évolution, les actuaires doivent trouver des moyens de raffiner leurs modèles prédictifs. Dans ce mémoire, on propose un modèle hiérarchique qui améliore les modèles classiques sur deux aspects. D'abord, on considère la dépendance entre les occurrences de paiements sous différentes couvertures avec une distribution multinomiale, et entre les montants payés à l'aide de copules. Ensuite, on choisit XGBoost, une implémentation populaire du gradient boosting, pour effectuer des prévisions avec des variables explicatives, alors que la plupart des modèles actuariels utilisent les modèles linéaires généralisés. La méthode est illustrée sur un jeu de données de réclamations en assurance auto fourni par une grande compagnie d'assurance canadienne. Le nombre important d'observations et de variables explicatives justifient l'utilisation de XGBoost, qui est particulièrement efficace avec de gros jeux de données. La structure des données motive divers aspects du modèle lui procurant une flexibilité, notamment en permettant à la combinaison de couvertures payées pour une même réclamation d'influencer les relations de dépendance. Pour l'inférence sur les copules, on utilise les méthodes basées sur les rangs. Puisque la validité des estimateurs basés sur les rangs de résidus de XGBoost n'a pas été montrée dans la littérature, on étudie leur performance par simulation. On applique notre modèle sur des données test et en comparant les résultats avec ceux d'un modèle supposant l'indépendance, on remarque que notre modèle permet d'obtenir une meilleure segmentation des assurés, en plus de répliquer de manière plus adéquate la stochasticité globale des données. / In general insurance, predicting future claims is of prime importance. A precise claim modeling allows insurers to offer the best prices possible, to target the most profitable policies and to remain financially sound. As insurance evolves constantly, one of the main challenges for actuaries is to find ways to refine their models. The goal of this thesis is to propose a hierarchical claim model that improves classical methods on two levels. First, we consider dependence between occurrences of payment for different coverages with a multinomial distribution, and between paid amounts using copulas. Second, to perform prediction with covariates, we choose XGBoost, a popular implementation of gradient boosting, while most of the actuarial models in the literature use generalized linear models. We fit our model on an auto insurance dataset from a Canadian insurer. The use of XGBoost, that is particularly well suited for large datasets, is justified by the large number of observations and covariates available. The structure of our data motivates several components of our model that add flexibility, by allowing the combination of coverages paid on a claim to have an effect on the dependence relationships. We use rank-based methods for copula inference since they offer many benefits. The validity of the methods based on ranks of gradient boosting residuals has not been demonstrated, so we assess this with simulations. We show some applications of our model and compare it with an independence model. Results suggest that with the added dependence components of our model, we achieve a better segmentation of the insureds portfolio and replicate the global stochasticity of the data more accurately. Dépendance (Statistique) Modèles linéaires (Statistique)
4	Sélection de copules archimédiennes dans un modèle semi-paramétrique Khadraoui, Lobna 05 July 2018 (has links) Ce travail considère un modèle linéaire semi-paramétrique dont les erreurs sont modélisées par une copule choisie parmi la famille archimédienne ou bien la copule normale. La modélisation des erreurs par une copule apporte une ﬂexibilité et permet de caractériser la structure de dépendance d’une manière simple et eﬃcace. La simplicité réside dans le fait qu’un seul paramètre α contrôle le degré de dépendance présent dans les données. L’eﬃcacité réside dans le fait que ce modèle semi-paramétrique permet de lever des hypothèses standards souvent rencontrées en statistique appliquée à savoir la normalité et l’indépendance. Après une mise en œuvre du modèle basée sur une copule nous avons proposé une étude théorique du comportement asymptotique de l’estimateur du paramètre de dépendance α en montrant sa convergence et sa normalité asymptotique sous des hypothèses classiques de régularité. L’estimation des paramètres du modèle a été réalisée en maximisant une pseudo-vraisemblance. La sélection de la meilleure copule pour un jeu de données a été faite à l’aide du critère d’Akaike. Une comparaison avec le critère de la validation croisée a été proposée également. Enﬁn, une étude numérique sur des jeux de données simulés et réels a été proposée dans la sélection. / This work considers a semi-parametric linear model with error terms modeled by a copula chosen from the Archimedean family or the normal copula. The modeling of errors by a copula provides ﬂexibility and makes it possible to characterize the dependency structure in a simple and eﬀective manner. The simplicity lies in the fact that a single parameter α controls the degree of dependency present in the data. The eﬃciency is in the fact that this semi-parametric model weakens standard assumptions often encountered in applied statistics namely normality and independence. After an implementation of the model based on a copula we proposed a theoretical study on the asymptotic behavior of the estimator of the dependence parameter α by showing its consistency and its asymptotic normality under classical assumptions of regularity. Estimation of the model parameters is performed by maximizing a pseudo-likelihood. The selection of the best copula that ﬁts the data for each case is based on the Akaike selection criterion. A comparison with the criterion of cross-validation is presented as well. Finally, a numerical study on simulated and real data sets is proposed. QA 3.5 UL 2018 Copules (Statistique mathématique) Modèles linéaires (Statistique) Développements asymptotiques
5	Sequential detection and isolation of cyber-physical attacks on SCADA systems / Détection et localisation séquentielle d’attaques cyber-physiques aux systèmes SCADA Do, Van Long 17 November 2015 (has links) Cette thèse s’inscrit dans le cadre du projet « SCALA » financé par l’ANR à travers le programme ANR-11-SECU-0005. Son objectif consiste à surveiller des systèmes de contrôle et d’acquisition de données (SCADA) contre des attaques cyber-physiques. Il s'agit de résoudre un problème de détection-localisation séquentielle de signaux transitoires dans des systèmes stochastiques et dynamiques en présence d'états inconnus et de bruits aléatoires. La solution proposée s'appuie sur une approche par redondance analytique composée de deux étapes : la génération de résidus, puis leur évaluation. Les résidus sont générés de deux façons distinctes, avec le filtre de Kalman ou par projection sur l’espace de parité. Ils sont ensuite évalués par des méthodes d’analyse séquentielle de rupture selon de nouveaux critères d’optimalité adaptés à la surveillance des systèmes à sécurité critique. Il s'agit donc de minimiser la pire probabilité de détection manquée sous la contrainte de niveaux acceptables pour la pire probabilité de fausse alarme et la pire probabilité de fausse localisation. Pour la tâche de détection, le problème d’optimisation est résolu dans deux cas : les paramètres du signal transitoire sont complètement connus ou seulement partiellement connus. Les propriétés statistiques des tests sous-optimaux obtenus sont analysées. Des résultats préliminaires pour la tâche de localisation sont également proposés. Les algorithmes développés sont appliqués à la détection et à la localisation d'actes malveillants dans un réseau d’eau potable / This PhD thesis is registered in the framework of the project “SCALA” which received financial support through the program ANR-11-SECU-0005. Its ultimate objective involves the on-line monitoring of Supervisory Control And Data Acquisition (SCADA) systems against cyber-physical attacks. The problem is formulated as the sequential detection and isolation of transient signals in stochastic-dynamical systems in the presence of unknown system states and random noises. It is solved by using the analytical redundancy approach consisting of two steps: residual generation and residual evaluation. The residuals are firstly generated by both Kalman filter and parity space approaches. They are then evaluated by using sequential analysis techniques taking into account certain criteria of optimality. However, these classical criteria are not adequate for the surveillance of safety-critical infrastructures. For such applications, it is suggested to minimize the worst-case probability of missed detection subject to acceptable levels on the worst-case probability of false alarm and false isolation. For the detection task, the optimization problem is formulated and solved in both scenarios: exactly and partially known parameters. The sub-optimal tests are obtained and their statistical properties are investigated. Preliminary results for the isolation task are also obtained. The proposed algorithms are applied to the detection and isolation of malicious attacks on a simple SCADA water network Analyse séquentielle Détection du signal Rupture (statistique) Modèles linéaires (statistique) Criminalité informatique Sequential analysis Signal detection Change-point problems Linear models (Statistics) Computer crimes 621.382 2

1

Page generated in 0.124 seconds