Spelling suggestions: "subject:"modèles linéaire""
1 |
Bayesian adaptive variable selection in linear models : a generalization of Zellner's informative g-priorNdiaye, Djibril 19 November 2023 (has links)
Bayesian inference is about recovering the full conditional posterior distribution of the parameters of a statistical model. This exercise, however, can be challenging to undertake if the model specification is not available a priori, as is typically the case. This thesis proposes a new framework to select the subset of regressors that are the relevant features that explain a target variable in linear regression models. We generalize Zellner's g-prior with a random matrix, and we present a likelihood-based search algorithm, which uses Bayesian tools to compute the posterior distribution of the model parameters over all possible models generated, based on the maximum a posteriori (MAP). We use Markov chain Monte Carlo (MCMC) methods to gather samples of the model parameters and specify all distributions underlying these model parameters. We then use these simulations to derive a posterior distribution for the model parameters by introducing a new parameter that allows us to control how the selection of variables is done. Using simulated datasets, we show that our algorithm yields a higher frequency of choosing the correct variables and has a higher predictive power relative to other widely used variable selection models such as adaptive Lasso, Bayesian adaptive Lasso, and relative to well-known machine learning algorithms. Taken together, this framework and its promising performance under various model environments highlight that simulation tools and Bayesian inference methods can be efficiently combined to deal with well-known problems that have long loomed the variable selection literature. / L'inférence bayésienne consiste à retrouver la distribution conditionnelle a posteriori complète des paramètres d'un modèle statistique. Cet exercice, cependant, peut être difficile à entreprendre si la spécification du modèle n'est pas disponible a priori, comme c'est généralement le cas. Cette thèse propose une nouvelle approche pour sélectionner le sous-ensemble de régresseurs qui sont les caractéristiques pertinentes qui expliquent une variable cible dans les modèles de régression linéaire. Nous généralisons le g-prior de Zellner avec une matrice aléatoire et nous présentons un algorithme de recherche basé sur la vraisemblance, qui utilise des outils bayésiens pour calculer la distribution a posteriori des paramètres du modèle sur tous les modèles possibles générés. La sélection du modèle se fera sur la base du maximum a posteriori (MAP). Nous utilisons les méthodes de Monte Carlo par chaînes de Markov pour échantillonner suivant les distributions a posteriori de ces paramètres du modèle. Nous utilisons ensuite ces simulations pour dériver une estimation a posteriori des paramètres du modèle en introduisant un autre paramètre qui nous permet de contrôler la manière dont la sélection de la variable est effectuée. À l'aide de données simulées, nous montrons que notre méthode donne une fréquence plus élevée de choix des variables importantes et a un pouvoir prédictif plus élevé par rapport à d'autres modèles de sélection de variables largement utilisés tels que le Lasso adaptatif, le Lasso adaptatif bayésien, et par rapport aux algorithmes d'apprentissage automatique bien connus. Pris ensemble, cette approche et ses performances prometteuses dans divers scénarios de données mettent en évidence le fait que les outils de simulation et les techniques d'inférence bayésienne puissent être efficacement combinés pour traiter des problèmes bien connus qui ont longtemps pesé sur la littérature de la sélection de variables (en particulier en grande dimension).
|
2 |
Ingénierie de la représentation des variables pour la classification binaire à partir des données déséquilibréesAjakan, Nora 13 December 2023 (has links)
De nombreuses applications de classification binaire, telles que la prédiction de fraude et la prédiction de rétention, impliquent des ensembles de données déséquilibrées. Bien que les méthodes d'ensemble soient les mieux adaptées à ces contraintes, les règles de décision produites sont difficiles à interpréter en tant que groupe en raison de leur nombre et de leurs redondances sous-jacentes. Il est donc intéressant de simplifier les méthodes d'ensemble apprises en un petit ensemble équivalent de conditions sans sacrifier la performance à la simplicité. En interprétant simplement un arbre de décision comme un empilement de fonctions indicatrices binaires et un modèle linéaire, nous proposons une méthode qui apprend le sous-ensemble efficace d'indicateurs qui relie les données à un espace de représentation de faible dimension où elles deviennent linéairement séparables. Ces fonctions binaires permettent à un large éventail d'algorithmes d'apprentissage automatique simples d'être efficaces et sont également plus faciles à analyser, à étudier ou à valider par les experts du domaine que les branches initiales de l'arbre dans l'ensemble appris. / Many binary classification applications, such as churn prediction and fraud detection, involve unbalanced large datasets. While ensemble trees are the most suited algorithms given these constraints, the decision rules produced are hard to interpret as a group due to their number and their underlying redundancies. It is then of interest to simplify the learned ensemble trees into a small equivalent set of conditions without trading performance for simplicity. By simply interpreting a decision tree as a stack of binary indicator functions and a linear model, we propose a method that learns the effective subset of indicators that map the data to a low dimension feature space where it becomes linearly separable. These binary functions enable a wide range of simple machine learning algorithms to be efficient and are also easier to analyze, investigate or validate by domain experts than the initial tree branches in the learned ensemble.
|
3 |
Analyse statistique des données issues des biopuces à ADNPeyre, Julie 20 September 2005 (has links) (PDF)
Cette thèse est consacrée à l'analyse statistique des données issues des biopuces à ADN. Nous nous intéressons ici à trois problématiques liées aux données du transcriptôme.<br /><br /> Dans un premier chapitre, nous étudions le problème de la normalisation des données dont l'objectif est d'éliminer les variations parasites entre les échantillons des populations pour ne conserver que les variations expliquées par les phénomènes biologiques. Nous présentons plusieurs méthodes existantes pour lesquelles nous proposons des améliorations. Pour guider le choix d'une méthode de normalisation, une méthode de simulation de données de biopuces est mise au point.<br /><br /> Dans un deuxième chapitre, nous abordons le problème de la détection de gènes différentiellement exprimés entre deux séries d'expériences. On se ramène ici à un problème de test d'hypothèses multiples. Plusieurs approches sont envisagées : sélection de modèles et pénalisation, méthode FDR basée sur une décomposition en ondelettes des statistiques de test ou encore seuillage bayésien.<br /> <br /> Dans le dernier chapitre, nous considérons les problèmes de classification supervisée pour les données de biopuces. Pour remédier au problème du "fléau de la dimension", nous avons développé une méthode semi-paramétrique de réduction de dimension, basée sur la maximisation d'un critère de vraisemblance locale dans les modèles linéaires généralisés en indice simple. L'étape de réduction de dimension est alors suivie d'une étape de régression par polynômes locaux pour effectuer la classification supervisée des individus considérés.
|
4 |
Développement de modèles d'optimisation de flux en logistique inverse : Applications aux contenants réutilisables / Development of flow optimization models in reverse logistics : Application to refillable containersGoudenege, Guillaume 30 January 2013 (has links)
Dans un monde industriel marqué par un contexte économique difficile, les entreprises se doivent d’étudier toutes les possibilités de réduction de coûts et d’optimisation de leur chaîne logistique. Un des champs récents d’optimisation développé dans la littérature concerne le concept de logistique inverse. Cette logistique représente la gestion des flux traversant une chaîne logistique dans le sens inverse des flux traditionnels. On y retrouve des activités liées au recyclage, à la réparation ou encore à la réutilisation de produits. Au sein de la Chaire Supply Chain, nous nous sommes donc intéressés à l’optimisation de la gestion de ces flux de retours, avec les contenants réutilisables comme objet d’étude intéressant pour nos différents partenaires. Dans ce sens, après avoir passé en revue la littérature sur le concept général de la logistique inverse, nous développons un ensemble de modèles recouvrant les combinaisons mono ou multi niveaux, mono ou multi périodes et mono ou multi contenants afin d’optimiser ces retours au sein de chaînes logistiques déjà définies. Ces modèles sont par la suite appliqués, soit fictivement pour un des modèles mono-période résolu grâce à une heuristique de décomposition développée pour des réseaux logistiques de grande taille, soit réellement chez nos partenaires pour les modèles multi-périodes résolus de façon exacte. Le but de ces applications étant d’utiliser ces modèles théoriques dans un contexte réel d’entreprise et d’en dégager les possibles bénéfices économiques mais également environnementaux grâce à la prise en compte des émissions liées au transport et au cycle de vie de ces contenants. / In an industrial world touched by a complicated economic environment, companies need to explore all opportunities for cost reduction and supply chain optimization. A recent optimization field developed in the literature concerns the concept of reverse logistics. This concept deals with the flows management through a supply chain in the opposite direction to the traditional one. It includes activities related to recycling, repair or products reuse. In partnership with the industrial of the “Chaire Supply Chain”, we are interested in optimizing these reverse flows by focusing more particularly on reusable containers. For that, we propose a literature review on the general concept of reverse logistics and develop a set of models covering combinations between single and multi-levels, single and multi-periods and single and multi-containers problems in order to optimize this type of returns within already defined supply chains. These models are then applied, either in a fictive way for a single-period one solved by a decomposition heuristic proposed for large logistics networks, or in a real way for multi-period models solved exactly and applied to our partners problematic. The purpose of these applications is to use these theoretical models in a real business in order to identify economic benefits but also environmental ones by taking into account emissions from these containers transportation and manufacturing.
|
5 |
Évaluation de l'exposition professionnelle au formaldéhyde à partir de sources de données préexistantesLavoué, Jérôme January 2006 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
6 |
Réduction des temps d’intervention des équipes héliportées sur les feux de forêt au QuébecBrunet, Frédéric 05 November 2024 (has links)
La réduction du temps entre la détection d'un feu de forêt et l'arrivée de l'équipe d'attaque initiale (AI) peut avoir un impact significatif sur les probabilités de succès de l'AI, et conséquemment sur la superficie finale du feu. Le premier volet du projet visait à identifier les facteurs qui influencent ce temps de réponse à partir de données récoltées au Québec entre 2002 et 2022. À l'aide de trois modèles linéaires généralisés mixtes et de sélections de modèles, nous avons analysé l'impact de multiples facteurs ainsi que leurs poids sur trois intervalles de temps distincts : le temps entre la réception de l'alerte et le départ des équipes le jour même, le temps entre la réception de l'alerte et le départ des équipes le lendemain, ainsi que le temps de transport des équipes vers le feu. Nos résultats indiquent que la distance entre la base de départ et le feu, le nombre de segments de vols nécessaires pour atteindre un feu, l'heure d'assignation de l'alerte, l'emplacement de la base de départ, le taux de propagation du feu, la date du feu ainsi que le nombre d'incendies actifs dans la province au moment de l'intervention sont des facteurs ayant un effet significatif. Dans l'ensemble, la distance et le nombre d'étapes de vols étaient les facteurs qui avaient le plus de poids sur le temps de transport, alors que l'heure d'assignation était la variable qui avait le plus de poids pour les temps de départ des feux attaqués le jour même et le lendemain. La deuxième étape du projet a consisté à développer un outil d'optimisation visant à modifier le déploiement des équipes héliportées en tenant compte des prévisions de propagation et d'intensité des incendies, afin de réduire le temps de déplacement et conséquemment le temps de réponse global. Cette analyse a permis de montrer que l'utilisation d'un plus grand nombre de sites potentiels de déploiements serait bénéfique pour améliorer la performance du système. / Reducing the time between the detection of a fire and the arrival of the initial attack (IA) crew can have a significant impact on the likelihood of the IA success. The first part of the project was to identify the factors that influenced response time, based on historical data in Quebec, between 2002 and 2022. Using three generalized linear mixed models and model selection, multiple factors were analyzed as well as their weights on three distinct time intervals: the time between the dispatch of a fire and the departure of the IA team for fires attacked on the same day or the next day, and the travel time of the team until it's arrival on the fire. Results show that the distance between the departure base and the fire, the number of flight legs necessary to get to the fire, the departure base location, the fire's rate of spread, the fire's date, and the number of active fires in the province at the moment of fire start all have a significant impact but have different degrees of influence. The distance and the number of flight legs were identified as the factors having the highest influence on travel time. The second part of the project was to develop an optimization tool that sought to modify the deployment of helitack teams, while considering predicted head fire intensity, to further reduce travel time and consequentially overall response time. This analysis demonstrated that the use of a higher number of potential deployment sites could be beneficial to the overall improvement of the system's performance.
|
7 |
Modélisation de réclamations en assurance générale avec gradient boosting et dépendancePower, Justine 02 February 2024 (has links)
En assurance générale, la prévision des réclamations est d'une importance capitale. Une modélisation précise des pertes futures permet aux assureurs d'offrir des prix compétitifs, de cibler les assurés les plus profitables et de conserver leur solidité financière. Le domaine de l'assurance étant en constante évolution, les actuaires doivent trouver des moyens de raffiner leurs modèles prédictifs. Dans ce mémoire, on propose un modèle hiérarchique qui améliore les modèles classiques sur deux aspects. D'abord, on considère la dépendance entre les occurrences de paiements sous différentes couvertures avec une distribution multinomiale, et entre les montants payés à l'aide de copules. Ensuite, on choisit XGBoost, une implémentation populaire du gradient boosting, pour effectuer des prévisions avec des variables explicatives, alors que la plupart des modèles actuariels utilisent les modèles linéaires généralisés. La méthode est illustrée sur un jeu de données de réclamations en assurance auto fourni par une grande compagnie d'assurance canadienne. Le nombre important d'observations et de variables explicatives justifient l'utilisation de XGBoost, qui est particulièrement efficace avec de gros jeux de données. La structure des données motive divers aspects du modèle lui procurant une flexibilité, notamment en permettant à la combinaison de couvertures payées pour une même réclamation d'influencer les relations de dépendance. Pour l'inférence sur les copules, on utilise les méthodes basées sur les rangs. Puisque la validité des estimateurs basés sur les rangs de résidus de XGBoost n'a pas été montrée dans la littérature, on étudie leur performance par simulation. On applique notre modèle sur des données test et en comparant les résultats avec ceux d'un modèle supposant l'indépendance, on remarque que notre modèle permet d'obtenir une meilleure segmentation des assurés, en plus de répliquer de manière plus adéquate la stochasticité globale des données. / In general insurance, predicting future claims is of prime importance. A precise claim modeling allows insurers to offer the best prices possible, to target the most profitable policies and to remain financially sound. As insurance evolves constantly, one of the main challenges for actuaries is to find ways to refine their models. The goal of this thesis is to propose a hierarchical claim model that improves classical methods on two levels. First, we consider dependence between occurrences of payment for different coverages with a multinomial distribution, and between paid amounts using copulas. Second, to perform prediction with covariates, we choose XGBoost, a popular implementation of gradient boosting, while most of the actuarial models in the literature use generalized linear models. We fit our model on an auto insurance dataset from a Canadian insurer. The use of XGBoost, that is particularly well suited for large datasets, is justified by the large number of observations and covariates available. The structure of our data motivates several components of our model that add flexibility, by allowing the combination of coverages paid on a claim to have an effect on the dependence relationships. We use rank-based methods for copula inference since they offer many benefits. The validity of the methods based on ranks of gradient boosting residuals has not been demonstrated, so we assess this with simulations. We show some applications of our model and compare it with an independence model. Results suggest that with the added dependence components of our model, we achieve a better segmentation of the insureds portfolio and replicate the global stochasticity of the data more accurately.
|
8 |
Modèles avancés en régression appliqués à la tarification IARDBérubé, Valérie 13 April 2018 (has links)
En statistique, les modèles linéaires généralisés (GLM) sont utilisés pour développer des modèles pouvants s'adapter à plusieurs types de données. Cependant, leur présence en actuariat et dans les compagnies d'assurance est plus récente. Dans'ce mémoire, on présente d'abord brièvement des méthodes traditionnelles de tarification et de crédibilité. Par la suite, on décrit de façon exhaustive les modèles linéaires généralisés, auxquels on ajoute des effets aléatoires pour qu'ils soient applicables aux contextes de données longitudinales qui sont répendus en actuariat. On termine en démontrant certains liens existant entre la théorie statistique et la pratique actuarielle et un exemple avec les données de la Société d'Assurance Automobile du Québec (SAAQ) est présenté.
|
9 |
Sélection de copules archimédiennes dans un modèle semi-paramétriqueKhadraoui, Lobna 05 July 2018 (has links)
Ce travail considère un modèle linéaire semi-paramétrique dont les erreurs sont modélisées par une copule choisie parmi la famille archimédienne ou bien la copule normale. La modélisation des erreurs par une copule apporte une flexibilité et permet de caractériser la structure de dépendance d’une manière simple et efficace. La simplicité réside dans le fait qu’un seul paramètre α contrôle le degré de dépendance présent dans les données. L’efficacité réside dans le fait que ce modèle semi-paramétrique permet de lever des hypothèses standards souvent rencontrées en statistique appliquée à savoir la normalité et l’indépendance. Après une mise en œuvre du modèle basée sur une copule nous avons proposé une étude théorique du comportement asymptotique de l’estimateur du paramètre de dépendance α en montrant sa convergence et sa normalité asymptotique sous des hypothèses classiques de régularité. L’estimation des paramètres du modèle a été réalisée en maximisant une pseudo-vraisemblance. La sélection de la meilleure copule pour un jeu de données a été faite à l’aide du critère d’Akaike. Une comparaison avec le critère de la validation croisée a été proposée également. Enfin, une étude numérique sur des jeux de données simulés et réels a été proposée dans la sélection. / This work considers a semi-parametric linear model with error terms modeled by a copula chosen from the Archimedean family or the normal copula. The modeling of errors by a copula provides flexibility and makes it possible to characterize the dependency structure in a simple and effective manner. The simplicity lies in the fact that a single parameter α controls the degree of dependency present in the data. The efficiency is in the fact that this semi-parametric model weakens standard assumptions often encountered in applied statistics namely normality and independence. After an implementation of the model based on a copula we proposed a theoretical study on the asymptotic behavior of the estimator of the dependence parameter α by showing its consistency and its asymptotic normality under classical assumptions of regularity. Estimation of the model parameters is performed by maximizing a pseudo-likelihood. The selection of the best copula that fits the data for each case is based on the Akaike selection criterion. A comparison with the criterion of cross-validation is presented as well. Finally, a numerical study on simulated and real data sets is proposed.
|
10 |
Vers une approche dynamique du processus de la notation souveraine. / Towards a dynamic approach to the sovereign rating processRekik, Donia 27 June 2018 (has links)
L’objet de cette thèse consiste à élaborer un cadre conceptuel et statistique destiné à une meilleure compréhension du processus de la notation souveraine. La thèse propose une démarche à plusieurs niveaux dans la perspective (i) de dévoiler les limites de l’expertise des agences de rating à travers les divergences et les erreurs de notation (ii) de conduire une reconstitution classique des notations souveraines et (iii) de revisiter le processus de notation à travers une reconstitution dynamique des notes. Les résultats de la reconstitution classique révèlent que les notations des PED reflètent leurs conjonctures socioéconomiques et financières, alors que celles des PD sont considérablement influencées par l’intervention subjective des analystes. Les études menées dans une perspective dynamique reposent sur la construction et la modélisation des parcours de notation. Une première étude conduite par la méthode MDS, a permis de dégager la typologie des parcours de notation, en distinguant les pays les plus stables des pays les plus vulnérables face aux récentes crises. Une deuxième étude consiste à modéliser les parcours de notation dans le cadre des processus de points marqués (modèle ACD et Probit ordonné). Les résultats mettent en avant une accélération des épisodes d’abaissement des notes en période de crises. L’introduction du facteur de l’hétérogénéité non observable dans le modèle a permis de rendre compte des contextes socioéconomiques de notation et de confectionner un indice composite avancé. Les parcours de notation reflètent l’évolution à long terme des pays, ils transmettent ainsi un contenu informationnel plus large et plus important que celui d’une notation. / The object of this study is to propose a conceptual and statistical framework to better understand the sovereign rating process. This thesis suggests a multi-levels-approach in the perspective (i) of unveiling the limits of expertise of the credit rating agencies due to the noticed differences and to the rating errors. It will also (ii) conduct a classic reconstitution of the sovereign ratings and (iii) will revisit the rating process according to a dynamic reconstitution of the scores. The results of the classic reconstitution revealed that the ratings of the developing countries showed their economic and financial situation whereas it showed the subjective intervention of the experts when it came to developed countries. Studies conducted in a dynamic perspective are based on the construction and the modeling of the rating migration. A first study driven by the MDS method, has allowed to discover the type of ratings used. The four types of identified systems allow distinguishing the most stable countries from the most vulnerable. A second study has consisted on modeling the rating systems in a context of the scores made through ACD model and an ordered Probit model. The results highlight an acceleration of the lowering score for the episodes especially in times of crisis. The lack of heterogeneity in the model raised awareness regarding the ratings of socioeconomic situations and created an advanced composite index. The rating migration reflect the long-term evolution of a country, they also transmit a more important and a larger informational content than a simple rating.
|
Page generated in 0.0768 seconds