Spelling suggestions: "subject:"statistique mathématiques."" "subject:"qtatistique mathématiques.""
21 |
La copule khi-carré et son utilisation en statistique spatiale et pour la modélisation de données multidimensionnellesToupin, Marie-Hélène 24 April 2018 (has links)
Cette thèse étudie les propriétés des copules appartenant à la famille khi-carré. Il s’agit d’une généralisation des copules normales multidimensionnelles obtenue en élevant au carré les composantes d’un vecteur de variables aléatoires normales. Ces copules sont indicées par une matrice de corrélation et par un paramètre de forme. Cette thèse montre comment cette famille de copules peut être utilisée pour faire de l’interpolation spatiale et pour modéliser des données multidimensionnelles. Dans un premier temps, l’utilité de cette classe de structures de dépendance est démontrée par le biais d’une application en statistique spatiale. Un problème important dans ce contexte est de prévoir la valeur d’un champ aléatoire stationnaire en une position où il n’a pas été observé. Cette thèse montre comment construire de telles prévisions à l’aide de modèles spatiaux basés sur les copules. L’accent est mis sur l’utilisation de la famille des copules khi-carré dans ce contexte. Il faut d’abord supposer que la matrice de corrélation a une forme paramétrique standard, telle celle de Matérn, indicée par un paramètre inconnu associé à la force de l’association spatiale. Ce paramètre est d’abord estimé à l’aide d’une pseudo-vraisemblance composite construite à partir des lois bidimensionnelles des données observées. Ensuite, une méthode d’interpolation spatiale utilisant les rangs des observations est suggérée afin d’approximer la meilleure prévision du champ aléatoire à une position non observée. Dans un deuxième temps, les propriétés fondamentales des copules khi-carré sont étudiées en détail. Cette famille de copules permet une grande flexibilité quant à la modélisation de données multidimensionnelles. Dans le cas bivarié, ces copules s’adaptent à de la dépendance autant symétrique qu’asymétrique. En dimension plus grande, le paramètre de forme contrôle le degré d’asymétrie radiale des distributions marginales bidimensionnelles. Des procédures d’estimation de la matrice de corrélation et du paramètre de forme sont comparées dans le cas de répétitions indépendantes et identiquement distribuées. Enfin, des formules de l’espérance conditionnelle pour la meilleure prévision dans un contexte spatiale sont établies. Finalement, des tests d’adéquation basés sur des moments pour la famille des copules khi-carré sont développés. Ces nouveaux tests peuvent être appliqués à un ensemble de données de n’importe quelle dimension. Ces procédures reposent sur deux mesures d’association basées sur les rangs des observations ce qui évite d’avoir à spécifier les lois marginales. Il est démontré que le comportement conjoint de ces deux mesures est asymptotiquement normal. L’efficacité des nouvelles procédures d’adéquation est démontrée via une étude de simulations et est comparée à un test d’adéquation classique basé sur la copule empirique. / This thesis studies the properties of the family of chi-square copulas. This is a generalization of the multidimensional normal copulas obtained by squaring the components of normal random vector. These copulas are indexed by a correlation matrix and by a shape parameter. This thesis shows how this family can be used to perform spatial interpolation and to model multidimensional data. First, the usefulness of this class of dependence structures is demonstrated with an application in spatial statistics. An important problem in that context is to predict the value of a stationary random field at a position where it has not been observed. This thesis shows how to construct such predictions using spatial models based on copulas. One focusses on the use of the family of chi-square copulas in that context. One must first assumes that the correlation matrix has a standard parametric form, such as that of Matérn, indexed by an unknown parameter associated with the force of the spatial association. This parameter is first estimated using a composite pseudo-likelihood constructed from the bivariate distributions of the observed data. Then, a spatial interpolation method using the ranks of the observations is suggested to approximate the best prediction of the random field at an unobserved position under a chi-square copula. In a second work, the fundamental properties of the chi-square copulas are studied in detail. This family allows a lot of flexibility to model multidimensional data. In the bivariate case, this family is adapted to symmetric and asymmetric dependence structures. In larger dimensions, the shape parameter controls the degree of radial asymmetry of the two-dimensional marginal distributions. Parameter estimation procedures of the correlation matrix and of the shape parameter are compared under independent and identically distributed repetitions. Finally, the formulas of the conditional expectation for the best prediction in a spatial context are established. Goodness-of-fit tests for the family of chi-square copulas are then developed. These new tests can be applied to data in any dimension. These procedures are based on two association measures based on the ranks of the observations, which avoids having to specify the marginal distributions. It is shown that the joint behavior of these two measures is asymptotically normal. The efficiency of the new goodness-of-fit procedures is demonstrated through a simulation study and is compared to a classical goodness-of-fit test based on the empirical copula.
|
22 |
Inference algorithms for the regression approach to sequence predictionRolland, Amélie 24 April 2018 (has links)
La prédiction de séquence comporte plusieurs applications en traitement du langage naturel, en bioinformatique, et en vision numérique. La complexité de calcul requise pour trouver la séquence optimale parmi un nombre exponentiel de possibilités limite cependant l’utilisation de tels algorithmes. Dans ce mémoire, nous proposons une approche permettant de résoudre cette recherche efficacement pour deux types de problèmes différents. Plus précisément, nous adressons le problème de pré-image en prédiction de structure nécessitant de trouver la séquence associée à une entrée arbitraire, et le problème consistant à trouver la séquence qui maximise la fonction de prédiction de plusieurs classificateurs et régresseurs à noyaux. Nous démontrons que ces deux problèmes se réduisent en un même problème combinatoire valide pour plusieurs noyaux à séquences. Pour ce problème, nous proposons une borne supérieure sur la fonction de prédiction pouvant être utilisée dans un algorithme de recherche branch and bound pour l’obtention de solutions optimales. Sur les tâches de reconnaissance de mots et de prédiction de phonèmes, l’approche proposée obtient des résultats compétitifs avec les algorithmes de prédiction de structure de l’état de l’art. De plus, la solution exacte du problème de pré-image augmente de manière significative les performances de prédiction en comparaison avec une approximation trouvée par l’heuristique la plus connue. Pour les tâches consistant à trouver la séquence maximisant la fonction de prédiction de classificateurs et régresseurs, nous montrons que des méthodes existantes peuvent être biaisées à prédire de longues séquences comportant des symboles répétitifs. Nous soulignons que ce biais est enlevé lorsque le noyau est normalisé. Finalement, nous présentons des résultats en conception de médicaments sur la découverte de composés principaux. Le code source peut être téléchargé à https://github.com/a-ro/preimage. / Sequence prediction algorithms have many applications in natural language processing, bioinformatics, and computer vision. However, the computational complexity required to find the optimal sequence among an exponential number of possibilities limits the use of such algorithms. In this thesis, we propose an approach to solve this search efficiently for two types of sequence prediction problems. More precisely, we address the pre-image problem encountered in structured output prediction, which consists of finding the sequence associated with an arbitrary input, and the problem of finding a sequence maximizing the prediction function of various kernel-based classifiers and regressors. We demonstrate that these problems reduce to a common combinatorial problem valid for many sequence kernels. For this problem, we propose an upper bound on the prediction function which has low computational complexity and which can be used in a branch and bound search algorithm to obtain optimal solutions. On the practical tasks of optical word recognition and grapheme-to-phoneme prediction, the proposed approach is shown to be competitive with state-of-the-art structured prediction algorithms. Moreover, the exact solution of the pre-image problem is shown to significantly improve the prediction accuracy in comparison with an approximation found by the best known heuristic. On the task of finding a sequence maximizing the prediction function of kernelbased classifiers and regressors, we highlight that existing methods can be biased toward long sequences that contain many repeated symbols. We demonstrate that this bias is removed when using normalized kernels. Finally, we present results for the discovery of lead compounds in drug discovery. The source code can be found at https://github.com/a-ro/preimage.
|
23 |
Modélisation de la dépendance et apprentissage automatique dans le contexte du provisionnement individuel et de la solvabilité en actuariat IARDChaoubi, Ihsan 13 December 2023 (has links)
Les compagnies d'assurance jouent un rôle important dans l'économie des pays en s'impliquant de façon notable dans les marchés boursiers, obligataires et immobiliers, d'où la nécessité de préserver leur solvabilité. Le cycle spécifique de production en assurance amène des défis particuliers aux actuaires et aux gestionnaires de risque dans l'accomplissement de leurs tâches. Dans cette thèse, on a pour but de développer des approches et des algorithmes susceptibles d'aider à résoudre certaines problématiques liées aux opérations de provisionnement et de solvabilité d'une compagnie d'assurance. Les notions préliminaires pour ces contributions sont présentées dans l'introduction de cette thèse. Les modèles de provisionnement traditionnels sont fondés sur des informations agrégées. Ils ont connu un grand succès, comme en témoigne le nombre important d'articles et documents actuariels connexes. Cependant, en raison de la perte d'informations individuelles des sinistres, ces modèles représentent certaines limites pour fournir des estimations robustes et réalistes dans des contextes susceptibles d'évoluer. Dans ce sens, les modèles de réserve individuels représentent une alternative prometteuse. En s'inspirant des récentes recherches, on propose dans le Chapitre 1 un modèle de réserve individuel basé sur un réseau de neurones récurrent. Notre réseau a l'avantage d'être flexible pour plusieurs structures de base de données détaillés des sinistres et capable d'incorporer plusieurs informations statiques et dynamiques. À travers plusieurs études de cas avec des jeux de données simulés et réels, le réseau proposé est plus performant que le modèle agrégé chain-ladder. La détermination des exigences de capital pour un portefeuille repose sur une bonne connaissance des distributions marginales ainsi que les structures de dépendance liants les risques individuels. Dans les Chapitres 2 et 3 on s'intéresse à la modélisation de la dépendance et à l'estimation des mesures de risque. Le Chapitre 2 présente une analyse tenant compte des structures de dépendance extrême. Pour un portefeuille à deux risques, on considère en particulier à la dépendance négative extrême (antimonotonocité) qui a été moins étudiée dans la littérature contrairement à la dépendance positive extrême (comonotonocité). On développe des expressions explicites pour des mesures de risque de la somme d'une paire de variables antimontones pour trois familles de distributions. Les expressions explicites obtenues sont très utiles notamment pour quantifier le bénéfice de diversification pour des risques antimonotones. Face à une problématique avec plusieurs lignes d'affaires, plusieurs chercheurs et praticiens se sont intéressés à la modélisation en ayant recours à la théorie des copules au cours de la dernière décennie. Cette dernière fournit un outil flexible pour modéliser la structure de dépendance entre les variables aléatoires qui peuvent représenter, par exemple, des coûts de sinistres pour des contrats d'assurance. En s'inspirant des récentes recherches, dans le Chapitre 3, on définit une nouvelle famille de copules hiérarchiques. L'approche de construction proposée est basée sur une loi mélange exponentielle multivariée dont le vecteur commun est obtenu par une convolution descendante de variables aléatoires indépendantes. En se basant sur les mesures de corrélation des rangs, on propose un algorithme de détermination de la structure, tandis que l'estimation des paramètres est basée sur une vraisemblance composite. La flexibilité et l'utilité de cette famille de copules est démontrée à travers deux études de cas réelles. / Insurance companies play an essential role in the countries economy by monopolizing a large part of the stock, bond, and estate markets, which implies the necessity to preserve their solvency and sustainability. However, the particular production cycle of the insurance industry may involve typical problems for actuaries and risk managers. This thesis project aims to develop approaches and algorithms that can help solve some of the reserving and solvency operations problems. The preliminary concepts for these contributions are presented in the introduction of this thesis. In current reserving practice, we use deterministic and stochastic aggregate methods. These traditional models based on aggregate information have been very successful, as evidenced by many related actuarial articles. However, due to the loss of individual claims information, these models represent some limitations in providing robust and realistic estimates, especially in variable settings. In this context, individual reserve models represent a promising alternative. Based on the recent researches, in Chapter 1, we propose an individual reserve model based on a recurrent neural network. Our network has the advantage of being flexible for several detailed claims datasets structures and incorporating several static and dynamic information. Furthermore, the proposed network outperforms the chain-ladder aggregate model through several case studies with simulated and real datasets. Determining the capital requirements for a portfolio relies on a good knowledge of the marginal distributions and the dependency structures linking the individual risks. In Chapters 2 and 3, we focus on the dependence modeling component as well as on risk measures. Chapter 2 presents an analysis taking into account extreme dependence structures. For a two-risk portfolio, we are particularly interested in extreme negative dependence (antimonotonicity), which has been less studied in the literature than extreme positive dependence (comonotonicity). We develop explicit expressions for risk measures of the sum of a pair of antimonotonic variables for three families of distributions. The explicit expressions obtained are very useful, e.g., to quantify the diversification benefit for antimonotonic risks. For a problem with several lines of business, over the last decade, several researchers and practitioners have been interested in modeling using copula theory. The latter provides a flexible tool for modeling the dependence structure between random variables that may represent, for example, claims costs for insurance contracts. Inspired by some recent researches, in Chapter 3, we define a new family of hierarchical copulas. The proposed construction approach is based on a multivariate exponential mixture distribution whose common vector is obtained by a top-down convolution of independent random variables. A structure determination algorithm is proposed based on rank correlation measures, while the parameter estimation is based on a composite likelihood. The flexibility and usefulness of this family of copulas are demonstrated through two real case studies.
|
24 |
Investigating high-dimensional problems in actuarial science, dependence modelling, and quantitative risk managementBlier-Wong, Christopher 27 November 2023 (has links)
Titre de l'écran-titre (visionné le 20 novembre 2023) / Les compagnies d'assurance jouent un rôle essentiel dans la société en assurant la protection financière, la gestion des risques, la stabilité sociale et la promotion de la croissance économique. Dans ce contexte, les actuaires utilisent leur expertise en mathématiques, en statistiques et en théorie financière pour aider les particuliers, les entreprises et les organisations à prendre des décisions éclairées en matière de gestion des risques et de protection contre les pertes financières, contribuant ainsi à la stabilité et à la prospérité globales de la société. La plupart des théories de la science actuarielle commencent par la simplification d'hypothèses afin d'obtenir des expressions simples : au premier plan, l'hypothèse selon laquelle les risques du portefeuille d'une compagnie d'assurance sont indépendants et identiquement distribués. Si cette hypothèse se vérifie, on peut souvent appliquer la loi des grands nombres pour obtenir des résultats mathématiques pratiques liés à la gestion et à la tarification des risques dans le portefeuille. Cependant, la levée de cette hypothèse complique généralement ce résultat, et nous examinerons certaines de ces complications dans cette thèse. L'objectif principal de cette thèse est d'étudier les problèmes de haute dimension dans la science actuarielle, dans la modélisation de la dépendance et dans la gestion quantitative des risques. La thèse est divisée en trois parties, couvrant trois sujets sous le thème général de la science actuarielle à haute dimension. Dans la première partie, nous proposons des méthodes pour incorporer des données à haute dimension dans les modèles de tarification. Une hypothèse implicite d'un modèle de tarification actuariel est celle de l'équité actuarielle, le principe selon lequel les primes d'assurance doivent être basées sur des données statistiques et des facteurs de risque liés aux coûts totaux associés à un contrat d'assurance. En d'autres termes, l'équité actuarielle signifie que les personnes les plus susceptibles de faire une réclamation doivent payer des primes plus élevées que celles qui sont moins susceptibles de le faire. Les actuaires utilisent des modèles mathématiques et des analyses statistiques pour étudier le risque associé à différents événements, tels que les maladies, les accidents et les catastrophes naturelles. Ils utilisent ensuite ces données pour déterminer des primes qui reflètent le risque associé à chaque assuré. Une stratégie essentielle pour les assureurs consiste à écumer la crème, c'est-à-dire à choisir sélectivement d'assurer les clients présentant un faible risque de sinistre, tout en excluant ceux qui présentent un risque plus élevé ou en leur appliquant des primes plus élevées. La mise en œuvre réussie de cette stratégie nécessite un avantage concurrentiel utilisant plus de données, plus de caractéristiques ou en développant des modèles plus performants. Même si un assureur ne souhaite pas utiliser cette stratégie, il est essentiel de disposer d'un excellent modèle prédictif (aussi bon que celui du concurrent). L'introduction traite de l'intégration des données massives dans le modèle de tarification d'un assureur. Nous fournissons ensuite des implémentations spécifiques utilisant des informations de recensement externes pour la modélisation spatiale et des images de rues externes pour identifier les facteurs de risque des maisons. La deuxième partie de cette thèse comprend deux contributions à la théorie des copules. Elle est consacrée à l'obtention de nouveaux résultats sur la famille des copules de Farlie-Gumbel-Morgenstern (FGM). Cette famille de copules est très flexible puisque sa version à d-variables contient 2ᵈ − d − 1 paramètres. Cependant, une paramétrisation en haute dimension est considérée comme un inconvénient car il y a trop de paramètres à spécifier, qui sont difficiles à interpréter, et les paramètres doivent satisfaire un ensemble de contraintes fastidieuses. Construire des familles de copules FGM de haute dimension pour des applications pratiques est un défi. Notre contribution dans cette partie de la thèse est de proposer une représentation stochastique des copules FGM basée sur des distributions de Bernoulli symétriques multivariées. Nous montrons également que cette correspondance est bijective. Cette représentation, dans la plupart des cas, permet de dériver de nouvelles propriétés des copules FGM basées sur l'abondante littérature sur les distributions de Bernoulli symétriques multivariées. Nous obtenons des résultats supplémentaires utiles lorsque nous utilisons l'hypothèse additionnelle selon laquelle les composantes du vecteur aléatoire sont échangeables. Dans la troisième partie de cette thèse, nous apportons deux contributions à l'agrégation des risques, à l'allocation du capital et au partage des risques. Premièrement, nous utilisons les résultats obtenus dans la deuxième partie de la thèse pour étudier l'agrégation des risques lorsque la structure de dépendance entre les risques est une copule FGM. Nous dérivons des expressions pour les moments et la transformée de Laplace-Stieltjes de la variable aléatoire agrégée basée sur la représentation stochastique des copules FGM. Nous concevons un algorithme pour calculer la fonction de masse de probabilité du vecteur aléatoire agrégé lorsque les risques sont définis par des variables aléatoires discrètes. Lorsque les risques sont définis par des variables aléatoires continues obéissant à une distribution mélange d'Erlang, nous démontrons que la variable aléatoire agrégée est également distribuée selon une distribution mélange d'Erlang et nous développons des expressions pour les mesures de risque et les contributions au risque ex-post pour le partage des risques avec la règle de partage des risques à espérance conditionnelle. La deuxième contribution de cette partie établit un lien entre les espérances conditionnelles et les dérivés des fonctions génératrices de probabilités conjointes. Cette relation conduit à de nouvelles stratégies pour calculer les espérances conditionnelles ex-ante ou ex-post lorsque les risques sont représentés par des variables aléatoires discrètes. Nous dérivons de nouvelles expressions pour les espérances conditionnelles et développons une stratégie de calcul efficace basée sur les transformées de Fourier rapides pour calculer les espérances conditionnelles. / Insurance companies play a critical role in society by providing financial protection, risk management, social stability and promoting economic growth. Within this context, actuaries use their expertise in mathematics, statistics, and financial theory to help individuals, businesses, and organizations make informed decisions about managing risks and protecting against financial loss, contributing to society's overall stability and prosperity. Most of the theory in actuarial science starts with simplifying assumptions to obtain convenient expressions: at the forefront is that the risks in an insurance company's portfolio are independent and identically distributed. If the assumption holds, one may often apply the central limit theorem to obtain convenient mathematical results related to risk management and pricing of risks in the portfolio. However, removing this assumption typically complicates this result, and we will investigate some of these challenges in this thesis. The main objective of this thesis is to investigate high-dimensional problems in insurance mathematics, dependence modelling and quantitative risk management. The thesis is divided into three parts, covering three subjects under the general theme of high-dimensional actuarial science. In the first part, we propose methods to incorporate high-dimensional data within ratemaking models. An implicit assumption of the actuarial model is that of actuarial fairness, the principle that insurance premiums should be based on statistical data and risk factors related to the total costs associated with an insurance contract. In other words, actuarial fairness means that individuals more likely to make a claim should pay higher premiums than those less likely to do so. Actuaries use mathematical models and statistical analysis to calculate the risk associated with different events, such as illness, accidents, and natural disasters. They then use this data to set premiums that reflect the risk associated with other policyholders. A critical strategy for insurers is "skimming the creme," referring to insurance companies selectively choosing to insure customers at lower risk of making a claim while excluding or charging higher premiums to those at higher risk. This strategy's successful implementation requires a competitive advantage in terms of more data, more features or better models. Even if an insurer does not want to use this strategy, having an excellent predictive model (as good as the competitor's) is still essential. The introduction discusses incorporating big data into an insurer's ratemaking model. We then provide specific implementations using external census information for spatial modelling and external street view imagery to identify risk factors of houses. The second part of this thesis includes two contributions to copula theory. It is dedicated to obtaining new results on the family of Farlie-Gumbel-Morgenstern (FGM) copulas. This family of copulas is very flexible since its d-variate version contains 2ᵈ - d - 1 parameters. However, this high dimensionality in the parameters is considered a drawback since there are too many parameters to specify, which are difficult to interpret, and the parameters must satisfy a set of tedious constraints. Constructing high-dimensional families of FGM copulas for practical applications is challenging. Our contribution in this part of the thesis is to propose a stochastic representation of FGM copulas based on symmetric multivariate Bernoulli distributions. We further show that this correspondence is one-to-one. This representation, in most cases, lets one derive new properties of FGM copulas based on the expansive literature on multivariate symmetric Bernoulli distributions. We derive useful supplemental results when we use the additional assumption that the components of the random vector are exchangeable. In the third part of this thesis, we provide two contributions to risk aggregation, capital allocation and risk-sharing. First, we use the results derived in the second part of the thesis to study risk aggregation when the dependence structure between the risks is a FGM copula. We derive expressions for the moments and the Laplace-Stieltjes transform of the aggregate random variable based on the stochastic representation of FGM copulas. We design an algorithm to compute the probability mass function of the aggregate random vector when the risks are discrete. When risks are mixed Erlang distributed, we find that the aggregate random variable is also mixed Erlang distributed and develop expressions for risk measures and ex-post risk contributions for risk-sharing with the conditional mean risk-sharing rule in that case. For our second contribution of this part, we provide a link between conditional expectations and derivatives of joint probability-generating functions. This relationship leads to new strategies to compute conditional means ex-ante or ex-post when risks are discrete. We derive new expressions for the conditional means and develop an efficient computational strategy based on fast Fourier transforms to compute the conditional means.
|
25 |
Développement d'algorithmes de Plasmode longitudinaux pour l'évaluation d'approches d'ajustement pour la confusion et illustration pour l'étude de l'effet d'une exposition cumulée aux stresseurs psychosociaux au travailSouli, Youssra 23 March 2024 (has links)
Le biais de confusion peut affecter tous les types d’études d’observation. Il apparaît lorsque la caractéristique étudiée est associée à un facteur de perturbation complémentaire et que ce dernier fait croire à l’existence d’une relation de cause à effet entre la caractéristique étudiée et l’issue. Des méthodes d’ajustement pour le biais de confusion, notamment les modèles structurels marginaux, peuvent être utilisées pour corriger ce type de biais. Ces modèles n’ont toutefois été utilisés qu’une seule fois pour l'étude de l’effet d’une exposition cumulative aux stresseurs psychosociaux au travail sur la pression artérielle. L’objectif principal de ce mémoire était de comparer différents estimateurs des paramètres d’un modèle structurel marginal à des approches classiques. Nous avons considéré les estimateurs par pondération inverse de la probabilité de traitement, le calcul-g, le maximum de vraisemblance ciblé avec et sans SuperLearner. Ces estimateurs ont d’abord été utilisés pour estimer l’effet d’une exposition cumulée aux stresseurs psychosociaux au travail sur la pression artérielle systolique dans le cadre d’une étude de cohorte prospective de 5 ans. Cette analyse a révélé des différences significatives entre les estimateurs. Puisqu’il s’agit de données réelles, il est toutefois impossible de déterminer quelle méthode produit les résultats les plus valides. Pour répondre à cette question, nous avons développé deux algorithmes de simulation de données longitudinales de type Plasmode, l’un utilisant des modèles paramétriques et l’autre utilisant des approches non paramétriques. Les simulations Plasmode combinent des données réelles et des données synthétiques pour étudier les propriétés dans un contexte connu, mais similaire au contexte réel. Au vue des résultats, nous avons conclu que les modèles structurels marginaux représentent des approches pertinentes pour estimer l’effet des stresseurs psychosociaux au travail. Nous recommandons particulièrement d’utiliser la méthode de maximum de vraisemblance ciblé avec et sans SuperLearner. Cependant, cela nécessite un effort supplémentaire en termes d’implantation de code et de temps d’exécution.
|
26 |
Génération de données synthétiques pour des variables continues : étude de différentes méthodes utilisant les copulesDesbois-Bédard, Laurence 24 April 2018 (has links)
L’intérêt des agences statistiques à permettre l’accès aux microdonnées d’enquête est grandissant. À cette fin, plusieurs méthodes permettant de publier les microdonnées tout en protégeant la confidentialité des répondants ont été proposées ; ce mémoire se penche sur l’une d’entre-elles : la génération de données synthétiques. Deux approches sont présentées, GADP et C-GADP, et une nouvelle est proposée. La méthode GADP suppose que les variables des données originales et synthétiques sont de loi normale, alors que la méthode C-GADP suppose qu’elles sont jointes par une copule normale. La nouvelle méthode est basée sur les modèles de copules en vigne. Ces modèles sont employés dans l’espoir de mieux modéliser les liens entre les variables. Les trois approches sont évaluées selon les concepts d’utilité et de risque. L’utilité de données confidentielles s’apprécie selon la similitude qu’elles ont avec les données originales et le risque, par la possibilité d’une violation de la confidentialité des répondants. Le risque peut survenir par identification ou par inférence. Seul le risque d’inférence est possible dans le cadre de ce mémoire. Précisément, l’utilité est évaluée avec quelques mesures faites à partir d’analyses spécifiques et une mesure globale basée sur les scores de propension calculés avec une régression logistique. Quant au risque, il est évalué avec une prévision basée sur la distance. / Statistical agencies face a growing demand for releasing microdata to the public. To this end, many techniques have been proposed for publishing microdata while providing confidentiality : synthetic data generation in particular. This thesis focuses on such technique by presenting two existing methods, GAPD and C-GADP, as well as suggesting one based on vine copula models. GADP assumes that the variables of original and synthetic data are normally distributed, while C-GADP assumes that they have a normal copula distribution. Vine copula models are proposed due to their flexibility. These three methods are then assessed according to utility and risk. Data utility depends on maintaining certain similarities between the original and confidential data, while risk can be observed in two types : reidentification and inference. This work will focus on the utility examined with different analysis-specific measures, a global measure based on propensity scores and the risk of inference evaluated with a distance-based prediction.
|
27 |
Modèles de dépendance hiérarchique pour l'évaluation des passifs et la tarification en actuariatAbdallah, Anas 24 April 2018 (has links)
Dans cette thèse on s’intéresse à la modélisation de la dépendance entre les risques en assurance non-vie, plus particulièrement dans le cadre des méthodes de provisionnement et en tarification. On expose le contexte actuel et les enjeux liés à la modélisation de la dépendance et l’importance d’une telle approche avec l’avènement des nouvelles normes et exigences des organismes réglementaires quant à la solvabilité des compagnies d’assurances générales. Récemment, Shi et Frees (2011) suggère d’incorporer la dépendance entre deux lignes d’affaires à travers une copule bivariée qui capture la dépendance entre deux cellules équivalentes de deux triangles de développement. Nous proposons deux approches différentes pour généraliser ce modèle. La première est basée sur les copules archimédiennes hiérarchiques, et la deuxième sur les effets aléatoires et la famille de distributions bivariées Sarmanov. Nous nous intéressons dans un premier temps, au Chapitre 2, à un modèle utilisant la classe des copules archimédiennes hiérarchiques, plus précisément la famille des copules partiellement imbriquées, afin d’inclure la dépendance à l’intérieur et entre deux lignes d’affaires à travers les effets calendaires. Par la suite, on considère un modèle alternatif, issu d’une autre classe de la famille des copules archimédiennes hiérarchiques, celle des copules totalement imbriquées, afin de modéliser la dépendance entre plus de deux lignes d’affaires. Une approche avec agrégation des risques basée sur un modèle formé d’une arborescence de copules bivariées y est également explorée. Une particularité importante de l’approche décrite au Chapitre 3 est que l’inférence au niveau de la dépendance se fait à travers les rangs des résidus, afin de pallier un éventuel risque de mauvaise spécification des lois marginales et de la copule régissant la dépendance. Comme deuxième approche, on s’intéresse également à la modélisation de la dépendance à travers des effets aléatoires. Pour ce faire, on considère la famille de distributions bivariées Sarmanov qui permet une modélisation flexible à l’intérieur et entre les lignes d’affaires, à travers les effets d’années de calendrier, années d’accident et périodes de développement. Des expressions fermées de la distribution jointe, ainsi qu’une illustration empirique avec des triangles de développement sont présentées au Chapitre 4. Aussi, nous proposons un modèle avec effets aléatoires dynamiques, où l’on donne plus de poids aux années les plus récentes, et utilisons l’information de la ligne corrélée afin d’effectuer une meilleure prédiction du risque. Cette dernière approche sera étudiée au Chapitre 5, à travers une application numérique sur les nombres de réclamations, illustrant l’utilité d’un tel modèle dans le cadre de la tarification. On conclut cette thèse par un rappel sur les contributions scientifiques de cette thèse, tout en proposant des angles d’ouvertures et des possibilités d’extension de ces travaux. / The objective of this thesis is to propose innovative hierarchical approaches to model dependence within and between risks in non-life insurance in general, and in a loss reserving context in particular. One of the most critical problems in property/casualty insurance is to determine an appropriate reserve for incurred but unpaid losses. These provisions generally comprise most of the liabilities of a non-life insurance company. The global provisions are often determined under an assumption of independence between the lines of business. However, most risks are related to each other in practice, and this correlation needs to be taken into account. Recently, Shi and Frees (2011) proposed to include dependence between lines of business in a pairwise manner, through a copula that captures dependence between two equivalent cells of two different runoff triangles. In this thesis, we propose to generalize this model with two different approaches. Firstly, by using hierarchical Archimedean copulas to accommodate correlation within and between lines of business, and secondly by capturing this dependence through random effects. The first approach will be presented in chapters 2 and 3. In chapter 2, we use partially nested Archimedean copulas to capture dependence within and between two lines of business, through calendar year effects. In chapter 3, we use fully nested Archimedean copulas, to accommodate dependence between more than two lines of business. A copula-based risk aggregation model is also proposed to accommodate dependence. The inference for the dependence structure is performed with a rank-based methodology to bring more robustness to the estimation. In chapter 4, we introduce the Sarmanov family of bivariate distributions to a loss reserving context, and show that its flexibility proves to be very useful for modeling dependence between loss triangles. This dependence is captured by random effects, through calendar years, accident years or development periods. Closed-form expressions are given, and a real life illustration is shown again. In chapter 5, we use the Sarmanov family of bivariate distributions in a dynamic framework, where the random effects are considered evolutionary and evolve over time, to update the information and allow more weight to more recent claims. Hence, we propose an innovative way to jointly model the dependence between risks and over time with an illustration in a ratemaking context. Finally, a brief conclusion recalls the main contributions of this thesis and provides insights into future research and possible extensions to the proposed works.
|
28 |
Modèles de dépendance avec copule Archimédienne : fondements basés sur la construction par mélange, méthodes de calcul et applicationsVeilleux, Dery 21 December 2018 (has links)
Le domaine de l’assurance est basé sur la loi des grands nombres, un théorème stipulant que les caractéristiques statistiques d’un échantillon aléatoire suffisamment grand convergent vers les caractéristiques de la population complète. Les compagnies d’assurance se basent sur ce principe afin d’évaluer le risque associé aux évènements assurés. Cependant, l’introduction d’une relation de dépendance entre les éléments de l’échantillon aléatoire peut changer drastiquement le profil de risque d’un échantillon par rapport à la population entière. Il est donc crucial de considérer l’effet de la dépendance lorsqu’on agrège des risques d’assurance, d’où l’intérêt porté à la modélisation de la dépendance en science actuarielle. Dans ce mémoire, on s’intéresse à la modélisation de la dépendance à l’intérieur d’un portefeuille de risques dans le cas où une variable aléatoire (v.a.) mélange introduit de la dépendance entre les différents risques. Après avoir introduit l’utilisation des mélanges exponentiels dans la modélisation du risque en actuariat, on démontre comment cette construction par mélange nous permet de définir les copules Archimédiennes, un outil puissant pour la modélisation de la dépendance. Dans un premier temps, on démontre comment il est possible d’approximer une copule Archimédienne construite par mélange continu par une copule construite par mélange discret. Puis, nous dérivons des expressions explicites pour certaines mesures d’intérêt du risque agrégé. Nous développons une méthode de calcul analytique pour évaluer la distribution d’une somme de risques aléatoires d’un portefeuille sujet à une telle structure de dépendance. On applique enfin ces résultats à des problèmes d’agrégation, d’allocation du capital et de théorie de la ruine. Finalement, une extension est faite aux copules Archimédiennes hiérarchiques, une généralisation de la dépendance par mélange commun où il existe de la dépendance entre les risques à plus d’un niveau. / The law of large numbers, which states that statistical characteristics of a random sample will converge to the characteristics of the whole population, is the foundation of the insurance industry. Insurance companies rely on this principle to evaluate the risk of insured events. However, when we introduce dependencies between each component of the random sample, it may drastically affect the overall risk profile of the sample in comparison to the whole population. This is why it is essential to consider the effect of dependency when aggregating insurance risks from which stems the interest given to dependence modeling in actuarial science. In this thesis, we study dependence modeling in a portfolio of risks for which a mixture random variable (rv) introduces dependency. After introducing the use of exponential mixtures in actuarial risk modeling, we show how this mixture construction can define Archimedean copulas, a powerful tool for dependence modeling. First, we demonstrate how an Archimedean copula constructed via a continuous mixture can be approximated with a copula constructed by discrete mixture. Then, we derive explicit expressions for a few quantities related to the aggregated risk. The common mixture representation of Archimedean copulas is then at the basis of a computational strategy proposed to compute the distribution of the sum of risks in a general setup. Such results are then used to investigate risk models with respect to aggregation, capital allocation and ruin problems. Finally, we discuss an extension to nested Archimedean copulas, a general case of dependency via common mixture including different levels of dependency. / Résumé en espagnol
|
29 |
Sélection de copules archimédiennes dans un modèle semi-paramétriqueKhadraoui, Lobna 05 July 2018 (has links)
Ce travail considère un modèle linéaire semi-paramétrique dont les erreurs sont modélisées par une copule choisie parmi la famille archimédienne ou bien la copule normale. La modélisation des erreurs par une copule apporte une flexibilité et permet de caractériser la structure de dépendance d’une manière simple et efficace. La simplicité réside dans le fait qu’un seul paramètre α contrôle le degré de dépendance présent dans les données. L’efficacité réside dans le fait que ce modèle semi-paramétrique permet de lever des hypothèses standards souvent rencontrées en statistique appliquée à savoir la normalité et l’indépendance. Après une mise en œuvre du modèle basée sur une copule nous avons proposé une étude théorique du comportement asymptotique de l’estimateur du paramètre de dépendance α en montrant sa convergence et sa normalité asymptotique sous des hypothèses classiques de régularité. L’estimation des paramètres du modèle a été réalisée en maximisant une pseudo-vraisemblance. La sélection de la meilleure copule pour un jeu de données a été faite à l’aide du critère d’Akaike. Une comparaison avec le critère de la validation croisée a été proposée également. Enfin, une étude numérique sur des jeux de données simulés et réels a été proposée dans la sélection. / This work considers a semi-parametric linear model with error terms modeled by a copula chosen from the Archimedean family or the normal copula. The modeling of errors by a copula provides flexibility and makes it possible to characterize the dependency structure in a simple and effective manner. The simplicity lies in the fact that a single parameter α controls the degree of dependency present in the data. The efficiency is in the fact that this semi-parametric model weakens standard assumptions often encountered in applied statistics namely normality and independence. After an implementation of the model based on a copula we proposed a theoretical study on the asymptotic behavior of the estimator of the dependence parameter α by showing its consistency and its asymptotic normality under classical assumptions of regularity. Estimation of the model parameters is performed by maximizing a pseudo-likelihood. The selection of the best copula that fits the data for each case is based on the Akaike selection criterion. A comparison with the criterion of cross-validation is presented as well. Finally, a numerical study on simulated and real data sets is proposed.
|
30 |
Les copules en finance : analyse qualitative et quantitative de l'expansion de cette théorieBourdeau-Brien, Michaël 12 April 2018 (has links)
Le terme « copula » utilisé dans le moteur de recherche Google produisait 1 130 000 résultats en janvier 2007. Dans ce mémoire, nous cherchons à analyser cet intérêt phénoménal pour les copules. Notre démarche est à la fois qualitative en terme d'analyse de l'évolution des domaines de recherche et quantitative en terme de production d'articles. Une attention particulière est apportée à la statistique, où s'est d'abord développée la théorie, et à la finance qui semble être devenue un domaine privilégié d'application. L'analyse s'appuie sur une base de données exhaustive de 871 documents de travail et articles qui nous permet d'identifier les principaux champs de recherche, les auteurs les plus prolifiques, ainsi que les revues qui publient le plus d'articles. Nous constatons que l'utilisation des copules en finance ne semble pas démesurée et qu'elle s'appuie solidement sur les travaux séminaux de Paul Embrechts et de ses collaborateurs. / The term "copula" used in the search engine Google produced 1,310,000 results in January 2007. In this Master's thesis, we seek to analyze this phenomenal interest for copulas. Our approach is at the same time qualitative in terms of analysis of the evolution and quantitative in terms of production of articles. Special attention is given to Statistics where the theory was initially developed, and to Finance which seems to have become a privileged field of application. The analysis is based on an exhaustive database of 871 working papers and articles printed in scientific journals which allows us to describe the evolution of the number of publications and identify the most popular fields of research, the most prolific authors, as well as the journals that published the largest number of articles. We note that the use of copulas in finance does not seem disproportionate and that it is firmly based on the seminal work of Paul Embrechts and his collaborators.
|
Page generated in 0.113 seconds