Global ETD Search

311	Identification de biomarqueurs prédictifs de la survie et de l'effet du traitement dans un contexte de données de grande dimension / Identification of biomarkers predicting the outcome and the treatment effect in presence of high-dimensional data Ternes, Nils 05 October 2016 (has links) Avec la révolution récente de la génomique et la médecine stratifiée, le développement de signatures moléculaires devient de plus en plus important pour prédire le pronostic (biomarqueurs pronostiques) ou l’effet d’un traitement (biomarqueurs prédictifs) de chaque patient. Cependant, la grande quantité d’information disponible rend la découverte de faux positifs de plus en plus fréquente dans la recherche biomédicale. La présence de données de grande dimension (nombre de biomarqueurs ≫ taille d’échantillon) soulève de nombreux défis statistiques tels que la non-identifiabilité des modèles, l’instabilité des biomarqueurs sélectionnés ou encore la multiplicité des tests.L’objectif de cette thèse a été de proposer et d’évaluer des méthodes statistiques pour l’identification de ces biomarqueurs et l’élaboration d’une prédiction individuelle des probabilités de survie pour des nouveaux patients à partir d’un modèle de régression de Cox. Pour l’identification de biomarqueurs en présence de données de grande dimension, la régression pénalisée lasso est très largement utilisée. Dans le cas de biomarqueurs pronostiques, une extension empirique de cette pénalisation a été proposée permettant d’être plus restrictif sur le choix du paramètre λ dans le but de sélectionner moins de faux positifs. Pour les biomarqueurs prédictifs, l’intérêt s’est porté sur les interactions entre le traitement et les biomarqueurs dans le contexte d’un essai clinique randomisé. Douze approches permettant de les identifier ont été évaluées telles que le lasso (standard, adaptatif, groupé ou encore ridge+lasso), le boosting, la réduction de dimension des effets propres et un modèle implémentant les effets pronostiques par bras. Enfin, à partir d’un modèle de prédiction pénalisé, différentes stratégies ont été évaluées pour obtenir une prédiction individuelle pour un nouveau patient accompagnée d’un intervalle de confiance, tout en évitant un éventuel surapprentissage du modèle. La performance des approches ont été évaluées au travers d’études de simulation proposant des scénarios nuls et alternatifs. Ces méthodes ont également été illustrées sur différents jeux de données, contenant des données d’expression de gènes dans le cancer du sein. / With the recent revolution in genomics and in stratified medicine, the development of molecular signatures is becoming more and more important for predicting the prognosis (prognostic biomarkers) and the treatment effect (predictive biomarkers) of each patient. However, the large quantity of information has rendered false positives more and more frequent in biomedical research. The high-dimensional space (i.e. number of biomarkers ≫ sample size) leads to several statistical challenges such as the identifiability of the models, the instability of the selected coefficients or the multiple testing issue.The aim of this thesis was to propose and evaluate statistical methods for the identification of these biomarkers and the individual predicted survival probability for new patients, in the context of the Cox regression model. For variable selection in a high-dimensional setting, the lasso penalty is commonly used. In the prognostic setting, an empirical extension of the lasso penalty has been proposed to be more stringent on the estimation of the tuning parameter λ in order to select less false positives. In the predictive setting, focus has been given to the biomarker-by-treatment interactions in the setting of a randomized clinical trial. Twelve approaches have been proposed for selecting these interactions such as lasso (standard, adaptive, grouped or ridge+lasso), boosting, dimension reduction of the main effects and a model incorporating arm-specific biomarker effects. Finally, several strategies were studied to obtain an individual survival prediction with a corresponding confidence interval for a future patient from a penalized regression model, while limiting the potential overfit.The performance of the approaches was evaluated through simulation studies combining null and alternative scenarios. The methods were also illustrated in several data sets containing gene expression data in breast cancer. Médecine stratifiée Données de grande dimension Régression pénalisée Biomarqueurs pronostiques Biomarqueurs prédictifs Prédiction individuelle Stratified medicine High-Dimensional data Penalized regression Prognostic biomarkers Predictive biomarkers Individual prediction
312	Prediction of the transaction confirmation time in Ethereum Blockchain Singh, Harsh Jot 08 1900 (has links) La blockchain propose un système d'enregistrement décentralisé, immuable et transparent. Elle offre un réseau de nœuds sans entité de gouvernance centralisée, ce qui la rend "indéchiffrable" et donc plus sûr que le système d'enregistrement centralisé sur papier ou centralisé telles que les banques. L’approche traditionnelle basée sur l’enregistrement ne fonctionne pas bien avec les relations numériques où les données changent constamment. Contrairement aux canaux traditionnels, régis par des entités centralisées, blockchain offre à ses utilisateurs un certain niveau d'anonymat en leur permettant d'interagir sans divulguer leur identité personnelle et en leur permettant de gagner la confiance sans passer par une entité tierce. En raison des caractéristiques susmentionnées de la blockchain, de plus en plus d'utilisateurs dans le monde sont enclins à effectuer une transaction numérique via blockchain plutôt que par des canaux rudimentaires. Par conséquent, nous devons de toute urgence mieux comprendre comment ces opérations sont gérées par la blockchain et combien de temps cela prend à un nœud du réseau pour confirmer une transaction et l’ajouter au réseau de la blockchain. Dans cette thèse, nous visons à introduire une nouvelle approche qui permettrait d'estimer le temps il faudrait à un nœud de la blockchain Ethereum pour accepter et confirmer une transaction sur un bloc tout en utilisant l'apprentissage automatique. Nous explorons deux des approches les plus fondamentales de l’apprentissage automatique, soit la classification et la régression, afin de déterminer lequel des deux offrirait l’outil le plus efficace pour effectuer la prévision du temps de confirmation dans la blockchain Ethereum. Nous explorons le classificateur Naïve Bayes, le classificateur Random Forest et le classificateur Multilayer Perceptron pour l’approche de la classification. Comme la plupart des transactions sur Ethereum sont confirmées dans le délai de confirmation moyen (15 secondes) de deux confirmations de bloc, nous discutons également des moyens pour résoudre le problème asymétrique du jeu de données rencontré avec l’approche de la classification. Nous visons également à comparer la précision prédictive de deux modèles de régression d’apprentissage automatique, soit le Random Forest Regressor et le Multilayer Perceptron, par rapport à des modèles de régression statistique, précédemment proposés, avec un critère d’évaluation défini, afin de déterminer si l’apprentissage automatique offre un modèle prédictif plus précis que les modèles statistiques conventionnels. / Blockchain offers a decentralized, immutable, transparent system of records. It offers a peer-to-peer network of nodes with no centralised governing entity making it ‘unhackable’ and therefore, more secure than the traditional paper based or centralised system of records like banks etc. While there are certain advantages to the paper based recording approach, it does not work well with digital relationships where the data is in constant flux. Unlike traditional channels, governed by centralized entities, blockchain offers its users a certain level of anonymity by providing capabilities to interact without disclosing their personal identities and allows them to build trust without a third-party governing entity. Due to the aforementioned characteristics of blockchain, more and more users around the globe are inclined towards making a digital transaction via blockchain than via rudimentary channels. Therefore, there is a dire need for us to gain insight on how these transactions are processed by the blockchain and how much time it may take for a peer to confirm a transaction and add it to the blockchain network. In this thesis, we aim to introduce a novel approach that would allow one to estimate the time (in block time or otherwise) it would take for Ethereum Blockchain to accept and confirm a transaction to a block using machine learning. We explore two of the most fundamental machine learning approaches, i.e., Classification and Regression in order to determine which of the two would be more accurate to make confirmation time prediction in the Ethereum blockchain. More specifically, we explore Naïve Bayes classifier, Random Forest classifier and Multilayer Perceptron classifier for the classification approach. Since most transactions in the network are confirmed well within the average confirmation time of two block confirmations or 15 seconds, we also discuss ways to tackle the skewed dataset problem encountered in case of the classification approach. We also aim to compare the predictive accuracy of two machine learning regression models- Random Forest Regressor and Multilayer Perceptron against previously proposed statistical regression models under a set evaluation criterion; the objective is to determine whether machine learning offers a more accurate predictive model than conventional statistical models. Machine Learning Ethereum Blockchain Regression Classification Random Forest Naive Bayes Multilayer Perceptron Transaction Apprentissage Automatique Régression
313	Worldwide variations in sex ratio of cancer incidence : temporal and geographic patterns Raza, Syed-Ahsan 04 1900 (has links) No description available. Cancer Surveillance Mixed effect models Registries Registres Incidence Régression Modèles d'effets mixtes Autocorrélations spatiales Sex Ratios Worldwide Spatial autocorrelations
314	Analyse des leviers : effets de colinéarité et hiérarchisation des impacts dans les études de marché et sociales / Driver Analysis : consequenses of multicollinearity quantification of relative impact of drivers in market research applications. Wallard, Henri 18 December 2015 (has links) La colinéarité rend difficile l’utilisation de la régression linéaire pour estimer l’importance des variables dans les études de marché. D’autres approches ont donc été utilisées.Concernant la décomposition de la variance expliquée, une démonstration de l’égalité entre les méthodes lmg-Shapley et celle de Johnson avec deux prédicteurs est proposée. Il a aussi été montré que la méthode de Fabbris est différente des méthodes de Genizi et Johnson et que les CAR scores de deux prédicteurs ne s’égalisent pas lorsque leur corrélation tend vers 1.Une méthode nouvelle, weifila (weighted first last) a été définie et publiée en 2015.L’estimation de l’importance des variables avec les forêts aléatoires a également été analysée et les résultats montrent une bonne prise en compte des non-linéarités.Avec les réseaux bayésiens, la multiplicité des solutions et le recours à des restrictions et choix d’expert militent pour utilisation prudente même si les outils disponibles permettent une aide dans le choix des modèles.Le recours à weifila ou aux forêts aléatoires est recommandé plutôt que lmg-Shapley sans négliger les approches structurelles et les modèles conceptuels.Mots clés :régression, décomposition de la variance, importance, valeur de Shapley, forêts aléatoires, réseaux bayésiens. / AbstractLinear regression is used in Market Research but faces difficulties due to multicollinearity. Other methods have been considered.A demonstration of the equality between lmg-Shapley and and Johnson methods for Variance Decomposition has been proposed. Also this research has shown that the decomposition proposed by Fabbris is not identical to those proposed by Genizi and Johnson, and that the CAR scores of two predictors do not equalize when their correlation tends towards 1. A new method, weifila (weighted first last) has been proposed and published in 2015.Also we have shown that permutation importance using Random Forest enables to take into account non linear relationships and deserves broader usage in Marketing Research.Regarding Bayesian Networks, there are multiple solutions available and expert driven restrictions and decisions support the recommendation to be careful in their usage and presentation, even if they allow to explore possible structures and make simulations.In the end, weifila or random forests are recommended instead of lmg-Shapley knowing that the benefit of structural and conceptual models should not be underestimated.Keywords :Linear regression, Variable Importance, Shapley Value, Random Forests, Bayesian Networks Régression Décomposition de la variance Forêts aléatoires Valeur de Shapley Réseaux bayésiens Leviers Regression Variance decomposition Random forests Shapley Value Bayesian networks Driver analysis 004
315	Régression linéaire et apprentissage : contributions aux méthodes de régularisation et d’agrégation / Linear regression and learning : contributions to regularization and aggregation methods Deswarte, Raphaël 27 September 2018 (has links) Cette thèse aborde le sujet de la régression linéaire dans différents cadres, liés notamment à l’apprentissage. Les deux premiers chapitres présentent le contexte des travaux, leurs apports et les outils mathématiques utilisés. Le troisième chapitre est consacré à la construction d’une fonction de régularisation optimale, permettant par exemple d’améliorer sur le plan théorique la régularisation de l’estimateur LASSO. Le quatrième chapitre présente, dans le domaine de l’optimisation convexe séquentielle, des accélérations d’un algorithme récent et prometteur, MetaGrad, et une conversion d’un cadre dit “séquentiel déterministe" vers un cadre dit “batch stochastique" pour cet algorithme. Le cinquième chapitre s’intéresse à des prévisions successives par intervalles, fondées sur l’agrégation de prédicteurs, sans retour d’expérience intermédiaire ni modélisation stochastique. Enfin, le sixième chapitre applique à un jeu de données pétrolières plusieurs méthodes d’agrégation, aboutissant à des prévisions ponctuelles court-terme et des intervalles de prévision long-terme. / This thesis tackles the topic of linear regression, within several frameworks, mainly linked to statistical learning. The first and second chapters present the context, the results and the mathematical tools of the manuscript. In the third chapter, we provide a way of building an optimal regularization function, improving for instance, in a theoretical way, the LASSO estimator. The fourth chapter presents, in the field of online convex optimization, speed-ups for a recent and promising algorithm, MetaGrad, and shows how to transfer its guarantees from a so-called “online deterministic setting" to a “stochastic batch setting". In the fifth chapter, we introduce a new method to forecast successive intervals by aggregating predictors, without intermediate feedback nor stochastic modeling. The sixth chapter applies several aggregation methods to an oil production dataset, forecasting short-term precise values and long-term intervals. Apprentissage Régression linéaire Régularisation Agrégation Processus empiriques Optimisation convexe séquentielle Learning Linear regression Regularization Aggregation Empirical processes Online convex optimization 519
316	Valorisation optimale asymptotique avec risque asymétrique et applications en finance / Asymptotic optimal pricing with asymmetric risk and applications in finance Santa brigida pimentel, Isaque 16 October 2018 (has links) Cette thèse est constituée de deux parties qui peuvent être lues indépendamment. Dans la première partie de la thèse, nous étudions des problèmes de couverture et de valorisation d’options liés à une mesure de risque. Notre approche principale est l’utilisation d’une fonction de risque asymétrique et d’un cadre asymptotique dans lequel nous obtenons des solutions optimales à travers des équations aux dérivées partielles (EDP) non-linéaires.Dans le premier chapitre, nous nous intéressons à la valorisation et la couverture des options européennes. Nous considérons le problème de l’optimisation du risque résiduel généré par une couverture à temps discret en présence d’un critère asymétrique de risque. Au lieu d'analyser le comportement asymptotique de la solution du problème discret associé, nous avons étudié la mesure asymétrique du risque résiduel intégré dans un cadre Markovian. Dans ce contexte, nous montrons l’existence de cette mesure de risque asymptotique. Ainsi, nous décrivons une stratégie de couverture asymptotiquement optimale via la solution d’une EDP totalement non-linéaire.Le deuxième chapitre est une application de cette méthode de couverture au problème de valorisation de la production d’une centrale. Puisque la centrale génère de coûts de maintenance qu’elle soit allumée ou non, nous nous sommes intéressés à la réduction du risque associé aux revenus incertains de cette centrale en se couvrant avec des contrats à terme. Nous avons étudié l’impact d’un coût de maintenance dépendant du prix d’électricité dans la stratégie couverture.Dans la seconde partie de la thèse, nous considérons plusieurs problèmes de contrôle liés à l'économie et la finance.Le troisième chapitre est dédié à l’étude d’une classe de problème du type McKean-Vlasov (MKV) avec bruit commun, appelée MKV polynomiale conditionnelle. Nous réduisons cette classe polynomiale par plongement de Markov à des problèmes de contrôle en dimension finie.Nous comparons trois techniques probabilistes différentes pour la résolution numérique du problème réduit: la quantification, la régression par randomisation du contrôle et la régression différée. Nous fournissons de nombreux exemples numériques, comme par exemple, la sélection de portefeuille avec incertitude sur une tendance du sous-jacent.Dans le quatrième chapitre, nous résolvons des équations de programmation dynamique associées à des valorisations financières sur le marché de l’énergie. Nous considérons qu’un modèle calibré pour les sous-jacents n’est pas disponible et qu’un petit échantillon obtenu des données historiques est accessible.En plus, dans ce contexte, nous supposons que les contrats à terme sont souvent gouvernés par des facteurs cachés modélisés par des processus de Markov. Nous proposons une méthode nonintrusive pour résoudre ces équations à travers les techniques de régression empirique en utilisant seulement l’historique du log du prix des contrats à terme observables. / This thesis is constituted by two parts that can be read independently.In the first part, we study several problems of hedging and pricing of options related to a risk measure. Our main approach is the use of an asymmetric risk function and an asymptotic framework in which we obtain optimal solutions through nonlinear partial differential equations (PDE).In the first chapter, we focus on pricing and hedging European options. We consider the optimization problem of the residual risk generated by a discrete-time hedging in the presence of an asymmetric risk criterion. Instead of analyzing the asymptotic behavior of the solution to the associated discrete problem, we study the integrated asymmetric measure of the residual risk in a Markovian framework. In this context, we show the existence of the asymptotic risk measure. Thus, we describe an asymptotically optimal hedging strategy via the solution to a fully nonlinear PDE.The second chapter is an application of the hedging method to the valuation problem of the power plant. Since the power plant generates maintenance costs whether it is on or off, we are interested in reducing the risk associated with its uncertain revenues by hedging with forwards contracts. We study the impact of a maintenance cost depending on the electricity price into the hedging strategy.In the second part, we consider several control problems associated with economy and finance.The third chapter is dedicated to the study of a McKean-Vlasov (MKV) problem class with common noise, called polynomial conditional MKV. We reduce this polynomial class by a Markov embedding to finite-dimensional control problems.We compare three different probabilistic techniques for numerical resolution of the reduced problem: quantization, control randomization and regress later.We provide numerous numerical examples, such as the selection of a portfolio under drift uncertainty.In the fourth chapter, we solve dynamic programming equations associated with financial valuations in the energy market. We consider that a calibrated underlying model is not available and that a limited sample of historical data is accessible.In this context, we suppose that forward contracts are governed by hidden factors modeled by Markov processes. We propose a non-intrusive method to solve these equations through empirical regression techniques using only the log price history of observable futures contracts. Risque asymétrique Optimalité asymptotique Régression empirique Marché d’électricité Asymmetric Risk Asymptotic optimality Nonlinear Partial Differential Equations Empirical regression Electricity market 332.015 118
317	Méthodes Non-Paramétriques de Post-Traitement des Prévisions d'Ensemble / Non-parametric Methods of post-processing for Ensemble Forecasting Taillardat, Maxime 11 December 2017 (has links) En prévision numérique du temps, les modèles de prévision d'ensemble sont devenus un outil incontournable pour quantifier l'incertitude des prévisions et fournir des prévisions probabilistes. Malheureusement, ces modèles ne sont pas parfaits et une correction simultanée de leur biais et de leur dispersion est nécessaire.Cette thèse présente de nouvelles méthodes de post-traitement statistique des prévisions d'ensemble. Celles-ci ont pour particularité d'être basées sur les forêts aléatoires.Contrairement à la plupart des techniques usuelles, ces méthodes non-paramétriques permettent de prendre en compte la dynamique non-linéaire de l'atmosphère.Elles permettent aussi d'ajouter des covariables (autres variables météorologiques, variables temporelles, géographiques...) facilement et sélectionnent elles-mêmes les prédicteurs les plus utiles dans la régression. De plus, nous ne faisons aucune hypothèse sur la distribution de la variable à traiter. Cette nouvelle approche surpasse les méthodes existantes pour des variables telles que la température et la vitesse du vent.Pour des variables reconnues comme difficiles à calibrer, telles que les précipitations sexti-horaires, des versions hybrides de nos techniques ont été créées. Nous montrons que ces versions hybrides (ainsi que nos versions originales) sont meilleures que les méthodes existantes. Elles amènent notamment une véritable valeur ajoutée pour les pluies extrêmes.La dernière partie de cette thèse concerne l'évaluation des prévisions d'ensemble pour les événements extrêmes. Nous avons montré quelques propriétés concernant le Continuous Ranked Probability Score (CRPS) pour les valeurs extrêmes. Nous avons aussi défini une nouvelle mesure combinant le CRPS et la théorie des valeurs extrêmes, dont nous examinons la cohérence sur une simulation ainsi que dans un cadre opérationnel.Les résultats de ce travail sont destinés à être insérés au sein de la chaîne de prévision et de vérification à Météo-France. / In numerical weather prediction, ensemble forecasts systems have become an essential tool to quantifyforecast uncertainty and to provide probabilistic forecasts. Unfortunately, these models are not perfect and a simultaneouscorrection of their bias and their dispersion is needed.This thesis presents new statistical post-processing methods for ensemble forecasting. These are based onrandom forests algorithms, which are non-parametric.Contrary to state of the art procedures, random forests can take into account non-linear features of atmospheric states. They easily allowthe addition of covariables (such as other weather variables, seasonal or geographic predictors) by a self-selection of the mostuseful predictors for the regression. Moreover, we do not make assumptions on the distribution of the variable of interest. This new approachoutperforms the existing methods for variables such as surface temperature and wind speed.For variables well-known to be tricky to calibrate, such as six-hours accumulated rainfall, hybrid versions of our techniqueshave been created. We show that these versions (and our original methods) are better than existing ones. Especially, they provideadded value for extreme precipitations.The last part of this thesis deals with the verification of ensemble forecasts for extreme events. We have shown several properties ofthe Continuous Ranked Probability Score (CRPS) for extreme values. We have also defined a new index combining the CRPS and the extremevalue theory, whose consistency is investigated on both simulations and real cases.The contributions of this work are intended to be inserted into the forecasting and verification chain at Météo-France. Météorologie Statistiques Prévision d'ensemble Régression quantile Forêts aléatoires Événements extrêmes Vérification Meteorology Statistics Ensemble forecasting Quantile regression Random forests Extreme events Verification 551.5
318	Correspondance entre régression par processus Gaussien et splines d'interpolation sous contraintes linéaires de type inégalité. Théorie et applications. / Correspondence between Gaussian process regression and interpolation splines under linear inequality constraints. Theory and applications Maatouk, Hassan 01 October 2015 (has links) On s'intéresse au problème d'interpolation d'une fonction numérique d'une ou plusieurs variables réelles lorsque qu'elle est connue pour satisfaire certaines propriétés comme, par exemple, la positivité, monotonie ou convexité. Deux méthodes d'interpolation sont étudiées. D'une part, une approche déterministe conduit à un problème d'interpolation optimale sous contraintes linéaires inégalité dans un Espace de Hilbert à Noyau Reproduisant (RKHS). D'autre part, une approche probabiliste considère le même problème comme un problème d'estimation d'une fonction dans un cadre bayésien. Plus précisément, on considère la Régression par Processus Gaussien ou Krigeage pour estimer la fonction à interpoler sous les contraintes linéaires de type inégalité en question. Cette deuxième approche permet également de construire des intervalles de confiance autour de la fonction estimée. Pour cela, on propose une méthode d'approximation qui consiste à approcher un processus gaussien quelconque par un processus gaussien fini-dimensionnel. Le problème de krigeage se ramène ainsi à la simulation d'un vecteur gaussien tronqué à un espace convexe. L'analyse asymptotique permet d'établir la convergence de la méthode et la correspondance entre les deux approches déterministeet probabiliste, c'est le résultat théorique de la thèse. Ce dernier est vu comme unegénéralisation de la correspondance établie par [Kimeldorf and Wahba, 1971] entre estimateur bayésien et spline d'interpolation. Enfin, une application réelle dans le domainede l'assurance (actuariat) pour estimer une courbe d'actualisation et des probabilités dedéfaut a été développée. / This thesis is dedicated to interpolation problems when the numerical function is known to satisfy some properties such as positivity, monotonicity or convexity. Two methods of interpolation are studied. The first one is deterministic and is based on convex optimization in a Reproducing Kernel Hilbert Space (RKHS). The second one is a Bayesian approach based on Gaussian Process Regression (GPR) or Kriging. By using a finite linear functional decomposition, we propose to approximate the original Gaussian process by a finite-dimensional Gaussian process such that conditional simulations satisfy all the inequality constraints. As a consequence, GPR is equivalent to the simulation of a truncated Gaussian vector to a convex set. The mode or Maximum A Posteriori is defined as a Bayesian estimator and prediction intervals are quantified by simulation. Convergence of the method is proved and the correspondence between the two methods is done. This can be seen as an extension of the correspondence established by [Kimeldorf and Wahba, 1971] between Bayesian estimation on stochastic process and smoothing by splines. Finally, a real application in insurance and finance is given to estimate a term-structure curve and default probabilities. Régression par Processus Gaussien Krigeage Estimation Bayésienne Splines Interpolation Contraintes Inégalité Quantification d'Incertitude Gaussien Process Regression Kriging Bayesian Estimation RKHS Splines Interpolation Inequality Constraints Uncertainty Quantification
319	Le lasso linéaire : une méthode pour des données de petites et grandes dimensions en régression linéaire Watts, Yan 04 1900 (has links) Dans ce mémoire, nous nous intéressons à une façon géométrique de voir la méthode du Lasso en régression linéaire. Le Lasso est une méthode qui, de façon simultanée, estime les coefficients associés aux prédicteurs et sélectionne les prédicteurs importants pour expliquer la variable réponse. Les coefficients sont calculés à l’aide d’algorithmes computationnels. Malgré ses vertus, la méthode du Lasso est forcée de sélectionner au maximum n variables lorsque nous nous situons en grande dimension (p > n). De plus, dans un groupe de variables corrélées, le Lasso sélectionne une variable “au hasard”, sans se soucier du choix de la variable. Pour adresser ces deux problèmes, nous allons nous tourner vers le Lasso Linéaire. Le vecteur réponse est alors vu comme le point focal de l’espace et tous les autres vecteurs de variables explicatives gravitent autour du vecteur réponse. Les angles formés entre le vecteur réponse et les variables explicatives sont supposés fixes et nous serviront de base pour construire la méthode. L’information contenue dans les variables explicatives est projetée sur le vecteur réponse. La théorie sur les modèles linéaires normaux nous permet d’utiliser les moindres carrés ordinaires (MCO) pour les coefficients du Lasso Linéaire. Le Lasso Linéaire (LL) s’effectue en deux étapes. Dans un premier temps, des variables sont écartées du modèle basé sur leur corrélation avec la variable réponse; le nombre de variables écartées (ou ordonnées) lors de cette étape dépend d’un paramètre d’ajustement γ. Par la suite, un critère d’exclusion basé sur la variance de la distribution de la variable réponse est introduit pour retirer (ou ordonner) les variables restantes. Une validation croisée répétée nous guide dans le choix du modèle final. Des simulations sont présentées pour étudier l’algorithme en fonction de différentes valeurs du paramètre d’ajustement γ. Des comparaisons sont effectuées entre le Lasso Linéaire et des méthodes compétitrices en petites dimensions (Ridge, Lasso, SCAD, etc.). Des améliorations dans l’implémentation de la méthode sont suggérées, par exemple l’utilisation de la règle du 1se nous permettant d’obtenir des modèles plus parcimonieux. Une implémentation de l’algorithme LL est fournie dans la fonction R intitulée linlasso, disponible au https://github.com/yanwatts/linlasso. / In this thesis, we are interested in a geometric way of looking at the Lasso method in the context of linear regression. The Lasso is a method that simultaneously estimates the coefficients associated with the predictors and selects the important predictors to explain the response variable. The coefficients are calculated using computational algorithms. Despite its virtues, the Lasso method is forced to select at most n variables when we are in highdimensional contexts (p > n). Moreover, in a group of correlated variables, the Lasso selects a variable “at random”, without caring about the choice of the variable. To address these two problems, we turn to the Linear Lasso. The response vector is then seen as the focal point of the space and all other explanatory variables vectors orbit around the response vector. The angles formed between the response vector and the explanatory variables are assumed to be fixed, and will be used as a basis for constructing the method. The information contained in the explanatory variables is projected onto the response vector. The theory of normal linear models allows us to use ordinary least squares (OLS) for the coefficients of the Linear Lasso. The Linear Lasso (LL) is performed in two steps. First, variables are dropped from the model based on their correlation with the response variable; the number of variables dropped (or ordered) in this step depends on a tuning parameter γ. Then, an exclusion criterion based on the variance of the distribution of the response variable is introduced to remove (or order) the remaining variables. A repeated cross-validation guides us in the choice of the final model. Simulations are presented to study the algorithm for different values of the tuning parameter γ. Comparisons are made between the Linear Lasso and competing methods in small dimensions (Ridge, Lasso, SCAD, etc.). Improvements in the implementation of the method are suggested, for example the use of the 1se rule allowing us to obtain more parsimonious models. An implementation of the LL algorithm is provided in the function R entitled linlasso available at https://github.com/yanwatts/linlasso. Régression linéaire Lasso moindres carrés ordinaires sélection de variables inférence grande dimension linear regression Lasso ordinary least squares variable selection inference high dimensionality Statistics / Statistiques (UMI : 0463)
320	FRM Financial Risk Meter Althof, Michael Gottfried 19 September 2022 (has links) Der Risikobegriff bezieht sich auf die Wahrscheinlichkeit eines Schadens aufgrund einer Gefährdungsexposition, in der Finanzwelt meist finanzielle Verluste. Viele Risiken der globalen Finanzwirtschaft sind unbekannt. „Wir wissen es, wenn wir es sehen“, um Potter Stewart (1964) zu paraphrasieren. Der Financial Risk Meter (FRM) soll Aufschluss über die Entstehung systemischer Risiken geben. Durch Verwendung von Quantilregressionstechniken ist der FRM nicht nur ein Maß für finanzielle Risiken. Er bietet durch seine Netzwerktopologie einen tiefen Einblick in die Spill-over-Effekte, die sich als systemische Risikoereignisse manifestieren können. Das FRM-Framework wird in verschiedenen Märkten und Regionen entwickelt. Die FRM-Daten werden für Risiko-Prognose sowie für Portfoliooptimierung genutzt. In Kapitel 1 wird der FRM vorgestellt und auf die Aktienmärkte in den USA und Europa, sowie auch auf die Zinsmärkte und Credit-Default-Swaps angewendet. Der FRM wird dann verwendet, um wirtschaftliche Rezessionen zu prognostizieren. In Kapitel 2 wird der FRM auf den Markt der Kryptowährungen angewendet, um das erste Risikomaß für diese neue Anlageklasse zu generieren. Die errechneten FRM-Daten zu Abhängigkeiten, Spillover-Effekten und Netzwerkaufbau werden dann verwendet, um Tail-Risk-optimierte Portfolios zu erstellen. Der Portfoliooptimierungsansatz wird in Kapitel 3 weitergeführt, in dem der FRM auf die sogenannten Emerging Markets (EM)-Finanzinstitute angewendet wird, mit zwei Zielen. Einerseits gibt der FRM für EM spezifische Spillover-Abhängigkeiten bei Tail-Risk-Ereignissen innerhalb von Sektoren von Finanzinstituten an, zeigt aber auch Abhängigkeiten zwischen den Ländern. Die FRM-Daten werden dann wieder mit Portfoliomanagementansätzen kombiniert. In Kapitel 4 entwickelt den FRM for China ist, eines der ersten systemischen Risikomaße in der Region, zeigt aber auch Methoden zur Erkennung von Spill-Over-Kanälen in Nachbarländer und zwischen Sektoren. / The concept of risk deals with the exposure to danger, in the world of finance the danger of financial losses. In a globalised financial economy, many risks are unknown. "We know it when we see it", to paraphrase Justice Potter Stewart (1964). The Financial Risk Meter (FRM) sheds light on the emergence of systemic risk. Using of quantile regression techniques, it is a meter for financial risk, and its network topology offers insight into the spill-over effects risking systemic risk events. In this thesis, the FRM framework in various markets and regions is developed and the FRM data is used for risk now- and forecasting, and for portfolio optimization approaches. In Chapter 1 the FRM is presented and applied to equity markets in the US and Europe, but also interest rate and credit-default swap markets. The FRM is then used to now-cast and predict economic recessions. In Chapter 2 the FRM is applied to cryptocurrencies, to generate the first risk meter in this nascent asset class. The generated FRM data concerning dependencies, spill-over effects and network set-up are then used to create tail-risk optimised portfolios. In Chapter 3 the FRM is applied to the global market Emerging Market (EM) financial institutions. The FRM for EM gives specific spill-over dependencies in tail-risk events within sectors of financial institutions, but also shows inter-country dependencies between the EM regions. The FRM data is then combined with portfolio management approaches to create tail-risk sensitive portfolios of EM Financial institutions with aim to minimize risk clusters in a portfolio context. In Chapter 4 the Financial Risk Meter for China is developed as the first systemic risk meter in the region, but also derives methods to detect spill-over channels to neighbouring countries within and between financial industry sectors. Quantilregression Netzwerktheorie Portfoliomanagement Risikomaß régression quantile gestion de portefeuille mesure de risque théorie des réseaux quantile regression network theory portfolio management risk measure 332 Finanzwirtschaft QK 620 ddc:332

Search results