Return to search

Le lasso linéaire : une méthode pour des données de petites et grandes dimensions en régression linéaire

Dans ce mémoire, nous nous intéressons à une façon géométrique de voir la méthode du
Lasso en régression linéaire. Le Lasso est une méthode qui, de façon simultanée, estime les
coefficients associés aux prédicteurs et sélectionne les prédicteurs importants pour expliquer
la variable réponse. Les coefficients sont calculés à l’aide d’algorithmes computationnels.
Malgré ses vertus, la méthode du Lasso est forcée de sélectionner au maximum n variables
lorsque nous nous situons en grande dimension (p > n). De plus, dans un groupe de variables
corrélées, le Lasso sélectionne une variable “au hasard”, sans se soucier du choix de la variable.

Pour adresser ces deux problèmes, nous allons nous tourner vers le Lasso Linéaire. Le
vecteur réponse est alors vu comme le point focal de l’espace et tous les autres vecteurs
de variables explicatives gravitent autour du vecteur réponse. Les angles formés entre le
vecteur réponse et les variables explicatives sont supposés fixes et nous serviront de base pour
construire la méthode. L’information contenue dans les variables explicatives est projetée
sur le vecteur réponse. La théorie sur les modèles linéaires normaux nous permet d’utiliser
les moindres carrés ordinaires (MCO) pour les coefficients du Lasso Linéaire.

Le Lasso Linéaire (LL) s’effectue en deux étapes. Dans un premier temps, des variables
sont écartées du modèle basé sur leur corrélation avec la variable réponse; le nombre de
variables écartées (ou ordonnées) lors de cette étape dépend d’un paramètre d’ajustement
γ. Par la suite, un critère d’exclusion basé sur la variance de la distribution de la variable
réponse est introduit pour retirer (ou ordonner) les variables restantes. Une validation croisée
répétée nous guide dans le choix du modèle final.

Des simulations sont présentées pour étudier l’algorithme en fonction de différentes valeurs
du paramètre d’ajustement γ. Des comparaisons sont effectuées entre le Lasso Linéaire
et des méthodes compétitrices en petites dimensions (Ridge, Lasso, SCAD, etc.). Des améliorations
dans l’implémentation de la méthode sont suggérées, par exemple l’utilisation de
la règle du 1se nous permettant d’obtenir des modèles plus parcimonieux. Une implémentation
de l’algorithme LL est fournie dans la fonction R intitulée linlasso, disponible au
https://github.com/yanwatts/linlasso. / In this thesis, we are interested in a geometric way of looking at the Lasso method in
the context of linear regression. The Lasso is a method that simultaneously estimates the
coefficients associated with the predictors and selects the important predictors to explain the
response variable. The coefficients are calculated using computational algorithms. Despite
its virtues, the Lasso method is forced to select at most n variables when we are in highdimensional
contexts (p > n). Moreover, in a group of correlated variables, the Lasso selects
a variable “at random”, without caring about the choice of the variable.
To address these two problems, we turn to the Linear Lasso. The response vector is then
seen as the focal point of the space and all other explanatory variables vectors orbit around
the response vector. The angles formed between the response vector and the explanatory
variables are assumed to be fixed, and will be used as a basis for constructing the method.
The information contained in the explanatory variables is projected onto the response vector.
The theory of normal linear models allows us to use ordinary least squares (OLS) for the
coefficients of the Linear Lasso.
The Linear Lasso (LL) is performed in two steps. First, variables are dropped from
the model based on their correlation with the response variable; the number of variables
dropped (or ordered) in this step depends on a tuning parameter γ. Then, an exclusion
criterion based on the variance of the distribution of the response variable is introduced
to remove (or order) the remaining variables. A repeated cross-validation guides us in the
choice of the final model.
Simulations are presented to study the algorithm for different values of the tuning parameter
γ. Comparisons are made between the Linear Lasso and competing methods in
small dimensions (Ridge, Lasso, SCAD, etc.). Improvements in the implementation of the
method are suggested, for example the use of the 1se rule allowing us to obtain more parsimonious
models. An implementation of the LL algorithm is provided in the function R
entitled linlasso available at https://github.com/yanwatts/linlasso.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32009
Date04 1900
CreatorsWatts, Yan
ContributorsBédard, Mylène
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0027 seconds