Return to search

Contribution à la classification de variables dans les modèles de régression en grande dimension / Contribution to variable clusteringin high dimensional linear regression models

Cette thèse propose une contribution originale au domaine de la classification de variables en régression linéaire. Cette contribution se base sur une modélisation hiérarchique des coefficients de régression. Cette modélisation permet de considérer ces derniers comme des variables aléatoires distribuées selon un mélange de lois Gaussiennes ayant des centres différents mais des variances égales. Nous montrons dans cette thèse que l'algorithme EM, communément utilisé pour estimer les paramètres d'un modèle hiérarchique ne peut s'appliquer. En effet, l'étape E de l'algorithme n'est pas explicite pour notre modèle.Nous avons donc proposé une approche plus efficace pour l'estimation des paramètres grâce à l'utilisation de l'algorithme SEM-Gibbs. En plus de cette amélioration computationnelle, nous avons introduit une contrainte dans le modèle pour permettre d'effectuer une sélection de variables simultanément. Notre modèle présente de très bonnes qualités prédictives relativement aux approches classiques pour la réduction de la dimension en régression linéaire. Cette thèse présente aussi une extension de notre méthodologie dans le cadre de la régression Probit pour données binaires. Notre modèle modèle a de plus été généralisé en relâchant l'hypothèse de l'égalité des variances pour les composantes du mélange Gaussien. Les performances de ce modèle généralisé ont été comparées à celles du modèle initial à travers différents scénarios de simulations. Ce travail de recherche a conduit au développement du package R clere. Ce dernier package met en œuvre tous les algorithmes décrits dans cette thèse. / We proposed in this thesis an original contribution to the field of variable clustering in linear regression through a model-based approach. This contribution was made via a hierarchical modeling of the regression coefficients as random variables drawn from a mixture of Gaussian distributions with equal variances. Parameter estimation in the proposed model was shown to be challenging since the classical EM algorithm could not apply. We then developped a more efficient algorithm for parameter estimation, through the use of the SEM-Gibbs algorithm. Along with this computational improvement, we also enhanced our model to allow variable selection. Given the good predictive performances of the CLERE method compared to standard techniques for dimension reduction, we considred an extension of the latter to binary response data. This extension was studied in the context of Probit regression. We generalized our model by relaxing the assumption of equal variance for the components in the mixture of Gaussians. The performances of this generalization were compared to those of the initial model under different scenarios on simulated data. This research led to the development of the R package clere which implements most of the algorithms described in this thesis.

Identiferoai:union.ndltd.org:theses.fr/2014LIL10028
Date28 May 2014
CreatorsYengo, Loïc
ContributorsLille 1, Biernacki, Christophe, Jacques, Julien
Source SetsDépôt national des thèses électroniques françaises
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0024 seconds