Spelling suggestions: "subject:"sélection dess variables"" "subject:"sélection deus variables""
1 |
Contributions à la sélection des variables en statistique multidimensionnelle et fonctionnelle / Contributions to the variable selection in multidimensional and functional statisticsMbina Mbina, Alban 28 October 2017 (has links)
Cette thèse porte sur la sélection des variables dans les modèles de régression linéaires multidimensionnels et les modèles de régression linéaires fonctionnels. Plus précisément, nous proposons trois nouvelles approches de sélection de variables qui généralisent des méthodes existantes dans la littérature. La première méthode permet de sélectionner des variables aléatoires continues dans un modèle linéaire multidimensionnel. Cette approche généralise celle de NKIET (2001) obtenue dans le cas d'un modèle linéaire unidimensionnel. Une étude comparative, par simulation, basée sur le calcul de la perte de prédiction montre que notre méthode est meilleure à celle de An et al. (2013). La deuxième approche propose une nouvelle méthode de sélection des variables mixtes (mélange de variables discrètes et de variables continues) en analyse discriminante pour plus de deux groupes. Cette méthode est basée sur la généralisation dans le cadre mixte de l'approche de NKIET (2012) obtenue dans le cas de l'analyse discriminante de plus de deux groupes. Une étude comparative par simulation montre, à partir du taux de bon classement que cette méthode a les mêmes performances que celle de MAHAT et al. (2007) dans le cas de deux groupes. Enfin, nous proposons dans la troisième approche une méthode de sélection de variables dans un modèle linéaire fonctionnel additif. Pour cela, nous considérons un modèle de régression d'une variable aléatoire réelle sur une somme de variables aléatoires fonctionnelles. En utilisant la distance de Hausdorff, qui mesure l'éloignement entre deux ensembles, nous montrons dans un exemple par simulation, une illustration de notre approche. / This thesis focuses on variables selection on linear models and additif functional linear model. More precisely we propose three variables selection methods. The first one is concerned with the selection continuous variables of multidimentional linear model. The comparative study based on prediction loss shows that our method is beter to method of An et al. (2013) Secondly, we propose a new selection method of mixed variables (mixing of discretes and continuous variables). This method is based on generalization in the mixed framwork of NKIET (2012) method, more precisely, is based on a generalization of linear canonical invariance criterion to the framework of discrimination with mixed variables. A comparative study based on the rate of good classification show that our method is equivalente to the method of MAHAT et al. (2007) in the case of two groups. In the third method, we propose an approach of variables selection on an additive functional linear model. A simulations study shows from Hausdorff distance an illustration of our approach.
|
2 |
Prévision de la défaillance et réseaux de neurones : l'apport des méthodes numériques de sélection de variablesDu Jardin, Philippe 15 December 2007 (has links) (PDF)
Les hypothèses qui sous-tendent les modèles de prédiction de la défaillance d'entreprise ont conduit leurs auteurs à privilégier comme méthodes d'élaboration, celles issues de la statistique et de l'analyse de données. Parmi toutes les méthodes employées – analyse discriminante, régression logistique, arbre de décision, etc. – les réseaux de neurones occupent une place privilégiée depuis une vingtaine d'années en raison de leurs propriétés mathématiques intrinsèques, mais aussi à cause des caractéristiques spécifiques qu'ils confèrent aux modèles. Pour autant, la performance d'un modèle numérique, c'est-à-dire sa capacité prédictive, ne dépend pas simplement de la famille de méthode qui l'a produit. Elle dépend des données employées pour son ajustement. Or, les travaux de recherche réalisés jusqu'à présent se sont appuyés essentiellement sur des variables de convenance, choisies parce qu'elles sont présentes dans les échantillons retenus ou parce qu'elles correspondent à des indicateurs traditionnels associés à la « santé financière » d'une entreprise. L'objet de ce travail doctoral s'inscrit dans cette perspective. Il vise à montrer en quoi les méthodes de sélection de variables adaptées aux réseaux de neurones, fondés sur des heuristiques d'énumération, offrent une alternative utile aux choix arbitraires de ces dernières ; ils permettent d'améliorer le degré de précision dans la prévision d'une défaillance et, grâce à une détection des variables pertinentes, d'approfondir la connaissance du problème traité.
|
3 |
Sélection de variables pour la classification non supervisée par mélanges gaussiens. Application à l'étude de données transcriptomes.Maugis, Cathy 21 November 2008 (has links) (PDF)
Nous nous intéressons à la sélection de variables en classification non supervisée par mélanges gaussiens. Ces travaux sont en particulier motivés par la classification de gènes à partir de données transcriptomes. Dans les deux parties de cette thèse, le problème est ramené à celui de la sélection de modèles.<br />Dans la première partie, le modèle proposé, généralisant celui de Raftery et Dean (2006) permet de spécifier le rôle des variables vis-à-vis du processus de classification. Ainsi les variables non significatives peuvent être dépendantes d'une partie des variables retenues pour la classification. Ces modèles sont comparés grâce à un critère de type BIC. Leur identifiabilité est établie et la consistance du critère est démontrée sous des conditions de régularité. En pratique, le statut des variables est obtenu grâce à un algorithme imbriquant deux algorithmes descendants de sélection de variables pour la classification et pour la régression linéaire. L'intérêt de cette procédure est en particulier illustré sur des données transcriptomes. Une amélioration de la modélisation du rôle des variables, consistant à répartir les variables déclarées non significatives entre celles dépendantes et celles indépendantes des variables significatives pour la classification, est ensuite proposée pour pallier une surpénalisation de certains modèles. Enfin, la technologie des puces à ADN engendrant de nombreuses données manquantes, une extension de notre procédure tenant compte de l'existence de ces valeurs manquantes est suggérée, évitant leur<br />estimation préalable.<br />Dans la seconde partie, des mélanges gaussiens de formes spécifiques sont considérés et un critère pénalisé non asymptotique est proposé pour sélectionner simultanément le nombre de composantes du mélange et l'ensemble des variables pertinentes pour la classification. Un théorème général de sélection de modèles pour l'estimation de densités par maximum de vraisemblance, proposé par Massart (2007), est utilisé pour déterminer la forme de la pénalité. Ce théorème nécessite le contrôle de l'entropie à crochets des familles de mélanges gaussiens multidimensionnels étudiées. Ce critère dépendant de constantes multiplicatives inconnues, l'heuristique dite "de la pente" est mise en oeuvre pour permettre une utilisation effective de ce critère.
|
4 |
Class-Add, une procédure de sélection de variables basée sur une troncature k-additive de l'information mutuelle et sur une classification ascendante hiérarchique en pré-traitementDaviet, Hélène 11 March 2009 (has links) (PDF)
Class-Add, une procédure de sélection de variables basée sur une troncature k-additive de l'information mutuelle et sur une classification ascendante hiérarchique en pré-traitement Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Sed non risus. Suspendisse lectus tortor, dignissim sit amet, adipiscing nec, ultricies sed, dolor. Cras elementum ultrices diam. Maecenas ligula massa, varius a, semper congue, euismod non, mi. Proin porttitor, orci nec nonummy molestie, enim est eleifend mi, non fermentum diam nisl sit amet erat. Duis semper. Duis arcu massa, scelerisque vitae, consequat in, pretium a, enim. Pellentesque congue. Ut in risus volutpat libero pharetra tempor. Cras vestibulum bibendum augue. Praesent egestas leo in pede. Praesent blandit odio eu enim. Pellentesque sed dui ut augue blandit sodales
|
5 |
Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation géniqueHaury, Anne-Claire 14 December 2012 (has links) (PDF)
De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large.
|
6 |
Évaluation de modèles pronostiques issus de l'analyse du<br />transcriptomeTruntzer, Caroline 08 June 2007 (has links) (PDF)
L'enjeu de l'étude du transcriptome est de proposer de nouveaux biomarqueurs pronostiques. Cette<br />étude soulève cependant de nombreuses questions statistiques dues à l'analyse simultanée de l'expression<br />de milliers de gènes pour un nombre restreint de patients. Nous nous sommes intéressés<br />à deux aspects de l'évaluation des modèles pronostiques issus de l'analyse du transcriptome. Dans<br />un premier temps, l'utilisation complémentaire de jeux de données simulés et publics nous a permis<br />de montrer que le choix de la méthode d'analyse la plus adaptée repose sur la manière dont ses<br />propriétés théoriques s'adaptent à la structure des données. Cette réflexion a été appliquée aux<br />analyses discriminante et inter-groupes. Dans un second temps, des simulations nous ont permis<br />d'estimer les contributions respectives des variables clinico-biologiques classiques et transcriptomiques<br />dans des modèles de survie. Les paramètres associés à la surestimation de la contribution<br />des biopuces ont été identifiés.
|
7 |
Détection et caractérisation des interactions dans les maladies complexesSt-Onge, Pascal January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
8 |
Quelques questions de sélection de variables autour de l'estimateur LASSOHebiri, Mohamed 30 June 2009 (has links) (PDF)
Le problème général étudié dans cette thèse est celui de la régression linéaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés pénalisés par la norme ℓ1 des coefficients, connu sous le nom de LASSO. Les contributions de la thèse portent sur l'étude de variantes de l'estimateur LASSO pour prendre en compte soit des informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la définition de l'estimateur LASSO. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotique ; nous prouvons notamment que les estimateurs construits vérifient des Inégalités de Sparsité Oracles. Ces inégalités ont pour particularité de dépendre du nombre de composantes non-nulles du paramètre cible. Un contrôle sur la probabilité d'erreur d'estimation du support du paramètre de régression est également établi. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.
|
9 |
Analyse statistique des données issues des biopuces à ADNPeyre, Julie 20 September 2005 (has links) (PDF)
Cette thèse est consacrée à l'analyse statistique des données issues des biopuces à ADN. Nous nous intéressons ici à trois problématiques liées aux données du transcriptôme.<br /><br /> Dans un premier chapitre, nous étudions le problème de la normalisation des données dont l'objectif est d'éliminer les variations parasites entre les échantillons des populations pour ne conserver que les variations expliquées par les phénomènes biologiques. Nous présentons plusieurs méthodes existantes pour lesquelles nous proposons des améliorations. Pour guider le choix d'une méthode de normalisation, une méthode de simulation de données de biopuces est mise au point.<br /><br /> Dans un deuxième chapitre, nous abordons le problème de la détection de gènes différentiellement exprimés entre deux séries d'expériences. On se ramène ici à un problème de test d'hypothèses multiples. Plusieurs approches sont envisagées : sélection de modèles et pénalisation, méthode FDR basée sur une décomposition en ondelettes des statistiques de test ou encore seuillage bayésien.<br /> <br /> Dans le dernier chapitre, nous considérons les problèmes de classification supervisée pour les données de biopuces. Pour remédier au problème du "fléau de la dimension", nous avons développé une méthode semi-paramétrique de réduction de dimension, basée sur la maximisation d'un critère de vraisemblance locale dans les modèles linéaires généralisés en indice simple. L'étape de réduction de dimension est alors suivie d'une étape de régression par polynômes locaux pour effectuer la classification supervisée des individus considérés.
|
10 |
SELECTION DE VARIABLES POUR LA DISCRIMINATION EN GRANDE DIMENSION ET CLASSIFICATION DE DONNEES FONCTIONNELLESTuleau, Christine 05 December 2005 (has links) (PDF)
Cette thèse s'inscrit dans le cadre de la statistique non paramétrique et porte sur la classification et la discrimination en grande dimension, et plus particulièrement sur la sélection de variables. Une première partie traite de la sélection de variables à travers CART, dans un cadre de régression et de classification binaire. La procédure exhaustive développée s'appuie sur le principe de la sélection de modèle qui permet d'obtenir des inégalités ``oracle'' et de réaliser la sélection de variables par contraste pénalisé. Une seconde partie est motivée par un problème industriel. Il s'agit de déterminer parmi les signaux temporels, mesurés au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis d'identifier les pages temporelles responsables de cette pertinence. La démarche adoptée s'articule autour du prétraitement des signaux, de la réduction de la dimension par projection dans une base d'ondelettes commune, et de la sélection de variables en mêlant CART et une stratégie pas à pas. Une dernière partie aborde le thème de la classification de données fonctionnelles au moyen des k-plus proches voisins. La procédure consiste à appliquer les k-plus proches voisins sur les coordonnées de la projection des données dans un espace fini dimensionnel. Cette procédure implique de déterminer simultanément la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version légèrement pénalisée sont considérées théoriquement. Un travail sur données réelles et simulées semble montrer qu'un faible terme de pénalité stabilise la sélection en conservant de bonnes performances.
|
Page generated in 0.1095 seconds