Spelling suggestions: "subject:"régression"" "subject:"régressions""
1 |
Réduction de dimension en régression logistique, application aux données actu-palu / Dimension reduction in logistic regression, application to actu-palu dataKwémou Djoukoué, Marius 29 September 2014 (has links)
Cette thèse est consacrée à la sélection de variables ou de modèles en régression logistique. Elle peut-être divisée en deux parties, une partie appliquée et une partie méthodologique. La partie appliquée porte sur l'analyse des données d'une grande enquête socio - épidémiologique dénommée actu-palu. Ces grandes enquêtes socio - épidémiologiques impliquent généralement un nombre considérable de variables explicatives. Le contexte est par nature dit de grande dimension. En raison du fléau de la dimension, le modèle de régression logistique n'est pas directement applicable. Nous procédons en deux étapes, une première étape de réduction du nombre de variables par les méthodes Lasso, Group Lasso et les forêts aléatoires. La deuxième étape consiste à appliquer le modèle logistique au sous-ensemble de variables sélectionné à la première étape. Ces méthodes ont permis de sélectionner les variables pertinentes pour l'identification des foyers à risque d'avoir un épisode fébrile chez un enfant de 2 à 10 ans à Dakar. La partie méthodologique, composée de deux sous-parties, porte sur l'établissement de propriétés techniques d'estimateurs dans le modèle de régression logistique non paramétrique. Ces estimateurs sont obtenus par maximum de vraisemblance pénalisé, dans un cas avec une pénalité de type Lasso ou Group Lasso et dans l'autre cas avec une pénalité de type 1 exposant 0. Dans un premier temps, nous proposons des versions pondérées des estimateurs Lasso et Group Lasso pour le modèle logistique non paramétrique. Nous établissons des inégalités oracles non asymptotiques pour ces estimateurs. Un deuxième ensemble de résultats vise à étendre le principe de sélection de modèle introduit par Birgé et Massart (2001) à la régression logistique. Cette sélection se fait via des critères du maximum de vraisemblance pénalisé. Nous proposons dans ce contexte des critères de sélection de modèle, et nous établissons des inégalités oracles non asymptotiques pour les estimateurs sélectionnés. La pénalité utilisée, dépendant uniquement des données, est calibrée suivant l'idée de l'heuristique de pente. Tous les résultats de la partie méthodologique sont illustrés par des études de simulations numériques. / This thesis is devoted to variables selection or model selection in logistic regression. The applied part focuses on the analysis of data from a large socioepidémiological survey, called actu-palu. These large socioepidemiological survey typically involve a considerable number of explanatory variables. This is well-known as high-dimensional setting. Due to the curse of dimensionality, logistic regression model is no longer reliable. We proceed in two steps, a first step of reducing the number of variables by the Lasso, Group Lasso ans random forests methods. The second step is to apply the logistic model to the sub-set of variables selected in the first step. These methods have helped to select relevant variables for the identification of households at risk of having febrile episode amongst children from 2 to 10 years old in Dakar. In the methodological part, as a first step, we propose weighted versions of Lasso and group Lasso estimators for nonparametric logistic model. We prove non asymptotic oracle inequalities for these estimators. Secondly we extend the model selection principle introduced by Birgé and Massart (2001) to logistic regression model. This selection is done using penalized macimum likelihood criteria. We propose in this context a completely data-driven criteria based on the slope heuristics. We prove non asymptotic oracle inequalities for selected estimators. The results of the methodological part are illustrated through simulation studies.
|
2 |
Statistical approaches to detect epistasis in genome wide association studies / Approches statistiques pour la détection d’épistasie dans les études d’associations pangénomiquesStanislas, Virginie 18 December 2017 (has links)
De nombreux travaux de recherche portent sur la détection et l’étude des interactions dans les études d’association pangénomique (GWAS). La plupart des méthodes proposées se concentrent principalement sur les interactions entre polymorphismes simples de l’ADN (SNPs), mais des stratégies de regroupement peuvent également être envisagées.Dans cette thèse, nous développons une approche originale pour la détection des interactions à l’échelle des gènes. De nouvelles variables représentant les interactions entre deux gènes sont définies à l’aide de méthodes de réduction de dimension. Ainsi, toutes les informations apportées par les marqueurs génétiques sont résumées au niveau du gène. Ces nouvelles variables d’interaction sont ensuite introduites dans un modèle de régression. La sélection des effets significatifs est réalisée à l’aide d’une méthode de régression pénalisée basée sur le Group LASSO avec contrôle du taux de fausse découvertes.Nous comparons les différentes méthodes de modélisation des variables d’interaction à travers des études de simulations afin de montrer les bonnes performances de notre approche. Enfin, nous illustrons son utilisation pratique pour identifier des interactions entre gènes en analysant deux jeux de données réelles. / A large amount of research has been devoted to the detection and investigation of epistatic interactions in Genome-Wide Association Studies (GWAS). Most of the literature focuses on interactions between single-nucleotide polymorphisms (SNPs), but grouping strategies can also be considered.In this thesis, we develop an original approach for the detection of interactions at the gene level. New variables representing the interactions between two genes are defined using dimensionality reduction methods. Thus, all information brought from genetic markers is summarized at the gene level. These new interaction variables are then introduced into a regression model. The selection of significant effects is done using a penalized regression method based on Group LASSO controlling the False Discovery Rate.We compare the different methods of modeling interaction variables through simulations in order to show the good performance of our proposed approach. Finally, we illustrate its practical use for identifying gene-gene interactions by analyzing two real data sets.
|
3 |
Étude de la confusion résiduelle et erreur de mesure dans les modèles de régressionFourati, Mariem January 2015 (has links)
Dans ce travail, j'ai étudié l'analyse des régressions linéaire et logistique comme méthodes de traitement des facteurs de confusion, qui ont servi à déterminer les effets d'une erreur de mesure dans une variable de confusion.
|
4 |
Étude de tests de permutation en régression multipleElftouh, Naoual January 2008 (has links) (PDF)
Ce mémoire est centré sur l'étude des coefficients de corrélation partiels en régression linéaire multiple, à travers les tests de permutation. Ces tests sont nécessaires lorsque les suppositions du modèle linéaire ne sont pas verifiées, et l'application des tests classiques est erronnée. On présente les bases théoriques de trois méthodes de la littérature, Manly (1991), Freedman et Lane (1983) et Kennedy (1995), et on fait une étude de simulation afin de les comparer. On ajoute aux comparaisons le test paramétrique, ainsi qu'une méthode qu'on propose. On regarde l'erreur de type I et la puissance de ces tests. Un dernier volet du mémoire est la présentation des tests de Mantel (1967) et Smoose et al. (1986) qui sont des généralisations de ces méthodes de permutation pour la régression multiple à des matrices de distances. A titre d'exemple, ces différentes techniques de permutation sont appliquées sur des matrices de distances génétiques en relation avec des distances environnementales et des distances géographiques. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Échangeabilité, Test de permutation, Test de Mantel, Test de Mantel partiel, Régression multiple, Corrélation partielle, Résidus.
|
5 |
Estimation des temps de retard et localisation de sources avec des systèmes Radar / Source localization, time-delay estimation, coherent sources, radar, support vector regressionPan, Jingjing 10 July 2018 (has links)
La localisation de sources (en champ lointain ou en champ proche) et l'estimation des temps de retard ont de nombreuses applications pratiques. Pour localiser une source en champ lointain à partir d'un réseau de capteur, seule la direction d'arrivée (DDA) de la source est nécessaire. Quand les sources se situent dans une situation de champ proche, le front d'onde du signal est sphérique et deux paramètres sont nécessaires pour localiser les sources : la direction d'arrivée et la distance entre la source et le réseau de capteurs. Dans cette thèse, on se focalise sur la localisation de sources (en champ lointain et en champ proche) ainsi sur l'estimation des temps de retard dans le contexte où les signaux sont cohérents, mélangés et avec un faible nombre de réalisation. Tout d'abord, nous proposons de combiner la théorie de la méthode SVR (Support vector regression qui est une méthode de régression à base d'apprentissage supervisée) avec la théorie de la prédiction linéaire avant-arrière. La méthode proposée, appelée FBLP-SVR, est développée pour deux applications : la localisation de sources en champ lointain et l'estimation des temps de retard des échos radar en champ lointain. La méthode développée est évaluée par des simulations et des expérimentations. Nous proposons également une méthode de localisation de sources en champ proche dans le contexte où les signaux sont cohérents et mélangés. La méthode proposée est basée sur une technique de focalisation, de moyennage en sous-bande et sur une méthode à sous-espaces pour l'estimation des DDAs. Ensuite, les distances entre les sources et le réseau de capteur sont estimées avec la méthode du maximum de vraisemblance. / Source localization (in far-field or in nearfield) and time-delay estimation have many practical applications. To locate a far-field source from a sensor array, only the direction of arrival (DOA) of the source is necessary. When the sources are in a nearfield situation, the wavefront of the signal is spherical and two parameters are needed to locate the sources: the direction of arrival and the distance between the source and the sensors. In this thesis, we focus on the localization of sources (both in far-field and nearfield) as well as the estimation of time-delay in the context where the signals are coherent, overlapped and with a small number of snapshots. First, we propose to combine the theory of the SVR method (support vector regression, which is a supervised learning-based regression method) with the theory of forward-backward linear prediction (FBLP). The proposed method, called FBLP-SVR, is developed for two applications: far-field source localization and time-delay estimation by using ground penetrating radar. The proposed method is evaluated by simulations and experiments. We also propose a near-field source localization method in the context where the signals are coherent and overlapped. The proposed method is based on a focusing technique, a spatial smoothing preprocessing, and a subspace method in the estimation of DOA. Then, the distances between the sources and sensors are estimated with the maximum likelihood method.
|
6 |
Réduction de la dimension en régressionPortier, François 02 July 2013 (has links) (PDF)
Dans cette thèse, nous étudions le problème de réduction de la dimension dans le cadre du modèle de régression suivant Y=g(B X,e), où X est un vecteur de dimension p, Y appartient à R, la fonction g est inconnue et le bruit e est indépendant de X. Nous nous intéressons à l'estimation de la matrice B, de taille dxp où d est plus petit que p, (dont la connaissance permet d'obtenir de bonnes vitesses de convergence pour l'estimation de g). Ce problème est traité en utilisant deux approches distinctes. La première, appelée régression inverse nécessite la condition de linéarité sur X. La seconde, appelée semi-paramétrique ne requiert pas une telle condition mais seulement que X possède une densité lisse. Dans le cadre de la régression inverse, nous étudions deux familles de méthodes respectivement basées sur E[X f(Y)] et E[XX^T f(Y)]. Pour chacune de ces familles, nous obtenons les conditions sur f permettant une estimation exhaustive de B, aussi nous calculons la fonction f optimale par minimisation de la variance asymptotique. Dans le cadre de l'approche semi-paramétrique, nous proposons une méthode permettant l'estimation du gradient de la fonction de régression. Sous des hypothèses semi-paramétriques classiques, nous montrons la normalité asymptotique de notre estimateur et l'exhaustivité de l'estimation de B. Quel que soit l'approche considérée, une question fondamentale est soulevée : comment choisir la dimension de B ? Pour cela, nous proposons une méthode d'estimation du rang d'une matrice par test d'hypothèse bootstrap.
|
7 |
Semiparametric Estimation for Extreme ValuesBouquiaux, Christel C. N. C. I. 05 September 2005 (has links)
Nous appliquons la théorie asymptotique des expériences statistiques à des problèmes liés aux valeurs extrêmes. Quatre modèles semi-paramétriques sont envisagés. Tout d'abord le modèle d'échantillonnage de fonction de répartition de type Pareto. L'index de Pareto est le paramètre d'intérêt tandis que la fonction à variation lente, qui intervient dans la décomposition de la fonction de survie, joue le rôle de nuisance. Nous considérons ensuite des observations i.i.d. de fonction de répartition de type Weibull. Le troisième modèle étudié est un modèle de régression. On considère des couples d'observations $(Y_i,X_i)$ indépendants, les v.a. $X_i$ sont i.i.d. de loi connue et on suppose que la fonction de répartition de la loi de $Y$ conditionnellement à $X$ est de type Pareto, avec une fonction à variation lente et un index $gamma$ qui dépendent de $X$. On fait l'hypothèse que la fonction $gamma$ a une forme quelconque mais connue, qui dépend d'un paramètre $ heta$ dans $SR^K$. Le paramètre d'intérêt est $ heta$. Enfin, nous étudions un modèle linéaire avec des innovations de fonction de répartition de type Pareto. Pour chacun de ces modèles, notre démarche est de construire des alternatives, d'établir la normalité locale asymptotique et l'existence d'un estimateur asymptotiquement efficace, ce qui n'est possible que parce que les alternatives que nous avons construites sont des alternatives les plus difficiles. Pour les deux derniers modèles, l'estimateur asymptotiquement efficace que nous proposons n'a, à notre connaissance, pas encore fait l'objet d'une publication.
|
8 |
Méthodes de prévision en régression linéaire multivariéeGueorguieva, Ana January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
9 |
Rythme et sujet : L'infini turbulent d'Henri MichauxCourchesne, Luc January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
10 |
Modèles de risque de crédit à la consommation : étude du rôle de l'économie dans la probabilité de défautBrailovsky, Javier January 2008 (has links) (PDF)
Cette recherche vise à étudier les modèles de risque de crédit à la consommation et à évaluer les effets des conditions économiques sur la probabilité de défaut des emprunteurs. Dans le cadre des travaux, un modèle empirique élémentaire sera développé et estimé. Il sera tenté de vérifier si l'incorporation de variables macroéconomiques permet d'augmenter la performance du modèle de base. Une réglementation internationale a vu le jour dans les années quatre-vingt suite à de nombreuses crises bancaires. Une gestion saine et responsable du crédit doit considérer, entre autres, une évaluation adéquate du risque de crédit, et permettre de calculer le capital économique réglementaire qui est requis en fonction du niveau de risque de la banque. Cette pratique a comme objectif d'assurer une stabilité financière et d'éviter des faillites de banques lors de crises de crédit. L'utilisation des statistiques pour estimer ce type de risque remonte aux années cinquante. Initialement, les modèles étaient utilisés lors des décisions d'octroyer un prêt à un demandeur. Aujourd'hui, ils sont également utilisés pour estimer la probabilité de défaut des portefeuilles de crédit. L'analyse discriminante est la première technique d'estimation qui a été utilisée. Plusieurs autres méthodes sont couramment utilisées depuis. Ces méthodes sont soit paramétriques (régression linéaire, régression logistique, modèle de panel, etc.) ou bien, non paramétriques (arbres de décision, réseaux de neurones, etc.). Les variables prédictives du risque d'un emprunteur sont bien connues et documentées. Traditionnellement, les modèles utilisaient des caractéristiques individuelles qui évaluent le risque de l'individu (âge, sexe, occupation, revenus, etc.) et le risque transactionnel (historique de crédit, historique bancaire, etc.). De nos jours, les tendances de la recherche dans le domaine consistent à ajouter des dimensions économiques qui permettent d'évaluer le risque inhérent au marché et ainsi mieux anticiper la probabilité de défaut. Une régression logistique sera employée pour estimer le modèle. Des variables microéconomiques d'emprunteurs seront utilisées pour estimer la composante individuelle du risque, alors que des variables macroéconomiques régionales et nationales seront utilisées pour représenter le risque inhérent aux conditions du marché. Les résultats obtenus ont démontré que l'ajout de variables macroéconomiques au modèle permettait de mieux représenter l'événement de défaut. La capacité du modèle à différencier les types d'emprunteurs ainsi que son pouvoir à prédire l'événement de défaut ont aussi été améliorés quoique faiblement. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Crédit à la consommation, Risque de crédit, Régression logistique.
|
Page generated in 0.0792 seconds