Spelling suggestions: "subject:"régression logistique."" "subject:"régressions logistique.""
1 |
Réduction de dimension en régression logistique, application aux données actu-palu / Dimension reduction in logistic regression, application to actu-palu dataKwémou Djoukoué, Marius 29 September 2014 (has links)
Cette thèse est consacrée à la sélection de variables ou de modèles en régression logistique. Elle peut-être divisée en deux parties, une partie appliquée et une partie méthodologique. La partie appliquée porte sur l'analyse des données d'une grande enquête socio - épidémiologique dénommée actu-palu. Ces grandes enquêtes socio - épidémiologiques impliquent généralement un nombre considérable de variables explicatives. Le contexte est par nature dit de grande dimension. En raison du fléau de la dimension, le modèle de régression logistique n'est pas directement applicable. Nous procédons en deux étapes, une première étape de réduction du nombre de variables par les méthodes Lasso, Group Lasso et les forêts aléatoires. La deuxième étape consiste à appliquer le modèle logistique au sous-ensemble de variables sélectionné à la première étape. Ces méthodes ont permis de sélectionner les variables pertinentes pour l'identification des foyers à risque d'avoir un épisode fébrile chez un enfant de 2 à 10 ans à Dakar. La partie méthodologique, composée de deux sous-parties, porte sur l'établissement de propriétés techniques d'estimateurs dans le modèle de régression logistique non paramétrique. Ces estimateurs sont obtenus par maximum de vraisemblance pénalisé, dans un cas avec une pénalité de type Lasso ou Group Lasso et dans l'autre cas avec une pénalité de type 1 exposant 0. Dans un premier temps, nous proposons des versions pondérées des estimateurs Lasso et Group Lasso pour le modèle logistique non paramétrique. Nous établissons des inégalités oracles non asymptotiques pour ces estimateurs. Un deuxième ensemble de résultats vise à étendre le principe de sélection de modèle introduit par Birgé et Massart (2001) à la régression logistique. Cette sélection se fait via des critères du maximum de vraisemblance pénalisé. Nous proposons dans ce contexte des critères de sélection de modèle, et nous établissons des inégalités oracles non asymptotiques pour les estimateurs sélectionnés. La pénalité utilisée, dépendant uniquement des données, est calibrée suivant l'idée de l'heuristique de pente. Tous les résultats de la partie méthodologique sont illustrés par des études de simulations numériques. / This thesis is devoted to variables selection or model selection in logistic regression. The applied part focuses on the analysis of data from a large socioepidémiological survey, called actu-palu. These large socioepidemiological survey typically involve a considerable number of explanatory variables. This is well-known as high-dimensional setting. Due to the curse of dimensionality, logistic regression model is no longer reliable. We proceed in two steps, a first step of reducing the number of variables by the Lasso, Group Lasso ans random forests methods. The second step is to apply the logistic model to the sub-set of variables selected in the first step. These methods have helped to select relevant variables for the identification of households at risk of having febrile episode amongst children from 2 to 10 years old in Dakar. In the methodological part, as a first step, we propose weighted versions of Lasso and group Lasso estimators for nonparametric logistic model. We prove non asymptotic oracle inequalities for these estimators. Secondly we extend the model selection principle introduced by Birgé and Massart (2001) to logistic regression model. This selection is done using penalized macimum likelihood criteria. We propose in this context a completely data-driven criteria based on the slope heuristics. We prove non asymptotic oracle inequalities for selected estimators. The results of the methodological part are illustrated through simulation studies.
|
2 |
Modèles de risque de crédit à la consommation : étude du rôle de l'économie dans la probabilité de défautBrailovsky, Javier January 2008 (has links) (PDF)
Cette recherche vise à étudier les modèles de risque de crédit à la consommation et à évaluer les effets des conditions économiques sur la probabilité de défaut des emprunteurs. Dans le cadre des travaux, un modèle empirique élémentaire sera développé et estimé. Il sera tenté de vérifier si l'incorporation de variables macroéconomiques permet d'augmenter la performance du modèle de base. Une réglementation internationale a vu le jour dans les années quatre-vingt suite à de nombreuses crises bancaires. Une gestion saine et responsable du crédit doit considérer, entre autres, une évaluation adéquate du risque de crédit, et permettre de calculer le capital économique réglementaire qui est requis en fonction du niveau de risque de la banque. Cette pratique a comme objectif d'assurer une stabilité financière et d'éviter des faillites de banques lors de crises de crédit. L'utilisation des statistiques pour estimer ce type de risque remonte aux années cinquante. Initialement, les modèles étaient utilisés lors des décisions d'octroyer un prêt à un demandeur. Aujourd'hui, ils sont également utilisés pour estimer la probabilité de défaut des portefeuilles de crédit. L'analyse discriminante est la première technique d'estimation qui a été utilisée. Plusieurs autres méthodes sont couramment utilisées depuis. Ces méthodes sont soit paramétriques (régression linéaire, régression logistique, modèle de panel, etc.) ou bien, non paramétriques (arbres de décision, réseaux de neurones, etc.). Les variables prédictives du risque d'un emprunteur sont bien connues et documentées. Traditionnellement, les modèles utilisaient des caractéristiques individuelles qui évaluent le risque de l'individu (âge, sexe, occupation, revenus, etc.) et le risque transactionnel (historique de crédit, historique bancaire, etc.). De nos jours, les tendances de la recherche dans le domaine consistent à ajouter des dimensions économiques qui permettent d'évaluer le risque inhérent au marché et ainsi mieux anticiper la probabilité de défaut. Une régression logistique sera employée pour estimer le modèle. Des variables microéconomiques d'emprunteurs seront utilisées pour estimer la composante individuelle du risque, alors que des variables macroéconomiques régionales et nationales seront utilisées pour représenter le risque inhérent aux conditions du marché. Les résultats obtenus ont démontré que l'ajout de variables macroéconomiques au modèle permettait de mieux représenter l'événement de défaut. La capacité du modèle à différencier les types d'emprunteurs ainsi que son pouvoir à prédire l'événement de défaut ont aussi été améliorés quoique faiblement. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Crédit à la consommation, Risque de crédit, Régression logistique.
|
3 |
Étude du choix d'un modèle d'arborescence en régression logistique 4-nomiale selon l'effet de la valeur des paramètresStafford, Marie-Christine January 2008 (has links) (PDF)
Ce mémoire traite de modèles d'arborescences en régression logistique 4-nomiale pour rendre compte du cas où les résultats proviennent de séquences d'expérience multinomiales consécutives ou parallèles. Dans le premier chapitre, nous rappelons le modèle général de régression logistique multinomiale et présentons une méthode d'estimation individuelle des paramètres. Le chapitre suivant rapporte les recherches de Rousseau et Sankoff sur les modèles d'arborescences en régression logistique et présente du même coup le cadre dans lequel la présente étude s'inscrit.. Le troisième chapitre porte sur différents résultats qui caractérisent les paramètres pour lesquels certaines structures d'arborescences sont équivalentes. Finalement, le dernier chapitre présente une étude de simulations Monte-Carlo effectuée pour comprendre et mettre en évidence les facteurs influençant l'ordre (selon le maximum de vraisemblance) dans lequel les arborescences sont sélectionnées. Ces simulations ont permis d'identifier certains principes auxquels cet ordre obéit, selon la forme du vecteur des paramètres et la grandeur de ces derniers. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Régression logistique, Arborescences, Modèles réduits.
|
4 |
L'outil RBAC et la prédiction de la récidive criminelle : une analyse par l'intelligence artificielleBacon, Félix 04 June 2024 (has links)
L'objectif de la recherche est de fournir un cadre d'analyse supplémentaire aux commissaires à la libération conditionnelle de façon à mieux prédire la probabilité de récidives au Québec. Dans la recherche, nous travaillons avec plusieurs modèles d'intelligence artificielle dans le but de classer les détenus dans les prisons Québécoises. La classification est binaire, soit nous prédisons que le détenu a une probabilité élevée de commettre une récidive ; soit le cas contraire. Les évaluations réalisées sur les prisonniers sont au cœur de la recherche. Les documents remplis par les évaluateurs permettent d'établir un score basé sur la réponse aux questions. Au Québec, le nom de cette évaluation est le RBAC-PCQ et c'est celle-ci qui remplace son prédécesseur le LS-CMI. À l'aide de celle-ci, nous avons programmé plusieurs algorithmes ayant comme objectif de classifier les détenus. Grâce aux informations qui nous étaient fournies, nous avons commencé par établir la règle de décision générale permettant de reproduire la situation actuelle du Québec et nous l'avons ensuite comparé avec un modèle logistique de régression. Les résultats à ce stade démontraient une nette amélioration de la classification des détenus. Nous avons ensuite développé plusieurs modèles d'apprentissage machine afin d'approfondir la qualité de classification des détenus. Au final, l'analyse des modèles permet d'arriver à la conclusion que seulement 6 questions sont importantes pour établir la probabilité de récidive au Québec.
|
5 |
Étude de la confusion résiduelle et erreur de mesure dans les modèles de régressionFourati, Mariem January 2015 (has links)
Dans ce travail, j'ai étudié l'analyse des régressions linéaire et logistique comme méthodes de traitement des facteurs de confusion, qui ont servi à déterminer les effets d'une erreur de mesure dans une variable de confusion.
|
6 |
L'influence des caractéristiques liées à l'entreprise et aux travailleurs sur l'usage prédominant du français dans les petites manufactures de la région de MontréalGirard-Lamoureux, Catherine January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
7 |
Utilisation des services par les personnes itinérantes atteintes de troubles mentauxBonin, Jean-Pierre January 2001 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
8 |
Comparaison de la performance relative de l'analyse discriminante prédictive linéaire polytomique et de la régression logistique polytomique nominale en contexte de quasi-multinormalité et d'erreur de mesureBrière, Luc 13 April 2018 (has links)
Cette recherche, de type méthodologique, envisage d'étudier la prédiction ou la classification portant sur une variable dépendante polytomique et nominale (VDPN) à partir d'un ensemble de variables indépendantes continues. Plus exactement, deux modèles sont privilégiés, dans la littérature comme dans notre étude, pour le cas d'une VDPN, soit : 1) l'analyse discriminante prédictive linéaire polytomique (ADPLP); 2) la régression logistique polytomique nominale (RLPN). Bref, en situation de classification, la procédure statistique de ces méthodes, basée sur l'estimation des probabilités a posteriori, P\k\x.i), cherche principalement à construire une règle de classification permettant d'affecter un individu i décrit par un vecteur x de p variables prédictrices à l'un des K groupes nominaux (K>2) d'une partition définie a priori et aléatoirement (i.e. où chaque sujet possède une chance égale de faire partie de l'échantillon) sur la population à l'étude, et ce, de façon à minimiser le risque de classements erronés. Avant de choisir entre l'ADPLP et la RLPN, il est nécessaire, en regard des conditions imposées par chacun des modèles et certaines contraintes de mesure, de voir comment se comparent les deux modèles en termes de performance relative, de voir si la décision d'opter pour l'une ou l'autre de ces méthodes porte à conséquence. En regard de la littérature recensée sur le sujet, aucune étude, du moins à notre connaissance, ne compare systématiquement l'efficacité relative de l'ADPLP et de la RLPN en contexte de quasi-multinormalité (i.e. lorsque, par exemple, une ou des variables prédictrices possèdent un degré faible, mais non nul de dissymétrie et/ou de kurtose de la distribution) et d'erreur de mesure (i.e. à partir du niveau pxx de fidélité associé à chacune des variables indépendantes). L'effet de trois autres conditions est également mis à contribution dans l'étude, soit la taille échantillonnale (n), les probabilités a priori égales ou inégales (n) des groupes ainsi que le degré de séparation des groupes (à partir de D2, la distance généralisée de Mahalanobis). Pour vérifier les effets qui nous intéressent, les comparaisons sont effectuées de manière à refléter le plus possible les conditions susceptibles d'être rencontrées dans le domaine de la recherche en sciences humaines. Afin de réaliser ce travail au mieux qu'il se peut, les échantillons sont modelés par l'approche de simulation Monte Carlo en fonction d'un devis expérimental reproduisant des situations typiques de recherche. Enfin, nous adoptons une définition de la performance relative de l'ADPLP et de la RLPN qui se restreint à Xefficacité prédictive, et plus particulièrement, au critère ^inexactitude de la règle de classification de chacun des modèles. Spécifiquement, trois mesures sont considérées sur les données validées pour rendre compte de l'inexactitude de la règle de classification, soit : 1) le taux global d'erreur de classifications (TGEC); 2) le score quadratique de Brier (SQB); 3) le score logarithmique (SL). Globalement, des deux méthodes mises à l'essai, même s'il existe souvent d'infimes différences entre leurs performances respectives, les résultats portent à croire que l'ADPLP performe mieux. En effet, compte tenu de notre contexte de recherche, les analyses générales et spécifiques des résultats de l'expérimentation laissent plus fréquemment apparaître, en regard des critères de performance de classification TGEC, SQB et SL, la supériorité de l'ADPLP à classer des observations. Aussi, et surtout, une analyse supplémentaire a permis de constater que la classification des deux méthodes gagne en efficacité à mesure que les paramètres de non-multinormalité de la distribution des variables prédictrices augmentent, mais que l'ADPLP devient moins efficace par rapport à la RLPN au fur et à mesure de cette augmentation.
|
9 |
Simulations Monte Carlo et tests de score sur les matrices nulles : approche par inférence exacteLy, Boucar 24 January 2020 (has links)
Ce document propose des outils de simulation de matrices nulles basés sur la loi conditionnelle d’une matrice de présence-absence sachant ses statistiques exhaustives. Ces outils sont basés sur la régression logistique et de plus, ils tiennent compte de l’hétérogénéité des sites et aussi de l’interaction qui peut exister entre les variables qui définissent cette hétérogénéité. Dans ce travail, nous avons traité le cas où les variables qui caractérisent l’hétérogénéité des sites sont binaires et elles sont au plus au nombre de deux. Ainsi, deux outils ont été mis en place à savoir l’algorithme basé sur la régression logistique avec interaction entre les deux variables sites et celui sans interaction entre les variables sites. À partir d’une étude de simulation sur10 000 matrices de présence-absence, nous avons pu, non seulement décrire les propriétés des algorithmes mis en place, mais aussi comparer ces derniers avec d’autres algorithmes de simulation de matrices nulles. Ces comparaisons ont permis de constater que les tests scores avec les algorithmes basés sur la régression logistique avec ou sans interaction entre lesvariables sites donnent des résultats acceptables peu importe l’impact des variables sites. En revanche, l’algorithme ’fixed-fixed’, lorsque les variables sites ont des effets alternés, devient vulnérable aux erreurs de type I. Avec l’algorithme basé sur le modèle d’indépendance, les résultats obtenus ne sont pas fiables parce que le test est très vulnérable aux erreurs de type I.Pour l’algorithme de Peres-Neto, le test de score est très conservateur mais celui-ci s’améliore avec les variables sites à effets alternés. Pour finir, ces différents algorithmes ont été utiliséspour simuler des matrices nulles à partir d’un jeu de données réelles. Cela nous a permis decomparer la structure des matrices simulées par les différents algorithmes par rapport à celle de la matrice observée. / This document proposes tools of simulation of null matrices based on the conditional law of a presence-absence matrix knowing its sufficient statistics. These tools are based on logistic regression and, moreover, they take into account the heterogeneity of the sites and also the interaction that can exist between the variables that define this heterogeneity. In this work, we have treated the case where the variables that characterize the heterogeneity of the sites are binary and there are more than two. Thus, two tools have been put in place, namely the logistic regression algorithm with interaction between the two site variables and the one without interaction between the site variables. From a simulation study on10 000 presence-absence matrices, we were able not only to describe the properties of the implemented algorithms, but also to compare these algorithms with other null matrix simulation algorithms. These comparisons showed that the score tests with the logistic regression based algorithms with or without interaction between the site variables give acceptable results regardless of the impactof the site variables. On the other hand, the ’fixed-fixed’ algorithm, when the site variables have alternate effects, becomes vulnerable to type I errors. With the algorithm based on the independence model, the results obtained are not reliable because the test is very vulnerable to type I errors. For the Peres-Neto algorithm, the score test is very conservative but itimproves with the alternate effect site variables. Finally, these different algorithms were used to simulate null matrices from a real dataset. This enabled us to compare the structure of the matrices simulated by the different algorithms with respect to that of the observed matrix.
|
10 |
Détection et caractérisation des interactions dans les maladies complexesSt-Onge, Pascal January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
Page generated in 0.0983 seconds