Spelling suggestions: "subject:"pseudo values"" "subject:"9seudo values""
1 |
Modelos baseados em pseudo-valores e sua aplicabilidade em credit scoring / Models based on pseudo-values with application to credit scoringSilva, Liliane Travassos da 02 August 2010 (has links)
Os modelos de credit scoring têm sido bastante difundidos nos últimos anos como uma importante ferramenta para agilizar e tornar mais confiável o processo de concessão de crédito por parte das instituições financeiras. Esses modelos são utilizados para classificar os clientes em relação a seus riscos de inadimplência. Neste trabalho, é avaliada a aplicabilidade de uma nova metodologia, baseada em pseudo-valores, como alternativa para a construção de modelos de credit scoring. O objetivo é compará-la com abordagens tradicionais como a regressão logística e o modelo de riscos proporcionais de Cox. A aplicação prática é feita para dados de operações de crédito pessoal sem consignação, coletados do Sistema de Informações de Crédito do Banco Central do Brasil. As performances dos modelos são comparadas utilizando a estatística de Kolmogorov-Smirnov e a área sob a curva ROC. / Credit Scoring models have become popular in recent years as an important tool in the credit granting process, making it more expedite and reliable. The models are mainly considered to classify customers according to their default risk. In this work we evaluate the apllicability of a new methodology, based on pseudo-values, as an alternative to constructing credit scoring models. The objective is to compare this novel methodology with traditional approaches such as logistic regression and Cox proportional hazards model. The models are applied to a dataset on personal credit data, collected from the Credit Information System of Central Bank of Brazil. The performances of the models are compared via Kolmogorov-Smirnov statistic and the area under ROC curve.
|
2 |
Modelos baseados em pseudo-valores e sua aplicabilidade em credit scoring / Models based on pseudo-values with application to credit scoringLiliane Travassos da Silva 02 August 2010 (has links)
Os modelos de credit scoring têm sido bastante difundidos nos últimos anos como uma importante ferramenta para agilizar e tornar mais confiável o processo de concessão de crédito por parte das instituições financeiras. Esses modelos são utilizados para classificar os clientes em relação a seus riscos de inadimplência. Neste trabalho, é avaliada a aplicabilidade de uma nova metodologia, baseada em pseudo-valores, como alternativa para a construção de modelos de credit scoring. O objetivo é compará-la com abordagens tradicionais como a regressão logística e o modelo de riscos proporcionais de Cox. A aplicação prática é feita para dados de operações de crédito pessoal sem consignação, coletados do Sistema de Informações de Crédito do Banco Central do Brasil. As performances dos modelos são comparadas utilizando a estatística de Kolmogorov-Smirnov e a área sob a curva ROC. / Credit Scoring models have become popular in recent years as an important tool in the credit granting process, making it more expedite and reliable. The models are mainly considered to classify customers according to their default risk. In this work we evaluate the apllicability of a new methodology, based on pseudo-values, as an alternative to constructing credit scoring models. The objective is to compare this novel methodology with traditional approaches such as logistic regression and Cox proportional hazards model. The models are applied to a dataset on personal credit data, collected from the Credit Information System of Central Bank of Brazil. The performances of the models are compared via Kolmogorov-Smirnov statistic and the area under ROC curve.
|
3 |
Modélisation de l'effet de facteurs de risque sur la probabilité de devenir dément et d'autres indicateurs de santé / Modelling of the effect of risk factors on the probability of becoming demented and others health indicatorsSabathé, Camille 15 November 2019 (has links)
Les indicateurs épidémiologiques de la démence tels que l'espérance de vie sans démence pour un âge donné ou le risque absolu sont des quantités utiles en santé publique. L'observation de la démence en temps discret entraine une censure par intervalle du temps d'apparition de la pathologie. De plus, certains individus peuvent développer une démence et décéder entre deux visites de suivi. Un modèle illness-death pour données censurées par intervalle est une solution pour modéliser simultanément les risques de démence et de décès et pour éviter la sous-estimation de l'incidence de la démence.Ces indicateurs dépendent à la fois du risque de démence mais aussi du risque de décès, contrairement à l'intensité de transition de la démence. Les modèles de régression disponibles ne prennent pas en compte la censure par intervalle ou ne sont pas adaptés à ces indicateurs. L'objectif de ce travail est de quantifier l'effet de facteurs de risque sur ces indicateurs épidémiologiques par des modèles de régression. La première partie de cette thèse est consacrée à l'extension de l'approche par pseudo-valeurs aux données censurées par intervalle. Les pseudo-valeurs sont calculées à partir d'estimateurs paramétriques ou d'estimateurs du maximum de vraisemblance pénalisée. Elles sont utilisées comme variable d'intérêt dans des modèles linéaires généralisés ou des modèles additifs généralisés pour permettre un effet non-linéaire des variables explicatives quantitatives. La seconde partie de cette thèse porte sur le développement d'un modèle par linéarisation des indicateurs épidémiologiques. L'idée est de calculer l'indicateur conditionnellement aux variables explicatives à partir des intensités de transition d'un modèle illness-death avec censure par intervalle du temps d'apparition de la maladie. Ces deux approches sont appliquées aux données de la cohorte française PAQUID pour étudier par exemple l'effet d'un score psychométrique (le MMS) sur des indicateurs épidémiologiques de la démence. / Dementia epidemiological indicators as the life expectancy without dementia at a specific age or the absolute risk are quantities meaningful for public health. Dementia is observed on discrete-time in cohort studies which leads to interval censoring of the time-to-onset. Moreover, some subjects can develop dementia and die between two follow-up visits. Illness-death model for interval-censored data is a solution to model simultaneously dementia risk and death risk and to avoid under-estimation of dementia incidence. These indicators depend on both dementia and death risks as opposed to dementia transition intensity. Available regression models do not take into account interval censoring or are not suitable for these indicators. The aim of this work is to propose regression models to quantify impact of risk factors on these indicators. Firstly, the pseudo-values approach is extended to interval-censored data. Pseudo-values are computed by parametric estimators or by maximum penalized likelihood estimators. Then pseudo-values are used as outcome in a generalized linear models or in a generalized additive models in case of non-linear effect of quantitative covariates. Secondly, the effect of covariates are summarized by linearization of the maximum likelihood estimator. In this part, the idea is to compute indicators conditionally on the covariates values from transition intensities of an illness-death model. These two approaches are applied to the French cohort PAQUID to study effect of a psychometric test (the MMS) on these indicators for example.
|
4 |
Regression modeling with missing outcomes : competing risks and longitudinal data / Contributions aux modèles de régression avec réponses manquantes : risques concurrents et données longitudinalesMoreno Betancur, Margarita 05 December 2013 (has links)
Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées. / Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches.
|
Page generated in 0.0546 seconds