Return to search

Modelagem de eventos raros: um estudo comparativo

Made available in DSpace on 2016-06-02T20:06:05Z (GMT). No. of bitstreams: 1
4139.pdf: 2492387 bytes, checksum: d478498a0d367106a7ad8dfe2a681cf3 (MD5)
Previous issue date: 2012-01-16 / Financiadora de Estudos e Projetos / In some situations, in various areas of knowledge, the response variable of interest has dichotomous distribution extremely unbalanced. In the _nancial market is the common interest in determining the probability that each customer will commit a fraudulent action, and the proportion of customers fraudsters is extremely small. In health there is interest in determining the probability that a particular person will present some epidemiological infection that a_ects only a small fraction of the population. However, there are studies that show that the usual logistic regression model, widely used in the modeling of binary data, does not produce good results when it is built using databases extremely unbalanced. In the literature, we _nd some proposals for adjusting models them that take into account this characteristic, such as KZ estimators suggested by King and Zeng (2001) for the logistic regression model applied to databases with events rare. We present this methodology and a simulation study to verify the quality of these estimators. Other proposals in the literature are limited logit model suggested by Cramer (2004) that upper limit to the probability of success and the generalized logit model suggested by Stukel (1988) which has two shape parameters and works better than the usual logit model in situations that the probability curve is not symmetrical around the point 1 2 . In this paper we present some simulations to verify the advantages of the use of these models. Palavras-chave: model logit model limited, generalized logit model, logit model with response of origin, KZ estimators, measures forecasts. / Em algumas situa_c~oes, nas mais diversas _areas do conhecimento, a vari_avel resposta de interesse possui distribui_c~ao dicot^omica extremamente desbalanceada. No mercado _nanceiro _e comum o interesse em determinar a probabilidade de que cada cliente venha a cometer uma a_c~ao fraudulenta, sendo que a propor_c~ao de clientes fraudadores _e extremamente pequena. Na _area da sa_ude existe o interesse em determinar a probabilidade de que uma determinada pessoa venha a apresentar alguma infec_c~ao epidemiol_ogica que atinge apenas uma diminuta parcela da popula_c~ao. No entanto, existem estudos que revelam que o modelo de regress~ao log__stica usual, amplamente utilizado na modelagem de dados bin_arios, n~ao produz bons resultados quando este _e constru__do utilizando bases de dados extremamente desbalanceadas. Na literatura, encontramos algumas propostas para o ajuste de modelos que levam em conta esta caracter__stica, tal como os estimadores KZ sugeridos por King e Zeng (2001) para o modelo de regress~ao log__stica aplicado em bases de dados com eventos raros. Neste trabalho apresentamos esta metodologia e um estudo de simula_c~ao para veri_car a qualidade destes estimadores. Outras propostas encontradas na literatura s~ao o modelo logito limitado sugerido por Cramer (2004) que limita superiormente a probabilidade de sucesso e o modelo logito generalizado sugerido por Stukel (1988) que apresenta dois par^ametros de forma e funciona melhor que o modelo logito usual nas situa_c~oes em que a curva de probabilidade n~ao _e sim_etrica em torno do ponto 1 2 . Neste trabalho apresentamos algumas simula_c~oes para veri_car as vantagens do usos destes modelos.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/4552
Date16 January 2012
CreatorsScacabarozi, Fernanda Nanci
ContributorsDiniz, Carlos Alberto Ribeiro
PublisherUniversidade Federal de São Carlos, Programa de Pós-graduação em Estatística, UFSCar, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0017 seconds