• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 490
  • 18
  • 5
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 523
  • 330
  • 267
  • 224
  • 120
  • 97
  • 86
  • 79
  • 74
  • 71
  • 69
  • 64
  • 60
  • 56
  • 50
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Regressão binária nas abordagens clássica e bayesiana

Fernandes, Amélia Milene Correia 16 December 2016 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-05-23T16:23:56Z No. of bitstreams: 1 DissAMCF.pdf: 1964890 bytes, checksum: 84bcbd06f74840be6fc5f38659c34c07 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-06-05T19:07:22Z (GMT) No. of bitstreams: 1 DissAMCF.pdf: 1964890 bytes, checksum: 84bcbd06f74840be6fc5f38659c34c07 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-06-05T19:07:28Z (GMT) No. of bitstreams: 1 DissAMCF.pdf: 1964890 bytes, checksum: 84bcbd06f74840be6fc5f38659c34c07 (MD5) / Made available in DSpace on 2017-06-05T19:18:45Z (GMT). No. of bitstreams: 1 DissAMCF.pdf: 1964890 bytes, checksum: 84bcbd06f74840be6fc5f38659c34c07 (MD5) Previous issue date: 2016-12-16 / Não recebi financiamento / The objective of this work is to study the binary regression model under the frequentist and Bayesian approaches using the probit, logit, log-log complement, Box-Cox transformation and skewprobit as link functions. In the classical approach we presented assumpti- ons and procedures used in the regression modeling. We verified the accuracy of the estimated parameters by building confidence intervals and conducting hypothesis tests. In the Bayesian appro- ach we made a comparative study using two methodologies. For the first methodology, we considered non-informative prior dis- tributions and the Metropolis-Hastings algorithm to estimate the model. In the second methodology we used auxiliary variables to obtain the known a posteriori distribution, allowing the use of the Gibbs Sampler algorithm. However, the introduction of these auxiliary variables can generate correlated values and needs the use of clustering of unknown quantities in blocks to reduce the autocorrelation. In the simulation study we used the AIC and BIC information criteria to select the most appropriate model and we evaluated whether the coverage probabilities of the confidence interval is in agre- ement with that expected by the asymptotic theory. In Bayesian approach we found that the inclusion of auxiliary variables in the model results in a more efficient algoritm according to the MSE, MAPE and SMAPE criteria. In this work we also present applications to two real datasets. The first dataset used is the variation of the Ibovespa and variation of the daily value of the American dollar at the time of closing the 2013 to 2016. The second dataset, used is an educational data set (INEP-2013), where we are interested in studying the factors that infuence the approval of the student. / Este trabalho tem como objetivo estudar o modelo de regressão binária nas abordagens clássica e bayesiana utilizando as funcoes de ligacoes probito, logito, complemento log-log, transformaçao box-cox e probito-assimetrico. Na abordagem clássica apresentamos as suposicoes e o procedimento para ajustar o modelo de regressao e verificamos a precisão dos parâmetros estimados, construindo intervalos de confianca e testes de hipóteses. Enquanto que, na inferência bayesiana fizemos um estudo comparativo utilizando duas metodologias. Na primeira metodologia consideramos densidades a priori nao informativas e utilizamos o algoritmo Metropolis-Hastings para ajustar o modelo. Na segunda metodologia utilizamos variáaveis auxiliares para obter a distribuiçcaão a posteriori conhecida, facilitando a implementacão do algoritmo do Amostrador de Gibbs. No entanto, a introduçao destas variaveis auxiliares podem gerar valores correlacionados, o que leva à necessidade de se utilizar o agrupamento das quantidades desconhecidas em blocos para reduzir a autocorrelaçcãao. Atraves do estudo de simulacao mostramos que na inferência classica podemos usar os critérios AIC e BIC para escolher o melhor modelo e avaliamos se o percentual de cobertura do intervalo de confianca assintotica está de acordo com o esperado na teoria assintática. Na inferência bayesiana constatamos que o uso de va-riaáveis auxiliares resulta em um algoritmo mais eficiente segundo os critérios: erro quadrâtico medio (EQM), erro percentual absoluto medio (MAPE) e erro percentual absoluto medio simetrico (SMAPE). Como ilustração apresentamos duas aplicações com dados reais. Na primeira, consideramos um conjunto de dados da variaçao do Ibovespa e a variacao do valor diário do fechamento da cotacao do dólar no período de 2013 a 2016. Na segunda aplicação, trabalhamos com um conjunto de dados educacionais (INEP-2013), focando nos estudos das variaveis que influenciam a aprovacao do aluno.
92

Modelos de duração aplicados à sobrevivência das empresas paulistas entre 2003 e 2007 / Duration models applied to survival enterprises of São Paulo state between 2003 to 2007

André Luis Pavão 22 May 2013 (has links)
Este trabalho apresenta as principais causas para a mortalidade das empresas paulistas criadas entre 2003 e 2007 a partir de base de dados cedida pelo SEBRAE-SP para o desenvolvimento dessa pesquisa. A amostra final, construída a partir de dados disponibilizados pela primeira vez para estudos desta natureza, contou com 662 empresas e 33 variáveis coletadas por meio de questionário aplicado diretamente às próprias empresas. A análise consistiu no teste de modelos econométricos, baseados na literatura dos modelos de duração, de forma a traduzir quais fatores são mais críticos para a sobrevivência das empresas a ponto de distingui-las em dois grupos: o das empresas vencedoras, cuja longevidade está pautada em ações que promovem ganhos de produtividade e eficiência, e aquelas desprovidas dessas ações e que muito provavelmente deixarão o mercado. Os três tipos de modelos abordados neste trabalho - não paramétrico, semi-paramétrico (riscos proporcionais) e paramétrico - apresentaram resultados similares, sendo que na abordagem de riscos proporcionais os resultados foram segmentados por tamanho e setor de atuação das empresas. Para as micro empresas, a idade do empreendedor e a iniciativa em investir na qualificação da mão de obra dos funcionários mostraram-se importantes mitigadores do risco de falha desse grupo de empresa, enquanto que para as pequenas empresas, a inovação em processos e a elaboração de um plano de negócios se destacaram dentre o conjunto de variáveis. Entre empresas dos setores de comércio e serviços, as empresas do primeiro grupo que faziam o acompanhamento das finanças (fluxo de caixa) apresentaram menor risco de falhar. Para aquelas do setor de serviços, a idade do empreendedor, o investimento em qualificação dos funcionários e o tamanho da empresa ao nascer foram importantes para reduzir o risco de falha no tempo. Outro resultado encontrado, por meio do modelo paramétrico utilizando distribuição Weibull, foi que o risco de a empresa deixar o mercado mostrou-se crescente, pelo menos nos cinco primeiros anos de existência da empresa. Entretanto, esse resultado não deve ser generalizado para períodos de tempo maiores que cinco anos. / This thesis presents the main results that determined the bankruptcy of enterprises located in the São Paulo State from 2003 to 2007. The models used in this work were possible due to the partnership with SEBRAE, Small Business Service Supporting, located in the State of São Paulo. This institution provided the data basis for this research and its final version was compound by 662 enterprises and 33 variables, which were collected from a survey done by SEBRAE and the related enterprise. For first time available for research like this The research was supported by econometrics models, more precisely duration models, which identified the most important factors regarding enterprises survival. Two enterprise groups were distinguished: that one that will survive and grow and another will fail. In this work, three models were used: parametric, non-parametric and proportional risk with all of them presenting similar results. The proportional risk approach was applied for economic sectors and enterprises size. For the micro size business, the entrepreneurship\'s age and the resources applied on the employee\'s qualification were important to reduce the risk to fail in the time, whereas for small enterprises, variables like innovation and business plan building were the most important variables. For the commerce and service sectors, the enterprises related to the first one, the enterprises which kept attention on financial results (cash flow) presented lower risk to fail. For service sector, variables such as: entrepreneur\'s age, investment on the employee\'s qualification and enterprise\'s size were the most important variables to explain the difference the risk to fail between the enterprises. Another result presented was the risk to fail, which indicates the likelihood of an enterprise to leave its business activity. In this case, the parametric model using Weibull distribution concluded that the risk grows in the first five years. However, this result must be carefully evaluated since it would be necessary a longer term data to ensure this result.
93

Abordagem Bayesiana na análise genética de populações utilizando dados de marcadores moleculares. / Bayesian approach to the genetic analysis of populations using molecular markers data.

Alexandre Siqueira Guedes Coelho 27 August 2002 (has links)
Dentre os diversos aspectos geralmente observados na caracterização genética de populações naturais, a avaliação do grau de estruturação da variabilidade genética entre e dentro dos indivíduos e a obtenção de estimativas de parâmetros genéticos indicadores do sistema reprodutivo da espécie assumem grande importância. Os parâmetros de maior interesse neste caso são o índice de fixação intrapopulacional (f) e a taxa de fecundação cruzada (t). Pelo uso de simulações computacionais, este trabalho demonstra o caráter dinâmico do índice de fixação intrapopulacional em diferentes locos ao longo das gerações em decorrência do caráter finito da população e de variação nas taxas médias de fecundação cruzada entre gerações. Sugere-se que este caráter dinâmico representa uma explicação para a elevada variação, comumente reportada na literatura, das estimativas de f obtidas com locos diferentes avaliados em uma mesma população. Utilizando a abordagem Bayesiana, um modelo hierárquico de análise é proposto para a estimação de f, incorporando as informações obtidas de múltiplos locos não ligados, levando-se em conta a condicionalidade do processo de estimação ao polimorfismo dos locos utilizados. O modelo proposto incorpora o caráter dinâmico de f para diferentes locos e permite a estimação do número efetivo de indivíduos reprodutivamente ativos em uma população. Propõe-se ainda um modelo Bayesiano para a estimação da taxa de fecundação cruzada com base na informação de múltiplos locos, admitindo-se a possibilidade de ocorrência de apomixia. Os modelos propostos são avaliados por simulação e exemplos de aplicação a dados reais de marcadores moleculares codominantes são discutidos. Os resultados obtidos demonstram a aplicabilidade das metodologias propostas e o elevado potencial de aplicação da estatística Bayesiana em estudos de genética de populações. / Among the various aspects generally considered in the genetic characterization of natural populations of plant species, the evaluation of the degree of genetic structure within and among individuals and the estimation of parameters related to the species mating system are of great importance. In general, considerable effort is focused on the estimation of the intrapopulation fixation index (f) and the outcrossing rate (t). Using computer simulated data, the dynamic nature of f for different loci along generations is illustrated. The dynamic nature of f is shown to result from the finite condition of populations and from the variation in the mean values of the outcrossing rates among generations. It is suggested that this dynamic behavior explains the inconsistency, commonly reported in the literature, of f estimates obtained for different loci in a given population. Using a Bayesian approach, we propose a hierarchical model for the estimation of f, incorporating information obtained from different unlinked loci and considering the conditionality of the estimation process to genetic polymorphism. The proposed model incorporates the dynamic nature of f values for different loci and allows the estimation of the effective number of reproductively active individuals in a given population. Using a similar approach, a Bayesian model is also proposed for estimating the outcrossing rate using multiple loci information and incorporating the possibility of apomixis. The models proposed are evaluated by computer simulations and examples using real data from codominant molecular markers are presented. Results obtained illustrate the applicability of the proposed methods and reveal the great potential of use of Bayesian statistics in population genetic studies.
94

Testes de hipóteses em eleições majoritárias / Test of hypothesis in majoritarian election

Victor Fossaluza 16 June 2008 (has links)
O problema de Inferência sobre uma proporção, amplamente divulgado na literatura estatística, ocupa papel central no desenvolvimento das várias teorias de Inferência Estatística e, invariavelmente, é objeto de investigação e discussão em estudos comparativos entre as diferentes escolas de Inferência. Ademais, a estimação de proporções, bem como teste de hipóteses para proporções, é de grande importância para as diversas áreas do conhecimento, constituindo um método quantitativo simples e universal. Nesse trabalho, é feito um estudo comparativo entre as abordagens clássica e bayesiana do problema de testar as hipóteses de ocorrência ou não de 2º turno em um cenário típico de eleição majoritária (maioria absoluta) em dois turnos no Brasil. / The problem of inference about a proportion, widely explored in the statistical literature, plays a key role in the development of several theories of statistical inference and, invariably, is the object of investigation and discussion in comparative studies among different schools of inference. In addition, the estimation of proportions, as well as test of hypothesis for proportions, is very important in many areas of knowledge as it constitutes a simple and universal quantitative method. In this work a comparative study between the Classical and Bayesian approaches to the problem of testing the hypothesis of occurrence of second round (or not) in a typical scenario of a majoritarian election (absolute majority) in two rounds in Brazil is developed.
95

Abordagem clássica e bayesiana para os modelos de séries temporais da família GARMA com aplicações para dados de contagem / Classical and bayesian approach for time series models of the family GARMA with applications to count data

Adriana Strieder Philippsen 31 March 2011 (has links)
Nesta dissertação estudou-se o modelo GARMA para modelar séries temporais de dados de contagem com as distribuições condicionais de Poisson, binomial e binomial negativa. A principal finalidade foi analisar no contexto clássico e bayesiano, o desempenho e a qualidade do ajuste dos modelos de interesse, bem como o desempenho dos percentis de cobertura dos intervalos de confiança dos parâmetros para os modelos adotados. Para atingir tal finalidade considerou-se a análise dos estimadores pontuais bayesianos e foram analisados intervalos de credibilidade. Neste estudo é proposta uma distribuição a priori conjugada para os parâmetros dos modelos e busca-se a distribuição a posteriori, a qual associada a certas funções de perda permite encontrar estimativas bayesianas para os parâmetros. Na abordagem clássica foram calculados estimadores de máxima verossimilhança, usandose o método de score de Fisher e verificou-se por meio de simulação a consistência dos mesmos. Com os estudos desenvolvidos pode-se observar que, tanto a inferência clássica quanto a inferência bayesiana para os parâmetros dos modelos em questão, apresentou boas propriedades analisadas por meio das propriedades dos estimadores pontuais. A última etapa do trabalho consiste na análise de um conjunto de dados reais, sendo uma série real correspondente ao número de internações por causa da dengue em Campina Grande. Estes resultados mostram que tanto o estudo clássico, quanto o bayesiano, são capazes de descrever bem o comportamento da série / In this work, it was studied the GARMA model to model time series count data with Poisson, binomial and negative binomial discrete conditional distributions. The main goal is to analyze, in the bayesian and classic context, the performance and the quality of fit of the corresponding models, as well as the coverage percentages performance to these models. To achieve this purpose we considered the analysis of Bayesian estimators and credible intervals were analyzed. To the Bayesian study it was proposed a priori distribution joined to the models parameters and sought a posteriori distribution, which one associate with to certain loss functions allows finding out Bayesian estimates to the parameters. In the classical approach, it was calculated the maximum likelihood estimators using the method of Fisher scoring, whose interest was to verify, by simulation, the consistence. With the studies developed we can notice that, both classical and inference Bayesian inference for the parameters of those models, presented good properties analysed through the properties of the punctual estimators. The last stage of the work consisted of the analysis of one real data set, being a real serie corresponding to the admission number because of dengue in the city of Campina Grande. These results show that both the classic and the Bayesian studies are able to describe well the behavior of the serie
96

Essays on bivariate option pricing via copula and heteroscedasticity models: a classical and bayesian approach / Ensaios sobre precificação de opções bivariadas via cópulas e modelos heterocedásticos: abordagem clássica e bayesiana

Lopes, Lucas Pereira 15 February 2019 (has links)
This dissertation is composed of two main and independents essays, but complementary. In the first one, we discuss the option price under a bayesian perspective. This essay aims to price and analyze the fair price behavior of the call-on-max (bivariate) option considering marginal heteroscedastic models with dependence structure modeled via copulas. Concerning inference, we adopt a Bayesian perspective and computationally intensive methods based on Monte Carlo simulations via Markov Chain (MCMC). A simulation study examines the bias and the root mean squared errors of the posterior means for the parameters. Real stocks prices of Brazilian banks illustrate the approach. For the proposed method is verified the effects of strike and dependence structure on the fair price of the option. The results show that the prices obtained by our heteroscedastic model approach and copulas differ substantially from the prices obtained by the model derived from Black and Scholes. Empirical results are presented to argue the advantages of our strategy. In the second chapter, we consider the GARCH-in-mean models with asymmetric variance specifications to model the volatility of the assets-objects under the risk-neutral dynamics. Moreover, the copula functions model the joint distribution, with the objective of capturing non-linear, linear and tails associations between the assets. We aim to provide a methodology to realize a more realistic pricing option. To illustrate the methodology, we use stocks from two Brazilian companies, where our the modeling offered a proper fitting. Confronting the results obtained with the classic model, which is an extension of the Black and Scholes model, we note that considering constant volatility over time underpricing the options, especially in-the-money options. / Essa dissertação é composta por dois principais ensaios independentes e complementares. No primeiro discutimos a precificação de opções bivariadas sob uma perspectiva bayesiana. Neste ensaio o principal objetivo foi precificar e analizar o preço justo da opção bivariada call-onmax considerando modelos heterocedásticos para as marginais e a modelagem de dependência realizada por funções cópulas. Para a inferência, adotamos o método computacionalmente intensivo baseado em simulações Monte Carlo via Cadeia de Markov (MCMC). Um estudo de simulação examinou o viés e o erro quadrático médio dos parâmetros a posteriori. Para a ilustração da abordagem, foram utilizados preços de ações de bancos Brasileiros. Além disso, foi verificado o efeito do strike e da estrutura de dependência nos preços das opções. Os resultados mostraram que os preços obtidos pelo método utilizado difere substancialmente dos obtidos pelo modelo clássico derivado de Black e Scholes. No segundo capítulo, consideramos os modelos GARCH-in-mean com especificações assimétricas para a variância com o objetivo de acomodar as características da volatilidade dos ativos-objetos sob uma perspectiva da dinâmica do risco-neutro. Além do mais, as funções cópulas foram utilizadas para capturar as possíveis estruturas de dependência linear, não-linear e caudais entre os ativos. Para ilustrar a metodologia, utilizamos dados de duas companhias Brasileiras. Confrontando os resultados obtidos com o modelo clássico extendido de Black e Scholes, notamos que a premissa de volatilidade constante sub-precifica as opções bivariadas, especialmente dentro-do-dinheiro.
97

Avaliação da Sustentabilidade nas Universidades : uma proposta por meio da teoria dos conjuntos fuzzy /

Piacitelli, Leni Palmira January 2019 (has links)
Orientador: Sandra Regina Monteiro Masalskiene Roveda / Resumo: A nova perspectiva rumo à conservação do meio ambiente como fato categórico de subsistência planetária tem colocado a sustentabilidade em primeiro plano como o grande desafio da universidade, responsável e equipada para a formação daqueles que terão o poder decisório sobre as questões relacionadas a um futuro viável. Este estudo se refere à sustentabilidade na universidade por meio do que é percebido pelos diversos atores que nela transitam. Teve como objetivo desvendar, em algumas instituições do setor público e do setor privado, quais as impressões que professores/coordenadores, alunos e funcionários possuem sobre as atuações da instituição em seu campus, os projetos e pesquisas voltados à sustentabilidade elaborados pela equipe docente e os aprendizados efetivos na formação dos novos profissionais, que deverão atuar nas diversas áreas de atividades em nossa sociedade. Para poder medir essas impressões, foram aplicados questionários e desenvolvido um modelo fuzzy com um índice associado, que apresenta o nível de sustentabilidade de uma Instituição de Ensino Superior – IES. Isso nos leva a concluir que os sistemas de inferência fuzzy são capazes de fazer uma avaliação do que pode ser percebido pela comunidade universitária sobre a sustentabilidade de sua instituição. / Doutor
98

Análise geoestatística para geração de superfícies a partir de dados de clorofila-a adquiridos em transectos /

Ribeiro, Gabrielle Gomes dos Santos. January 2015 (has links)
Orientador: Vilma Mayumi Tachibana / Coorientador: Maria de Lourdes B. T. Galo / Banca: José Silvio Govone / Banca: Nilton Nobuhiro Imai / Resumo: A disposição dos elementos amostrais na área de estudo e sua influência nos resultados de análises espaciais é algo que vem sendo discutido frequentemente, já que a qualidade de uma inferência espacial vai depender do tamanho da amostra e da distribuição espacial dos pontos amostrais. Nesse sentido, este trabalho tem o objetivo de analisar o impacto que diferentes delineamentos amostrais podem causar nos resultados da inferência espacial por Krigagem Ordinária. Para isso, primeiramente utilizou-se um conjunto de dados coletado em forma de transectos em uma parte do Reservatório de Nova Avanhandava, composto por 978 observações. Esse conjunto sofreu reduções sistemáticas, com o intuito de analisar o que essas reduções causariam nos resultados das inferências espaciais. Com o objetivo de analisar diferentes delineamentos amostrais, simulou-se uma quantidade densa de dados e aplicou-se as técnicas de Amostragem Simples, Amostragem Sistemática e Amostragem Estratificada. Para complementar, utilizou-se um conjunto de dados de tamanho reduzido (70 observações), coletado de forma aleatória, a fim de analisar os resultados obtidos pela Krigagem Ordinária ao utilizar um conjunto considerado "pequeno", do ponto de vista estatístico. Então, foi possível realizar o processo da Krigagem Ordinária e obter mapeamentos da variável clorofila-a na região de interesse para os diferentes tipos e tamanhos de amostras... / Abstract: The arrangement of sampling units in the study area and its influence on the results of spatial analysis is something that has been frequently discussed by researchers of the area, since the quality of a spatial inference will depend on sample size and spatial distribution of sample points. In this sense, this work aims to analyze the impact that different sampling designs may cause in the results of spatial inference by ordinary kriging. For this, first we used a dataset collected in the form of transects in a part of New Avanhandava Reservoir, consisting of 978 observations. This set suffered systematics reductions, with the aim to analyze what these reductions would cause in the results of spatial inferences. In order to analyze different sampling designs, simulated up a dense amount of data and it was applied the Simple Sampling, Systematic Sampling and Stratified Sampling techniques. To complement, it was used a data set with a small size (70 observations) and collected randomly, in order to analyze the results obtained by ordinary kriging when using a set considered "small", from a statistical point of view. Then, it was possible to perform the process of Ordinary Kriging and obtain mappings of the variable chlorophyll-a in the region of interest, for different types and sizes of samples. The validation of inference processes was carried out from two methods, the Mean Squared Error and the Kappa Index... / Mestre
99

Redes Bayesianas aplicadas à análise do risco de crédito. / Bayesian networks applied to the anilysis of credit risk.

Karcher, Cristiane 26 February 2009 (has links)
Modelos de Credit Scoring são utilizados para estimar a probabilidade de um cliente proponente ao crédito se tornar inadimplente, em determinado período, baseadas em suas informações pessoais e financeiras. Neste trabalho, a técnica proposta em Credit Scoring é Redes Bayesianas (RB) e seus resultados foram comparados aos da Regressão Logística. As RB avaliadas foram as Bayesian Network Classifiers, conhecidas como Classificadores Bayesianos, com seguintes tipos de estrutura: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN). As estruturas das RB foram obtidas por Aprendizado de Estrutura a partir de uma base de dados real. Os desempenhos dos modelos foram avaliados e comparados através das taxas de acerto obtidas da Matriz de Confusão, da estatística Kolmogorov-Smirnov e coeficiente Gini. As amostras de desenvolvimento e de validação foram obtidas por Cross-Validation com 10 partições. A análise dos modelos ajustados mostrou que as RB e a Regressão Logística apresentaram desempenho similar, em relação a estatística Kolmogorov- Smirnov e ao coeficiente Gini. O Classificador TAN foi escolhido como o melhor modelo, pois apresentou o melhor desempenho nas previsões dos clientes maus pagadores e permitiu uma análise dos efeitos de interação entre variáveis. / Credit Scoring Models are used to estimate the insolvency probability of a customer, in a period, based on their personal and financial information. In this text, the proposed model for Credit Scoring is Bayesian Networks (BN) and its results were compared to Logistic Regression. The BN evaluated were the Bayesian Networks Classifiers, with structures of type: Naive Bayes, Tree Augmented Naive Bayes (TAN) and General Bayesian Network (GBN). The RB structures were developed using a Structure Learning technique from a real database. The models performance were evaluated and compared through the hit rates observed in Confusion Matrix, Kolmogorov-Smirnov statistic and Gini coefficient. The development and validation samples were obtained using a Cross-Validation criteria with 10-fold. The analysis showed that the fitted BN models have the same performance as the Logistic Regression Models, evaluating the Kolmogorov-Smirnov statistic and Gini coefficient. The TAN Classifier was selected as the best BN model, because it performed better in prediction of bad customers and allowed an interaction effects analysis between variables.
100

Regressão binária bayesiana com o uso de variáveis auxiliares / Bayesian binary regression models using auxiliary variables

Farias, Rafael Braz Azevedo 27 April 2007 (has links)
A inferência Bayesiana está cada vez mais dependente de algoritmos de simulação estocástica, e sua eficiência está diretamente relacionada à eficiência do algoritmo considerado. Uma prática bastante utilizada é a introdução de variáveis auxiliares para obtenção de formas conhecidas para as distribuições {\\it a posteriori} condicionais completas, as quais facilitam a implementação do amostrador de Gibbs. No entanto, a introdução dessas variáveis pode produzir algoritmos onde os valores simulados são fortemente correlacionados, fato esse que prejudica a convergência. O agrupamento das quantidades desconhecidas em blocos, de tal maneira que seja viável a simulação conjunta destas quantidades, é uma alternativa para redução da autocorrelação, e portanto, ajuda a melhorar a eficiência do procedimento de simulação. Neste trabalho, apresentamos propostas de simulação em blocos no contexto de modelos de regressão binária com o uso de variáveis auxiliares. Três classes de funções de ligação são consideradas: probito, logito e probito-assimétrico. Para as duas primeiras apresentamos e implementamos as propostas de atualização conjunta feitas por Holmes e Held (2006). Para a ligação probito-assimétrico propomos quatro diferentes maneiras de construir os blocos, e comparamos estes algoritmos através de duas medidas de eficiência (distância média Euclidiana entre atualizações e tamanho efetivo da amostra). Concluímos que os algoritmos propostos são mais eficientes que o convencional (sem blocos), sendo que um deles proporcionou ganho superior a 160\\% no tamanho efetivo da amostra. Além disso, discutimos uma etapa bastante importante da modelagem, denominada análise de resíduos. Nesta parte adaptamos e implementamos os resíduos propostos para a ligação probito para os modelos logístico e probito-assimétrico. Finalmente, utilizamos os resíduos propostos para verificar a presença de observações discrepantes em um conjunto de dados simulados. / The Bayesian inference is getting more and more dependent of stochastic simulation algorithms, and its efficiency is directly related with the efficiency of the considered algorithm. The introduction of auxiliary variables is a technique widely used for attainment of the full conditional distributions, which facilitate the implementation of the Gibbs sampling. However, the introduction of these auxiliary variables can produce algorithms with simulated values highly correlated, this fact harms the convergence. The grouping of the unknow quantities in blocks, in such way that the joint simulation of this quantities is possible, is an alternative for reduction of the autocorrelation, and therefore, improves the efficiency of the simulation procedure. In this work, we present proposals of simulation using the Gibbs block sampler in the context of binary response regression models using auxiliary variables. Three class of links are considered: probit, logit and skew-probit. For the two first we present and implement the scheme of joint update proposed by Holmes and Held (2006). For the skew-probit, we consider four different ways to construct the blocks, and compare these algorithms through two measures of efficiency (the average Euclidean update distance between interactions and effective sample size). We conclude that the considered algorithms are more efficient than the conventional (without blocks), where one of these leading to around 160\\% improvement in the effective sample size. Moreover, we discuss one important stage of the modelling, called residual analysis. In this part we adapt and implement residuals considered in the probit model for the logistic and skew-probit models. For a simulated data set we detect the presence of outlier used the residuals proposed here for the different models.

Page generated in 0.0554 seconds