• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 358
  • 13
  • Tagged with
  • 371
  • 371
  • 358
  • 358
  • 358
  • 130
  • 86
  • 71
  • 66
  • 66
  • 66
  • 60
  • 50
  • 48
  • 46
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Modelo de mistura com dependência Markoviana de primeira ordem

Meira, Silvana Aparecida 12 September 2014 (has links)
Made available in DSpace on 2016-06-02T20:06:10Z (GMT). No. of bitstreams: 1 6237.pdf: 1097574 bytes, checksum: efdba2d8d3f39759e65f53c499f7ee6a (MD5) Previous issue date: 2014-09-12 / We present the mixture model with first order dependence, MMM(1). This model corresponds to a redefinition of the hidden Markov model (HMM) where a non observable variable is used to control the mixture. The usual mixture model is a particular case of the MMM(1). The proposed redefinition makes easier the application of usual estimation tools as the EM algorithm. We present the maximum likelihood and Bayesian estimators for the normal and binomial cases of the MMM(1) and usual mixture models. Simulation studies show the functionality of the proposed models and their estimators. And finally we present an application to a real data set for the binomial case. / Nesse trabalho apresentamos o modelo de mistura com dependência markoviana de primeira ordem, MMM(1). A metodologia proposta corresponde a uma redefinição do modelo markoviano oculto (HMM) na qual utilizamos uma variável não observável como controladora da mistura. O modelo de mistura usual (sem dependência) é um caso particular do MMM(1). A redefinição proposta permite uma adaptação de instrumentos usuais de estimação como por exemplo o algoritmo EM. Apresentamos também os estimadores de máxima verossimilhança e bayesianos para os modelos MMM(1) e de mistura usual para os casos da distribuição normal e binomial. Estudos de simulação demonstram a funcionalidade do modelo e estimadores propostos. Ao final apresentamos uma aplicação a um conjunto de dados reais apresentados na literatura para o caso binomial.
42

Reamostragem bootstrap em amostragem por conjuntos ordenados e intervalos de confiança não paramétricos para a média.

Taconeli, Cesar Augusto 27 January 2005 (has links)
Made available in DSpace on 2016-06-02T20:06:11Z (GMT). No. of bitstreams: 1 DissCAT.pdf: 1246450 bytes, checksum: 08bdf53e7efc64e4dcca7835dee4b601 (MD5) Previous issue date: 2005-01-27 / Financiadora de Estudos e Projetos / Ranked set sampling is an efficient and practice way to obtain more precise estimative when the sample size is small because of the high cost or difficulties to measure the interest variable. Using rough and cheap qualitative or quantitative information, the sample units are ranked before their effective measurement. In 1952, McIntyre introduced the ranked set sample design to estimate the average yields from plots of cropland, using the ranked set sample mean, X . Cesario and Barreto (2003) have shown a parametric version of bootstrap confidence intervals for normal distribution mean. Because of the restriction of small sample size, the distributional assumption may not be reasonable, producing no liable estimates. So the study and proposition of precise interval estimators of the population mean could be relevant and are the main interest of this work. Using resampling methods, we propose in this work an extension of bootstrap resampling for ranked set sampling. A simulation study is conduced to the properties of single random sample bootstrap confidence intervals and the similar using our version for ranked set sampling. The analysis of the simulation study have shown the gain of precision for using the ranked set sampling bootstrap confidence intervals in the population mean. / A amostragem por conjuntos ordenados é uma alternativa prática e eficiente no que concerne à obtenção de estimativas mais precisas frente à impossibilidade de extração de uma amostra numerosa, seja devido a dificuldades na mensuração da variável de interesse ou a um elevado custo inerente a obtenção de tais medidas. A aplicação deste delineamento amostral torna-se viável caso seja possível ordenar amostras extraídas aleatoriamente de maneira eficiente, de acordo com o valor da variável de interesse, sem de fato medi-las, mas baseado apenas em um critério pré-estabelecido, que pode ser alguma variável concomitante altamente correlacionada ou mesmo mediante algum julgamento pessoal. Introduzida por McIntyre (1952), a amostragem por conjuntos ordenados propicia a estimação de diversos parâmetros com um relevante ganho em termos de precisão. Um estimador para a média populacional é a média da amostra por conjuntos ordenados ( X ), proposto por McIntyre com aplicações, inicialmente, na estimação da produção média de pastagens. Cesário e Barreto (2003) apresentam uma alternativa paramétrica na obtenção de intervalos de confiança bootstrap para a média de populações com distribuição normal via amostragem por conjuntos ordenados. Dada a restrição quanto à seleção de grandes amostras, a suposição de alguma distribuição para a variável de interesse muitas vezes não é razoável, gerando estimativas pouco confiáveis. Neste contexto, o estudo e a proposição de estimadores intervalares não paramétricos para a média, elaborados a partir de um esquema de seleção de amostras capaz de gerar estimativas precisas sob circunstâncias adversas, como é a amostragem por conjuntos ordenados, mostra-se altamente relevante, sendo o objeto de estudo deste trabalho. Os intervalos de confiança analisados são obtidos através de um esquema original de reamostragem bootstrap, fundamentado em amostragem por conjuntos ordenados, seguindo algoritmos propostos neste trabalho. A análise das propriedades destes intervalos foi realizada a partir de um amplo estudo via simulação, que evidenciou uma significativa melhora das estimativas propostas, quando comparado àquelas convencionais, baseadas em amostragem aleatória simples, especialmente em relação à precisão de tais estimativas.
43

Uma abordagem clássica e bayesiana para os modelos de Gompertz e de Richards heteroscedásticos.

Buzolin, Prescila Glaucia Christianini 16 September 2005 (has links)
Made available in DSpace on 2016-06-02T20:06:11Z (GMT). No. of bitstreams: 1 DissPGCB.pdf: 1168050 bytes, checksum: 6dc9351b4fed81fa76650df3ca9d8772 (MD5) Previous issue date: 2005-09-16 / This work presents a classical and a Bayesian approaches to two sigmoidal grownth curves, the Gompertz and the Richards models. We consider the homoscedastic assumption and a multiplicative heteroscedastic structure. For the classical approach we use the maximum likelihood method and for bayesian approach we consider non-informative priors. The posterioris summaries were obtained by the use of the Metropolis-Hastings algorithm. The illustration of both approaches is made using a simulated and a real data set. / Esta dissertação apresenta as abordagens Clássica e Bayesiana para os modelos de crescimento sigmoidais de Gompertz e de Richards. São consideradas as suposições de homoscedasticidade e heteroscedasticidade multiplicativa dos erros. Para a análise Clássica foi utilizado o método de máxima verossimilhança onde a obtenção das estimativas dos parâmetros ocorreu através de métodos iterativos. Para a análise bayesiana, foram consideradas prioris não informativas de Jeffreys e para a obtenção dos resumos a posteriori utilizamos o algoritmo de Metropolis-Hastings. Ambos os métodos foram ilustrados através de dados simulados e reais.
44

Ponderação de modelos com aplicação em regressão logística binária.

Brocco, Juliane Bertini 18 April 2006 (has links)
Made available in DSpace on 2016-06-02T20:06:12Z (GMT). No. of bitstreams: 1 DissJBB.pdf: 632747 bytes, checksum: 7f6e8caa78736a965ecb167ee27b7cc3 (MD5) Previous issue date: 2006-04-18 / Universidade Federal de Sao Carlos / This work consider the problem of how to incorporate model selection uncertainty into statistical inference, through model averaging, applied to logistic regression. It will be used the approach of Buckland et. al. (1997), that proposed an weighed estimator to a parameter common to all models in study, where the weights are obtained by information criteria or bootstrap method. Also will be applied bayesian model averaging as shown by Hoeting et. al. (1999), where posterior probability is an average of the posterior distributions under each of the models considered, weighted by their posterior model probability. The aim of this work is to study the behavior of the weighed estimator, both, in the classic approach and in the bayesian, in situations that consider the use of binary logistic regression, with foccus in prediction. The known model-choice selection method Stepwise will be considered as form of comparison of the predictive performance in relation to model averaging. / Esta dissertação considera o problema de incorporação da incerteza devido à escolha do modelo na inferência estatística, segundo a abordagem de ponderação de modelos, com aplicação em regressão logística. Será utilizada a abordagem de Buckland et. al. (1997), que propuseram um estimador ponderado para um parâmetro comum a todos os modelos em estudo, sendo que, os pesos desta ponderação são obtidos a partir do uso de critérios de informação ou do método bootstrap. Também será aplicada a ponderação bayesiana de modelos como apresentada por Hoeting et. al. (1999), onde a distribuição a posteriori do parâmetro de interesse é uma média da distribuição a posteriori do parâmetro sob cada modelo em consideração ponderado por suas respectivas probabilidades a posteriori. O objetivo deste trabalho é estudar o comportamento do estimador ponderado, tanto na abordagem clássica como na bayesiana, em situações que consideram o uso de regressão logística binária, com enfoque na estimação da predição. O método de seleção de modelos Stepwise será considerado como forma de comparação da capacidade preditiva em relação ao método de ponderação de modelos.
45

Modelos de sobrevivência para estimação do período de latência do câncer / Survival models to estimate the latency period of cancer

Bettim, Bárbara Beltrame 29 June 2017 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-09-26T18:18:47Z No. of bitstreams: 1 DissBBB.pdf: 1070846 bytes, checksum: a16745b05e48414c17e926ab9fc632b6 (MD5) / Approved for entry into archive by Ronildo Prado (bco.producao.intelectual@gmail.com) on 2018-01-29T18:46:03Z (GMT) No. of bitstreams: 1 DissBBB.pdf: 1070846 bytes, checksum: a16745b05e48414c17e926ab9fc632b6 (MD5) / Approved for entry into archive by Ronildo Prado (bco.producao.intelectual@gmail.com) on 2018-01-29T18:46:12Z (GMT) No. of bitstreams: 1 DissBBB.pdf: 1070846 bytes, checksum: a16745b05e48414c17e926ab9fc632b6 (MD5) / Made available in DSpace on 2018-01-29T18:49:23Z (GMT). No. of bitstreams: 1 DissBBB.pdf: 1070846 bytes, checksum: a16745b05e48414c17e926ab9fc632b6 (MD5) Previous issue date: 2017-06-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Cancer is responsible for about 13% of all deaths in the world occuring mainly in people who are late diagnosed and in advanced stages. Due to its devastating characteristics and the growing prevalence of the disease, it is unquestionable the need of constant investigation and research in this area, in order to improve the early detection and to help in its prevention and treatment. Among the existing approaches, one alternative is the creation of techniques to estimate the "silent" growth period of cancer, which means to know the beginning moment of the carcinogen period, also known as latency period. In a literature review, it was found an shortage of models that estimate the latency of cancer, indicating the need of study about this theme. In this context, survival analysis methods appear as an useful tool to build these models. In this study, a review of an existing model is presented, as well as its formulation and estimation methods. Furthermore, an application on real data and a discussion of the obtained results are made. As a result, it was identified the need to formulate a new model, because of the limitations of the studied one. We present 3 alternative models that solve the points presented in the discussion, with applications. / O câncer é responsável por aproximadamente 13% de todas as mortes no mundo, sendo que elas ocorrem principalmente em pessoas que são diagnosticadas tardiamente e em estágios avançados. Devido às suas características devastadoras e à prevalência cada vez maior da doença, é inquestionável a necessidade de investigações e pesquisas constantes na área, no sentido de aprimorar a detecção precoce e auxiliar em sua prevenção e tratamento. Dentre as diversas abordagens existentes, uma alternativa é a criação de técnicas para estimar o período de crescimento "silencioso" do câncer, que significa conhecer o momento do início do processo cancerígeno, também chamado de período de latência. A partir da revisão da literatura realizada, foi verificada uma escassez de modelos que estimam a latência do câncer, indicando a necessidade de estudo sobre o tema. Nesse contexto, métodos de análise de sobrevivência surgem como uma ferramenta útil para a construção desses modelos. No presente trabalho, é apresentada uma revisão de um modelo já existente, bem como sua formulação e métodos de estimação. Além disso, apresenta-se uma aplicação em um conjunto de dados reais e uma discussão dos resultados obtidos.Foi identificada a necessidade da formulação de um novo modelo, visto que o método estudado apresenta algumas limitações. Com isso são apresentadas 3 alternativas de modelos que solucionam os pontos apresentados na discussão, com respectivas aplicações.
46

Time series forecasting : advances on Theta method

Fiorucci, José Augusto 13 May 2016 (has links)
Submitted by Caroline Periotto (carol@ufscar.br) on 2016-09-21T14:53:55Z No. of bitstreams: 1 TeseJAF.pdf: 1812104 bytes, checksum: 817ececd9c05df0ddae3a91de3c8bb14 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-23T18:27:05Z (GMT) No. of bitstreams: 1 TeseJAF.pdf: 1812104 bytes, checksum: 817ececd9c05df0ddae3a91de3c8bb14 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-23T18:27:11Z (GMT) No. of bitstreams: 1 TeseJAF.pdf: 1812104 bytes, checksum: 817ececd9c05df0ddae3a91de3c8bb14 (MD5) / Made available in DSpace on 2016-09-23T18:27:17Z (GMT). No. of bitstreams: 1 TeseJAF.pdf: 1812104 bytes, checksum: 817ececd9c05df0ddae3a91de3c8bb14 (MD5) Previous issue date: 2016-05-13 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Accurate and robust forecasting methods for univariate time series are critical as the historical data can be used in the strategic planning of such future operations as buying and selling to ensure product inventory and meet market demands. In this context, several competitions for time series forecasting have been organized, with the M3-Competition as the largest. As the winner of M3-Competition, the Theta method has attracted attention from researchers for its predictive performance and simplicity. The Theta method is a combination of other methods, which proposes the decomposition of the deseasonalized time series into two other time series called "theta lines". The first completely removes the curvatures of the data, thus accurately estimating the long-term trend. The second doubles the curvatures to better approximate short-term behavior. Several issues have been raised about the Theta method, even by its originators. They include the number of theta lines, their parameters, weights to combine them, and construction of prediction intervals, among others. This doctorate thesis resolves part of these issues. We derive optimal weights for combine the theta lines, this result is used to derive statistical models which generalizes /approximate the standard Theta method. The statistical methodology is considering for parameter estimation and for compute the prediction intervals. The optimal weights are also used to propose new methods that hold two or more theta lines. Part of proposed methodology is implemented in a package for R-programming language. In an empirical investigation using the M3-Competition data set with more than 3000 time series, the proposed methods/models demonstrated significant accuracy. The study’s primary approach, the Dynamic Optimised Theta Model, outperformed all benchmarks methods, constituting, in all likelihood, the highest-performing method for this data set available in the literature. / Métodos precisos e robustos para prever séries temporais são muito importantes em diversas áreas. Uma vez que os dados históricos são utilizados para o planejamento estratégico de operações futuras, como compra ou venda de determinados produtos para controle de estoque e demanda. Neste contexto, várias competições para métodos de previsão de séries temporais univariadas foram realizadas, sendo a Competição M3 a maior. Ao vencer a Competição M3, o método Theta intrigou pesquisadores por sua capacidade preditiva e simplicidade. O método Theta é uma combinação de outros métodos, o qual propõe decompor a série temporal (desazonalizada) em outras duas séries temporais chamadas de "linhas thetas". A primeira linha theta remove completamente a curvatura dos dados, sendo assim um estimador para a tendência a longo prazo. A segunda linha theta dobra a curvatura da série sendo assim um estimador para a componente de curto prazo. Várias questões relacionadas ao método Theta foram levantadas, algumas pelos próprios autores, como parâmetros ideais para as linhas thetas, pesos para combinar as linhas thetas, construção de intervalos de predição, número ideal de linhas thetas, entre outras. Nesta tese algumas dessas questões são solucionadas. Pesos ótimos para a combinação de linhas thetas são derivados, esses resultados são utilizados para a construção de modelos estatísticos que generalizam/aproximam o método Theta padrão. A metodologia estatística é empregada para estimação dos parâmetros e construção de intervalos de predição. Os pesos ótimos também são utilizados para propor métodos que consideram duas ou mais linhas thetas. Parte da metodologia proposta é implementada em um pacote para a linguagem de programação R. Em um estudo empírico com mais de 3000 séries temporais do conjunto de dados da competição M3, os métodos/modelos propostos mostraram-se acurados. A nossa principal abordagem, o modelo DOTM ("Dynamic Optimised Theta Model") superou todos os concorrentes, sendo possivelmente o método com o melhor desempenho nesse conjunto de dados já disponibilizado na literatura.
47

Tempo de espera para a ocorrência de palavras em ensaios de Markov / Waiting time for the occurrence of patterns in Markov chains

Florencio, Mariele Parteli 06 April 2016 (has links)
Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-09-28T12:28:44Z No. of bitstreams: 1 DissMPFte.pdf: 1012457 bytes, checksum: 6124d4a74a53050982226492d8d53133 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-10T19:03:27Z (GMT) No. of bitstreams: 1 DissMPFte.pdf: 1012457 bytes, checksum: 6124d4a74a53050982226492d8d53133 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-10T19:03:35Z (GMT) No. of bitstreams: 1 DissMPFte.pdf: 1012457 bytes, checksum: 6124d4a74a53050982226492d8d53133 (MD5) / Made available in DSpace on 2016-10-10T19:03:44Z (GMT). No. of bitstreams: 1 DissMPFte.pdf: 1012457 bytes, checksum: 6124d4a74a53050982226492d8d53133 (MD5) Previous issue date: 2016-04-06 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Consider a sequence of independent coin flips where we denote the result of any landing for H, if coming up head, or T, otherwise. Create patterns with H's and T's, for example, HHHHH or HTHTH. How many times do we have to land the same coin until one such two patterns happens? For example, let the sequences being THTHHHHH and TTHTTHTHTH. The number of times that we landed the coin until HHHHH and HTHTH happens it was eight and ten times respectively. We can generalize this idea for a finite number of patterns in any nite set. Then, the rst of all interest of this dissertation is to nd the distribution of the waiting time until a member of a nite colection of patterns is observed in a sequence of Markov chains of letters in from finite set. More speci cally the letters in a nite set are generated by Markov chain until one of the patterns in any fi nite set happens. Besides that, we will find the probability of a pattern happen before of all patterns in the same nite set. Finally we will find the generator function of probability of waiting time. / Consideremos uma sequência de lan camentos de moedas em que denotamos o resultado de cada lan çamento por H, se der cara, ou por T, se der coroa. Formemos uma palavra apenas com H's e T's, por exemplo, HHHHH ou HTHTH. Quantas vezes arremessaremos uma mesma moeda at e que uma das duas palavras acima ocorrer á? Por exemplo, dadas as sequências THTHHHHH e TTHTTHTHTH. O n úmero de vezes que arremessamos a moeda at é que HHHHH e HTHTH ocorreram pela primeira vez e oito e dez, respectivamente. Podemos generalizar a ideia acima para um n úmero fi nito de palavras em um alfabeto finito qualquer. Assim, o nosso principal objetivo dessa disserta ção e encontrarmos a distribui ção do tempo de espera at é que um membro de uma cole ção fi nita de palavras seja observado em uma sequência de ensaios de Markov de letras de um alfabeto fi nito. Mais especifi camente, as letras de um alfabeto finito são geradas por uma cadeia de Markov at é que uma das palavras de uma cole ção finita ocorra. Al ém disso encontraremos a probabilidade de que determinada palavra ocorra antes das demais palavras pertencentes a um mesmo conjunto fi nito. Por último encontraremos a fun ção geradora de probabilidade do tempo de espera.
48

Metanálise para Modelos de Regressão

Santos, Laryssa Vieira dos 28 October 2016 (has links)
Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-01-11T10:26:37Z No. of bitstreams: 1 DissLVS.pdf: 1824115 bytes, checksum: 71ce8c53b020b46c93876ebad01cdbc4 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2017-01-13T19:21:08Z (GMT) No. of bitstreams: 1 DissLVS.pdf: 1824115 bytes, checksum: 71ce8c53b020b46c93876ebad01cdbc4 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2017-01-13T19:21:16Z (GMT) No. of bitstreams: 1 DissLVS.pdf: 1824115 bytes, checksum: 71ce8c53b020b46c93876ebad01cdbc4 (MD5) / Made available in DSpace on 2017-01-13T19:21:26Z (GMT). No. of bitstreams: 1 DissLVS.pdf: 1824115 bytes, checksum: 71ce8c53b020b46c93876ebad01cdbc4 (MD5) Previous issue date: 2016-10-28 / Não recebi financiamento / A metanálise tem sido amplamente utilizada em estudos médicos especialmente em revisões sistemáticas de ensaios clínicos aleatorizados. Para modelos de regressão a técnica ainda é muito escassa e limitada. Geralmente, trata-se apenas de uma medida baseada nas médias de estimativas pontuais dos diferentes estudos, perdendo-se muita informação dos dados originais. Atualmente, torna-se cada vez mais fundamental o uso da metanálise para sumarizar estudos de mesmo objetivo, em razão do avanço da ciência e o desejo de usar o menor número de seres humanos em ensaios clínicos. Utilizando uma medida metanalítica Bayesiana, o objetivo é propor um método genérico e eficiente para realizar metanálise em modelos de regressão.
49

Models for inflated data applied to credit risk analysis

Oliveira Júnior, Mauro Ribeiro de 27 September 2016 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-04-05T20:08:31Z No. of bitstreams: 1 TeseMROJ.pdf: 2077202 bytes, checksum: 62fc395e16c6576efb12a5f2918e13d3 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-04-19T14:07:14Z (GMT) No. of bitstreams: 1 TeseMROJ.pdf: 2077202 bytes, checksum: 62fc395e16c6576efb12a5f2918e13d3 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-04-19T14:07:23Z (GMT) No. of bitstreams: 1 TeseMROJ.pdf: 2077202 bytes, checksum: 62fc395e16c6576efb12a5f2918e13d3 (MD5) / Made available in DSpace on 2017-04-19T14:13:26Z (GMT). No. of bitstreams: 1 TeseMROJ.pdf: 2077202 bytes, checksum: 62fc395e16c6576efb12a5f2918e13d3 (MD5) Previous issue date: 2016-09-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / In this thesis, we introduce a methodology based on zero-inflated survival data for the purposes of dealing with propensity to default (credit risk) in bank loan portfolios. Our approach enables us to accommodate three different types of borrowers: (i) individual with event at the starting time, i.e., default on a loan at the beginning; (ii) non-susceptible for the event of default, or (iii) susceptible for the event. The information from borrowers in a given portfolio is exploited through the joint modeling of their survival time, with a multinomial logistic link for the three classes. An advantage of our approach is to accommodate zero-inflated times, which is not possible in the standard cure rate model introduced by Berkson & Gage (1952). The new model proposed is called zero-inflated cure rate model. We also extend the promotion cure rate model studied in Yakovlev & Tsodikov (1996) and Chen et al. (1999), by incorporating excess of zeros in the modelling. Despite allowing to relate covariates to the fraction of cure, the current approach does not enable to relate covariates to the fraction of zeros. The new model proposed is called zero-inflated promotion cure rate model. The second part of this thesis aims at proposing a regression version of the inflated mixture model presented by Calabrese (2014) to deal with multimodality in loss given default data. The novel methodology is applied in four retail portfolios of a large Brazilian commercial bank. / Nesta tese de doutorado, introduzimos uma metodologia baseada em dados de sobrevivência inflacionados em zero com o objetivo de lidar com propensão à inadimplencia (ou seja, risco de crédito) em carteiras de empréstimos bancários. Nossa abordagem permite acomodar (extrair informações de) três tipos diferentes de clientes bancários: (i) indivíduo com empréstimo inadimplente logo no início; (ii) cliente não suscetível ao evento de inadimplência, ou (iii) cliente suscetível ao evento de inadimplir. A informação dos empréstimos em um determinado portfólio é explorada através da modelagem conjunta do seu tempo de sobrevivência, com uma ligação logística multinomial para as três classes. Uma vantagem da nossa abordagem é acomodar tempos inflados em zero, o que não é possível no modelo de fração de cura padrão introduzido por Berkson & Gage (1952). Também estendemos o modelo com fração de cura estudado por Yakovlev & Tsodikov (1996) e Chen et al. (1999), incorporando excesso de zeros na modelagem. Apesar de permitir relacionar covariáveis à fração de cura do modelo, a abordagem padrão não permite relacionar covariáveis com a proporção de zeros dos dados. A segunda parte desta tese visa propor uma versão de regressão do modelo de mistura inflada apresentada por Calabrese (2014), visando extrair informações referentes a multimodalidade apresentada em dados relacionados à perda dado a inadimplência (LGD). A nova metodologia é aplicada em quatro carteiras de empréstimo de varejo de um grande banco comercial brasileiro. / CAPES: BEX 10583/14-9
50

Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros / Segmentation of names and addresses through hidden Markov models and its application in record linkage

Rita de Cássia Braga Gonçalves 11 December 2013 (has links)
A segmentação dos nomes nas suas partes constitutivas é uma etapa fundamental no processo de integração de bases de dados por meio das técnicas de vinculação de registros. Esta separação dos nomes pode ser realizada de diferentes maneiras. Este estudo teve como objetivo avaliar a utilização do Modelo Escondido de Markov (HMM) na segmentação nomes e endereços de pessoas e a eficiência desta segmentação no processo de vinculação de registros. Foram utilizadas as bases do Sistema de Informações sobre Mortalidade (SIM) e do Subsistema de Informação de Procedimentos de Alta Complexidade (APAC) do estado do Rio de Janeiro no período entre 1999 a 2004. Uma metodologia foi proposta para a segmentação de nome e endereço sendo composta por oito fases, utilizando rotinas implementadas em PL/SQL e a biblioteca JAHMM, implementação na linguagem Java de algoritmos de HMM. Uma amostra aleatória de 100 registros de cada base foi utilizada para verificar a correção do processo de segmentação por meio do modelo HMM.Para verificar o efeito da segmentação do nome por meio do HMM, três processos de vinculação foram aplicados sobre uma amostra das duas bases citadas acima, cada um deles utilizando diferentes estratégias de segmentação, a saber: 1) divisão dos nomes pela primeira parte, última parte e iniciais do nome do meio; 2) divisão do nome em cinco partes; (3) segmentação segundo o HMM. A aplicação do modelo HMM como mecanismo de segmentação obteve boa concordância quando comparado com o observador humano. As diferentes estratégias de segmentação geraram resultados bastante similares na vinculação de registros, tendo a estratégia 1 obtido um desempenho pouco melhor que as demais. Este estudo sugere que a segmentação de nomes brasileiros por meio do modelo escondido de Markov não é mais eficaz do que métodos tradicionais de segmentação. / The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods.

Page generated in 0.0791 seconds