Global ETD Search

1	[en] MODELING IBNR CLAIMS WITH TAIL EFFECT: EXTENDED CHAIN LADDER, HETEROCEDASTIC LINEAR REGRESSION MODELS AND LINEAR STATE SPACE MODELS / [pt] MODELAGEM DE SINISTROS IBNR COM CAUDA: CHAINLADDER ESTENDIDO, ANÁLISE DE REGRESSÃO COM HETEROCEDASTICIDADE E MODELAGEM EM ESPAÇO DE ESTADO LINEAR LEONARDO HENRIQUE COSTA 02 July 2010 (has links) [pt] Este trabalho utiliza três metodologias para modelagem de sinistros IBNR apresentados no formato do triângulo de runoff com cauda, e verifica, por meio de quatro exercícios empíricos com dados reais, se existe uma abordagem estatisticamente mais eficaz. A primeira metodologia se baseia no método do chain ladder clássico, com uma extensão de cálculo de reserva para ano de calendário. A segunda metodologia baseia-se em modelos de regressão linear com heterocedasticidade, sob o arranjo usual do triângulo via duplo-índice. A terceira insere-se no arcabouço dos modelos de espaço de estado lineares e do filtro de Kalman, considerando, desta vez, a ordenação por linhas do triângulo de Atherino et al. (2010). Para todas as abordagens, efetivam-se derivações teóricas e implementações computacionais tanto dos cálculos de reservas IBNR totais e parciais, resultantes dos modelos estimados, quanto dos correspondentes erros médios quadráticos teóricos. Como conclusões desta Dissertação, citam-se: (i) apesar de superiores ao chain ladder, nenhuma das outras duas abordagens se destaca sistematicamente em relação à outra; (ii) a adoção do efeito cauda se mostrou computacional e tecnicamente viável; e (iii) há fatos estilizados nos dados, modelados sob as três abordagens, que possibilitariam a confecção de softwares de estimação de reserva. / [en] This work makes use of three methodologies for modeling IBNR data arranged in the runoff triangle with a tail effect, and evaluates their performances in four empirical examples. The first methodology is the traditional chain ladder, duly extended to calculate a reserve corresponding to the calendar year. The second methodology remains on linear regression models with heteroscedastic errors, under the well-established double index notation of the triangle. The third methodology uses the linear state space modeling and the theory of the Kalman filter, adopting, this time, the row-wise ordering proposed by Atherino et al. (2010). For each approach, theoretical results and numerical implementations are obtained, where both the punctual IBNR reserve estimators and their corresponding theoretical mean square errors are considered. The main conclusions from this Dissertation are: (i) even thought proving to be superior to the chain ladder, none of the remaining two approaches seems to outperform the other; (ii) the adding of a tail effect does not entail major theoretical and/or computational problems; and (iii) the approaches have uncovered stylized facts that would enable the planning of softwares for IBNR reserve estimation. Read more [pt] FILTRO DE KALMAN [en] KALMAN FILTER [pt] MODELOS DE REGRESSAO [en] REGRESSION MODELS [pt] CHAIN LADDER [en] CHAIN LADDER
2	[en] FORECASTING OF JUDICIAL CONTINGENCY IN ELECTRIC SECTOR COMPANIES: AN APPROACH VIA DYNAMIC REGRESSION AND EXPONENTIAL SMOOTHING / [pt] PREVISÃO DE CONTINGÊNCIA JUDICIAL EM EMPRESAS DO SETOR ELÉTRICO: UMA ABORDAGEM VIA REGRESSÃO DINÂMICA E AMORTECIMENTO EXPONENCIAL BRUNO AGRÉLIO RIBEIRO 03 October 2012 (has links) [pt] Esta dissertação tem como objetivo principal a proposição de modelos para previsão, em um curto prazo, do número de processos que são ajuizados em desfavor de uma empresa do setor elétrico. A metodologia utilizada consiste em, a partir de uma análise exploratória dos dados, construir modelos usando uma estratégia bottom-up, ou seja, parte-se de um modelo simples e processa-se seu refinamento até encontrar um modelo apropriado que mais se adeque à realidade. Partiu-se então de um modelo auto projetivo indo até uma formulação de um modelo de regressão dinâmica. Os modelos são então comparados segundo alguns critérios, basicamente no que tange à sua eficiência preditiva. Conclui-se ao final sobre a eficiência de se utilizar modelos de regressão dinâmica para este tipo de previsão tendo em vista a presença de correlação serial dos resíduos, comumente presentes nas séries econômicas. Propõe-se, ao final, uma ferramenta para, a partir dos valores estimados, analisar a viabilidade econômica de estimular ou desestimular as medidas responsáveis pela geração de processos contra a empresa. / [en] The aim of this dissertation is to develop short term models to forecast the number of judicial process in electric sector companies. From the methodology point of view, data is analyzed and models using bottom-up strategy is developed. In other words, a simple model is improved step by step until a proper model that fits well the reality is found. From a univariate model it ends up in a dynamic regression model. The models obtained in this study are compared according to some criterion, mainly forecast accuracy. In the end the conclusion is about the efficiency of dynamic regression models for this kind of forecast, which one presents data with serial correlation of residues, commonly present in economic series. In the end, from the estimated values, it´s proposed a mechanism to analyze the economic viability, to encourage or not, actions which are responsible for instigating judicial processes against the company. Read more [pt] AMORTECIMENTO EXPONENCIAL [en] EXPONENTIAL SMOOTHING [pt] MODELOS DE REGRESSAO DINAMICA [en] DYNAMIC REGRESSION MODELS [pt] PREVISAO DE CONTINGENCIA JUDICIAL [en] JUDICIAL CONTINGENCY FORECASTING
3	[en] THE E SCORE MODEL FOR THE PREDICTION OF BANKRUPTCY OF INTERNET COMPANIES / [pt] O MODELO E SCORE DE PREVISÃO DE FALÊNCIAS PARA EMPRESAS DE INTERNET ORLANDO MANSUR T S A PEREIRA 10 March 2003 (has links) [pt] O objetivo desta pesquisa é propor um modelo estatístico que possa estimar a probabilidade de ocorrência de falências ou concordatas em empresas de Internet. Após as recentes e drásticas perdas de capital em investimentos nas empresas desta nova indústria, instituições financeiras, pessoas físicas e todos os investidores desejam ter o conhecimento da real situação financeira das empresas denominadas pontocom. Esta pesquisa selecionou empresas norte-americanas que pediram falência ou concordata nas Cortes Norte-Americanas de Falências,entre 1999 e 2001, e empresas que não o fizeram, por amostragem de conveniência, que possuem ações listadas em bolsa e operam no e-commerce, isto é que vendem seus produtos ou serviços através da Internet. Utilizou, ainda, as demonstrações financeiras destas empresas para identificar, por intermédio de um teste T de amostras independentes, as variáveis mais significantes na discriminação dos dois grupos de empresas observados na amostra: o de empresas falidas e o de não-falidas. Analisadas as distribuições estatísticas das variáveis,o modelo de regressão logística demonstra ser o mais apropriado à pesquisa, por não possuir a premissa de normalidade multivariada. A conclusão final da pesquisa é a proposição de um modelo estatístico que indica a probabilidade de uma empresa de Internet falir ou não, com índice R2 de Nagelkerke de 0,887, percentual máximo de acerto na classificação de 97,4 por cento e que utiliza ainda não utilizadas em pesquisas anteriores similares. / [en] The objective of this research is to propose a statistical model that could estimate the probability of occurrence of bankruptcy for Internet companies. After the recent and drastic losses of investment capital in companies in this new sector of the economy, financial institutions, individuals and all investors wish to know the real financial position of these companies called dotcom. This research selected American companies that have filed a petition under the United States Bankruptcy Code, between 1999 and 2001, and companies which have not done it, by convenience sampling, that list their shares on stock markets and operate in e-commerce, i.e. companies that sell their products or services through the Internet. The financial statements of these companies were also used to identify,by analyzing a T test of independent samples, the most significant variables for discriminating the two observed groups in the sample: the bankrupt and the nonbankrupt companies. After analyzing the variables statistical distributions, a logistic regression model revealed to be the more appropriate for the research, for not having the multivariate normality assumption. The conclusion of this research proposes a statistical model which indicates the probability of an Internet company becoming bankrupt or not, with a Nagelkerke R Squared of 0,887, and an overall percentage of correct prediction of 97,4 percent. The model uses several variables not previously included in similar previous financial difficulties prediction models. Read more [pt] INTERNET [en] INTERNET [pt] PREVISAO DE FALENCIAS [en] BANKRUPTCY PREDICTION [pt] MODELOS DE REGRESSAO LOGISTICA [en] LOGISTIC REGRESSION MODELS [pt] MODELAGEM ESTATISTICA [en] STATISTICAL MODELING [pt] E-COMMERCE [en] E-COMMERCE
4	[en] STATISTICAL MODEL FOR PREDICTING THE SUPPLY OF HIGHER EDUCATION: 2015-2035 / [es] MODELO ESTADÍSTICO PARA LA PROYECCIÓN DE OFERTA DE EDUCACIÓN SUPERIOR: 2015-2035 / [pt] MODELO ESTATÍSTICO PARA A PROJEÇÃO DA OFERTA DE ENSINO SUPERIOR: 2015-2035 CLARENA PATRICIA ARRIETA ARRIETA 03 October 2018 (has links) [pt] Segundo o INEP/MEC, nos últimos 20 anos, o número de matrículas da educação superior de graduação no Brasil cresceu mais de duas vezes, com uma taxa de crescimento anual verificada a partir de 2001 em torno de 5,7 por cento ao ano. Ainda segundo esta instituição, em 2008 houve o ingresso de 1.505.819 novos estudantes nos cursos presenciais, ao mesmo tempo em que 1.479.318 vagas não foram ocupadas, sendo que 54,6 por cento do total de vagas ofertadas pelo setor privado. Tendo em conta que São Paulo é o maior estado do Brasil, é muito importante que o Ministério da Educação tome conhecimento de como se dará a dinâmica da oferta de educação superior nos próximos 20 anos para que suas ações (políticas públicas, sobretudo) possam ser realizadas com êxito. O objetivo deste trabalho é aplicar modelagem estatística para estimar a oferta do ensino superior do Estado de São Paulo no período de 2015 a 2035, considerando dados da INEP de educação superior. A motivação para este trabalho é melhorar o planejamento da oferta de curso superior e fazer a replicação do modelo preditivo para outros estados do Brasil. A metodologia usada é modelagem estatística (modelos de regressão linear) e séries temporais (Holt). Como resultado, têm-se as áreas e/os cursos onde o governo federal deve investir no futuro aprimorando seu planejamento. / [en] According to INEP/MEC, in the last 20 years, the number of undergraduate higher education enrollments in Brazil has grown more than twice, with an annual growth rate of 5,7 percent per year since 2001. According to this institution, in 2008 there were 1.505.819 new students enrolled in presential courses, while 1.479.318 vacancies were not filled, with 54.6 percent of the total number of vacancies offered by the private sector. Given that São Paulo is the largest state in Brazil, it is very important that the Ministry of Education becomes aware of the dynamics of the offer of higher education in the next 20 years so that its actions (mainly public policies) can be successfully executed. The objective of this study is to apply statistical modeling to estimate the offer of higher education in the State of São Paulo in the period from 2015 to 2035, considering data from INEP about higher education. The motivation for this work is to improve the planning of the offer of higher education and to replicate the predictive model for other Brazilian states. The methodology used concerns statistical modeling (linear regression models) and time series (Holt). As a result, it is obtained the areas and/or courses where the federal government should invest in the future, improving its planning. / [es] Según el INEP/MEC, en los últimos 20 años, el número de matrículas de educación superior en Brasil creció más de dos veces, con una tasa de crecimiento anual verificada a partir de 2001 en torno al 5,7 por ciento por año. Según esta institución, en 2008 hubo un ingreso de 1.505.819 nuevos estudiantes en los cursos presenciales, al mismo tiempo que 1.479.318 vacantes no fueron ocupadas, siendo el 54,6 por ciento del total de vacantes ofrecidas por el sector privado. Dado que São Paulo es el mayor estado de Brasil, es muy importante que el Ministerio de Educación tome conocimiento de cómo se dará la dinámica de la oferta de educación superior en los próximos 20 años para que sus acciones (políticas públicas, sobre todo) puedan realizarse con éxito. El objetivo de este trabajo es aplicar modelos estadísticos para estimar la oferta de educación superior del Estado de São Paulo en el período de 2015 a 2035, considerando datos de INEP de educación superior. La motivación para este trabajo es mejorar la planificación de la oferta de curso superior y hacer replicación del modelo predictivo para otros estados de Brasil. La metodología utilizada es modelos estadístico (modelos de regresión lineal) y series tiempo (Holt). Como resultado, se tienen las áreas y/o cursos donde el gobierno federal debe invertir en el futuro mejorando su planificación. Read more [pt] SERIES TEMPORAIS [en] TIME SERIES [es] SERIES DE TIEMPO [pt] METROLOGIA [en] METROLOGY [es] METROLOGIA [pt] METODOS DE PREVISAO [en] FORECASTING OF DEMAND [es] METODOS DE PREDICCION [pt] EDUCACAO SUPERIOR [en] COLLEGE EDUCATION [es] EDUCACION SUPERIOR [pt] MODELOS DE REGRESSAO LINEAR [en] LINEAR REGRESSION MODELS [es] MODELOS DE REGRESION LINEAL
5	[pt] ESTIMADOR INTELIGENTE DE BIOMASSA EM PASTOS USANDO ÍNDICES DE VEGETAÇÃO A PARTIR DE IMAGENS CAPTURADAS POR VANTS / [en] INTELLIGENT BIOMASS ESTIMATION IN PASTURES USING RGB-BASED VEGETATION INDICES FROM UAV IMAGERY LUCIANA DOS SANTOS NETTO DOS REYS 11 August 2022 (has links) [pt] O gerenciamento correto das pastagens em regiões agropecuárias tem papel fundamental na própria produção, na prevenção ao desperdício da biomassa vegetal e a liberação de gases de efeito estufa (GEE). Além disso, é necessário evitar o movimento inapropriado do rebanho entre pastos, pois este é um processo demorado e pode ser estressante para o animal. O sucesso desta gestão requer uma avaliação eficiente dos recursos da plantação. Os estudos desenvolvidos com esta finalidade tem relação direta com a estimativa da quantidade de biomassa em uma região específica da pastagem, pois, na prática, ela não é realizada de forma precisa, devido à dificuldade de medição em toda a área delimitada. Este trabalho tem como objetivo desenvolver uma metodologia de estimativa de biomassa de baixo custo, baseada em modelos de regressão que correlacionem os atributos de entrada mais relevantes para a aplicação com o real peso da plantação, medido em g/m2 . Para os atributos, foi medida a altura da grama forrageira e calculados os índices de vegetação baseados em RGB a partir de imagens de veículos aéreos não tripulados (VANTs). Como metodologia, utilizou-se regressões lineares, não lineares, redes neurais artificiais baseados em perceptrons de múltiplas camadas e a combinação de todos os modelos gerados (stacking ensemble). Foram alcançados resultados satisfatórios utilizando modelos de redes neurais com ainda duas camadas e com a metodologia de empilhamento de modelos, alcançando um RMSE de 31.76 g/m2 , MAPE de 13.35 por cento e R 2 de 0.9. Portanto, a metodologia proposta pode se tornar uma solução promissora e acessível para a estimativa de biomassa vegetal para uma gestão eficiente e sustentável do rebanho. / [en] The correct management of pastures in agricultural regions plays a fundamental role in the production itself, in the prevention of plant biomass waste and the release of greenhouse gases (GHG). In addition, it is necessary to avoid inappropriate movement of the herd between pastures, as this is a time-consuming process and can be stressful for the animal. The success of this management requires an efficient assessment of the plant resources. The studies developed for this purpose are directly related to the amount estimation of biomass in a specific region of the pasture, because, in practice, it is not carried out accurately, due to the difficulty of measurement throughout the field. This work aims to develop a low-cost biomass estimation methodology, based on regression models that correlate the most relevant input features for the application with the actual density of the plantation, measured in g/m2 . For the features, the height of the forage grass was measured and the vegetation indexes based on RGB were calculated from images of unmanned aerial vehicles (UAV). Linear, nonlinear regression (MNLR), artificial neural networks (ANN) based on multi-layer perceptron (MLP) and the combination of all models generated (stacking ensemble) were the methodologies tested in order to achieve the best correlation. Satisfactory results were achieved using models of neural networks with two layers and using stacking ensemble methodology, reaching a RMSE of 31.76 g/m2 , MAPE of 13.35 percent and R-Squared of 0.9. Therefore, the proposed methodology may become a promising and affordable solution for plant biomass estimation toward efficient and sustainable herd management. Read more [pt] REDE NEURAL [pt] BIOMASSA DE PASTO [pt] MODELOS DE REGRESSAO [pt] INTELIGENCIA ARTIFICIAL [en] NEURAL NETWORKS [en] RGB-BASED VEGETATION INDICES [en] PASTURE BIOMASS [en] REGRESSION MODELS [en] ARTIFICIAL INTELLIGENCE
6	[en] PREDICTING DRUG SENSITIVITY OF CANCER CELLS BASED ON GENOMIC DATA / [pt] PREVENDO A EFICÁCIA DE DROGAS A PARTIR DE CÉLULAS CANCEROSAS BASEADO EM DADOS GENÔMICOS SOFIA PONTES DE MIRANDA 22 April 2021 (has links) [pt] Prever com precisão a resposta a drogas para uma dada amostra baseado em características moleculares pode ajudar a otimizar o desenvolvimento de drogas e explicar mecanismos por trás das respostas aos tratamentos. Nessa dissertação, dois estudos de caso foram gerados, cada um aplicando diferentes dados genômicos para a previsão de resposta a drogas. O estudo de caso 1 avaliou dados de perfis de metilação de DNA como um tipo de característica molecular que se sabe ser responsável por causar tumorigênese e modular a resposta a tratamentos. Usando perfis de metilação de 987 linhagens celulares do genoma completo na base de dados Genomics of Drug Sensitivity in Cancer (GDSC), utilizamos algoritmos de aprendizado de máquina para avaliar o potencial preditivo de respostas citotóxicas para oito drogas contra o câncer. Nós comparamos a performance de cinco algoritmos de classificação e quatro algoritmos de regressão representando metodologias diversas, incluindo abordagens tree-, probability-, kernel-, ensemble- e distance-based. Aplicando sub-amostragem artificial em graus variados, essa pesquisa procura avaliar se o treinamento baseado em resultados relativamente extremos geraria melhoria no desempenho. Ao utilizar algoritmos de classificação e de regressão para prever respostas discretas ou contínuas, respectivamente, nós observamos consistentemente excelente desempenho na predição quando os conjuntos de treinamento e teste consistiam em dados de linhagens celulares. Algoritmos de classificação apresentaram melhor desempenho quando nós treinamos os modelos utilizando linhagens celulares com valores de resposta a drogas relativamente extremos, obtendo valores de area-under-the-receiver-operating-characteristic-curve de até 0,97. Os algoritmos de regressão tiveram melhor desempenho quando treinamos os modelos utilizado o intervalo completo de valores de resposta às drogas, apesar da dependência das métricas de desempenho utilizadas. O estudo de caso 2 avaliou dados de RNA-seq, dados estes comumente utilizados no estudo da eficácia de drogas. Aplicando uma abordagem de aprendizado semi-supervisionado, essa pesquisa busca avaliar o impacto da combinação de dados rotulados e não-rotulados para melhorar a predição do modelo. Usando dados rotulados de RNA-seq do genoma completo de uma média de 125 amostras de tumor AML rotuladas da base de dados Beat AML (separados por tipos de droga) e 151 amostras de tumor AML não-rotuladas na base de dados The Cancer Genome Atlas (TCGA), utilizamos uma estrutura de modelo semi-supervisionado para prever respostas citotóxicas para quatro drogas contra câncer. Modelos semi-supervisionados foram gerados, avaliando várias combinações de parâmetros e foram comparados com os algoritmos supervisionados de classificação. / [en] Accurately predicting drug responses for a given sample based on molecular features may help to optimize drug-development pipelines and explain mechanisms behind treatment responses. In this dissertation, two case studies were generated, each applying different genomic data to predict drug response. Case study 1 evaluated DNA methylation profile data as one type of molecular feature that is known to drive tumorigenesis and modulate treatment responses. Using genome-wide, DNA methylation profiles from 987 cell lines in the Genomics of Drug Sensitivity in Cancer (GDSC) database, we used machine-learning algorithms to evaluate the potential to predict cytotoxic responses for eight anti-cancer drugs. We compared the performance of five classification algorithms and four regression algorithms representing diverse methodologies, including tree-, probability-, kernel-, ensemble- and distance-based approaches. By applying artificial subsampling in varying degrees, this research aims to understand whether training based on relatively extreme outcomes would yield improved performance. When using classification or regression algorithms to predict discrete or continuous responses, respectively, we consistently observed excellent predictive performance when the training and test sets consisted of cell-line data. Classification algorithms performed best when we trained the models using cell lines with relatively extreme drug-response values, attaining area-under-the-receiver-operating-characteristic-curve values as high as 0.97. The regression algorithms performed best when we trained the models using the full range of drug-response values, although this depended on the performance metrics we used. Case study 2 evaluated RNA-seq data as one of the most popular molecular data used to study drug efficacy. By applying a semi-supervised learning approach, this research aimed to understand the impact of combining labeled and unlabeled data to improve model prediction. Using genome-wide RNA-seq labeled data from an average of 125 AML tumor samples in the Beat AML database (varying by drug type) and 151 unlabeled AML tumor samples in The Cancer Genome Atlas (TCGA) database, we used a semi-supervised model structure to predict cytotoxic responses for four anti-cancer drugs. Semi-supervised models were generated, while assessing several parameter combinations and were compared against supervised classification algorithms. Read more [pt] APRENDIZADO DE MAQUINA [pt] PREDICAO DA EFICACIA A DROGA [pt] MODELOS DE CLASSIFICACAO [pt] SEQUENCIAMENTO DE RNA [pt] METILACAO [pt] GENOMICA [pt] APRENDIZADO SEMI-SUPERVISIONADO [pt] APRENDIZADO SUPERVISIONADO [pt] MODELOS DE REGRESSAO [pt] CANCER [en] MACHINE LEARNING [en] DRUG RESPONSE PREDICTION [en] CLASSIFICATION MODELS [en] RNA-SEQ [en] METHYLATION [en] GENOMICS [en] SEMI-SUPERVISED LEARNING [en] SUPERVISED LEARNING [en] REGRESSION MODELS [en] CANCER

1

Page generated in 0.0519 seconds