1 |
[en] FORECASTING EMPLOYMENT AND UNEMPLOYMENT IN US. A COMPARISON BETWEEN MODELS / [pt] PREVENDO EMPREGO E DESEMPREGO NOS EUA. UMA COMPARAÇÃO ENTRE MODELOSMARCOS LOPES MUNIZ 12 November 2020 (has links)
[pt] Prever emprego e desemprego é de grande importância para praticamente
todos os agentes de uma economia. Emprego é uma das principais
variáveis analisadas como indicador econômico, e desemprego serve para os
policy makers como uma orientação às suas decisões. Neste trabalho, eu
estudo quais características das duas séries podemos usar para auxiliar no
tratamento dos dados e métodos empregados para auxiliar no poder preditivo
das mesmas. Eu comparo modelos de machine (Random Forest e
Lasso Adaptativo) e Deep (Long short Term memory) learning, procurando
capturar as não linearidades e dinâmicas de ambas séries. Os resultados
encontrados sugerem que o modelo AR com Random Forest aplicado nos
resíduos, como uma maneira de separar parte linear e não linear, é o melhor
modelo para previsão de emprego, enquanto Random Forest e AdaLasso com
Random Forest aplicado nos resíduos são os melhores para o desemprego. / [en] Forecasting employment and unemployment is of great importance
for virtually all agents in the economy. Employment is one of the main
variables analyzed as an economic indicator, and unemployment serves to
policy makers as a guide to their actions. In this essay, I study what features
of both series we can use on data treatment and methods used to add to the
forecasting predictive power. Using an AR model as a benchmark, I compare
machine (Random Forest and Adaptive Lasso) and deep (Long Short Term
Memory) learning methods, seeking to capture non-linearities of both series
dynamics. The results suggests that an AR model with a Random Forest
on residuals (as a way to separate linear and non-linear part) is the best
model for employment forecast, while Random Forest and AdaLasso with
Random Forest on residuals were the best for unemployment forecast.
|
2 |
[en] MACHINE LEARNING METHODS APPLIED TO PREDICTIVE MODELS OF CHURN FOR LIFE INSURANCE / [pt] MÉTODOS DE MACHINE LEARNING APLICADOS À MODELAGEM PREDITIVA DE CANCELAMENTOS DE CLIENTES PARA SEGUROS DE VIDATHAIS TUYANE DE AZEVEDO 26 September 2018 (has links)
[pt] O objetivo deste estudo foi explorar o problema de churn em seguros de vida, no sentido de prever se o cliente irá cancelar o produto nos próximos 6 meses. Atualmente, métodos de machine learning vêm se popularizando para este tipo de análise, tornando-se uma alternativa ao tradicional método de modelagem da probabilidade de cancelamento através da regressão logística. Em geral, um dos desafios encontrados neste tipo de modelagem é que a proporção de clientes que cancelam o serviço é relativamente pequena. Para isso, este estudo recorreu a técnicas de balanceamento para tratar a base naturalmente desbalanceada – técnicas de undersampling, oversampling e diferentes combinações destas duas foram utilizadas e comparadas entre si. As bases foram utilizadas para treinar modelos de Bagging, Random Forest e Boosting, e seus resultados foram comparados entre si e também aos resultados obtidos através do modelo de Regressão Logística. Observamos que a técnica SMOTE-modificado para balanceamento da base, aplicada ao modelo de Bagging, foi a combinação que apresentou melhores resultados dentre as combinações exploradas. / [en] The purpose of this study is to explore the churn problem in life insurance, in the sense of predicting if the client will cancel the product in the next 6 months. Currently, machine learning methods are becoming popular in this type of analysis, turning it into an alternative to the traditional method of modeling the probability of cancellation through logistics regression. In general, one of the challenges found in this type of modelling is that the proportion of clients who cancelled the service is relatively small. For this, the study resorted to balancing techniques to treat the naturally unbalanced base – under-sampling and over-sampling techniques and different combinations of these two were used and compared among each other. The bases were used to train models of Bagging, Random Forest and Boosting, and its results were compared among each other and to the results obtained through the Logistics Regression model. We observed that the modified SMOTE technique to balance the base, applied to the Bagging model, was the combination that presented the best results among the explored combinations.
|
3 |
[en] A SUPERVISED LEARNING APPROACH TO PREDICT HOUSEHOLD AID DEMAND FOR RECURRENT CLIME-RELATED DISASTERS IN PERU / [pt] UMA ABORDAGEM DE APRENDIZADO SUPERVISIONADO PARA PREVER A DEMANDA DE AJUDA FAMILIAR PARA DESASTRES CLIMÁTICOS RECORRENTES NO PERURENATO JOSE QUILICHE ALTAMIRANO 21 November 2023 (has links)
[pt] Esta dissertação apresenta uma abordagem baseada em dados para
o problema de predição de desastres recorrentes em países em
desenvolvimento. Métodos de aprendizado de máquina supervisionado são
usados para treinar classificadores que visam prever se uma família seria
afetada por ameaças climáticas recorrentes (um classificador é treinado
para cada perigo natural). A abordagem desenvolvida é válida para perigos
naturais recorrentes que afetam um país e permite que os gerentes de risco
de desastres direcionem suas operações com mais conhecimento. Além
disso, a avaliação preditiva permite que os gerentes entendam os
impulsionadores dessas previsões, levando à formulação proativa de
políticas e planejamento de operações para mitigar riscos e preparar
comunidades para desastres recorrentes.
A metodologia proposta foi aplicada ao estudo de caso do Peru, onde
foram treinados classificadores para ondas de frio, inundações e
deslizamentos de terra. No caso das ondas de frio, o classificador tem
73,82% de precisão. A pesquisa descobriu que famílias pobres em áreas
rurais são vulneráveis a desastres relacionados a ondas de frio e precisam
de intervenção humanitária proativa. Famílias vulneráveis têm
infraestrutura urbana precária, incluindo trilhas, caminhos, postes de
iluminação e redes de água e drenagem. O papel do seguro saúde, estado
de saúde e educação é menor. Domicílios com membros doentes levam a
maiores probabilidades de serem afetados por ondas de frio. Maior
realização educacional do chefe da família está associada a uma menor
probabilidade de ser afetado por ondas de frio. No caso das inundações, o classificador tem 82.57% de precisão.
Certas condições urbanas podem tornar as famílias rurais mais suscetíveis
a inundações, como acesso à água potável, postes de iluminação e redes
de drenagem. Possuir um computador ou laptop diminui a probabilidade de
ser afetado por inundações, enquanto possuir uma bicicleta e ser chefiado
por indivíduos casados aumenta. Inundações são mais comuns em
assentamentos urbanos menos desenvolvidos do que em famílias rurais
isoladas.
No caso dos deslizamentos de terra, o classificador tem 88.85% de
precisão, e é segue uma lógica diferente do das inundações. A importância
na previsão é mais uniformemente distribuída entre as características
consideradas no aprendizado do classificador. Assim, o impacto de um
recurso individual na previsão é pequeno. A riqueza a longo prazo parece
ser mais crítica: a probabilidade de ser afetado por um deslizamento é
menor para famílias com certos aparelhos e materiais domésticos de
construção. Comunidades rurais são mais afetadas por deslizamentos,
especialmente aquelas localizadas em altitudes mais elevadas e maiores
distâncias das cidades e mercados. O impacto marginal médio da altitude
é não linear.
Os classificadores fornecem um método inteligente baseado em
dados que economiza recursos garantindo precisão. Além disso, a
pesquisa fornece diretrizes para abordar a eficiência na distribuição da
ajuda, como formulações de localização da instalação e roteamento de
veículos.
Os resultados da pesquisa têm várias implicações gerenciais, então
os autores convocam à ação gestores de risco de desastres e outros
interessados relevantes. Desastres recorrentes desafiam toda a
humanidade. / [en] This dissertation presents a data-driven approach to the problem of predicting recurrent disasters in developing countries. Supervised machine learning methods are used to train classifiers that aim to predict whether a household would be affected by recurrent climate threats (one classifier is trained for each natural hazard). The approach developed is valid for recurrent natural hazards affecting a country and allows disaster risk managers to target their operations with more knowledge. In addition, predictive assessment allows managers to understand the drivers of these predictions, leading to proactive policy formulation and operations planning to mitigate risks and prepare communities for recurring disasters. The proposed methodology was applied to the case study of Peru, where classifiers were trained for cold waves, floods, and landslides. In the case of cold waves, the classifier was 73.82% accurate. The research found that low-income families in rural areas are vulnerable to cold wave related disasters and need proactive humanitarian intervention. Vulnerable families have poor urban infrastructure, including footpaths, roads, lampposts, and water and drainage networks. The role of health insurance, health status, and education is minor. Households with sick members are more likely to be affected by cold waves. Higher educational attainment of the head of the household is associated with a lower probability of being affected by cold snaps.In the case of flooding, the classifier is 82.57% accurate. Certain urban conditions, such as access to drinking water, lampposts, and drainage networks, can make rural households more susceptible to flooding. Owning a computer or laptop decreases the likelihood of being affected by flooding while owning a bicycle and being headed by married individuals increases it. Flooding is more common in less developed urban settlements than isolated rural families.In the case of landslides, the classifier is 88.85% accurate and follows a different logic than that of floods. The importance of the prediction is more evenly distributed among the features considered when learning the classifier. Thus, the impact of an individual feature on the prediction is small. Long-term wealth is more critical: the probability of being affected by a landslide is lower for families with specific appliances and household building materials. Rural communities are more affected by landslides, especially those located at higher altitudes and greater distances from cities and markets. The average marginal impact of altitude is non-linear.The classifiers provide an intelligent data-driven method that saves resources by ensuring accuracy. In addition, the research provides guidelines for addressing efficiency in aid distribution, such as facility location formulations and vehicle routing.The research results have several managerial implications, so the authors call for action from disaster risk managers and other relevant stakeholders. Recurrent disasters challenge all of humanity.
|
4 |
[en] FORECASTING AMERICAN INDUSTRIAL PRODUCTION WITH HIGH DIMENSIONAL ENVIRONMENTS FROM FINANCIAL MARKETS, SENTIMENTS, EXPECTATIONS, AND ECONOMIC VARIABLES / [pt] PREVENDO A PRODUÇÃO INDUSTRIAL AMERICANA EM AMBIENTES DE ALTA DIMENSIONALIDADE, ATRAVÉS DE MERCADOS FINANCEIROS, SENTIMENTOS, EXPECTATIVAS E VARIÁVEIS ECONÔMICASEDUARDO OLIVEIRA MARINHO 20 February 2020 (has links)
[pt] O presente trabalho traz 6 diferentes técnicas de previsão para a variação mensal do Índice da Produção Industrial americana em 3 ambientes diferentes totalizando 18 modelos. No primeiro ambiente foram usados como variáveis explicativas a própria defasagem da variação mensal do Índice da produção industrial e outras 55 variáveis de mercado e de expectativa tais quais retornos setoriais, prêmio de risco de mercado, volatilidade implícita, prêmio de taxa de juros (corporate e longo prazo), sentimento do consumidor e índice de incerteza. No segundo ambiente foi usado à data base do FRED com 130 variáveis econômicas como variáveis explicativas. No terceiro ambiente foram usadas as variáveis mais relevantes
do ambiente 1 e do ambiente 2. Observa-se no trabalho uma melhora em prever o IP contra um modelo AR e algumas interpretações a respeito do comportamento da economia americana nos últimos 45 anos (importância de setores econômicos, períodos de incerteza, mudanças na resposta a prêmio de risco, volatilidade e taxa de juros). / [en] This thesis presents 6 different forecasting techniques for the monthly variation of the American Industrial Production Index in 3 different environments, totaling 18 models. In the first environment, the lags of the monthly variation of the industrial production index and other 55 market and expectation variables such as sector returns, market risk premium, implied volatility, and interest rate risk premiums (corporate premium and long term premium), consumer sentiment and uncertainty index. In the second environment was used the FRED data base with 130 economic variables as explanatory variables. In the third environment, the most relevant variables of environment 1 and environment 2 were used. It was observed an improvement in predicting IP against an AR model and some interpretations regarding the behavior of the American economy in the last 45 years (importance of sectors, uncertainty periods, and changes in response to risk premium, volatility and interest rate).
|
Page generated in 0.0574 seconds