Global ETD Search

121	[en] REAL-TIME RISKS DETERMINATION OF TRANSMISSION LINES OUTAGE BY LIGHTNINGS / [pt] DETERMINAÇÃO EM TEMPO REAL DOS RISCOS DE DESLIGAMENTOS EM LINHAS DE TRANSMISSÃO DEVIDO A DESCARGAS ATMOSFÉRICAS MARCELO CASCARDO CARDOSO 12 February 2019 (has links) [pt] As descargas atmosféricas são de grande importância para o setor elétrico, sendo frequentemente responsáveis por desligamentos de linhas de transmissão, que podem desencadear uma sequência de eventos que levem o sistema elétrico interligado ao colapso. As longas extensões de linhas de transmissão, expostas a intemperes climáticas, determinam uma probabilidade significativa de incidência direta de descargas atmosféricas nestes equipamentos. Devido ao caráter estratégico das linhas para o fornecimento de energia e a constatação de que descargas atmosféricas estão entre as principais causas de desligamentos, torna-se importante o estudo do comportamento das descargas atmosféricas, antes do instante da ocorrência do desligamento das linhas de transmissão, para compreender os padrões característicos potenciais causadores destes desligamentos. Os estudos encontrados atualmente estão orientados na eficiência das redes de detecção de descargas atmosféricas e na identificação de condições climáticas que indiquem a ocorrência de raios de forma preditiva, sem correlação a ocorrências em linhas de transmissão. Assim, essa dissertação consiste na determinação do risco de desligamentos de linhas de transmissão por descargas atmosféricas, visando fornecer informações antecipadas e possibilitar ações operativas para manter a segurança do sistema elétrico. O modelo desenvolvido nesse estudo, denominado Risco de Desligamentos de Linhas de Transmissão por Raios (RDLR), é composto de dois módulos principais, sendo o primeiro o agrupamento do conjunto amostral de descargas atmosféricas, realizado através de um método baseado em densidade. Nesse módulo, os ruídos são eliminados de forma eficiente e são formados grupos representativos de descargas atmosféricas. O segundo módulo consiste em uma etapa classificatória, baseado em redes neurais artificiais para identificar padrões de grupos de descargas que representem riscos de desligamentos de linhas de transmissão. Visando a otimização do modelo, foi aplicado um método de seleção das variáveis, através de componentes principais, para determinar aquelas que mais contribuem na caracterização desses eventos. O modelo RDLR foi testado com dados reais dos registros de desligamentos de linhas de transmissão, associado a outro banco com dados reais contendo milhões de registros de descargas atmosféricas oriundos das redes de detecção de raios, sendo obtidos excelentes resultados na determinação dos riscos de desligamentos de linhas de transmissão por descargas atmosféricas. / [en] Atmospheric discharges are of great importance to power systems, and are often responsible for outages of transmission lines, which can trigger a sequence of events that leads to a system collapse. The long extensions of transmission lines, exposed to climatic conditions, create significant probability of direct incidence of atmospheric discharges in these equipments. Due to the strategic nature of power supply lines and the fact that atmospheric discharges are among the main causes of outages, it is important to study atmospheric discharges characteristics before failure of transmission lines and understand patterns that are responsible for interruptions. Current studies focus on efficiency of lightning detection networks and on identification of climatic conditions that indicate lightning occurrence in a predictive approach, without any correlation with transmission lines outages. Therefore, this thesis consists on real-time risk determination of transmission lines outage by lightning, providing early information to enabling operational procedures for power system safety. The proposed model, named Transmission Lines Outage Risk by Lightning (TLORL) is composed of two main modules: Atmospheric Discharge Data Clustering and Classification. In the atmospheric discharges data-clustering module, performed by a density-based method, the outages are efficiently eliminated and representative groups of atmospheric discharges are formed. The second module consists of a classification step, based on artificial neural networks, to identify patterns of discharges groups that represent risks to cause transmission lines outages. Aiming at improving the proposed model, principal components analysis (PCA) was applied to determine the input variables that most contribute to the events characterization. The TLORL model was tested with real data transmission line outages, associated to another database with millions lightning records from the detection networks, producing excellent results of transmission lines outages caused by atmospheric discharges. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] ANALISE DE COMPONENTES PRINCIPAIS [en] PRINCIPAL COMPONENT ANALYSIS [pt] BIG DATA [en] BIG DATA [pt] DBSCAN [en] DBSCAN [pt] PERTURBACOES NO SISTEMA ELETRICO [en] POWER SYSTEM DISTURBANCE [pt] INTERRUPCAO DE ENERGIA [en] POWER INTERRUPTION [pt] OPERACAO DO SISTEMA INTERLIGADO [en] POWER INTERRUPTION [pt] RAIOS [en] LIGHTNING [pt] DESCARGAS ATMOSFERICAS [en] ATMOSPHERIC DISCHARGES [en] TRANSMISSION LINES [pt] SISTEMAS INTELIGENTES [en] INTELLIGENT SYSTEMS [pt] REDES NEURAIS MLP [en] MLP
122	[en] MACHINE LEARNING METHODS APPLIED TO PREDICTIVE MODELS OF CHURN FOR LIFE INSURANCE / [pt] MÉTODOS DE MACHINE LEARNING APLICADOS À MODELAGEM PREDITIVA DE CANCELAMENTOS DE CLIENTES PARA SEGUROS DE VIDA THAIS TUYANE DE AZEVEDO 26 September 2018 (has links) [pt] O objetivo deste estudo foi explorar o problema de churn em seguros de vida, no sentido de prever se o cliente irá cancelar o produto nos próximos 6 meses. Atualmente, métodos de machine learning vêm se popularizando para este tipo de análise, tornando-se uma alternativa ao tradicional método de modelagem da probabilidade de cancelamento através da regressão logística. Em geral, um dos desafios encontrados neste tipo de modelagem é que a proporção de clientes que cancelam o serviço é relativamente pequena. Para isso, este estudo recorreu a técnicas de balanceamento para tratar a base naturalmente desbalanceada – técnicas de undersampling, oversampling e diferentes combinações destas duas foram utilizadas e comparadas entre si. As bases foram utilizadas para treinar modelos de Bagging, Random Forest e Boosting, e seus resultados foram comparados entre si e também aos resultados obtidos através do modelo de Regressão Logística. Observamos que a técnica SMOTE-modificado para balanceamento da base, aplicada ao modelo de Bagging, foi a combinação que apresentou melhores resultados dentre as combinações exploradas. / [en] The purpose of this study is to explore the churn problem in life insurance, in the sense of predicting if the client will cancel the product in the next 6 months. Currently, machine learning methods are becoming popular in this type of analysis, turning it into an alternative to the traditional method of modeling the probability of cancellation through logistics regression. In general, one of the challenges found in this type of modelling is that the proportion of clients who cancelled the service is relatively small. For this, the study resorted to balancing techniques to treat the naturally unbalanced base – under-sampling and over-sampling techniques and different combinations of these two were used and compared among each other. The bases were used to train models of Bagging, Random Forest and Boosting, and its results were compared among each other and to the results obtained through the Logistics Regression model. We observed that the modified SMOTE technique to balance the base, applied to the Bagging model, was the combination that presented the best results among the explored combinations. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] ARVORE DE DECISAO [en] DECISION TREE [pt] SEGURO DE VIDA [en] LIFE INSURANCE [pt] BOOSTING [en] BOOSTING [pt] PROPENSAO A CANCELAMENTO [en] CANCELLATION PROPENSITY [pt] BAGGING [en] BAGGING [pt] RANDOM FOREST [en] RANDOM FOREST [pt] DADO DESBALANCEADO [en] UNBALANCED DATA [pt] UNDER SAMPLING [en] UNDER SAMPLING [pt] OVER SAMPLING [en] OVER SAMPLING [pt] SMOTE [en] SMOTE
123	[en] EXTRACTING AND CONNECTING PLAINTIFF S LEGAL CLAIMS AND JUDICIAL PROVISIONS FROM BRAZILIAN COURT DECISIONS / [pt] EXTRAÇÃO E CONEXÃO ENTRE PEDIDOS E DECISÕES JUDICIAIS DE UM TRIBUNAL BRASILEIRO WILLIAM PAULO DUCCA FERNANDES 03 November 2020 (has links) [pt] Neste trabalho, propomos uma metodologia para anotar decisões judiciais, criar modelos de Deep Learning para extração de informação, e visualizar de forma agregada a informação extraída das decisões. Instanciamos a metodologia em dois sistemas. O primeiro extrai modificações de um tribunal de segunda instância, que consiste em um conjunto de categorias legais que são comumente modificadas pelos tribunais de segunda instância. O segundo (i) extrai as causas que motivaram uma pessoa a propor uma ação judicial (causa de pedir), os pedidos do autor e os provimentos judiciais dessas ações proferidas pela primeira e segunda instância de um tribunal, e (ii) conecta os pedidos com os provimentos judiciais correspondentes. O sistema apresenta seus resultados através de visualizações. Extração de Informação para textos legais tem sido abordada usando diferentes técnicas e idiomas. Nossas propostas diferem dos trabalhos anteriores, pois nossos corpora são compostos por decisões de primeira e segunda instância de um tribunal brasileiro. Para extrair as informações, usamos uma abordagem tradicional de Aprendizado de Máquina e outra usando Deep Learning, tanto individualmente quanto como uma solução combinada. Para treinar e avaliar os sistemas, construímos quatro corpora: Kauane Junior para o primeiro sistema, e Kauane Insurance Report, Kauane Insurance Lower e Kauane Insurance Upper para o segundo. Usamos dados públicos disponibilizados pelo Tribunal de Justiça do Estado do Rio de Janeiro para construir os corpora. Para o Kauane Junior, o melhor modelo (Fbeta=1 de 94.79 por cento) foi uma rede neural bidirecional Long Short-Term Memory combinada com Conditional Random Fields (BILSTM-CRF); para o Kauane Insurance Report, o melhor (Fbeta=1 de 67,15 por cento) foi uma rede neural bidirecional Long Short-Term Memory com embeddings de caracteres concatenados a embeddings de palavras combinada com Conditional Random Fields (BILSTM-CE-CRF). Para o Kauane Insurance Lower, o melhor (Fbeta=1 de 89,12 por cento) foi uma BILSTM-CE-CRF; para o Kauane Insurance Upper, uma BILSTM-CRF (Fbeta=1 de 83,66 por cento). / [en] In this work, we propose a methodology to annotate Court decisions, create Deep Learning models to extract information, and visualize the aggregated information extracted from the decisions. We instantiate our methodology in two systems we have developed. The first one extracts Appellate Court modifications, a set of legal categories that are commonly modified by Appellate Courts. The second one (i) extracts plaintiff s legal claims and each specific provision on legal opinions enacted by lower and Appellate Courts, and (ii) connects each legal claim with the corresponding judicial provision. The system presents the results through visualizations. Information Extraction for legal texts has been previously addressed using different techniques and languages. Our proposals differ from previous work, since our corpora are composed of Brazilian lower and Appellate Court decisions. To automatically extract that information, we use a traditional Machine Learning approach and a Deep Learning approach, both as alternative solutions and also as a combined solution. In order to train and evaluate the systems, we have built Kauane Junior corpus for the first system, and three corpora for the second system – Kauane Insurance Report, Kauane Insurance Lower, and Kauane Insurance Upper. We used public data disclosed by the State Court of Rio de Janeiro to build the corpora. For Kauane Junior, the best model, which is a Bidirectional Long Short-Term Memory network combined with Conditional Random Fields (BILSTM-CRF), obtained an (F)beta=1 score of 94.79 percent. For Kauane Insurance Report, the best model, which is a Bidirectional Long Short-Term Memory network with character embeddings concatenated to word embeddings combined with Conditional Random Fields (BILSTM-CE-CRF), obtained an (F)beta=1 score of 67.15 percent. For Kauane Insurance Lower, the best model, which is a BILSTM-CE-CRF, obtained an (F)beta=1 score of 89.12 percent. For Kauane Insurance Upper, the best model, which is a BILSTM-CRF, obtained an (F)beta=1 score of 83.66 percent. [pt] APRENDIZADO DE MAQUINA [pt] PROVISOES MODIFICATORIAS [pt] CONDITIONAL RANDOM FIELDS [pt] LONG SHORT-TERM MEMORY [pt] REDES NEURAIS RECORRENTES [pt] APRENDIZADO PROFUNDO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EXTRACAO DE INFORMACAO [pt] DIREITO [en] MACHINE LEARNING [en] MODIFICATORY PROVISIONS [en] CONDITIONAL RANDOM FIELDS [en] LONG SHORT-TERM MEMORY [en] RECURRENT NEURAL NETWORKS [en] DEEP LEARNING [en] NATURAL LANGUAGE PROCESSING [en] EXTRATION OF INFORMATION [en] LAW
124	[en] PREDICTING DRUG SENSITIVITY OF CANCER CELLS BASED ON GENOMIC DATA / [pt] PREVENDO A EFICÁCIA DE DROGAS A PARTIR DE CÉLULAS CANCEROSAS BASEADO EM DADOS GENÔMICOS SOFIA PONTES DE MIRANDA 22 April 2021 (has links) [pt] Prever com precisão a resposta a drogas para uma dada amostra baseado em características moleculares pode ajudar a otimizar o desenvolvimento de drogas e explicar mecanismos por trás das respostas aos tratamentos. Nessa dissertação, dois estudos de caso foram gerados, cada um aplicando diferentes dados genômicos para a previsão de resposta a drogas. O estudo de caso 1 avaliou dados de perfis de metilação de DNA como um tipo de característica molecular que se sabe ser responsável por causar tumorigênese e modular a resposta a tratamentos. Usando perfis de metilação de 987 linhagens celulares do genoma completo na base de dados Genomics of Drug Sensitivity in Cancer (GDSC), utilizamos algoritmos de aprendizado de máquina para avaliar o potencial preditivo de respostas citotóxicas para oito drogas contra o câncer. Nós comparamos a performance de cinco algoritmos de classificação e quatro algoritmos de regressão representando metodologias diversas, incluindo abordagens tree-, probability-, kernel-, ensemble- e distance-based. Aplicando sub-amostragem artificial em graus variados, essa pesquisa procura avaliar se o treinamento baseado em resultados relativamente extremos geraria melhoria no desempenho. Ao utilizar algoritmos de classificação e de regressão para prever respostas discretas ou contínuas, respectivamente, nós observamos consistentemente excelente desempenho na predição quando os conjuntos de treinamento e teste consistiam em dados de linhagens celulares. Algoritmos de classificação apresentaram melhor desempenho quando nós treinamos os modelos utilizando linhagens celulares com valores de resposta a drogas relativamente extremos, obtendo valores de area-under-the-receiver-operating-characteristic-curve de até 0,97. Os algoritmos de regressão tiveram melhor desempenho quando treinamos os modelos utilizado o intervalo completo de valores de resposta às drogas, apesar da dependência das métricas de desempenho utilizadas. O estudo de caso 2 avaliou dados de RNA-seq, dados estes comumente utilizados no estudo da eficácia de drogas. Aplicando uma abordagem de aprendizado semi-supervisionado, essa pesquisa busca avaliar o impacto da combinação de dados rotulados e não-rotulados para melhorar a predição do modelo. Usando dados rotulados de RNA-seq do genoma completo de uma média de 125 amostras de tumor AML rotuladas da base de dados Beat AML (separados por tipos de droga) e 151 amostras de tumor AML não-rotuladas na base de dados The Cancer Genome Atlas (TCGA), utilizamos uma estrutura de modelo semi-supervisionado para prever respostas citotóxicas para quatro drogas contra câncer. Modelos semi-supervisionados foram gerados, avaliando várias combinações de parâmetros e foram comparados com os algoritmos supervisionados de classificação. / [en] Accurately predicting drug responses for a given sample based on molecular features may help to optimize drug-development pipelines and explain mechanisms behind treatment responses. In this dissertation, two case studies were generated, each applying different genomic data to predict drug response. Case study 1 evaluated DNA methylation profile data as one type of molecular feature that is known to drive tumorigenesis and modulate treatment responses. Using genome-wide, DNA methylation profiles from 987 cell lines in the Genomics of Drug Sensitivity in Cancer (GDSC) database, we used machine-learning algorithms to evaluate the potential to predict cytotoxic responses for eight anti-cancer drugs. We compared the performance of five classification algorithms and four regression algorithms representing diverse methodologies, including tree-, probability-, kernel-, ensemble- and distance-based approaches. By applying artificial subsampling in varying degrees, this research aims to understand whether training based on relatively extreme outcomes would yield improved performance. When using classification or regression algorithms to predict discrete or continuous responses, respectively, we consistently observed excellent predictive performance when the training and test sets consisted of cell-line data. Classification algorithms performed best when we trained the models using cell lines with relatively extreme drug-response values, attaining area-under-the-receiver-operating-characteristic-curve values as high as 0.97. The regression algorithms performed best when we trained the models using the full range of drug-response values, although this depended on the performance metrics we used. Case study 2 evaluated RNA-seq data as one of the most popular molecular data used to study drug efficacy. By applying a semi-supervised learning approach, this research aimed to understand the impact of combining labeled and unlabeled data to improve model prediction. Using genome-wide RNA-seq labeled data from an average of 125 AML tumor samples in the Beat AML database (varying by drug type) and 151 unlabeled AML tumor samples in The Cancer Genome Atlas (TCGA) database, we used a semi-supervised model structure to predict cytotoxic responses for four anti-cancer drugs. Semi-supervised models were generated, while assessing several parameter combinations and were compared against supervised classification algorithms. [pt] APRENDIZADO DE MAQUINA [pt] PREDICAO DA EFICACIA A DROGA [pt] MODELOS DE CLASSIFICACAO [pt] SEQUENCIAMENTO DE RNA [pt] METILACAO [pt] GENOMICA [pt] APRENDIZADO SEMI-SUPERVISIONADO [pt] APRENDIZADO SUPERVISIONADO [pt] MODELOS DE REGRESSAO [pt] CANCER [en] MACHINE LEARNING [en] DRUG RESPONSE PREDICTION [en] CLASSIFICATION MODELS [en] RNA-SEQ [en] METHYLATION [en] GENOMICS [en] SEMI-SUPERVISED LEARNING [en] SUPERVISED LEARNING [en] REGRESSION MODELS [en] CANCER
125	[pt] APLICAÇÃO DE ALGORITMOS DE APRENDIZADO DE MÁQUINA PARA PREVER EFICIÊNCIA ENERGÉTICA BASEADO EM PARÂMETROS DE VIAGEM: ESTUDO DE CASO DE UMA FERROVIA DE TRANSPORTE DE CARGA / [en] APPLICATION OF MACHINE LEARNING ALGORITHMS TO PREDICT FUEL EFFICIENCY BASED ON TRIP PARAMETERS: A HEAVY HAUL RAILWAY CASE OF STUDY RODOLFO SPINELLI TEIXEIRA 21 December 2021 (has links) [pt] O consumo de combustível em empresas do setor de transporte ferroviário representa um dos maiores gastos operacionais e uma das maiores preocupações em termos de emissões de poluentes. O alto consumo em combustíveis acarreta também em uma alta representatividade na matriz de escopo de emissões (mais de 90 por cento das emissões de ferrovias são provenientes do consumo de combustível fóssil). Com o viés de se buscar uma constante melhora operacional, estudos vêm sendo realizados com a finalidade de se propor novas ferramentas na redução do consumo de combustível na operação de um trem de carga. Nesse ramo, destaca-se o aperfeiçoamento dos parâmetros de condução de um trem que são passíveis de calibração com o objetivo de reduzir o consumo de combustível. Para chegar a esse fim, o presente trabalho implementa dois modelos de aprendizado de máquina (machine learning) para prever a eficiência energética de um trem de carga, são eles: floresta randômica e redes neurais artificiais. A floresta randômica obteve o melhor desempenho entre os modelos, apresentando uma acurácia de 91 por cento. Visando calcular quanto cada parâmetro influencia no modelo de previsão, este trabalho também utiliza técnica de efeitos acumulados locais em cada parâmetro em relação à eficiência energética. Os resultados finais mostraram que, dentro dos quatro parâmetros de calibração analisados, o indicador de tração por tonelada transportada apresentou maior representatividade em termos de impacto absoluto na eficiência energética de um trem de carga. / [en] Fuel consumption in companies in the rail transport sector represents one of the largest operating expenses and one of the biggest concerns in terms of pollutant emissions. The high fuel consumption also entails a high representation in the emissions scope matrix (more than 90 percent of railroad emissions come from fossil fuel consumption). Aiming to seek constant operational improvement, numerous studies have been carried out proposing new tools to reduce fuel consumption in the operation of a freight train. In this way, it is important to highlight the improvement of train driving parameters that can be calibrated to reduce fuel consumption. To accomplish this goal, the present work implements two machine learning models to predict the energy efficiency of a freight train: random forest and artificial neural networks. The random forest achieves the best performance against the models, with an accuracy of 91 percent. To calculate how much each parameter influences the prediction model, this work also uses the technique of accumulated local effects for each parameter related to energy efficiency. The final results show that, within the four analyzed calibration parameters, the traction per transported ton indicator presented greater representation in terms of absolute impact on the energy efficiency of a freight train. [pt] APRENDIZADO DE MAQUINA [pt] GRAFICO DE VALORES ACUMULADO LOCAIS [pt] GRAFICO DE DEPENDENCIA PARCIAL [pt] TRANSPORTE PESADO [pt] FLORESTAS ALEATORIAS [pt] EFICIENCIA ENERGETICA [pt] REDES NEURAIS ARTIFICIAIS [pt] CONSUMO ENERGETICO [pt] FERROVIA [en] MACHINE LEARNING [en] ACCUMULATED LOCAL EFFECT PLOT [en] PARTIAL DEPENDENCE PLOT [en] HEAVY HAUL [en] RANDOM FOREST [en] ENERGY EFFICIENCY [en] ARTIFICIAL NEURAL NETWORKS [en] ENERGY CONSUMPTION [en] RAILROAD
126	[en] A SUPERVISED LEARNING APPROACH TO PREDICT HOUSEHOLD AID DEMAND FOR RECURRENT CLIME-RELATED DISASTERS IN PERU / [pt] UMA ABORDAGEM DE APRENDIZADO SUPERVISIONADO PARA PREVER A DEMANDA DE AJUDA FAMILIAR PARA DESASTRES CLIMÁTICOS RECORRENTES NO PERU RENATO JOSE QUILICHE ALTAMIRANO 21 November 2023 (has links) [pt] Esta dissertação apresenta uma abordagem baseada em dados para o problema de predição de desastres recorrentes em países em desenvolvimento. Métodos de aprendizado de máquina supervisionado são usados para treinar classificadores que visam prever se uma família seria afetada por ameaças climáticas recorrentes (um classificador é treinado para cada perigo natural). A abordagem desenvolvida é válida para perigos naturais recorrentes que afetam um país e permite que os gerentes de risco de desastres direcionem suas operações com mais conhecimento. Além disso, a avaliação preditiva permite que os gerentes entendam os impulsionadores dessas previsões, levando à formulação proativa de políticas e planejamento de operações para mitigar riscos e preparar comunidades para desastres recorrentes. A metodologia proposta foi aplicada ao estudo de caso do Peru, onde foram treinados classificadores para ondas de frio, inundações e deslizamentos de terra. No caso das ondas de frio, o classificador tem 73,82% de precisão. A pesquisa descobriu que famílias pobres em áreas rurais são vulneráveis a desastres relacionados a ondas de frio e precisam de intervenção humanitária proativa. Famílias vulneráveis têm infraestrutura urbana precária, incluindo trilhas, caminhos, postes de iluminação e redes de água e drenagem. O papel do seguro saúde, estado de saúde e educação é menor. Domicílios com membros doentes levam a maiores probabilidades de serem afetados por ondas de frio. Maior realização educacional do chefe da família está associada a uma menor probabilidade de ser afetado por ondas de frio. No caso das inundações, o classificador tem 82.57% de precisão. Certas condições urbanas podem tornar as famílias rurais mais suscetíveis a inundações, como acesso à água potável, postes de iluminação e redes de drenagem. Possuir um computador ou laptop diminui a probabilidade de ser afetado por inundações, enquanto possuir uma bicicleta e ser chefiado por indivíduos casados aumenta. Inundações são mais comuns em assentamentos urbanos menos desenvolvidos do que em famílias rurais isoladas. No caso dos deslizamentos de terra, o classificador tem 88.85% de precisão, e é segue uma lógica diferente do das inundações. A importância na previsão é mais uniformemente distribuída entre as características consideradas no aprendizado do classificador. Assim, o impacto de um recurso individual na previsão é pequeno. A riqueza a longo prazo parece ser mais crítica: a probabilidade de ser afetado por um deslizamento é menor para famílias com certos aparelhos e materiais domésticos de construção. Comunidades rurais são mais afetadas por deslizamentos, especialmente aquelas localizadas em altitudes mais elevadas e maiores distâncias das cidades e mercados. O impacto marginal médio da altitude é não linear. Os classificadores fornecem um método inteligente baseado em dados que economiza recursos garantindo precisão. Além disso, a pesquisa fornece diretrizes para abordar a eficiência na distribuição da ajuda, como formulações de localização da instalação e roteamento de veículos. Os resultados da pesquisa têm várias implicações gerenciais, então os autores convocam à ação gestores de risco de desastres e outros interessados relevantes. Desastres recorrentes desafiam toda a humanidade. / [en] This dissertation presents a data-driven approach to the problem of predicting recurrent disasters in developing countries. Supervised machine learning methods are used to train classifiers that aim to predict whether a household would be affected by recurrent climate threats (one classifier is trained for each natural hazard). The approach developed is valid for recurrent natural hazards affecting a country and allows disaster risk managers to target their operations with more knowledge. In addition, predictive assessment allows managers to understand the drivers of these predictions, leading to proactive policy formulation and operations planning to mitigate risks and prepare communities for recurring disasters. The proposed methodology was applied to the case study of Peru, where classifiers were trained for cold waves, floods, and landslides. In the case of cold waves, the classifier was 73.82% accurate. The research found that low-income families in rural areas are vulnerable to cold wave related disasters and need proactive humanitarian intervention. Vulnerable families have poor urban infrastructure, including footpaths, roads, lampposts, and water and drainage networks. The role of health insurance, health status, and education is minor. Households with sick members are more likely to be affected by cold waves. Higher educational attainment of the head of the household is associated with a lower probability of being affected by cold snaps.In the case of flooding, the classifier is 82.57% accurate. Certain urban conditions, such as access to drinking water, lampposts, and drainage networks, can make rural households more susceptible to flooding. Owning a computer or laptop decreases the likelihood of being affected by flooding while owning a bicycle and being headed by married individuals increases it. Flooding is more common in less developed urban settlements than isolated rural families.In the case of landslides, the classifier is 88.85% accurate and follows a different logic than that of floods. The importance of the prediction is more evenly distributed among the features considered when learning the classifier. Thus, the impact of an individual feature on the prediction is small. Long-term wealth is more critical: the probability of being affected by a landslide is lower for families with specific appliances and household building materials. Rural communities are more affected by landslides, especially those located at higher altitudes and greater distances from cities and markets. The average marginal impact of altitude is non-linear.The classifiers provide an intelligent data-driven method that saves resources by ensuring accuracy. In addition, the research provides guidelines for addressing efficiency in aid distribution, such as facility location formulations and vehicle routing.The research results have several managerial implications, so the authors call for action from disaster risk managers and other relevant stakeholders. Recurrent disasters challenge all of humanity. [pt] REGRESSAO LOGISTICA [pt] HOUSEHOLDS FEATURES [pt] INUNDACOES [pt] ONDAS DE FRIO [pt] CLASSIFICADOR DE RISCO DE DESASTRE [pt] XGBOOST [pt] RANDOM FOREST [pt] DESLIZAMENTO DE TERRA [en] LOGISTIC REGRESSION [en] HOUSEHOLDS FEATURES [en] FLOODS [en] COLD WAVES [en] DISASTER RISK CLASSIFIER [en] XGBOOST [en] RANDOM FOREST [en] LANDSLIDE [en] SUPERVISED MACHINE LEARNING
127	[en] ESSAYS IN ECONOMETRICS: ONLINE LEARNING IN HIGH-DIMENSIONAL CONTEXTS AND TREATMENT EFFECTS WITH COMPLEX AND UNKNOWN ASSIGNMENT RULES / [pt] ESTUDOS EM ECONOMETRIA: APRENDIZADO ONLINE EM AMBIENTES DE ALTA DIMENSÃO E EFEITOS DE TRATAMENTO COM REGRAS DE ALOCAÇÃO COMPLEXAS E DESCONHECIDAS CLAUDIO CARDOSO FLORES 04 October 2021 (has links) [pt] Essa tese é composta por dois capítulos. O primeiro deles refere-se ao problema de aprendizado sequencial, útil em diversos campos de pesquisa e aplicações práticas. Exemplos incluem problemas de apreçamento dinâmico, desenhos de leilões e de incentivos, além de programas e tratamentos sequenciais. Neste capítulo, propomos a extensão de uma das mais populares regras de aprendizado, epsilon-greedy, para contextos de alta-dimensão, levando em consideração uma diretriz conservadora. Em particular, nossa proposta consiste em alocar parte do tempo que a regra original utiliza na adoção de ações completamente novas em uma busca focada em um conjunto restrito de ações promissoras. A regra resultante pode ser útil para aplicações práticas nas quais existem restrições suaves à adoção de ações não-usuais, mas que eventualmente, valorize surpresas positivas, ainda que a uma taxa decrescente. Como parte dos resultados, encontramos limites plausíveis, com alta probabilidade, para o remorso cumulativo para a regra epsilon-greedy conservadora em alta-dimensão. Também, mostramos a existência de um limite inferior para a cardinalidade do conjunto de ações viáveis que implica em um limite superior menor para o remorso da regra conservadora, comparativamente a sua versão não-conservadora. Adicionalmente, usuários finais possuem suficiente flexibilidade em estabelecer o nível de segurança que desejam, uma vez que tal nível não impacta as propriedades teóricas da regra de aprendizado proposta. Ilustramos nossa proposta tanto por meio de simulação, quanto por meio de um exercício utilizando base de dados de um problema real de sistemas de classificação. Por sua vez, no segundo capítulo, investigamos efeitos de tratamento determinísticos quando a regra de aloção é complexa e desconhecida, talvez por razões éticas, ou para evitar manipulação ou competição desnecessária. Mais especificamente, com foco na metodologia de regressão discontínua sharp, superamos a falta de conhecimento de pontos de corte na alocação de unidades, pela implementação de uma floresta de árvores de classificação, que também utiliza aprendizado sequencial na sua construção, para garantir que, assintoticamente, as regras de alocação desconhecidas sejam identificadas corretamente. A estrutura de árvore também é útil nos casos em que a regra de alocação desconhecida é mais complexa que as tradicionais univariadas. Motivado por exemplos da vida prática, nós mostramos nesse capítulo que, com alta probabilidade e baseado em premissas razoáveis, é possível estimar consistentemente os efeitos de tratamento sob esse cenário. Propomos ainda um algoritmo útil para usuários finais que se mostrou robusto para diferentes especificações e que revela com relativa confiança a regra de alocação anteriormente desconhecida. Ainda, exemplificamos os benefícios da metodologia proposta pela sua aplicação em parte do P900, um programa governamental Chileno de suporte para escolas, que se mostrou adequado ao cenário aqui estudado. / [en] Sequential learning problems are common in several fields of research and practical applications. Examples include dynamic pricing and assortment, design of auctions and incentives and permeate a large number of sequential treatment experiments. In this essay, we extend one of the most popular learning solutions, the epsilon-greedy heuristics, to high-dimensional contexts considering a conservative directive. We do this by allocating part of the time the original rule uses to adopt completely new actions to a more focused search in a restrictive set of promising actions. The resulting rule might be useful for practical applications that still values surprises, although at a decreasing rate, while also has restrictions on the adoption of unusual actions. With high probability, we find reasonable bounds for the cumulative regret of a conservative high-dimensional decaying epsilon-greedy rule. Also, we provide a lower bound for the cardinality of the set of viable actions that implies in an improved regret bound for the conservative version when compared to its non-conservative counterpart. Additionally, we show that end-users have sufficient flexibility when establishing how much safety they want, since it can be tuned without impacting theoretical properties. We illustrate our proposal both in a simulation exercise and using a real dataset. The second essay studies deterministic treatment effects when the assignment rule is both more complex than traditional ones and unknown to the public perhaps, among many possible causes, due to ethical reasons, to avoid data manipulation or unnecessary competition. More specifically, sticking to the well-known sharp RDD methodology, we circumvent the lack of knowledge of true cutoffs by employing a forest of classification trees which also uses sequential learning, as in the last essay, to guarantee that, asymptotically, the true unknown assignment rule is correctly identified. The tree structure also turns out to be suitable if the program s rule is more sophisticated than traditional univariate ones. Motivated by real world examples, we show in this essay that, with high probability and based on reasonable assumptions, it is possible to consistently estimate treatment effects under this setup. For practical implementation we propose an algorithm that not only sheds light on the previously unknown assignment rule but also is capable to robustly estimate treatment effects regarding different specifications imputed by end-users. Moreover, we exemplify the benefits of our methodology by employing it on part of the Chilean P900 school assistance program, which proves to be suitable for our framework. [pt] LASSO [pt] APRENDIZADO DE MAQUINA [pt] REGRESSAO DISCONTINUA [pt] FLORESTAS ALEATORIAS [pt] ARVORES DE CLASSIFICACAO [pt] REGRAS DE ALOCACAO DESCONHECIDAS [pt] EFEITOS DE TRATAMENTO [pt] BANDIT [pt] APRENDIZADO ONLINE [en] LASSO [en] MACHINE LEARNING [en] REGRESSION DISCONTINUITY [en] RANDOM FOREST [en] CLASSIFICATION TREES [en] ASSIGNMENT RULES [en] DESIGN [en] BANDIT [en] ONLINE LEARNING

Page generated in 0.0378 seconds