Global ETD Search

51	[en] SCHOOL TIME AND CRIME: INCAPACITATION EFFECTS IN BRAZIL / [pt] TEMPO NA ESCOLA E CRIME: EFEITOS DE INCAPACITAÇÃO NO BRASIL EDUARDO FAGUNDES DE CARVALHO 29 June 2020 (has links) [pt] Crimes na adolescência impõem custos não triviais para a sociedade, o que tornou seus determinantes e fatores dissuasivos cada vez mais sujeitos a estudo por economistas. Intervenções no nível da escola são comumente propostas com o objetivo de mitigar o surgimento de carreiras criminais e a perpetuação da violência. Entretanto, as direções e os canais pelos quais as escolas afetam crime podem variar. Esse artigo estuda um deles - os esfeitos de incapacitação - explorando um programa federal que aumentou as horas escolares em escolas públicas brasileiras. Usando variação quasiexperimental na probabilidade de aderir ao programa e dados georreferenciados de crime do estado de São Paulo, é possível estimar os feitos causais do programa em atividade criminal ao redor das escolas. Os resultados sugerem que incapacitação de fato previne jovens de cometerem crimes menos severos, com evidência mais forte para crimes relacionados a drogas e para escolas com alunos mais pobres. / [en] Juvenile crime imposes non-trivial costs to societies, which have made its determinants and deterrents increasingly subject of study by economists. School-based interventions are often proposed in order to mitigate the rise in criminal careers and the perpetuation of violence. However, the directions and channels through which schooling may affect crime vary. This paper studies one of them - namely the incapacitation effects - exploiting a federal program that extended school hours in Brazilian public schools. Using quasiexperimental variation in the probability of receiving the program and georeferenced crime data from the state of São Paulo, it is possible to estimate the causal effect of the program on criminal activity in the surroundings of the schools. Results suggest incapacitation does prevent juvelines from engaging in less offensive crimes, with stronger evidence for drug-related crimes and for schools with poorer students. [pt] CRIME [pt] DADOS GEORREFERENCIADOS [pt] EFEITOS DE INCAPACITACAO [pt] AUMENTO NO TEMPO NA ESCOLA [pt] CRIME NA ADOLESCENCIA [pt] PROGRAMA MAIS EDUCACAO [en] CRIME [en] GEOREFERENCED DATA [en] INCAPACITATION EFFECT [en] SCHOOL TIME EXTENSION [en] JUVENILE CRIME [en] MORE EDUCATION PROGRAM
52	[en] ANOMALY DETECTION IN DATA CENTER MACHINE MONITORING METRICS / [pt] DETECÇÃO DE ANOMALIAS NAS MÉTRICAS DAS MONITORAÇÕES DE MÁQUINAS DE UM DATA CENTER RICARDO SOUZA DIAS 17 January 2020 (has links) [pt] Um data center normalmente possui grande quantidade de máquinas com diferentes configurações de hardware. Múltiplas aplicações são executadas e software e hardware são constantemente atualizados. Para evitar a interrupção de aplicações críticas, que podem causar grandes prejuízos financeiros, os administradores de sistemas devem identificar e corrigir as falhas o mais cedo possível. No entanto, a identificação de falhas em data centers de produção muitas vezes ocorre apenas quando as aplicações e serviços já estão indisponíveis. Entre as diferentes causas da detecção tardia de falhas estão o uso técnicas de monitoração baseadas apenas em thresholds. O aumento crescente na complexidade de aplicações que são constantemente atualizadas torna difícil a configuração de thresholds ótimos para cada métrica e servidor. Este trabalho propõe o uso de técnicas de detecção de anomalias no lugar de técnicas baseadas em thresholds. Uma anomalia é um comportamento do sistema que é incomum e significativamente diferente do comportamento normal anterior. Desenvolvemos um algoritmo para detecção de anomalias, chamado DASRS (Decreased Anomaly Score by Repeated Sequence) que analisa em tempo real as métricas coletadas de servidores de um data center de produção. O DASRS apresentou excelentes resultados de acurácia, compatível com os algoritmos do estado da arte, além de tempo de processamento e consumo de memória menores. Por esse motivo, o DASRS atende aos requisitos de processamento em tempo real de um grande volume de dados. / [en] A data center typically has a large number of machines with different hardware configurations. Multiple applications are executed and software and hardware are constantly updated. To avoid disruption of critical applications, which can cause significant financial loss, system administrators should identify and correct failures as early as possible. However, fault-detection in production data centers often occurs only when applications and services are already unavailable. Among the different causes of late fault-detection are the use of thresholds-only monitoring techniques. The increasing complexity of constantly updating applications makes it difficult to set optimal thresholds for each metric and server. This paper proposes the use of anomaly detection techniques in place of thresholds based techniques. An anomaly is a system behavior that is unusual and significantly different from the previous normal behavior. We have developed an anomaly detection algorithm called Decreased Anomaly Score by Repeated Sequence (DASRS) that analyzes real-time metrics collected from servers in a production data center. DASRS has showed excellent accuracy results, compatible with state-of-the-art algorithms, and reduced processing time and memory consumption. For this reason, DASRS meets the real-time processing requirements of a large volume of data. [pt] SERIE TEMPORAL [pt] DATA CENTER [pt] APRENDIZAGEM NAO SUPERVISIONADA [pt] DADOS DE STREAMING [pt] DETECCAO DE ANOMALIAS [pt] METRICA [pt] MONITORACAO [pt] ALGORITMO [en] TIME SERIE [en] DATA CENTER [en] UNSUPERVISED LEARNING [en] STREAMING DATA [en] ANOMALY DETECTION [en] METRIC [en] MONITORING [en] ALGORITHM
53	[pt] DECOMPOSIÇÃO PARCIAL PARA GERAÇÃO DE CENÁRIOS DE CARGA HORÁRIA DE LONGO PRAZO / [en] PARTIAL DECOMPOSITION TO LONG-TERM GENERATION OF LOAD SCENARIOS DANILO LOPES DO CARMO 19 June 2020 (has links) [pt] O Brasil possui um Sistema Interligado Nacional (SIN) que se baseia na geração de energia elétrica por meio de usinas hidrelétricas, térmicas, solares fotovoltaicas e eólicas. O planejamento e operação deste sistema é efetuado com base em previsões efetuadas em curto, médio e longo prazo a fim de evitar imprevistos que possam afetar o suprimento da demanda de energia elétrica em território nacional. Uma das informações consideradas fundamentais em cada uma das etapas do planejamento da operação é a carga, ou seja, a demanda por energia elétrica. Quando trabalhada em curto prazo, esta é importante para a programação diária da operação, garantindo um cenário ótimo para uso dos recursos disponíveis e, em cenário mais atual, determinação do Preço de Liquidação das Diferenças a cada hora. Quando trabalhada em médio prazo, esta funciona como base para manutenções de redes e negociações de contrato. Já em longo prazo, a previsão é importante para fornecer informações usadas como base para estratégias de expansão do Sistema. Normalmente a previsão em longo prazo é trabalhada de maneira a escalonar a curva histórica anual, mas as constantes alterações no hábito de consumo da população e a inserção de novas fontes ocasionam relevantes alterações no perfil da curva de carga diária em longo prazo, tornando necessário o planejamento não somente da expansão do sistema, mas também a forma com que este poderá ser programado. Assim, com o objetivo de propor uma ferramenta de suporte ao mercado brasileiro de energia, este trabalho propõe uma Metodologia para Geração de Cenários de Carga de Longo Prazo. O método proposto propõe uma abordagem bottom-up para previsão anual da demanda utilizando premissas de trabalhos acadêmicos recentes, propõe um método de geração de perfis específicos para suprir a escassez de dados horários detalhados no Brasil e propõe a utilização da Abordagem de Decomposição Parcial a fim de transformar as previsões anuais de demanda em curvas de carga horária. Finalizando a aplicação da Metodologia para Geração de Cenários de Longo Prazo, diferentes resultados gerados são utilizados para aplicação de simulação por Monte Carlo, sendo os intervalos de confianças gerados com base na resposta, possíveis cenários de comportamento da carga no futuro, transformando um método de previsão previamente determinístico em um previsor de cenários. Com o objetivo de demonstrar resultados da método, a Metodologia é aplicada para geração de cenários de longo prazo para a região sudeste brasileira até 2020 com base na curva histórica de 2016, apesar de ser capaz de gerar previsões para horizontes maiores, demonstrando verdadeiro potencial para se adaptar a possíveis alterações na curva de carga. / [en] Brazil has a National Interconnected System which produces and transmits electrical energy through a hydro-thermo-wind system. The planning and operation of this system is based on short, medium and long term on forecasts in order to avoid unforeseen that may affect the electricity supply in national territory. The short-term forecast is important for daily schedule of operation, certifying the resource use optimal scenario and, in a current scenario, the determination of Settlement Price for Differences at each hour. The medium-term forecast is used as a basis for network maintenance and contract negotiations. The long-term forecast is important to provide information used as basis for system expansion strategies. Usually, the long-term forecast is made staggering the annual load curve, however, the constant changes on people electrical consumption habits and insertion of new electrical generation sources cause relevant changes in daily load curve profile over the long term, making necessary not only the expansion planning, but also the way it can be programmed on long-term horizon. Thus, in order to propose a support tool to the Brazilian energy market, this work presents a Scenarios Generation Methodology. Such procedure proposes bottom-up approach as an annual demand projection provider, using assumptions of recent academic works, proposes a specific profile generation method as a way to overcome the lack of specific hourly data in Brazil. Not only that, the method also proposes Partial Decomposition Approach to adapt annual electricity demand into hourly load curves. Concluding the Scenarios Generation Methodology, future scenarios are developed by Monte Carlo simulation applied over different obtained results and confidence intervals calculated based on response are possible values of load behavior in the future, thus turning a deterministic forecasting method into a scenarios generation methodology. In order to demonstrate the Methodology application, it is used to generate long-term scenarios for the southeast Brazilian region by 2020 based on historical load curve from 2016, although it is capable of generating forecasts for larger horizons, proving true potential to adapt to possible changes on load curve. [pt] DADOS HORARIOS [pt] ABORDAGEM DE DECOMPOSICAO PARCIAL [pt] DEMANDA HORARIA [pt] PREVISAO DE CURVA DE CARGA [pt] ABORDAGEM BOTTOM-UP [en] HOURLY DATA [en] PARTIAL DECOMPOSITION APPROACH [en] LOAD DEMAND [en] LOAD CURVE FORECASTING [en] BOTTOM-UP APPROACH
54	[en] ANALYZING, COMPARING AND RECOMMENDING CONFERENCES / [pt] ANÁLISE, COMPARAÇÃO E RECOMENDAÇÃO DE CONFERÊNCIAS GRETTEL MONTEAGUDO GARCÍA 06 September 2016 (has links) [pt] Esta dissertação discute técnicas para automaticamente analisar, comparar e recomendar conferências, usando dados bibliográficos. Apresenta uma implementação das técnicas propostas e descreve experimentos com os dados extraídos de uma versão triplificada do repositório DBLP. A análise de conferências baseia-se em medidas estatísticas e medidas para a análises de redes sociais aplicadas à rede de coautoria das conferências. As técnicas para comparar conferências exploram um conjunto de medidas de similaridades como, por exemplo, o coeficiente de similaridade de Jaccard, a similaridade por correlação de Pearson e o Cosseno, além de uma nova medida de similaridade baseada em comunidades de coautores. As medidas para calcular similaridade entre conferências são usadas em um sistema de recomendação baseado na estratégia de filtragem colaborativa. Finalmente, a dissertação introduz duas técnicas para recomendar conferências a um determinado autor, usando uma medida de relação entre autores. A primeira alternativa usa o índice de Katz, que pode ser computacionalmente lento para grandes grafos, enquanto a segunda adota uma aproximação do índice de Katz, que mostrou ser computacionalmente mais eficiente. Os experimentos sugerem que as melhores técnicas são: a técnica de comparação de conferências que utiliza a nova medida de similaridade baseada em comunidades de coautores; e a técnica para recomendação de conferências que explora os autores mais relacionados na rede de coautores. / [en] This dissertation discusses techniques to automatically analyze, compare and recommend conferences, using bibliographic data, outlines an implementation of the proposed techniques and describes experiments with data extracted from a triplified version of the DBLP repository. Conference analysis applies statistical and social network analysis measures to the co-authorship network. The techniques for comparing conferences explore familiar similarity measures, such as the Jaccard similarity coefficient, the Pearson correlation similarity and the cosine similarity, and a new measure, the co-authorship network communities similarity index. These similarity measures are used to create a conference recommendation system based on the Collaborative Filtering strategy. Finally, the work introduces two techniques for recommending conferences to a given prospective author based on the strategy of finding the most related authors in the co-authorship network. The first alternative uses the Katz index, which can be quite costly for large graphs, while the second one adopts an approximation of the Katz index, which proved to be much faster to compute. The experiments suggest that the best performing techniques are: the technique for comparing conferences that uses the new similarity measure based on co-authorship communities; and the conference recommendation technique that explores the most related authors in the co-authorship network. [pt] ANALISE ESTATISTICA [pt] RECOMENDACAO DE CONFERENCIAS [pt] COMPARACAO DE CONFERENCIAS [pt] ANALISE DE REDES SOCIAIS [pt] ANALISE DE CONFERENCIA [pt] DADOS INTERLIGADOS [en] STATISTICS ANALYSIS [en] CONFERENCE RECOMMENDATION [en] CONFERENCE COMPARISON [en] SOCIAL NETWORK ANALYSIS [en] CONFERENCE ANALYSIS [en] LINKED DATA
55	[pt] DE MICRO À MACRO: ENSAIOS EM ANÁLISE TEXTUAL / [en] FROM MICRO TO MACRO: ESSAYS IN TEXTUAL ANALYSIS LEONARDO CAIO DE LADALARDO MARTINS 04 July 2022 (has links) [pt] Este estudo explora fontes de dados não convencionais como dados textuais de jornais e pesquisas de internet do Google Trends em dois problemas empíricos: (i) analisar o impacto da mobilidade sobre o número de casos e mortes por Covid-19; (ii) nowcasting do PIB em alta-frequência. O primeiro artigo usa fontes de dados não estruturados como controle para fatores comportamentais não observados e encontra que um aumento na mobilidade residencial diminui significativamente o número de casos e mortes num horizonte de quatro semanas. O segundo artigo usa fontes de dados não estruturadas para fazer um nowcasting semanal do PIB, mostrando que dados textuais e Google Trends pode aumentar a qualidade das projeções (medido pelo EQM, EAM e outras métricas) comparado com as expectativas de mercado do Focus como base. Em ambos casos, dados não estruturados reveleram-se fontes ricas de informação não codificadas em indicadores estruturados convencionais. / [en] This study exploits non-conventional data sources such as newspaper textual data and internet searches from Google Trends in two empirical problems: (i) analysing the impacts of mobility on cases and deaths due to Covid-19; (ii) nowcasting GDP in high-frequency. The first paper resorts to unstructured data to control for non-observable behavioural effects and finds that an increase in residential mobility significantly reduces Covid-19 cases and deaths over a 4-week horizon. The second paper uses unstructured data sources to nowcast GDP on a weekly basis, showing that textual data and Google Trends can significantly enhance the quality of nowcasts (measured by MSE, MAE and other metrics) compared to Focus s market expectations as a benchmark. In both cases, unstructured data was revealed to be a valuable source of information not encoded in structured indicators. [pt] PREVISAO [pt] EFEITOS FIXOS [pt] MODELOS DE SHRINKAGE [pt] DADOS TEXTUAIS [pt] COVID-19 [pt] NOWCASTING [pt] GOOGLE TRENDS [pt] CAUSALIDADE [pt] MOBILIDADE [en] FORECASTING [en] FIXED EFFECTS [en] SHRINKAGE MODELS [en] TEXT-DATA [en] COVID-19 [en] NOWCASTING [en] GOOGLE TRENDS [en] CAUSALITY [en] MOBILITY
56	[en] VARIABLE SELECTION FOR LINEAR AND SMOOTH TRANSITION MODELS VIA LASSO: COMPARISONS, APPLICATIONS AND NEW METHODOLOGY / [pt] SELEÇÃO DE VARIÁVEIS PARA MODELOS LINEARES E DE TRANSIÇÃO SUAVE VIA LASSO: COMPARAÇÕES, APLICAÇÕES E NOVA METODOLOGIA CAMILA ROSA EPPRECHT 10 June 2016 (has links) [pt] A seleção de variáveis em modelos estatísticos é um problema importante, para o qual diferentes soluções foram propostas. Tradicionalmente, pode-se escolher o conjunto de variáveis explicativas usando critérios de informação ou informação à priori, mas o número total de modelos a serem estimados cresce exponencialmente a medida que o número de variáveis candidatas aumenta. Um problema adicional é a presença de mais variáveis candidatas que observações. Nesta tese nós estudamos diversos aspectos do problema de seleção de variáveis. No Capítulo 2, comparamos duas metodologias para regressão linear: Autometrics, que é uma abordagem geral para específico (GETS) baseada em testes estatísticos, e LASSO, um método de regularização. Diferentes cenários foram contemplados para a comparação no experimento de simulação, variando o tamanho da amostra, o número de variáveis relevantes e o número de variáveis candidatas. Em uma aplicação a dados reais, os métodos foram comparados para a previsão do PIB dos EUA. No Capítulo 3, introduzimos uma metodologia para seleção de variáveis em modelos regressivos e autoregressivos de transição suave (STR e STAR) baseada na regularização do LASSO. Apresentamos uma abordagem direta e uma escalonada (stepwise). Ambos os métodos foram testados com exercícios de simulação exaustivos e uma aplicação a dados genéticos. Finalmente, no Capítulo 4, propomos um critério de mínimos quadrados penalizado baseado na penalidade l1 do LASSO e no CVaR (Conditional Value at Risk) dos erros da regressão out-of-sample. Este é um problema de otimização quadrática resolvido pelo método de pontos interiores. Em um estudo de simulação usando modelos de regressão linear, mostra-se que o método proposto apresenta performance superior a do LASSO quando os dados são contaminados por outliers, mostrando ser um método robusto de estimação e seleção de variáveis. / [en] Variable selection in statistical models is an important problem, for which many different solutions have been proposed. Traditionally, one can choose the set of explanatory variables using information criteria or prior information, but the total number of models to evaluate increases exponentially as the number of candidate variables increases. One additional problem is the presence of more candidate variables than observations. In this thesis we study several aspects of the variable selection problem. First, we compare two procedures for linear regression: Autometrics, which is a general-to-specific (GETS) approach based on statistical tests, and LASSO, a shrinkage method. Different scenarios were contemplated for the comparison in a simulation experiment, varying the sample size, the number of relevant variables and the number of candidate variables. In a real data application, we compare the methods for GDP forecasting. In a second part, we introduce a variable selection methodology for smooth transition regressive (STR) and autoregressive (STAR) models based on LASSO regularization. We present a direct and a stepwise approach. Both methods are tested with extensive simulation exercises and an application to genetic data. Finally, we introduce a penalized least square criterion based on the LASSO l1- penalty and the CVaR (Conditional Value at Risk) of the out-of-sample regression errors. This is a quadratic optimization problem solved by interior point methods. In a simulation study in a linear regression framework, we show that the proposed method outperforms the LASSO when the data is contaminated by outliers, showing to be a robust method of estimation and variable selection. [pt] SELECAO DE VARIAVEIS [en] SELECTION OF VARIABLES [pt] CVAR [pt] LASSO [en] LASSO [pt] INTERACOES [en] INTERACTIONS [pt] SELECAO DE MODELOS [en] MODEL SELECTION [pt] AUTOMETRICS [en] AUTOMETRICS [pt] ADALASSO [en] ADALASSO [pt] PROPRIEDADE DE ORACULO [en] ORACLE PROPERTY [pt] MODELOS DE TRANSICAO SUAVE [en] SMOOTH TRANSITION MODELS [pt] DADOS GENETICOS [en] GENETIC DATA

Page generated in 0.042 seconds