Global ETD Search

31	[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION / [pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELAS YOSVENI ESCALONA ESCALONA 26 June 2020 (has links) [pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo. / [en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency. [pt] APRENDIZADO DE MAQUINA [pt] PLANILHA [pt] TABELA HTML [pt] DADOS TABULARES [pt] CONDITIONAL RANDOM FIELD [en] MACHINE LEARNING [en] SPREADSHEETS [en] HTML TABLES [en] TABULAR DATA [en] CONDITIONAL RANDOM FIELD
32	[pt] AVALIAÇÃO DE AUMENTO DE DADOS VIA GERAÇÃO DE IMAGENS SINTÉTICAS PARA SEGMENTAÇÃO E DETECÇÃO DE PÓLIPOS EM IMAGENS DE COLONOSCOPIA UTILIZANDO APRENDIZADO DE MÁQUINA / [en] EVALUATION OF DATA AUGMENTATION THROUGH SYNTHETIC IMAGES GENERATION FOR SEGMENTATION AND DETECTION OF POLYPS IN COLONOSCOPY IMAGES USING MACHINE LEARNING VICTOR DE ALMEIDA THOMAZ 17 August 2020 (has links) [pt] O câncer de cólon é atualmente a segunda principal causa de morte por câncer no mundo. Nos últimos anos houve um aumento do interesse em pesquisas voltadas para o desenvolvimento de métodos automáticos para detecção de pólipos e os resultados mais relevantes foram alcançados por meio de técnicas de aprendizado profundo. No entanto, o desempenho destas abordagens está fortemente associado ao uso de grandes e variados conjuntos de dados. Amostras de imagens de colonoscopia estão disponíveis publicamente, porém a quantidade e a variação limitada podem ser insuficientes para um treinamento bem-sucedido. O trabalho de pesquisa desta tese propõe uma estratégia para aumentar a quantidade e variação de imagens de colonoscopia, melhorando os resultados de segmentação e detecção de pólipos. Diferentemente de outros trabalhos encontrados na literatura que fazem uso de abordagens tradicionais de aumento de dados (data augmentation) e da combinação de imagens de outras modalidades de exame, esta metodologia enfatiza a criação de novas amostras inserindo pólipos em imagens de colonoscopia publicamente disponíveis. A estratégia de inserção faz uso de pólipos gerados sinteticamente e também de pólipos reais, além de aplicar técnicas de processamento para preservar o aspecto realista das imagens, ao mesmo tempo em que cria automaticamente amostras mais diversas com seus rótulos apropriados para fins de treinamento. As redes neurais convolucionais treinadas com estes conjuntos de dados aprimorados apresentaram resultados promissores no contexto de segmentação e detecção. As melhorias obtidas indicam que a implementação de novos métodos para aprimoramento automático de amostras em conjuntos de imagens médicas tem potencial de afetar positivamente o treinamento de redes convolucionais. / [en] Nowadays colorectal cancer is the second-leading cause of cancer death worldwide. In recent years there has been an increase in interest in research aimed at the development of automatic methods for the detection of polyps and the most relevant results have been achieved through deep learning techniques. However, the performance of these approaches is strongly associated with the use of large and varied datasets. Samples of colonoscopy images are publicly available, but the amount and limited variation may be insufficient for successful training. Based on this observation, a new approach is described in this thesis with the objective of increasing the quantity and variation of colonoscopy images, improving the results of segmentation and detection of polyps. Unlike other works found in the literature that use traditional data augmentation approaches and the combination of images from other exam modalities, the proposed methodology emphasizes the creation of new samples by inserting polyps in publicly available colonoscopy images. The insertion strategy makes use of synthetically generated polyps as well as real polyps, in addition to applying processing techniques to preserve the realistic aspect of the images, while automatically creating more diverse samples with their appropriate labels for training purposes. Convolutional neural networks trained with these improved datasets have shown promising results in the context of segmentation and detection. The improvements obtained indicate that the implementation of new methods for the automatic improvement of samples in medical image datasets has the potential to positively affect the training of convolutional networks. [pt] REDES NEURAIS CONVOLUCIONAIS [pt] COLONOSCOPIA [pt] POLIPOS [pt] AUMENTO DE DADOS [pt] DADOS DE TREINAMENTO [en] CONVOLUTIONAL NEURAL NETWORKS [en] COLONOSCOPY [en] POLYP [en] DATA AUGMENTATION [en] TRAINING DATA
33	[pt] CARACTERIZAÇÃO DE RESERVATÓRIOS COM BASE EM DADOS TRANSIENTES DE PRESSÃO E TEMPERATURA, UTILIZANDO MÉTODO BASEADO EM CONJUNTO / [en] RESERVOIR CHARACTERIZATION BASED ON PRESSURE AND TEMPERATURE TRANSIENT DATA, USING AN ENSEMBLE-BASED METHOD VINICIUS MATTOSO REIS DA SILVA 02 May 2022 (has links) [pt] A caracterização de reservatórios é uma ferramenta importante para a gestão da produção do mesmo. Testes de poços são comumente usados para caracterizar reservatórios, pois são as únicas fontes de dados dinâmicos durante a etapa de exploração. Esses testes medem as respostas de pressão e temperatura nos poços, dadas condições controladas de produção, injeção ou estática. Geralmente, apenas os dados de pressão são pós-processados para caracterizar o reservatório. Entretanto considerar apenas os dados de pressão podem levar a interpretações errôneas devido ao negligenciamento dos efeitos térmicos, causando erros na estimativa de propriedades do reservatório e, consequentemente, um gerenciamento ineficiente do mesmo. Além disso, os dados de pressão possuem diversas fontes de ruído que podem comprometer a precisão dos resultados dos testes. Trabalhos recentes mostram que o uso de dados de temperatura podem melhorar a estimativa de parâmetros do reservatório. Neste trabalho, o método ensemble smoother with multiple data assimilation (ES-MDA) foi aplicado em casos sintéticos criados por um simulador não-isotérmico de fluxo no reservatório-poço que considera o aquecimento de Joule-Thomson e efeitos de resfriamento, expansão / compressão de fluido adiabático, condução e convecção na equação de balanço de energia. Os dados sintéticos medidos foram obtidos adicionandose ruídos gaussianos e harmônicos aos sinais calculados para simular ruídos nas medições e efeitos de maré, respectivamente. Foi realizada uma análise de sensibilidade da matriz CD do método ES-MDA utilizada na atualização dos parâmetros a serem estimados. Os resultados mostram que o acoplamento dos dados de temperatura aos dados de pressão no ajuste de histórico promoveu uma melhora nas estimativas dos parâmetros do reservatório, principalmente para a região de dano e a porosidade do reservatório. Para as análises, nas quais os dados de pressão tiveram a inclusão de ruído harmônico, a adição de dados de temperatura também se mostrou de grande importância para a caracterização precisa do reservatório. / [en] Reservoir characterization is an important tool for production/reservoir management. Well tests are commonly used in reservoir characterization and are the only source of dynamic data during the exploration period. These tests typically measure the pressure, rate and temperature responses at a well during controlled production, injection, or static conditions. Generally, only pressure data is post-processed in reservoir characterization. However, considering only pressure data can lead to misinterpretation associated with the neglected thermal effects, causing errors in reservoir properties estimation and consequently inefficient reservoir management. Besides that, pressure data have several noise sources that may compromise the accuracy of test results. Recent results have shown that temperature data can be used to improve reservoir parameter estimation. In this work, the ensemble smoother with multiple data assimilation method (ES-MDA) was applied in synthetic cases created by an in-house non-isothermal reservoir-well flow simulator that considers the Joule-Thomson heating and cooling, adiabatic fluid expansion/compression, conduction, and convection effects in the thermal energy balance equation. The synthetic measured data was obtained by adding gaussian and harmonics noises to the numerical predictions to simulate equipment and tidal effects, respectively. A sensitivity analysis of the effect of the CD matrix used for updating parameters of the ES-MDA method on the parameters estimations was carried out. The results show that adding temperature data to the observed data in the history matching improves the estimates of the reservoir parameters, especially for the skin region and reservoir porosity. For the analyses in which the pressure data had the addition of harmonic noise, the inclusion of temperature data also proved to be of great importance for an accurate characterization of the reservoir. [pt] PROBLEMA INVERSO [pt] DADOS ACOPLADOS [pt] SIMULACAO NAO ISOTERMICA [pt] ES-MDA [en] INVERSE PROBLEM [en] COUPLED DATA [en] NON-ISOTHERMAL SIMULATION [en] ES-MDA
34	[en] DEFINING NON-TECHNICAL LOSSES REGULATORY TARGETS FOR ELECTRICITY DISTRIBUTORS IN BRAZIL: PROPOSING A MODEL BASED ON STOCHASTIC FRONTIER ANALYSIS (SFA) / [pt] DEFINIÇÃO DAS METAS REGULATÓRIAS DE PERDAS NÃO TÉCNICAS PARA AS DISTRIBUIDORAS DE ENERGIA ELÉTRICA NO BRASIL: PROPOSIÇÃO DE UM MODELO BASEADO NA ANÁLISE DE FRONTEIRA ESTOCÁSTICA (SFA) DANIEL ALFRADIQUE LEITE 22 December 2020 (has links) [pt] A redução das perdas não técnicas de energia elétrica (PNT) constitui atualmente um dos principais desafios enfrentados pelas concessionárias de distribuição de eletricidade nos países em desenvolvimento. Por depender em parte de fatores não gerenciáveis pelas distribuidoras, as PNT no Brasil são repassadas aos consumidores através de tarifas de eletricidade, seguindo os limites definidos pela Agência Nacional de Energia Elétrica (ANEEL). Apesar do notável progresso realizado pela ANEEL, à metodologia atualmente empregada pela Agência para definição desses limites apresenta uma série de limitações o que impõem ao regulador a adoção de medidas ad hoc que acaba resultando em metas de perdas pouco condizentes com a realidade das distribuidoras. Nas últimas três décadas diversos modelos matemáticos de Análise de Eficiência vêm sendo desenvolvidos com intuito de mensurar a eficiência relativa de grupos de agente. A adoção desses modelos, no entanto, tem se limitado a temas relacionados a custos operacionais e investimento. Essa dissertação tem por objetivo cobrir essa lacuna, propondo um modelo alternativo para a definição das metas regulatórias de PNT a partir de uma família particular de modelos de Análise de Eficiência – os modelos de Análise de Fronteira Estocástica (SFA). O modelo proposto foi aplicado a um painel de dados contendo observações anuais de 62 concessionárias de distribuição de energia elétrica brasileira no período de 2007 a 2017, resultando em um conjunto de metas de PNT mais aderentes às PNT reais das distribuidoras brasileiras. / [en] The reduction of non-technical losses of electrical power (NTL) are currently one of the main challenges faced by electricity utility companies in developing countries. Because it depends in part on factors not manageable by the utilities, in Brazil is passed on to consumers through electricity tariffs, following the limits defined by the National Electric Energy Agency (ANEEL). Despite the notable progress made by ANEEL, the currently used methodology by this Agency to define these limits has a number of limitations, which have impose the adoption of ad hoc measures that end up resulting in loss targets that are inconsistent with the reality of the utilities. In the last three decades, a several mathematical models of Efficiency Analysis have been developing in order to measure the relative efficiency of groups of agents. However, the adoption of these models by Regulator Bodies around the world has been limited to subjects related to operating costs and investment. This dissertation aims to fulfill this gap, proposing an alternative model for the definition of NTL regulatory targets from a particular family of Efficiency Analysis models - the Stochastic Frontier Analysis (SFA) models. The proposed model has been applied to a data panel containing annual observations of 62 distribution concessionaires in the Brazilian electrical system from 2007 to 2017, resulting in a set of NTL targets more adherent to the real PNT of Brazilian electricity utility distributors. [pt] METROLOGIA [pt] DISTRIBUIDORAS DE ENERGIA ELETRICA [pt] ANALISE DE FRONTEIRA ESTOCASTICA [pt] DADOS EM PAINEL [pt] PERDAS NAO TECNICAS [en] METROLOGY [en] ELECTRICITY UTILITIES [en] STOCHASTIC FRONTIER ANALYSIS [en] PANEL DATA [en] NON TECHNICAL LOSSES
35	[en] AUTOMATIC SELECTION OF MODELS FOR PANEL DATA: AN APPLICATION FOR SETTING NON-TECHNICAL LOSSES TARGETS OF BRAZILIAN ELECTRICITY DISTRIBUTION UTILITIES / [pt] SELEÇÃO AUTOMÁTICA DE MODELOS PARA DADOS EM PAINEL: UMA APLICAÇÃO PARA DEFINIÇÃO DAS METAS DE PERDAS NÃO TÉCNICAS DAS DISTRIBUIDORAS BRASILEIRAS EDUARDO TAKAMINE CORREIA 16 June 2021 (has links) [pt] A perdas não técnicas de energia elétrica (PNT) constituem, atualmente, um dos principais problemas enfrentados pelas concessionárias de distribuição de eletricidade no Brasil. Entende-se que parte desses fatores não são gerenciáveis pelas distribuidoras, e assim, são repassadas aos consumidores através de tarifas de eletricidade, seguindo os limites definidos pela Agência Nacional de Energia Elétrica (ANEEL). Apesar do progresso realizado pela ANEEL, a metodologia atualmente empregada pela Agência utiliza-se de dados em painel para formulações desses limites, no entanto, define-se algumas medidas ad-hoc que acabam resultando em metas de perdas pouco condizentes com a realidade das distribuidoras brasileiras. Essa dissertação tem por objetivo selecionar modelos de forma automática para dados em painel, avaliando sua aplicabilidade na definição das metas de perdas não técnicas. Os modelos propostos foram empregados a um painel de dados contendo observações anuais de 62 concessionárias de distribuição de energia elétrica brasileira no período de 2007 a 2017, gerando, assim, 1.097.789 modelos com respeitando os tipos de regressões em dados em painel, resultando em 3 modelos potenciais com metas de PNT mais aderentes às PNT reais das distribuidoras brasileiras. / [en] Non-technical electricity losses (NTL) are currently one of the main problems faced by electricity distribution utilities in Brazil. It is understood that part of these factors is not manageable by the utilities, and thus, they are passed on to consumers through electricity tariffs, following the limits defined by the Brazilian Electric Energy Agency (ANEEL). Despite the progress made by ANEEL, the methodology currently used by the Agency uses panel data to formulate these limits, however, some ad hoc measures are defined which end up resulting in loss targets that are not consistent with the reality of Brazilian distribution utilities. This dissertation aims to select models automatically for panel data, evaluating their applicability in setting non-technical loss targets. The proposed models were used in a panel data containing annual observations from 62 Brazilian electricity distribution utilities in the period from 2007 to 2017, thus generating 1,097,789 models with respect to the types of regressions in panel data, resulting in 3 potential models with NTL targets more adherent to the real possibilities of the Brazilian distribution utilities. [pt] METROLOGIA [pt] DISTRIBUIDORAS DE ENERGIA ELETRICA [pt] DADOS EM PAINEL [pt] REGULACAO ECONOMICA [pt] PERDAS NAO TECNICAS [en] METROLOGY [en] ELECTRICITY UTILITIES [en] PANEL DATA [en] ECONOMIC REGULATION [en] NON TECHNICAL LOSSES
36	[en] DATA PROTECTION IN THE SMART CITIES / [pt] PROTEÇÃO DE DADOS NAS CIDADES INTELIGENTES FREDERICO BOGHOSSIAN TORRES 22 September 2023 (has links) [pt] As cidades contemporâneas, cuja população está em tendência de crescimento, são palco dos desafios do presente, como as mudanças climáticas, o acesso a alimentos, os desastres ambientais, o consumo de energia e emissão de gases poluentes, a violência, a desigualdade social, entre outros. A solução desses problemas é complexa e necessita o envolvimento de múltiplos atores e o investimento de volumosos recursos financeiros. Com atenção a isso, surge o ideal da cidade inteligente, que busca utilizar as tecnologias da informação e comunicação para diagnosticar e enfrentar problemas urbanos a partir da coleta e uso de dados sobre a cidade e os cidadãos. Se, por um lado, a tecnologia pode e deve ser utilizada para a melhoria da qualidade de vida, por outro lado, o seu uso traz dúvidas sobre a violação da privacidade dos cidadãos. Por estes motivos, a presente pesquisa objetiva estudar de que forma é possível realizar as promessas da cidade inteligente sem que isso signifique a expansão da vigilância e a sistematização da violação às leis de proteção de dados. Para isso, o trabalho irá: estudar as definições do conceito de cidade inteligente, abordar os desafios para a proteção de dados neste contexto e propor medidas que mitiguem os danos à privacidade dos cidadãos. / [en] Contemporary cities, whose population is on a growing trend, are the main stage for the challenges of the present, such as climate change, access to food, environmental disasters, energy consumption and the emission of greenhouse gases, violence, social inequality, among others. The solution of these problems is complex, requiring the involvement of multiple actors and the investment of voluminous financial resources. With this in mind, the ideal of the smart city emerges, seeking to use information and communication technologies to diagnose and address urban problems by collecting and processing data about the city and its citizens. If, on the one hand, technology can and should be used to improve the quality of life, on the other hand, its use raises doubts about the violation of citizens privacy. For these reasons, the present research aims to study how it is possible to fulfill the promises of the smart city without this meaning the expansion of surveillance and the systematization of violations of data protection laws. For this, the work will: study the definitions of smart city, address the challenges for data protection in this context and propose measures that mitigate the damages to the privacy of urban citizens. [pt] SEGURANCA DA INFORMACAO [pt] PROTECAO DE DADOS [pt] DADOS PESSOAIS [pt] CIDADES INTELIGENTES [pt] PRIVACIDADE [pt] DIREITO A CIDADE [en] INFORMATION SECURITY [en] DATA PROTECTION [en] SMART CITIES [en] PRIVACY [en] RIGHT TO THE CITY
37	[pt] BUSCA POR PALAVRAS-CHAVE SOBRE GRAFOS RDF FEDERADOS EXPLORANDO SEUS ESQUEMAS / [en] KEYWORD SEARCH OVER FEDERATED RDF GRAPHS BY EXPLORING THEIR SCHEMAS YENIER TORRES IZQUIERDO 28 July 2017 (has links) [pt] O Resource Description Framework (RDF) foi adotado como uma recomendação do W3C em 1999 e hoje é um padrão para troca de dados na Web. De fato, uma grande quantidade de dados foi convertida em RDF, muitas vezes em vários conjuntos de dados fisicamente distribuídos ao longo de diferentes localizações. A linguagem de consulta SPARQL (sigla do inglês de SPARQL Protocol and RDF Query Language) foi oficialmente introduzido em 2008 para recuperar dados RDF e fornecer endpoints para consultar fontes distribuídas. Uma maneira alternativa de acessar conjuntos de dados RDF é usar consultas baseadas em palavras-chave, uma área que tem sido extensivamente pesquisada, com foco recente no conteúdo da Web. Esta dissertação descreve uma estratégia para compilar consultas baseadas em palavras-chave em consultas SPARQL federadas sobre conjuntos de dados RDF distribuídos, assumindo que cada conjunto de dados RDF tem um esquema e que a federação tem um esquema mediado. O processo de compilação da consulta SPARQL federada é explicado em detalhe, incluindo como computar o conjunto de joins externos entre as subconsultas locais geradas, como combinar, com a ajuda de cláusulas UNION, os resultados de consultas locais que não têm joins entre elas, e como construir a cláusula TARGET, de acordo com a composição da cláusula WHERE. Finalmente, a dissertação cobre experimentos com dados do mundo real para validar a implementação. / [en] The Resource Description Framework (RDF) was adopted as a W3C recommendation in 1999 and today is a standard for exchanging data in the Web. Indeed, a large amount of data has been converted to RDF, often as multiple datasets physically distributed over different locations. The SPARQL Protocol and RDF Query Language (SPARQL) was officially introduced in 2008 to retrieve RDF datasets and provide endpoints to query distributed sources. An alternative way to access RDF datasets is to use keyword-based queries, an area that has been extensively researched, with a recent focus on Web content. This dissertation describes a strategy to compile keyword-based queries into federated SPARQL queries over distributed RDF datasets, under the assumption that each RDF dataset has a schema and that the federation has a mediated schema. The compilation process of the federated SPARQL query is explained in detail, including how to compute a set of external joins between the local subqueries, how to combine, with the help of the UNION clauses, the results of local queries which have no external joins between them, and how to construct the TARGET clause, according to the structure of the WHERE clause. Finally, the dissertation covers experiments with real-world data to validate the implementation. [pt] ESQUEMA MEDIADO [en] MEDIATED SCHEMA [pt] RDF [en] RDF [pt] DADOS CONECTADOS [en] LINKED DATA [pt] SPARQL [en] SPARQL [pt] CONSULTAS FEDERADAS [en] FEDERATED QUERY [pt] BUSCA POR PALAVRA CHAVE [en] KEYWORD SEARCH
38	[en] EMBEDDING SEISMIC DATA INTO A SKELETON-BASED SIMULATION / [pt] INTEGRAÇÃO DE DADOS SÍSMICOS EM UMA SIMULAÇÃO BASEADA EM ESQUELETOS TAHYZ GOMES PINTO 08 April 2020 (has links) [pt] A sísmica é uma importante ferramenta utilizada no processo de exploração de petróleo e gás natural. A partir dos estudos sísmicos é possível obter informações referentes a probabilidade de encontrar situações favoráveis a acumulação de hidrocarbonetos. O presente trabalho visa integrar os dados adquiridos através deste método geofísico a um modelo de simulação de canais baseados em esqueletos em um ambiente deposicional turbidítico, e também apresentar a modelagem de tais canais condicionados a localização de um poço. / [en] The use of seismic data is an important tool in oil and gas research. It can show us the probability of having a high concentration of hydrocarbon in a possible reservoir. This work intends to condition skeleton-based modeling of channels reservoir in a turbidite system to seismic data. We also present such modeling process constraint by a well previously defined. [pt] DADOS SISMICOS [pt] MODELAGEM BASEADA EM ESQUELETOS [pt] CANAIS TURBIDITICOS [pt] MODELAGEM BASEADA EM OBJETOS [en] SEISMIC DATA [en] SKELETONS-BASED MODELING [en] TURBIDITE CHANNEL [en] OBJECT-BASED MODELING
39	[en] ENRICHING AND ANALYZING SEMANTIC TRAJECTORIES WITH LINKED OPEN DATA / [pt] ENRIQUECENDO E ANALISANDO TRAJETÓRIAS SEMÂNTICAS COM DADOS ABERTOS INTERLIGADOS LIVIA COUTO RUBACK RODRIGUES 26 February 2018 (has links) [pt] Os últimos anos testemunharam o uso crescente de dispositivos que rastreiam objetos móveis: equipamentos com GPS e telefones móveis, veículos ou outros sensores da Internet das Coisas, além de dados de localização de check-ins de redes sociais. Estes dados de mobilidade são representados como trajetórias, e armazenam a sequência de posições de um objeto móvel. Porém, estas sequências representam somente os dados de posição originais, que precisam ser semanticamente enriquecidos para permitir tarefas de análise e apoiar um entendimento profundo sobre o comportamento do movimento. Um outro espaço de dados global sem precedentes tem crescido rapidamente, a Web de Dados, graças à iniciativa de Dados Interligados. Estes dados semânticos ricos e livremente disponíveis fornecem uma nova maneira de enriquecer dados de trajetória. Esta tese apresenta contribuições para os desafios que surgem considerando este cenário. Em primeiro lugar, a tese investiga como dados de trajetória podem se beneficiar da iniciativa de dados interligados, guiando todo o processo de enriquecimento semântico utilizando fontes de dados externas. Em segundo lugar, aborda o tópico de computação de similaridade entre entidades representadas como dados interligados com o objetivo de computar a similaridade entre trajetórias semanticamente enriquecidas. A novidade da abordagem apresentada nesta tese consiste em considerar as características relevantes das entidades como listas ranqueadas. Por último, a tese aborda a computação da similaridade entre trajetórias enriquecidas comparando a similaridade entre todas as entidades representadas como dados interligados que representam as trajetórias enriquecidas. / [en] The last years witnessed a growing number of devices that track moving objects: personal GPS equipped devices and GSM mobile phones, vehicles or other sensors from the Internet of Things but also the location data deriving from the Social Networks check-ins. These mobility data are represented as trajectories, recording the sequence of locations of the moving object. However, these sequences only represent the raw location data and they need to be semantically enriched to be meaningful in the analysis tasks and to support a deep understanding of the movement behavior. Another unprecedented global space that is also growing at a fast pace is the Web of Data, thanks to the emergence of the Linked Data initiative. These freely available semantic rich datasets provide a novel way to enhance trajectory data. This thesis presents a contribution to the many challenges that arise from this scenario. First, it investigates how trajectory data may benefit from the Linked Data Initiative by guiding the whole trajectory enrichment process with the use of external datasets. Then, it addresses the pivotal topic of the similarity computation between Linked Data entities with the final objective of computing the similarity between semantically enriched trajectories. The novelty of our approach is that the thesis considers the relevant entity features as a ranked list. Finally, the thesis targets the computation of the similarity between enriched trajectories by comparing the similarity of the Linked Data entities that represent the enriched trajectories. [pt] LINKED DATA [pt] SEMANTIC WEB [pt] DADOS DE MOVIMENTO [pt] SIMILARIDADE SEMANTICA [pt] TRAJETORIAS SEMANTICAS [en] LINKED DATA [en] SEMANTIC WEB [en] MOVEMENT DATA [en] SEMANTIC SIMILARITY [en] SEMANTIC TRAJECTORIES
40	[pt] ENSAIOS SOBRE VOLATILIDADE E PREVISIBILIDADE DE RETORNOS / [en] ESSAYS ON VOLATILITY AND RETURNS PREDICTABILITY IURI HONDA FERREIRA 18 August 2022 (has links) [pt] Essa tese é composta por três artigos em econometria financeira. Os dois primeiros artigos exploram a relação entre retornos intradiários do mercado de equities e a implied volatility, representada pelo Índice de Volatilidade da CBOE (VIX). Nos dois artigos, estimamos previsões um minuto à frente utilizando janelas rolantes para cada dia. No primeiro artigo, as estimativas indicam que nossos modelos de fatores de volatilidade têm uma performance superior a benchmarks tradicionais em uma análise de séries de tempo em alta frequência, mesmo aos excluirmos períodos de crise da amostra. Os resultados também indicam uma performance fora da amostra maior para dias em que não ocorrem anúncios macroeconômicos. A performance é ainda maior quando removemos períodos de crise. O segundo artigo propõe uma abordagem de aprendizado de máquinas para modelar esse exercício de previsão. Implementamos um método de estimação intradiário minuto a minuto com janelas móveis, utilizando dois tipos de modelos não lineares: redes neurais com Long-Short-Term Memory (LSTM) e Random Forests (RF). Nossas estimativas mostram que o VIX é o melhor previsor de retornos de mercado intradiários entre os candidatos na nossa análise, especialmente quando implementadas através do modelo LSTM. Esse modelo também melhora significativamente a performance quando utilizamos o retorno de mercado defasado como variável preditiva. Finalmente, o último artigo explora uma extensão multivariada do método FarmPredict, combinando modelos vetoriais autoregressivos aumentados em fatores (FAVAR) e modelos esparsos em um ambiente de alta dimensão. Utilizando um procedimento de três estágios, somos capazes de estimar e prever fatores e seus loadings, que podem ser observados, não observados ou ambos, assim como uma estrutura idiossincrática fracamente esparsa. Realizamos uma aplicação dessa metodologia em um painel de volatilidades realizadas e os resultados de performance do método em etapas indicam melhorias quando comparado a benchmarks consolidados. / [en] This thesis is composed of three papers on financial econometrics. The first two papers explore the relation between intraday equity market returns and implied volatility, represented by the CBOE Volatility Index (VIX). In both papers, we estimate one-minute-ahead forecasts using rolling windows within a day. In the first paper, the estimates indicate that our volatility factor models outperform traditional benchmarks at high frequency time-series analysis, even when excluding crisis periods. We also find that the model has a better out-of-sample performance at days without macroeconomic announcements. Interestingly, these results are amplified when we remove the crisis period. The second paper proposes a machine learning modeling approach to this forecasting exercise. We implement a minute-by-minute rolling window intraday estimation method using two nonlinear models: Long-Short-Term Memory (LSTM) neural networks and Random Forests (RF). Our estimations show that the VIX is the strongest candidate predictor for intraday market returns in our analysis, especially when implemented through the LSTM model. This model also improves significantly the performance of the lagged market return as predictive variable. Finally, the third paper explores a multivariate extension of the FarmPredict method, by combining factor-augmented vector autoregressive (FAVAR) and sparse models in a high-dimensional environment. Using a three-stage procedure, we estimate and forecast factors and its loadings, which can be observed, unobserved, or both, as well as a weakly sparse idiosyncratic structure. We provide an application of this methodology to a panel of daily realized volatilities. Finally, the accuracy of the stepwise method indicates improvements of this forecasting method when compared to consolidated benchmarks. [pt] PREVISIBILIDADE DE RETORNOS [pt] APRENDIZADO DE MAQUINA [pt] MODELOS NAO-LINEARES [pt] DADOS EM ALTA DIMENSAO [en] RETURN PREDICTABILITY [en] MACHINE LEARNING [en] NONLINEAR MODELS [en] HIGH DIMENSIONAL DATA

Search results