Global ETD Search

11	[pt] CLUSTERIZAÇÃO DE POÇOS DE PETRÓLEO UTILIZANDO ALINHAMENTO DE SEQUÊNCIAS BASEADAS EM LITOLOGIA / [en] OIL WELL CLUSTERING USING LITHOLOGY-BASED SEQUENCE ALIGNMENT WALDIR JOSE PEREIRA JUNIOR 25 November 2021 (has links) [pt] A construção de um poço de petróleo requer um planejamento extenso e antecipado. Dentre os vários objetivos deste planejamento, está a verificação da necessidade de aquisição de materiais e equipamentos para a realização das etapas da construção do poço. Tais aquisições muitas vezes envolvem contratações longas e, posteriormente, requerem um grande tempo para entrega, podendo chegar a anos. Como este planejamento é realizado em um cenário de muitas incertezas, várias técnicas, utilizando diversos tipos de dado, já foram propostas para correlacionar poços, de modo a obter antecipadamente as necessidades de materiais e equipamentos para construir um novo poço. Um desses tipos de dado é o perfil litológico, que contém os seguimentos de rochas presentes pela extensão do poço, coletados através de sensores e outros meios presentes durante a perfuração. Este perfil litológico pode ser gerado artificialmente para poços ainda não perfurados, através de dados sísmicos. Este trabalho propõe uma nova metodologia para agrupar poços de petróleo. A medida de distância será calculada com base no grau de similaridade entre poços, obtido através da aplicação de algoritmo de alinhamento de sequências, que, por sua vez, são geradas exclusivamente a partir dos perfis litológicos de tais poços. Desta forma, é possível obter poços correlatos a um determinado poço. Para validação da metodologia, foram realizados experimentos de clusterização envolvendo dados de 120 poços da costa sudeste brasileira. / [en] The construction of an oil well requires extensive and advanced planning. Among the various objectives of this planning is the verification of the need to purchase materials and equipment to carry out the stages of construction of the well. Such acquisitions often involve long contracts and, later, require a long lead-time, which can reach years. As this planning is carried out in a scenario of many uncertainties, several techniques, using different types of data, have already been proposed to correlate wells, in order to obtain in advance the material and equipment requirements to build a new well. One of these types of data is the lithological profile, which contains the rock segments present throughout the length of the well, collected through sensors and other methods present during the drilling. It is possible to generate artificial lithological profiles for not yet drilled wells, through seismic data. This work proposes a new methodology for grouping oil wells. The distance measure is based on the degree of similarity between wells, obtained by applying a sequence alignment algorithm, which, in turn, are generated exclusively from the lithological profiles of such wells. In this way, it is possible to obtain wells related to a specific well. To validate the methodology, clustering experiments involves data from 120 wells on the southeastern Brazilian coast. [pt] CORRELACAO [pt] ALINHAMENTO DE SEQUENCIAS [pt] LITOLOGIA [pt] PERFIL LITOLOGICO [pt] CLUSTERIZACAO [en] CORRELATION [en] SEQUENCE ALIGNMENT [en] LITHOLOGY [en] LITHOLOGICAL PROFILE [en] CLUSTERING
12	[pt] PADRÕES DE ATIVIDADES INSTRUMENTAIS DA VIDA DIÁRIA ENTRE IDOSOS DA COMUNIDADE / [en] PATTERNS OF INSTRUMENTAL ACTIVITIES OF DAILY LIVING BETWEEN COMMUNITY-DWELLING OLDER ADULTS ANTONIA DE AZEVEDO FALCAO SIGRIST 01 June 2021 (has links) [pt] Introdução: A capacidade para realização das atividades instrumentais da vida diária (AIVDs) é um importante marcador dentro um envelhecimento, uma vez que reflete o grau de independência para atuação no mundo real. No entanto, há uma escassez de estudos que se proponham a investigar os diferentes perfis de desempenho entre idosos. Objetivo: investigar a heterogeneidade presente em idosos da comunidade, agrupando-os a partir de características e padrões observados através de uma avaliação objetiva baseada em desempenho. Método: Participantes foram selecionados conforme critérios de inclusão: fluência no Português; 60 ou mais anos; participação regular no programa de casas de convivência do Rio de Janeiro e ausência de cuidador. A avaliação das AIVDs foi determinada pelo UPSA e UPSA-B e Escala de Lawton e Brody. A Bateria Breve de Rastreio Cognitivo foi utilizada para caracterização da amostra, além da Escala de Depressão Geriátrica. Um total de 61 idosos com idade média de 72,5 anos, predominantemente do sexo feminino (85,2 por cento), e escolaridade média de 11,2 foram avaliados e agrupados de acordo com o seu desempenho no UPSA por meio de uma análise de cluster. Resultados: A análise revelou três padrões de agrupamento de alto médio e baixo funcionamento, subdividindo a amostra em subgrupos que se diferenciaram significativamente em termos de idade, escolaridade, cognição global e todas as atividades instrumentais avaliadas pelo UPSA – planejamento, finanças, comunicação, transporte e habilidades domésticas. Conclusão: O presente estudo foi capaz de identificar a heterogeneidade presente na população idosa entre os diferentes fatores que compõe as AIVDs através de uma avaliação baseada em desempenho. / [en] Introduction: The ability to perform instrumental activities of daily living (IADLs) is an important marker within the aging process, as it reflects the level of independence to act and permorme in the real world. However, there is a scarcity of studies that investigate the different performance profiles among older adults. Objective: to investigate the heterogeneity present in the community s elderly, grouping them based on characteristics and patterns observed through an objective performance-based assessment. Method: Participants were selected according to inclusion criteria: fluency in Portuguese; 60 or more years; regular participation in a social program offered by the government of Rio de Janeiro, and absence of a caregiver. The evaluation of IADLs was determined by UPSA, UPSA-B, and the Lawton IADL scale.The Brief Cognitive Screening Battery was used to characterize the sample, in addition to the Geriatric Depression Scale. A total of 61 elderly people with an average age of 72.5 years, predominantly female (85.2 percent), and average education of 11.2 were evaluated and grouped according to their performance at UPSA through clustering analysis. Results: The analysis revealed three grouping patterns, subdividing the sample into subgroups that differed significantly in terms of age, education, global cognition, and all instrumental activities assessed by UPSA - planning, finance, communication, transportation, and household chores. Conclusion: The present study was able to identify the heterogeneity present between the elderly in the different factors that composes the IADLs through a performance-based assessment. [pt] IDOSO [en] OLD PERSON [pt] CLUSTERIZACAO [en] CLUSTERING [pt] CARACTERISTICAS DA POPULACAO [en] POPULATION HETEROGENEITY [pt] DESEMPENHO FUNCIONAL [en] FUNCTIONAL PERFORMANCE
13	[pt] ANÁLISE DE INCERTEZAS E REDUÇÃO DE CENÁRIOS EM ALOCAÇÃO DE RECURSOS DE TAREFAS DE SONDAS MARÍTIMAS: UMA ABORDAGEM DE MACHINE LEARNING / [en] UNCERTAINTY AND SCENARIO REDUCTION IN MATERIAL RESOURCES ALLOCATION OF OFFSHORE RIGS: A MACHINE LEARNING APPROACH RACHEL MARTINS VENTRIGLIA 18 April 2024 (has links) [pt] O planejamento de recursos materiais é uma parte importante do gerenciamento da cadeia de suprimentos. As tarefas na cadeia de suprimentos precisam de materiais e recursos para serem executadas e, portanto, alocar os recursos corretamente é uma parte importante do planejamento de tarefas. Especificamente, as tarefas de construção de poços submarinos requerem a utilização de recursos, como sondas, e o planejamento do cronograma dessas operações envolve o dimensionamento de diversos materiais e serviços necessários para sua execução. Este estudo é motivado pelo planejamento de programação real de uma grande empresa de Óleo e Gás que estima estocasticamente a demanda por materiais e serviços devido às incertezas associadas às tarefas em suas datas de início e durações. O cálculo da demanda varia de acordo com o cronograma atual que a empresa possui e a um conjunto de regras que indicam condições de alocação, parâmetros logísticos, condições de desembarque e dependências para alocar as ferramentas e serviços necessários para cada tarefa e estimar sua quantidade e quantos dias em que serão usados. Este conjunto de ferramentas e regras pode mudar dependendo do usuário e de seu conhecimento operacional. Além disso, a empresa utiliza um grande número de cenários, o que resulta em tempos computacionais extremamente altos e impacta a tomada de decisões operacionais. Nesse contexto, a redução de cenários poderia auxiliar a empresa no seu processo de tomada de decisão. A metodologia proposta neste trabalho avalia e identifica cenários representativos de incerteza nos cronogramas de planejamento estratégico de sondas offshore, a fim de reduzir o número de cenários utilizados no cálculo da demanda por ferramentas e serviços. Com a utilização de técnicas não supervisionadas, como k-means e agrupamento hierárquico, foi identificado um subconjunto com os cenários mais representativos para a redução de cenários. A Distância de Wasserstein e a visualizações gráficas foram utilizadas para calcular a representatividade dos cenários selecionados e encontrar o melhor subconjunto. Além disso, o subconjunto de cenários proveniente da redução também foi utilizado para analisar o impacto da redução no cálculo da demanda. O Clustering Aglomerativo com Ward Linkage obteve os melhores resultados de clusterização e representatividade, resultando em um subconjunto de redução de 782 cenários. Para encontrar um conjunto mínimo representativo de cenários, foi utilizado o melhor método de agrupamento, junto com a Distância de Wasserstein, e por fim obtido um número de 343 cenários. Isto apresenta uma redução de 84 por cento no tempo de execução do cálculo da demanda, com o erro maior de 11 por cento no cálculo da demanda. / [en] Material resource planning is an integral part of supply chain management. The tasks in the supply chain need materials and resources to be executed, thus, allocating resources correctly is an important part of task scheduling. Specifically, construction tasks for subsea wells require the use of resources, such as rigs, and planning the schedule of these operations involves the sizing of various materials and services necessary for their execution. This study is motivated by real-life scheduling planning from a large Oil and Gas company that estimates the demand for materials and services stochastically due to the uncertainties associated with the tasks in their start dates and durations. The calculation of the demand is subject to the current schedule that the company has and a set of rules that indicate allocation conditions, logistics parameters, disembarking conditions, and dependencies to allocate the tools and services needed for each task and estimate their quantity and how many days they will be used. These sets of tools and rules can change depending on the user and their operation knowledge. Additionally, the company uses a large number of scenarios, which results in extremely high computational times and impacts operational decision-making. In this context, scenario reduction could assist the company in its decision-making process. The methodology proposed in this work evaluates and identifies representative scenarios of uncertainty in strategic planning schedules of offshore rigs in order to reduce the number of scenarios used in the calculation of the demand for tools and services. With the use of unsupervised techniques, such as k-means and hierarchical clustering, we identified a subset with the most representative scenarios for the scenario reduction. The Wasserstein Distance and graphical visualization were used to measure the representativeness of the selected scenarios and find the best subset. Moreover, the scenario reduction subset was also used to analyze the impact of the reduction in the demand calculation. The Agglomerative Clustering with Ward Linkage (hierarchical clustering) obtained the best clustering evaluation and representativeness metrics, resulting in a selected subset of 782 scenarios. To find a minimal representative set of scenarios, the best clustering method and the Wasserstein Distance were used, resulting in a number of 343 scenarios. This presents a reduction of 84 percent in the execution time of the demand calculation, with the highest error of 11 percent in the demand calculation. [pt] CLUSTERIZACAO [en] CLUSTERING [pt] REDUCAO DE CENARIOS [en] SCENARIO REDUCTION [pt] TAREFA DE CONSTRUCAO DE POCOS [en] WELL CONSTRUCTION TASK [pt] SONDA MARITMA [en] OFFSHORE RIG
14	[en] A STATISTICAL INVESTIGATION ON TECHNICAL ANALYSIS / [pt] UMA INVESTIGAÇÃO ESTATÍSTICA SOBRE ANÁLISE TÉCNICA GIULIANO PADILHA LORENZONI 25 October 2006 (has links) [pt] A análise técnica ou grafismo consiste na identificação visual de padrões geométricos em gráficos de séries de preços de mercado com o objetivo de antecipar tendências de preço. Esta Dissertação revisita a questão da validação estatística da análise técnica, que tem sido estudada na literatura sem os devidos cuidados com os problemas de heterogeneidade e de dependência estatística dos dados analisados - agrupamento de séries de retornos referentes a diversos ativos financeiros distintos. O objetivo central deste estudo consiste em resolver o primeiro problema citado, através de uma metodologia para homogeneizar os ativos no que concerne às distribuições de probabilidades de suas séries de retorno. Os passos gerais desta metodologia envolvem a identificação dos processos estocásticos geradores dos retornos dos ativos, o agrupamento de ativos semelhantes e, finalmente, a análise de presença, ou ausência, de informação advinda dos padrões de preços. Como ilustração, são analisadas séries de diversos ativos do mercado financeiro mundial. A nossa investigação verifica a existência de conteúdo informativo estatisticamente significante em dois dos três padrões usualmente identificados na análise técnica, a saber: triângulos retângulos e head & shoulders. / [en] Technical analysis or charting aims on visually identifying geometrical patterns in price charts in order to anticipate price trends. This dissertation revisits the issue of technical analysis statistical validation, which has been tackled in the literature without taking care of the presence of heterogeneity and statistical dependence in the analyzed data - agglutinated return time series from many distinct securities. The main purpose of this study is to address the first cited problem by suggesting a methodology to homogenize the securities according to the probability distributions of their return series. The general steps of the methodology go through the identification of the data generating stochastic processes for the security returns, the clustering of similar securities and, finally, the analysis of the presence, or absence, of informational content coming from those price patterns. We illustrate the proposed methodology with several financial securities of the global market. Our investigation shows that there is a statistically significant informational content in two out of the three common patterns usually found through technical analysis, namely: triangles, rectangle and head & shoulders. [pt] HETEROGENEIDADE [en] HETEROGENEOUS MATERIALS [pt] CLUSTERIZACAO [en] CLUSTERING [pt] TESTE QUI-QUADRADO [en] CHI-SQUARED TEST [pt] IDENTIFICACAO DE PADRAO [en] PATTERN IDENTIFICATION [pt] ANALISE TECNICA [en] TECHNICAL ANALYSIS
15	[en] HYBRID GENETIC ALGORITHM FOR THE MINIMUM SUM-OF-SQUARES CLUSTERING PROBLEM / [pt] ALGORITMO GENÉTICO HÍBRIDO PARA O PROBLEMA DE CLUSTERIZAÇÃO MINIMUM SUM-OF-SQUARES DANIEL LEMES GRIBEL 27 July 2017 (has links) [pt] Clusterização desempenha um papel importante em data mining, sendo útil em muitas áreas que lidam com a análise exploratória de dados, tais como recuperação de informações, extração de documentos e segmentação de imagens. Embora sejam essenciais em aplicações de data mining, a maioria dos algoritmos de clusterização são métodos ad-hoc. Eles carecem de garantias na qualidade da solução, que em muitos casos está relacionada a uma convergência prematura para um mínimo local no espaço de busca. Neste trabalho, abordamos o problema de clusterização a partir da perspectiva de otimização, onde propomos um algoritmo genético híbrido para resolver o problema Minimum Sum-of-Squares Clustering (MSSC, em inglês). A meta-heurística proposta é capaz de escapar de mínimos locais e gerar soluções quase ótimas para o problema MSSC. Os resultados mostram que o método proposto superou os resultados atuais da literatura – em termos de qualidade da solução – para quase todos os conjuntos de instâncias considerados para o problema MSSC. / [en] Clustering plays an important role in data mining, being useful in many fields that deal with exploratory data analysis, such as information retrieval, document extraction, and image segmentation. Although they are essential in data mining applications, most clustering algorithms are adhoc methods. They have a lack of guarantee on the solution quality, which in many cases is related to a premature convergence to a local minimum of the search space. In this research, we address the problem of data clustering from an optimization perspective, where we propose a hybrid genetic algorithm to solve the Minimum Sum-of-Squares Clustering (MSSC) problem. This meta-heuristic is capable of escaping from local minima and generating near-optimal solutions to the MSSC problem. Results show that the proposed method outperformed the best current literature results - in terms of solution quality - for almost all considered sets of benchmark instances for the MSSC objective. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] META-HEURISTICAS [en] META-HEURISTICS [pt] CLUSTERIZACAO [en] CLUSTERING [pt] APRENDIZADO NAO-SUPERVISIONADO [en] UNSUPERVISED LEARNING [pt] MINIMA SOMA DOS QUADRADOS [en] MINIMUM SUMOF- SQUARES
16	[en] ALGORITHMS FOR PERFORMING THE COMPUTATION OF GOMORY HU CUT-TREES / [pt] ALGORITMOS PARA ACELERAR A COMPUTAÇÃO DE ÁRVORES DE CORTES DE GOMORY E HU JOAO PAULO DE FREITAS ARAUJO 19 December 2017 (has links) [pt] Calcular o valor do fluxo máximo entre um nó origem e um nó destino em uma rede é um problema clássico no contexto de Fluxos em Redes. Sua extensão, chamada de problema do fluxo máximo multiterminal, consiste em achar os valores dos fluxos máximos entre todos os pares de nós de uma rede não direcionada. Estes problemas possuem diversas aplicações, especialmente nos campos de transporte, logística, telecomunicações e energia. Neste trabalho, apreciamos a recente teoria da análise de sensibilidade, em que se estuda a influência da variação de capacidade de arestas nos fluxos máximos multiterminais, e estendemos a computação dinâmica dos fluxos multiterminais para o caso de mais de uma aresta com capacidade variável. Através dessa teoria, relacionamos também nós de corte e fluxos multiterminais, o que permitiu desenvolver um método competitivo para solucionar o problema do fluxo máximo multiterminal, quando a rede possui nós de corte. Os resultados dos experimentos computacionais conduzidos com o método proposto são apresentados e comparados com os de um algoritmo clássico, fazendo uso de instâncias geradas e outras conhecidas da literatura. Por último, aplicamos a teoria apresentada em um problema de identificação de complexos de proteínas em redes de interação proteína-proteína. Através da generalização de um algoritmo e de um resultado teórico sobre exclusão de cortes mínimos, foi possível reduzir o número de cálculos de fluxo máximo necessários para identificar tais complexos. / [en] Computing the maximum flow value between a source and a terminal nodes in a given network is a classic problem in the context of network flows. Its extension, namely the multi-terminal maximum flow problem, consists of finding the maximum flow values between the all pairs of nodes in a given undirected network. These problems have several applications, especially in the fields of transports, logistics, telecommunications and energy. In this work, we study the recent theory of sensitivity analysis, which examines the influence of edges capacity variation on the multi-terminals maximum flows, and we extend the dynamic computation of multi-terminals flows to the case of more than one edge with variable capacity. Based on this theory, we also relate cut nodes and multiterminals flows, allowing us to develop a competitive method to solve the multiterminal maximum flow problem, when the network has cut nodes. The results of the computational experiments conducted with the proposed method are presented and compared with the results of a classical algorithm, using generated and wellknown instances of the literature. Finally, we apply the presented theory on a problem of identifying protein complexes in protein-protein interaction networks. Through the generalization of an algorithm and a theoretical result about exclusion of minimum cuts, it was possible to reduce the number of maximum flow computations necessary to identify such complexes. [pt] ANALISE DE SENSIBILIDADE [en] SENSITIVITY ANALYSIS [pt] CLUSTERIZACAO [en] CLUSTERING [pt] FLUXOS EM REDES MULTITERMINAIS [en] MULTI-TERMINAL NETWORK FLOWS [pt] CORTE MINIMO [en] MINIMUM CUT [pt] ARVORE DE CORTE [en] CUT TREE
17	[pt] CONCEITOS CENTRAIS E COMPONENTIZAÇÃO DE DIAGRAMAS DE CLASSE UML REPRESENTADOS EM GRAFO / [en] CORE CONCEPTS AND COMPONENTIZATION OF UML CLASS DIAGRAMS REPRESENTED IN GRAPH 23 December 2021 (has links) [pt] O objetivo do trabalho é o desenvolvimento de uma aplicação web capaz de realizar diferentes análises de diagramas UML. Umas dascaracterísticas da ferramenta é a compatibilidade com outras ferramentas de edição de diagramas UML. Para isto, foi implementado um parser genérico XMI que importa driagramas de classe e gera um grafo orientado equivalente. Com a posse do grafo, são realizados estudos capazes de adicionar informações extras aos diagramas. O primeiro estudo é a identificação de quais clases compõesm o core concept (classes de alta importância para o sistema). Outro estudo é a clusterização deste grafo a fim de agrupar classes em propostas de componentes. Por fim, são discutidas estimativas de importância, do grau de coesão, além de métricas de acoplamento e tamanho do diagrama como um todo e dos componetes gerados. / [en] The goal of this dissertation is to develop a web application that explores different analysis of UML diagrams. One of the main features of this tool is the compatibility with other tools that create UML diagrms. In order to do that, we implemented a generic XMI parser that import class diagrams and provides as result a directed graph. With this graph in hand, we conducted studies that provide extra information regrading this diagram. The first study is the identification of the classes that can be considered core concepts (defining the important classes of the system). The other study permorms graph clustering, aiming to create groups pf classes, making it possible to generate components. Finally, we discuss estimates of importance and degree of cohesion, as well as size and coupling metrics of the diagram as a whole and the generated components. [pt] COMPONENTES [pt] CAMINHOS MAIS CURTOS [pt] CONCEITO CENTRAL [pt] DIAGRAMA DE CLASSE [pt] CLUSTERIZACAO [pt] METRICA [pt] XMI [en] COMPONENTS [en] SHORTEST PATHS [en] CARE CONCEPTS [en] CLASS DIAGRAM [en] CLUSTERING [en] METRIC [en] XMI
18	[en] COREFERENCE RESOLUTION USING LATENT TREES WITH CONTEXTUAL EMBEDDING / [pt] RESOLUÇÃO DE CORREFERÊNCIA UTILIZANDO ÁRVORES LATENTES COM REPRESENTAÇÃO CONTEXTUAL LEONARDO BARBOSA DE OLIVEIRA 19 January 2021 (has links) [pt] A tarefa de resolução de correferência consiste em identificar e agrupar trechos de um texto de acordo com as entidades do mundo real a que se referem. Apesar de já ter sido abordada em outras conferências, a CoNLL de 2012 é um marco pela qualidade das bases de dados, das métricas e das soluções apresentadas. Naquela edição, o modelo vencedor utilizou um perceptron estruturado para otimizar uma árvore latente de antecedentes, atingindo a pontuação de 63.4 na métrica oficial para o dataset de teste em inglês. Nos anos seguintes, as bases e métricas apresentadas na conferência se tornaram o benchmark para a tarefa de correferência. Com novas técnicas de aprendizado de máquina desenvolvidas, soluções mais elaboradas foram apresentadas. A utilização de redes neurais rasas atingiu a pontuação de 68.8; a adição de representação contextual elevou o estado da arte para 73.0; redes neurais profundas melhoraram o baseline para 76.9 e o estado da arte atual, que é uma combinação de várias dessas técnicas, está em 79.6. Neste trabalho é apresentado uma análise de como as técnicas de representação de palavras Bag of Words, GloVe, BERT e SpanBERT utilizadas com árvores latentes de antecedentes se comparam com o modelo original de 2012. O melhor modelo encontrado foi o que utiliza SpanBERT com uma margem muito larga, o qual atingiu pontuação de 61.3 na métrica da CoNLL 2012, utilizando o dataset de teste. Com estes resultados, mostramos que é possível utilizar técnicas avançadas em estruturas mais simples e ainda obter resultados competitivos na tarefa de correferência. Além disso, melhoramos a performance de um framework de código aberto para correferência, a fim de contemplar soluções com maior demanda de memória e processamento. / [en] The coreference resolution task consists of to identify and group spans of text related to the same real-world entity. Although it has been approached in other conferences, the 2012 CoNLL is a milestone due to the improvement in the quality of its dataset, metrics, and the presented solutions. In that edition, the winning model used a structured perceptron to optimize an antecedent latent tree, achieving 63.4 on the official metric for the English test dataset. During the following years, the metrics and dataset presented in that conference became the benchmark for the coreference task. With new machine learning techniques, more elaborated solutions were presented. The use of shallow neural networks achieved 68.8; adding contextual representation raised the state-of-the-art to 73.0; deep neural networks improved the baseline to 76.9 and the current state-of-the-art, which is a combination of many of these techniques, is at 79.6. This work presents an analysis of how the word embedding mechanisms Bag of Words, GloVe, BERT and SpanBERT, used with antecedent latent trees, are compared to the original model of 2012. The best model found used SpanBERT with a very large margin, achieving 61.3 in the CoNLL 2012 metric using the test dataset. With these results, we show that it is possible to use advanced techniques in simpler structures and still achieve competitive results in the coreference task. Besides that, we improved the performance of an open source framework for coreference, so it can manage solution that demand more memory and processing. [pt] CLUSTERIZACAO [pt] SPANBERT [pt] BERT [pt] RESOLUCAO DE CORREFERENCIA [pt] REPRESENTACAO CONTEXTUAL [pt] ARVORES LATENTES [en] CLUSTERING [en] SPANBERT [en] BERT [en] COREFERENCE RESOLUTION [en] CONTEXTUAL EMBEDDING [en] LATENT TREES
19	[en] TIME SERIES ANALYSIS USING SINGULAR SPECTRUM ANALYSIS (SSA) AND BASED DENSITY CLUSTERING OF THE COMPONENTS / [pt] ANÁLISE DE SÉRIES TEMPORAIS USANDO ANÁLISE ESPECTRAL SINGULAR (SSA) E CLUSTERIZAÇÃO DE SUAS COMPONENTES BASEADA EM DENSIDADE KEILA MARA CASSIANO 19 June 2015 (has links) [pt] Esta tese propõe a utilização do DBSCAN (Density Based Spatial Clustering of Applications with Noise) para separar os componentes de ruído na fase de agrupamento das autotriplas da Análise Singular Espectral (SSA) de Séries Temporais. O DBSCAN é um método moderno de clusterização (revisto em 2013) e especialista em identificar ruído através de regiões de menor densidade. O método de agrupamento hierárquico até então é a última inovação na separação de ruído na abordagem SSA, implementado no pacote R- SSA. No entanto, o método de agrupamento hierárquico é muito sensível a ruído, não é capaz de separá-lo corretamente, não deve ser usado em conjuntos com diferentes densidades e não funciona bem no agrupamento de séries temporais de diferentes tendências, ao contrário dos métodos de aglomeração à base de densidade que são eficazes para separar o ruído a partir dos dados e dedicados para trabalhar bem em dados a partir de diferentes densidades. Este trabalho mostra uma melhor eficiência de DBSCAN sobre os outros métodos já utilizados nesta etapa do SSA, garantindo considerável redução de ruídos e proporcionando melhores previsões. O resultado é apoiado por avaliações experimentais realizadas para séries simuladas de modelos estacionários e não estacionários. A combinação de metodologias proposta também foi aplicada com sucesso na previsão de uma série real de velocidade do vento. / [en] This thesis proposes using DBSCAN (Density Based Spatial Clustering of Applications with Noise) to separate the noise components of eigentriples in the grouping stage of the Singular Spectrum Analysis (SSA) of Time Series. The DBSCAN is a modern (revised in 2013) and expert method at identify noise through regions of lower density. The hierarchical clustering method was the last innovation in noise separation in SSA approach, implemented on package R-SSA. However, is repeated in the literature that the hierarquical clustering method is very sensitive to noise, is unable to separate it correctly, and should not be used in clusters with varying densities and neither works well in clustering time series of different trends. Unlike, the methods of density based clustering are effective in separating the noise from the data and dedicated to work well on data from different densities This work shows better efficiency of DBSCAN over the others methods already used in this stage of SSA, because it allows considerable reduction of noise and provides better forecasting. The result is supported by experimental evaluations realized for simulated stationary and non-stationary series. The proposed combination of methodologies also was applied successfully to forecasting real series of wind s speed. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] SERIES TEMPORAIS [en] TIME SERIES [pt] PREVISAO [en] FORECASTING [pt] ENERGIA EOLICA [en] WIND ENERGY [pt] MODELOS ARIMA [pt] ANALISE SINGULAR ESPECTRAL [pt] CLUSTERIZACAO BASEADA EM DENSIDADE [pt] DBSCAN [pt] PREVISAO SSA

Search results