• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 53
  • 53
  • Tagged with
  • 106
  • 106
  • 105
  • 105
  • 102
  • 18
  • 18
  • 18
  • 18
  • 17
  • 17
  • 17
  • 12
  • 10
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION / [pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELAS

YOSVENI ESCALONA ESCALONA 26 June 2020 (has links)
[pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo. / [en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency.
62

[pt] ENSAIOS SOBRE NOWCASTING COM DADOS EM ALTA DIMENSÃO / [en] ESSAYS ON NOWCASTING WITH HIGH DIMENSIONAL DATA

HENRIQUE FERNANDES PIRES 02 June 2022 (has links)
[pt] Em economia, Nowcasting é a previsão do presente, do passado recente ou mesmo a previsão do futuro muito próximo de um determinado indicador. Geralmente, um modelo nowcast é útil quando o valor de uma variável de interesse é disponibilizado com um atraso significativo em relação ao seu período de referência e/ou sua realização inicial é notavelmente revisada ao longo do tempo, se estabilizando somente após um tempo. Nesta tese, desenvolvemos e analisamos vários métodos de Nowcasting usando dados de alta dimensão (big data) em diferentes contextos: desde a previsão de séries econômicas até o nowcast de óbitos pela COVID-19. Em um de nossos estudos, comparamos o desempenho de diferentes algoritmos de Machine Learning com modelos mais naive na previsão de muitas variáveis econômicas em tempo real e mostramos que, na maioria das vezes, o Machine Learning supera os modelos de benchmark. Já no restante dos nossos exercícios, combinamos várias técnicas de nowcasting com um grande conjunto de dados (incluindo variáveis de alta frequência, como o Google Trends) para rastrear a pandemia no Brasil, mostrando que fomos capazes de antecipar os números reais de mortes e casos muito antes de estarem disponíveis oficialmente para todos. / [en] Nowcasting in economics is the prediction of the present, the recent past or even the prediction of the very near future of a certain indicator. Generally, a nowcast model is useful when the value of a target variable is released with a significant delay with respect to its reference period and/or when its value gets notably revised over time and stabilizes only after a while. In this thesis, we develop and analyze several Nowcasting methods using high-dimensional (big) data in different contexts: from the forecasting of economic series to the nowcast of COVID-19. In one of our studies, we compare the performance of different Machine Learning algorithms with more naive models in predicting many economic variables in real-time and we show that, most of the time, Machine Learning beats benchmark models. Then, in the rest of our exercises, we combine several nowcasting techniques with a big dataset (including high-frequency variables, such as Google Trends) in order to track the pandemic in Brazil, showing that we were able to nowcast the true numbers of deaths and cases way before they got available to everyone.
63

[pt] MONITORAMENTO DE VIBRAÇÃO EM SISTEMAS MECÂNICOS USANDO APRENDIZADO PROFUNDO E RASO EM COMPUTADORES NA PONTA / [en] VIBRATION MONITORING OF MECHANICAL SYSTEMS USING DEEP AND SHALLOW LEARNING ON EDGE-COMPUTERS

CAROLINA DE OLIVEIRA CONTENTE 30 June 2022 (has links)
[pt] O monitoramento de integridade estrutural tem sido o foco de desenvolvimentos recentes no campo da avaliação baseada em vibração e, mais recentemente, no escopo da internet das coisas à medida que medição e computação se tornam distribuídas. Os dados se tornaram abundantes, embora a transmissão nem sempre seja viável em frequências mais altas especialmente em aplicações remotas. Portanto, é importante conceber fluxos de trabalho de modelo orientados por dados que garantam a melhor relação entre a precisão do modelo para avaliação de condição e os recursos computacionais necessários para soluções incorporadas, tópico que não tem sido amplamente utilizado no contexto de medições baseadas em vibração. Neste contexto, a presente pesquisa propõe abordagens para duas aplicações: na primeira foi proposto um fluxo de trabalho de modelagem capaz de reduzir a dimensão dos parâmetros de modelos autorregressivos usando análise de componentes principais e classificar esses dados usando algumas técnicas de aprendizado de máquina como regressão logística, máquina de vetor de suporte, árvores de decisão, k-vizinhos próximos e floresta aleatória. O exemplo do prédio de três andares foi usado para demonstrar a eficácia do método. No segundo caso, é utilizado um equipamento de teste composto por inércias rotativas onde a solução de monitoramento foi testada em uma plataforma baseada em GPU embarcada. Os modelos implementados para distinguir eficazmente os diferentes estados de atrito foram análise de componentes principais, deep autoencoders e redes neurais artificiais. Modelos rasos têm melhor desempenho em tempo de execução e precisão na detecção de condições de falha. / [en] Structural health monitoring has been the focus of recent developments in vibration-based assessment and, more recently, in the scope of the internet of things as measurement and computation become distributed. Data has become abundant even though the transmission is not always feasible, especially in remote applications. It is thus essential to devise data-driven model workflows that ensure the best compromise between model accuracy for condition assessment and the computational resources needed for embedded solutions. This topic has not been widely used in the context of vibration-based measurements. In this context, the present research proposes two approaches for two applications, a static and a rotating one. In case one, a modeling workflow capable of reducing the dimension of autoregressive model features using principal component analysis and classifying this data using some of the main machine learning techniques such as logistic regression, support vector machines, decision tree classifier, k-nearest neighborhood and random forest classifier was proposed. The three-story building example was used to demonstrate the method s effectiveness, together with ways to assess the best compromise between accuracy and model size. In case two, a test rig composed of rotating inertias and slender connecting rods is used, and the monitoring solution was tested in an embedded GPU-based platform. The models implemented to effectively distinguish between different friction states were principal component analysis, deep autoencoder and artificial neural networks. Shallow models perform better concerning running time and accuracy in detecting faulty conditions.
64

[pt] AVALIAÇÃO NÃO-DESTRUTIVA DE DUTOS E SOLDAS BASEADA EM DADOS ULTRASSÔNICOS NO CONTEXTO DA INDÚSTRIA DE ÓLEO E GÁS / [en] DATA-DRIVEN ULTRASONIC NON-DESTRUCTIVE EVALUATION OF PIPES AND WELDS IN THE CONTEXT OF THE OIL AND GAS INDUSTRY

GUILHERME REZENDE BESSA FERREIRA 31 January 2022 (has links)
[pt] A avaliação não destrutiva ultrassônica é de extrema importância na indústria de óleo e gás, principalmente para ativos e estruturas sujeitos a condições que aceleram os mecanismos de falha. Apesar de amplamente difundidos, os métodos ultrassônicos não destrutivos dependem de uma força de trabalho especializada, sendo, portanto, suscetíveis a erros e demorados. Nesse contexto, métodos de reconhecimento de padrões, como o aprendizado de máquina, se encaixam convenientemente para solucionar os desafios da tarefa. Assim, este trabalho tem como objetivo a aplicação de técnicas de inteligência artificial para abordar a interpretação de dados adquiridos por meio de avaliação não destrutiva ultrassônica no contexto da indústria de óleo e gás. Para tanto, esta dissertação envolve três estudos de caso. Primeiramente, sinais de ondas guiadas ultrassônicas são usados para classificar os defeitos presentes em juntas soldadas de compósito termoplástico. Os resultados mostraram que, ao usar atributos extraídos com modelos autoregressivos, a acurácia do modelo de aprendizado de máquina melhora em pelo menos 72,5 por cento. Em segundo lugar, dados ultrassônicos em formato de imagens são usados para construir um sistema de diagnóstico de solda automático. A estrutura proposta resultou em um modelo computacionalmente eficiente, capaz de realizar classificações com acurácia superior à 99 por cento. Por fim, dados obtidos por simulação numérica foram usados para criar um modelo de aprendizado profundo visando estimar a severidade de defeitos semelhantes à corrosão em dutos. Resultados de R2 superiores a 0,99 foram alcançados. / [en] Ultrasonic non-destructive evaluation is of extreme importance in the oil and gas industry, especially for assets and structures subjected to conditions that accelerate failure mechanisms. Despite being widely spread, ultrasonic non-destructive methods depend on a specialized workforce, thus being errorprone and time-consuming. In this context, pattern recognition methods, like machine learning, fit conveniently to solve the challenges of the task. Hence, this work aims at applying artificial intelligence techniques to address the interpretation of data acquired through ultrasonic non-destructive evaluation in the context of the oil and gas industry. For that purpose, this dissertation involves three case studies. Firstly, ultrasonic guided wave signals are used to classify defects present in welded thermoplastic composite joints. Results have shown that, when using features extracted with autoregressive models, the accuracy of the machine learning model improves by at least 72.5 percent. Secondly, ultrasonic image data is used to construct an automatic weld diagnostic system. The proposed framework resulted in a lightweight model capable of performing classification with over 99 percent accuracy. Finally, simulation data was used to create a deep learning model for estimating the severity of corrosion-like defects in pipelines. R2 results superior to 0.99 were achieved.
65

[en] ASSESSMENT OF REDUCED ORDER MODELS APPLIED TO STEADY-STATE BI-DIMENSIONAL LAMINAR METHANE AIR DIFFUSION FLAME / [pt] AVALIAÇÃO DE MODELOS DE ORDEM REDUZIDA APLICADOS À SIMULAÇÃO BIDIMENSIONAL EM REGIME ESTACIONÁRIO DE CHAMAS LAMINARES DE DIFUSÃO DE METANO E AR

NICOLE LOPES M DE B JUNQUEIRA 03 May 2022 (has links)
[pt] Dinâmica dos Fluidos Computacional (CFD) é frequentemente aplicada ao estudo da combustão, permitindo otimizar o processo e controlar a emissão de poluentes. Entretanto, reproduzir o comportamento observado nos sistemas de engenharia tem uma elevada carga computacional. Para superar este custo, técnicas de aprendizagem de máquinas, tais como modelos de ordem reduzida (ROM), têm sido aplicadas a várias aplicações de engenharia com o objetivo de criar modelos para sistemas complexos com custo computacional reduzido. Aqui, o ROM é criado usando dados de simulação de chama laminar não pré-misturada de CFD, decompondo-os, e depois aplicando um algoritmo de aprendizagem de máquinas, criando um ROM estático. Este trabalho analisa o efeito de cinco abordagens diferentes de pré-processamento de dados sobre o ROM, sendo estas: (1) as propriedades tratadas como um sistema desacoplado ou como um sistema acoplado, (2) sem normalização, (3) com temperatura e velocidade normalizadas, (4) todas as propriedades normalizadas, e (5) o logaritmo da espécie química. Para todos os ROM construídos são analisados a energia do processo de redução e a reconstrução dos campos das propriedades da chama. Em relação a análise da energia da redução, o ROM acoplado, exceto o ROM (4), e o ROM do logaritmo convergem rapidamente, semelhante ao ROM da temperatura desacoplado, enquanto o ROM da espécie química minoritária desacoplado exibe uma lenta convergência, tal como o ROM acoplado com todas as propriedades normalizadas. Assim, a aprendizagem é atingida com um número menor de modos para a ROM (2), (3) e (5). Quanto à reconstrução dos campos de propriedades, nota-se que existem regiões de fração mássica negativa, o que sugere que a metodologia do ROM não preserva a monotonicidade ou a delimitação das propriedades. A abordagem do logaritmo mostra que estes problemas são superados e reproduzem os dados originais. / [en] Computational fluid dynamics (CFD) is often applied to the study of combustion, enabling to optimize the process and control the emission of pollutants. However, reproducing the behavior observed in engineering systems has a high computational burden. To overcome this cost, machine learning techniques, such as reduced order models (ROM), have been applied to several engineering applications aiming to create models for complex systems with reduced computational cost. Here, the ROM is created using CFD laminar non premixed flame simulation data, decomposing it, and then applying a machine learning algorithm, creating a static ROM. This work analyzes the effect of five different data pre-processing approaches on the ROM, these being: (1) the properties treated as an uncoupled system or as a coupled system, (2) without normalization, (3) with temperature and velocity normalized, (4) all properties normalized, and (5) the logarithm of the chemical species. For all ROM constructed are analyzed the energy of the reduction process and the reconstruction of the flame properties fields. Regarding the reduction energy analysis, the coupled ROM, except the ROM (4), and the logarithm ROM converges faster, similarly to the uncoupled temperature ROM, whereas the uncoupled minor chemical species ROM exhibits a slower convergence, as does the coupled ROM with all properties normalized. So, the learning is achieved with a smaller number of modes for the ROM (2), (3) and (5). As for the reconstruction of the property fields, it is noted that there are regions of negative mass fraction, which suggest that the ROM methodology does not preserve the monocity or the boundedness of the properties. The logarithm approach shows that these problems are overcome and reproduce the original data.
66

[en] PREDICTING THE ACQUISITION OF RESISTANT PATHOGENS IN ICUS USING MACHINE LEARNING TECHNIQUES / [pt] PREVENDO A AQUISIÇÃO DE PATÓGENOS RESISTENTES EM UTIS UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINA

LEILA FIGUEIREDO DANTAS 01 February 2021 (has links)
[pt] As infecções por bactérias Gram-negativas Resistentes aos Carbapenêmicos (CR-GNB) estão entre as maiores preocupações atuais da área da, especialmente em Unidades de Terapia Intensiva (UTI), e podem estar associadas ao aumento do tempo de hospitalização, morbidade, custos e mortalidade. Esta tese tem como objetivo desenvolver uma abordagem abrangente e sistemática aplicando técnicas de aprendizado de máquina para construir modelos para prever a aquisição de CR-GNB em UTIs de hospitais brasileiros. Propusemos modelos de triagem para detectar pacientes que não precisam ser testados e um modelo de risco que estima a probabilidade de pacientes de UTI adquirirem CR-GNB. Aplicamos métodos de seleção de características, técnicas de aprendizado de máquina e estratégias de balanceamento para construir e comparar os modelos. Os critérios de desempenho escolhidos para avaliação foram Negative Predictive Value (NPV) and Matthews Correlation Coefficient (MCC) para o modelo de triagem e Brier score e curvas de calibração para o modelo de risco de aquisição de CR-GNB. A estatística de Friedman e os testes post hoc de Nemenyi foram usados para testar a significância das diferenças entre as técnicas. O método de ganho de informações e a mineração de regras de associação avaliam a importância e a força entre os recursos. Nosso banco de dados reúne dados de pacientes, antibióticos e microbiologia de cinco hospitais brasileiros de 8 de maio de 2017 a 31 de agosto de 2019, envolvendo pacientes hospitalizados em 24 UTIs adultas. As informações do laboratório foram usadas para identificar todos os pacientes com teste positivo ou negativo para CR-GNB, A. baumannii, P. aeruginosa ou Enterobacteriaceae. Há um total de 539 testes positivos e 7.462 negativos, resultando em 3.604 pacientes com pelo menos um exame após 48 horas de hospitalização. Dois modelos de triagem foram propostos ao tomador de decisão do hospital. O modelo da floresta aleatória reduz aproximadamente 39 por cento dos testes desnecessários e prevê corretamente 92 por cento dos positivos. A rede neural evita testes desnecessários em 64 por cento dos casos, mas 24 por cento dos testes positivos são classificados incorretamente. Os resultados mostram que as estratégias de amostragem tradicional, SMOTEBagging e UnderBagging obtiveram melhores resultados. As técnicas lineares como Regressão Logística com regularização apresentam bom desempenho e são mais interpretáveis; elas não são significativamente diferentes dos classificadores mais complexos. Para o modelo de risco de aquisição, o Centroides Encolhidos Mais Próximos é o melhor modelo com um Brier score de 0,152 e um cinto de calibração aceitável. Desenvolvemos uma validação externa a partir de 624 pacientes de dois outros hospitais da mesma rede, encontrando bons valores de Brier score (0,128 and 0,079) em ambos. O uso de antibióticos e procedimentos invasivos, principalmente ventilação mecânica, são os atributos mais importantes e significativos para a colonização ou infecção de CR-GNB. Os modelos preditivos podem ajudar a evitar testes de rastreamento e tratamento inadequado em pacientes de baixo risco. Políticas de controle de infecção podem ser estabelecidas para controlar a propagação dessas bactérias. A identificação de pacientes que não precisam ser testados diminui os custos hospitalares e o tempo de espera do laboratório. Concluímos que nossos modelos apresentam bom desempenho e parecem suficientemente confiáveis para prever um paciente com esses patógenos. Esses modelos preditivos podem ser incluídos no sistema hospitalar. A metodologia proposta pode ser replicada em diferentes ambientes de saúde. / [en] Infections by Carbapenem-Resistant Gram-negative bacteria (CR-GNB) are among the most significant contemporary health concerns, especially in intensive care units (ICUs), and may be associated with increased hospitalization time, morbidity, costs, and mortality. This thesis aims to develop a comprehensive and systematic approach applying machine-learning techniques to build models to predict the CR-GNB acquisition in ICUs from Brazilian hospitals. We proposed screening models to detect ICU patients who do not need to be tested and a risk model that estimates ICU patients probability of acquiring CR-GNB. We applied feature selection methods, machine-learning techniques, and balancing strategies to build and compare the models. The performance criteria chosen to evaluate the models were Negative Predictive Value (NPV) and Matthews Correlation Coefficient (MCC) for the screening model and Brier score and calibration curves for the CR-GNB acquisition risk model. Friedman s statistic and Nemenyi post hoc tests are used to test the significance of differences among techniques. Information gain method and association rules mining assess the importance and strength among features. Our database gathers the patients, antibiotic, and microbiology data from five Brazilian hospitals from May 8th, 2017 to August 31st, 2019, involving hospitalized patients in 24 adult ICUs. Information from the laboratory was used to identify all patients with a positive or negative test for carbapenem-resistant GNB, A. baumannii, P. aeruginosa, or Enterobacteriaceae. We have a total of 539 positive and 7,462 negative tests, resulting in 3,604 patients with at least one exam after 48 hours hospitalized. We proposed to the hospital s decision-maker two screening models. The random forest s model would reduce approximately 39 percent of the unnecessary tests and correctly predict 92 percent of positives. The Neural Network model avoids unnecessary tests in 64 percent of the cases, but 24 percent of positive tests are misclassified as negatives. Our results show that the sampling, SMOTEBagging, and UnderBagging approaches obtain better results. The linear techniques such as Logistic Regression with regularization give a relatively good performance and are more interpretable; they are not significantly different from the more complex classifiers. For the acquisition risk model, the Nearest Shrunken Centroids is the best model with a Brier score of 0.152 and a calibration belt acceptable. We developed an external validation of 624 patients from two other hospitals in the same network, finding good Brier score (0.128 and 0.079) values in both. The antibiotic and invasive procedures used, especially mechanical ventilation, are the most important attributes for the colonization or infection of CR-GNB. The predictive models can help avoid screening tests and inappropriate treatment in patients at low risk. Infection control policies can be established to control these bacteria s spread. Identifying patients who do not need to be tested decreases hospital costs and laboratory waiting times. We concluded that our models present good performance and seem sufficiently reliable to predict a patient with these pathogens. These predictive models can be included in the hospital system. The proposed methodology can be replicated in different healthcare settings.
67

[pt] AVALIAÇÃO DE DANOS ESTRUTURAIS BASEADA EM ONDAS GUIADAS ULTRASSÔNICAS E APRENDIZADO DE MÁQUINA / [en] GUIDED WAVES-BASED STRUCTURAL DAMAGE EVALUATION WITH MACHINE LEARNING

MATEUS GHEORGHE DE CASTRO RIBEIRO 25 February 2021 (has links)
[pt] Recentemente, ondas guiadas por ultrassom têm mostrado grande potencial para ensaios não destrutivos e monitoramento de integridade estrutural (SHM) em um cenário de avaliação de danos. As medições obtidas por meio de ondas elásticas são particularmente úteis devido a sua capacidade de se propagarem em diferentes materiais, como meios sólidos e fluidos e, também, a capacidade de abrangerem áreas amplas. Ao possuir suficientes medições oriundas de ondas guiadas, técnicas avançadas baseadas em dados, como aprendizado de máquina, podem ser aplicadas ao problema, tornando o procedimento de avaliação de danos ainda mais poderoso e robusto. Com base nessas circunstâncias, o presente trabalho trata da aplicação de modelos de aprendizado de máquina para fornecer inferências de avaliação de falhas baseadas em informações de ondas guiadas por ultrassom. Dois principais estudos de caso são abordados. Primeiramente, uma placa de polímero reforçado com fibra de carbono (PRFC) é avaliada, utilizando dados da literatura de sinais de onda guiada do tipo Lamb na detecção de defeitos pontuais. Os resultados demonstraram que uma abordagem que utiliza um sinal de referência foi capaz de obter excelentes acurácias ao usar a extração de características baseadas em técnicas de identificação de sistemas. Em um segundo momento, defeitos semelhantes à corrosão em uma placa de alumínio são classificados de acordo com sua gravidade. A metodologia é auxiliada por um esquema de separação de modos em sinais de ondas guiadas do tipo SH pré-adquiridos. Os resultados obtidos mostraram que a adoção da separação de modos pode, de fato, melhorar os resultados do aprendizado de máquina. / [en] Recently ultrasonic guided waves have shown great potential for nondestructive testing and structural health monitoring (SHM) in a damage evaluation scenario. Measurements utilizing elastic waves are particularly useful due to their capability to propagate in different materials such as solid and fluid bounded media, and, also, the ability to cover broad areas. When enough guided waves measurements are available and advanced data-driven techniques such as machine learning can be applied to the problem, the damage evaluation procedure becomes then even more powerful and robust. Based on these circumstances, the present work deals with the application of machine learning models to provide fault evaluation inferences based on ultrasonic guided waves information. Two main case studies are tackled in the mentioned subject. Firstly, a carbon fiber reinforced polymer (CFRP) plate is assessed using open data of Lamb guided wave signals in the detection of dot type defects. Results demonstrated that a baseline dependent approach can obtain excellent results when using system identification feature extraction. Secondly, corrosion-like defects in an aluminium plate are classified according to their severity. The methodology is assisted by a mode separation scheme of SH guided waves signals of pre-acquired data. Results have shown that the adoption of mode separation can in fact improve the machine learning results.
68

[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS / [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES

IVAN DE JESUS PEREIRA PINTO 16 November 2021 (has links)
[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot. / [en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society. Machine learning models in particular, have an increasing need for training data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks. This work makes the effort of collecting, constructing, analyzing and training of models for the biggest known academic corpus in the Portuguese language. Word embeddings, bag of words and transformers models have been trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation. A semantic analysis of the academic corpus is made through topic modelling, and an unprecedented visualization of the knowledge areas is presented. Lastly, an application that uses the trained models is showcased, the SucupiraBot.
69

[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT

FREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research.
70

[en] PERMEABILITY PREDICTIONS USING BOREHOLE LOGS AND WELL TESTING DATA: A MACHINE LEARNING APPROACH / [pt] PREVISÕES DE PERMEABILIDADE UTILIZANDO PERFIS À POÇO ABERTO E DADOS DE TESTE DE FORMAÇÃO: UMA ABORDAGEM COM APRENDIZADO DE MÁQUINAS

CIRO DOS SANTOS GUIMARAES 26 April 2021 (has links)
[pt] Este trabalho investiga o desempenho de modelos inteligentes na previsão de permeabilidade de reservatórios heterogêneos. Perfis de produção são utilizados para computar funções-objetivo para regressão no processo de otimização dos algoritmos. Um método de interpretação de perfil de produção é usado para remover efeitos de skin das medições de vazão. Adicionalmente, uma técnica de segmentação é aplicada a perfis de imagem acústica de alta resolução que fornecem, não apenas a imagem do sistema de mega e giga poros, mas também identifica fácies permeáveis ao longo do reservatório. A segmentação da imagem junto com outros perfis a poço aberto fornece os atributos necessários para o processo de treinamento do modelo. As estimativas apresentadas neste trabalho demonstram a habilidade dos algoritmos em aprender relações não lineares entre as variáveis geológicas e os dados dinâmicos de reservatório, mesmo quando a própria relação física é complexa e desconhecida à priori. Apesar das etapas de pré-processamento envolverem experiência em interpretação de dados, os algoritmos podem ser facilmente implementados em qualquer linguagem de programação, não assumindo qualquer premissa física de antemão. O procedimento proposto fornece curvas de permeabilidades mais acuradas que aquelas obtidas a partir de métodos convencionais que muitas vezes falham em prever a permeabilidade medida em testes de formação (TFR) realizados em reservatórios de dupla-porosidade. A contribuição deste trabalho é incorporar os dados dinâmicos oriundos dos perfis de produção (PP) ao processo de estimativa de permeabilidade usando algoritmos de Machine Learning. / [en] This work investigates the performance of intelligent models on the forecasting of permeability in heterogeneous reservoirs. Production logs are used to compute loss functions for regression in the algorithms optimization process. A flow profile interpretation method is used to remove wellbore skin effects from the measured flow rate. Additionally, a segmentation technique is applied to high-resolution ultrasonic image logs which provide not only the image of mega and giga pore systems but also identify the permeable facies along the reservoir. The image segmentation jointly with other borehole logs provides the necessary input data for the models training process. The estimations presented herein demonstrate the algorithms ability to learn non-linear relationships between geological input variables and a reservoir dynamic data even if the actual physical relationship is complex and not known a priori. Though the preprocessing stages of the procedure involve some data interpretation expertise, the algorithms can easily be coded in any programming language, requiring no assumptions on physics in advance. The proposed procedure provides more accurate permeability curves than those obtained from conventional methods, which may fail to predict the permeability measured on drill stem tests (DSTs) conducted in dual-porosity reservoirs. The novelty of this work is to incorporate dynamic production logging (PL) data into the permeability estimation workflow using machine learning algorithms.

Page generated in 0.0621 seconds