Spelling suggestions: "subject:"aprendizado dde maquina"" "subject:"aprendizado dde yaquina""
61 |
[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION / [pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELASYOSVENI ESCALONA ESCALONA 26 June 2020 (has links)
[pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados.
A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo. / [en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency.
|
62 |
[pt] ENSAIOS SOBRE NOWCASTING COM DADOS EM ALTA DIMENSÃO / [en] ESSAYS ON NOWCASTING WITH HIGH DIMENSIONAL DATAHENRIQUE FERNANDES PIRES 02 June 2022 (has links)
[pt] Em economia, Nowcasting é a previsão do presente, do passado recente ou
mesmo a previsão do futuro muito próximo de um determinado indicador.
Geralmente, um modelo nowcast é útil quando o valor de uma variável de
interesse é disponibilizado com um atraso significativo em relação ao seu
período de referência e/ou sua realização inicial é notavelmente revisada
ao longo do tempo, se estabilizando somente após um tempo. Nesta tese,
desenvolvemos e analisamos vários métodos de Nowcasting usando dados
de alta dimensão (big data) em diferentes contextos: desde a previsão
de séries econômicas até o nowcast de óbitos pela COVID-19. Em um
de nossos estudos, comparamos o desempenho de diferentes algoritmos de
Machine Learning com modelos mais naive na previsão de muitas variáveis
econômicas em tempo real e mostramos que, na maioria das vezes, o
Machine Learning supera os modelos de benchmark. Já no restante dos
nossos exercícios, combinamos várias técnicas de nowcasting com um grande
conjunto de dados (incluindo variáveis de alta frequência, como o Google
Trends) para rastrear a pandemia no Brasil, mostrando que fomos capazes
de antecipar os números reais de mortes e casos muito antes de estarem
disponíveis oficialmente para todos. / [en] Nowcasting in economics is the prediction of the present, the recent past or
even the prediction of the very near future of a certain indicator. Generally,
a nowcast model is useful when the value of a target variable is released
with a significant delay with respect to its reference period and/or when
its value gets notably revised over time and stabilizes only after a while.
In this thesis, we develop and analyze several Nowcasting methods using
high-dimensional (big) data in different contexts: from the forecasting of
economic series to the nowcast of COVID-19. In one of our studies, we
compare the performance of different Machine Learning algorithms with
more naive models in predicting many economic variables in real-time and
we show that, most of the time, Machine Learning beats benchmark models.
Then, in the rest of our exercises, we combine several nowcasting techniques
with a big dataset (including high-frequency variables, such as Google
Trends) in order to track the pandemic in Brazil, showing that we were
able to nowcast the true numbers of deaths and cases way before they got
available to everyone.
|
63 |
[pt] MONITORAMENTO DE VIBRAÇÃO EM SISTEMAS MECÂNICOS USANDO APRENDIZADO PROFUNDO E RASO EM COMPUTADORES NA PONTA / [en] VIBRATION MONITORING OF MECHANICAL SYSTEMS USING DEEP AND SHALLOW LEARNING ON EDGE-COMPUTERSCAROLINA DE OLIVEIRA CONTENTE 30 June 2022 (has links)
[pt] O monitoramento de integridade estrutural tem sido o foco de desenvolvimentos recentes no campo da avaliação baseada em vibração e, mais recentemente, no escopo da internet das coisas à medida que medição e computação se
tornam distribuídas. Os dados se tornaram abundantes, embora a transmissão
nem sempre seja viável em frequências mais altas especialmente em aplicações
remotas. Portanto, é importante conceber fluxos de trabalho de modelo orientados por dados que garantam a melhor relação entre a precisão do modelo
para avaliação de condição e os recursos computacionais necessários para soluções incorporadas, tópico que não tem sido amplamente utilizado no contexto
de medições baseadas em vibração. Neste contexto, a presente pesquisa propõe
abordagens para duas aplicações: na primeira foi proposto um fluxo de trabalho
de modelagem capaz de reduzir a dimensão dos parâmetros de modelos autorregressivos usando análise de componentes principais e classificar esses dados
usando algumas técnicas de aprendizado de máquina como regressão logística,
máquina de vetor de suporte, árvores de decisão, k-vizinhos próximos e floresta
aleatória. O exemplo do prédio de três andares foi usado para demonstrar a
eficácia do método. No segundo caso, é utilizado um equipamento de teste
composto por inércias rotativas onde a solução de monitoramento foi testada
em uma plataforma baseada em GPU embarcada. Os modelos implementados
para distinguir eficazmente os diferentes estados de atrito foram análise de
componentes principais, deep autoencoders e redes neurais artificiais. Modelos
rasos têm melhor desempenho em tempo de execução e precisão na detecção
de condições de falha. / [en] Structural health monitoring has been the focus of recent developments
in vibration-based assessment and, more recently, in the scope of the internet
of things as measurement and computation become distributed. Data has become abundant even though the transmission is not always feasible, especially
in remote applications. It is thus essential to devise data-driven model workflows that ensure the best compromise between model accuracy for condition
assessment and the computational resources needed for embedded solutions.
This topic has not been widely used in the context of vibration-based measurements. In this context, the present research proposes two approaches for
two applications, a static and a rotating one. In case one, a modeling workflow capable of reducing the dimension of autoregressive model features using
principal component analysis and classifying this data using some of the main
machine learning techniques such as logistic regression, support vector machines, decision tree classifier, k-nearest neighborhood and random forest classifier was proposed. The three-story building example was used to demonstrate
the method s effectiveness, together with ways to assess the best compromise
between accuracy and model size. In case two, a test rig composed of rotating inertias and slender connecting rods is used, and the monitoring solution
was tested in an embedded GPU-based platform. The models implemented to
effectively distinguish between different friction states were principal component analysis, deep autoencoder and artificial neural networks. Shallow models
perform better concerning running time and accuracy in detecting faulty conditions.
|
64 |
[pt] AVALIAÇÃO NÃO-DESTRUTIVA DE DUTOS E SOLDAS BASEADA EM DADOS ULTRASSÔNICOS NO CONTEXTO DA INDÚSTRIA DE ÓLEO E GÁS / [en] DATA-DRIVEN ULTRASONIC NON-DESTRUCTIVE EVALUATION OF PIPES AND WELDS IN THE CONTEXT OF THE OIL AND GAS INDUSTRYGUILHERME REZENDE BESSA FERREIRA 31 January 2022 (has links)
[pt] A avaliação não destrutiva ultrassônica é de extrema importância na
indústria de óleo e gás, principalmente para ativos e estruturas sujeitos
a condições que aceleram os mecanismos de falha. Apesar de amplamente
difundidos, os métodos ultrassônicos não destrutivos dependem de uma força
de trabalho especializada, sendo, portanto, suscetíveis a erros e demorados.
Nesse contexto, métodos de reconhecimento de padrões, como o aprendizado de
máquina, se encaixam convenientemente para solucionar os desafios da tarefa.
Assim, este trabalho tem como objetivo a aplicação de técnicas de inteligência
artificial para abordar a interpretação de dados adquiridos por meio de
avaliação não destrutiva ultrassônica no contexto da indústria de óleo e gás.
Para tanto, esta dissertação envolve três estudos de caso. Primeiramente, sinais
de ondas guiadas ultrassônicas são usados para classificar os defeitos presentes
em juntas soldadas de compósito termoplástico. Os resultados mostraram que,
ao usar atributos extraídos com modelos autoregressivos, a acurácia do modelo
de aprendizado de máquina melhora em pelo menos 72,5 por cento. Em segundo lugar,
dados ultrassônicos em formato de imagens são usados para construir um
sistema de diagnóstico de solda automático. A estrutura proposta resultou
em um modelo computacionalmente eficiente, capaz de realizar classificações
com acurácia superior à 99 por cento. Por fim, dados obtidos por simulação numérica
foram usados para criar um modelo de aprendizado profundo visando estimar
a severidade de defeitos semelhantes à corrosão em dutos. Resultados de R2
superiores a 0,99 foram alcançados. / [en] Ultrasonic non-destructive evaluation is of extreme importance in the oil
and gas industry, especially for assets and structures subjected to conditions
that accelerate failure mechanisms. Despite being widely spread, ultrasonic
non-destructive methods depend on a specialized workforce, thus being errorprone and time-consuming. In this context, pattern recognition methods, like
machine learning, fit conveniently to solve the challenges of the task. Hence,
this work aims at applying artificial intelligence techniques to address the
interpretation of data acquired through ultrasonic non-destructive evaluation
in the context of the oil and gas industry. For that purpose, this dissertation
involves three case studies. Firstly, ultrasonic guided wave signals are used to
classify defects present in welded thermoplastic composite joints. Results have
shown that, when using features extracted with autoregressive models, the
accuracy of the machine learning model improves by at least 72.5 percent. Secondly,
ultrasonic image data is used to construct an automatic weld diagnostic system.
The proposed framework resulted in a lightweight model capable of performing
classification with over 99 percent accuracy. Finally, simulation data was used to
create a deep learning model for estimating the severity of corrosion-like defects
in pipelines. R2 results superior to 0.99 were achieved.
|
65 |
[en] ASSESSMENT OF REDUCED ORDER MODELS APPLIED TO STEADY-STATE BI-DIMENSIONAL LAMINAR METHANE AIR DIFFUSION FLAME / [pt] AVALIAÇÃO DE MODELOS DE ORDEM REDUZIDA APLICADOS À SIMULAÇÃO BIDIMENSIONAL EM REGIME ESTACIONÁRIO DE CHAMAS LAMINARES DE DIFUSÃO DE METANO E ARNICOLE LOPES M DE B JUNQUEIRA 03 May 2022 (has links)
[pt] Dinâmica dos Fluidos Computacional (CFD) é frequentemente aplicada
ao estudo da combustão, permitindo otimizar o processo e controlar a emissão
de poluentes. Entretanto, reproduzir o comportamento observado nos sistemas
de engenharia tem uma elevada carga computacional. Para superar este custo,
técnicas de aprendizagem de máquinas, tais como modelos de ordem reduzida
(ROM), têm sido aplicadas a várias aplicações de engenharia com o objetivo
de criar modelos para sistemas complexos com custo computacional reduzido.
Aqui, o ROM é criado usando dados de simulação de chama laminar não
pré-misturada de CFD, decompondo-os, e depois aplicando um algoritmo de
aprendizagem de máquinas, criando um ROM estático. Este trabalho analisa
o efeito de cinco abordagens diferentes de pré-processamento de dados sobre o
ROM, sendo estas: (1) as propriedades tratadas como um sistema desacoplado
ou como um sistema acoplado, (2) sem normalização, (3) com temperatura
e velocidade normalizadas, (4) todas as propriedades normalizadas, e (5) o
logaritmo da espécie química. Para todos os ROM construídos são analisados a
energia do processo de redução e a reconstrução dos campos das propriedades
da chama. Em relação a análise da energia da redução, o ROM acoplado,
exceto o ROM (4), e o ROM do logaritmo convergem rapidamente, semelhante
ao ROM da temperatura desacoplado, enquanto o ROM da espécie química
minoritária desacoplado exibe uma lenta convergência, tal como o ROM
acoplado com todas as propriedades normalizadas. Assim, a aprendizagem é
atingida com um número menor de modos para a ROM (2), (3) e (5). Quanto à
reconstrução dos campos de propriedades, nota-se que existem regiões de fração
mássica negativa, o que sugere que a metodologia do ROM não preserva a
monotonicidade ou a delimitação das propriedades. A abordagem do logaritmo
mostra que estes problemas são superados e reproduzem os dados originais. / [en] Computational fluid dynamics (CFD) is often applied to the study of
combustion, enabling to optimize the process and control the emission of
pollutants. However, reproducing the behavior observed in engineering systems
has a high computational burden. To overcome this cost, machine learning
techniques, such as reduced order models (ROM), have been applied to several
engineering applications aiming to create models for complex systems with
reduced computational cost. Here, the ROM is created using CFD laminar
non premixed flame simulation data, decomposing it, and then applying a
machine learning algorithm, creating a static ROM. This work analyzes the
effect of five different data pre-processing approaches on the ROM, these being:
(1) the properties treated as an uncoupled system or as a coupled system, (2)
without normalization, (3) with temperature and velocity normalized, (4) all
properties normalized, and (5) the logarithm of the chemical species. For all
ROM constructed are analyzed the energy of the reduction process and the
reconstruction of the flame properties fields. Regarding the reduction energy
analysis, the coupled ROM, except the ROM (4), and the logarithm ROM
converges faster, similarly to the uncoupled temperature ROM, whereas the
uncoupled minor chemical species ROM exhibits a slower convergence, as does
the coupled ROM with all properties normalized. So, the learning is achieved
with a smaller number of modes for the ROM (2), (3) and (5). As for the
reconstruction of the property fields, it is noted that there are regions of
negative mass fraction, which suggest that the ROM methodology does not
preserve the monocity or the boundedness of the properties. The logarithm
approach shows that these problems are overcome and reproduce the original
data.
|
66 |
[en] PREDICTING THE ACQUISITION OF RESISTANT PATHOGENS IN ICUS USING MACHINE LEARNING TECHNIQUES / [pt] PREVENDO A AQUISIÇÃO DE PATÓGENOS RESISTENTES EM UTIS UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINALEILA FIGUEIREDO DANTAS 01 February 2021 (has links)
[pt] As infecções por bactérias Gram-negativas Resistentes aos Carbapenêmicos (CR-GNB) estão entre as maiores preocupações atuais da área da, especialmente em Unidades de Terapia Intensiva (UTI), e podem estar associadas ao aumento do tempo de hospitalização, morbidade, custos e mortalidade. Esta tese tem como objetivo desenvolver uma abordagem abrangente e sistemática aplicando técnicas de aprendizado de máquina para construir modelos para prever a aquisição de CR-GNB em UTIs de hospitais brasileiros. Propusemos modelos de triagem para detectar pacientes que não precisam ser testados e um modelo de risco que estima a probabilidade de pacientes de UTI adquirirem CR-GNB. Aplicamos métodos de seleção de características, técnicas de aprendizado de máquina e estratégias de balanceamento para construir e comparar os modelos. Os critérios de desempenho escolhidos para avaliação foram Negative Predictive Value (NPV) and Matthews Correlation Coefficient (MCC) para o modelo de triagem e Brier score e curvas de calibração para o modelo de risco de aquisição de CR-GNB. A estatística de Friedman e os testes post hoc de Nemenyi foram usados para testar a significância das diferenças entre as técnicas. O método de ganho de informações e a mineração de regras de associação avaliam a importância e a força entre os recursos. Nosso banco de dados reúne dados de pacientes, antibióticos e microbiologia de cinco hospitais brasileiros de 8 de maio de 2017 a 31 de agosto de 2019, envolvendo pacientes hospitalizados em 24 UTIs adultas. As informações do laboratório foram usadas para identificar todos os pacientes com teste positivo ou negativo para CR-GNB, A. baumannii, P. aeruginosa ou Enterobacteriaceae. Há um total de 539 testes positivos e 7.462 negativos, resultando em 3.604 pacientes com pelo menos um exame após 48 horas de hospitalização. Dois modelos de triagem foram propostos ao tomador de decisão do hospital. O modelo da floresta aleatória reduz aproximadamente 39 por cento dos testes desnecessários e prevê corretamente 92 por cento dos positivos. A rede neural evita testes desnecessários em 64 por cento dos casos, mas 24 por cento dos testes positivos são classificados incorretamente. Os resultados mostram que as estratégias de amostragem tradicional, SMOTEBagging e UnderBagging obtiveram melhores resultados. As técnicas lineares como Regressão Logística com regularização apresentam bom desempenho e são mais interpretáveis; elas não são significativamente diferentes dos classificadores mais complexos. Para o modelo de risco de aquisição, o Centroides Encolhidos Mais Próximos é o melhor modelo com um Brier score de 0,152 e um cinto de calibração aceitável. Desenvolvemos uma validação externa a partir de 624 pacientes de dois outros hospitais da mesma rede, encontrando bons valores de Brier score (0,128 and 0,079) em ambos. O uso de antibióticos e procedimentos invasivos, principalmente ventilação mecânica, são os atributos mais importantes e significativos para a colonização ou infecção de CR-GNB. Os modelos preditivos podem ajudar a evitar testes de rastreamento e tratamento inadequado em pacientes de baixo risco. Políticas de controle de infecção podem ser estabelecidas para controlar a propagação dessas bactérias. A identificação de pacientes que não precisam ser testados diminui os custos hospitalares e o tempo de espera do laboratório. Concluímos que nossos modelos apresentam bom desempenho e parecem suficientemente confiáveis para prever um paciente com esses patógenos. Esses modelos preditivos podem ser incluídos no sistema hospitalar. A metodologia proposta pode ser replicada em diferentes ambientes de saúde. / [en] Infections by Carbapenem-Resistant Gram-negative bacteria (CR-GNB) are among the most significant contemporary health concerns, especially in intensive care units (ICUs), and may be associated with increased hospitalization time, morbidity, costs, and mortality. This thesis aims to develop a comprehensive and systematic approach applying machine-learning techniques to build models to predict the CR-GNB acquisition in ICUs from Brazilian hospitals. We proposed screening models to detect ICU patients who do not need to be tested and a risk model that estimates ICU patients probability of acquiring CR-GNB. We applied feature selection methods, machine-learning techniques, and balancing strategies to build and compare the models. The performance criteria chosen to evaluate the models were Negative Predictive Value (NPV) and Matthews Correlation Coefficient (MCC) for the screening model and Brier score and calibration curves for the CR-GNB acquisition risk model. Friedman s statistic and Nemenyi post hoc tests are used to test the significance of differences among techniques. Information gain method and association rules mining assess the importance and strength among features. Our database gathers the patients, antibiotic, and microbiology data from five Brazilian hospitals from May 8th, 2017 to August 31st, 2019, involving hospitalized patients in 24 adult ICUs. Information from the laboratory was used to identify all patients with a positive or negative test for carbapenem-resistant GNB, A. baumannii, P. aeruginosa, or Enterobacteriaceae. We have a total of 539 positive and 7,462 negative tests, resulting in 3,604 patients with at least one exam after 48 hours hospitalized. We proposed to the hospital s decision-maker two screening models. The random forest s model would reduce approximately 39 percent of the
unnecessary tests and correctly predict 92 percent of positives. The Neural Network model avoids unnecessary tests in 64 percent of the cases, but 24 percent of positive tests are misclassified as negatives. Our results show that the sampling, SMOTEBagging, and UnderBagging approaches obtain better results. The linear techniques such as Logistic Regression with regularization give a relatively good performance and are more interpretable; they are not significantly different from the more complex classifiers. For the acquisition risk model, the Nearest Shrunken Centroids is the best model with a Brier score of 0.152 and a calibration belt acceptable. We developed an external validation of 624 patients from two other hospitals in the same network, finding good Brier score (0.128 and 0.079) values in both. The antibiotic and invasive procedures used, especially mechanical ventilation, are the most important attributes for the colonization or infection of CR-GNB. The predictive models can help avoid screening tests and inappropriate treatment in patients at low risk. Infection control policies can be established to control these bacteria s spread. Identifying patients who do not need to be tested decreases hospital costs and laboratory waiting times. We concluded that our models present good performance and seem sufficiently reliable to predict a patient with these pathogens. These predictive models can be included in the hospital system. The proposed methodology can be replicated in different healthcare settings.
|
67 |
[pt] AVALIAÇÃO DE DANOS ESTRUTURAIS BASEADA EM ONDAS GUIADAS ULTRASSÔNICAS E APRENDIZADO DE MÁQUINA / [en] GUIDED WAVES-BASED STRUCTURAL DAMAGE EVALUATION WITH MACHINE LEARNINGMATEUS GHEORGHE DE CASTRO RIBEIRO 25 February 2021 (has links)
[pt] Recentemente, ondas guiadas por ultrassom têm mostrado grande potencial
para ensaios não destrutivos e monitoramento de integridade estrutural
(SHM) em um cenário de avaliação de danos. As medições obtidas por
meio de ondas elásticas são particularmente úteis devido a sua capacidade de
se propagarem em diferentes materiais, como meios sólidos e fluidos e, também,
a capacidade de abrangerem áreas amplas. Ao possuir suficientes medições
oriundas de ondas guiadas, técnicas avançadas baseadas em dados, como
aprendizado de máquina, podem ser aplicadas ao problema, tornando o procedimento
de avaliação de danos ainda mais poderoso e robusto. Com base
nessas circunstâncias, o presente trabalho trata da aplicação de modelos de
aprendizado de máquina para fornecer inferências de avaliação de falhas baseadas
em informações de ondas guiadas por ultrassom. Dois principais estudos
de caso são abordados. Primeiramente, uma placa de polímero reforçado com
fibra de carbono (PRFC) é avaliada, utilizando dados da literatura de sinais de
onda guiada do tipo Lamb na detecção de defeitos pontuais. Os resultados demonstraram
que uma abordagem que utiliza um sinal de referência foi capaz
de obter excelentes acurácias ao usar a extração de características baseadas
em técnicas de identificação de sistemas. Em um segundo momento, defeitos
semelhantes à corrosão em uma placa de alumínio são classificados de acordo
com sua gravidade. A metodologia é auxiliada por um esquema de separação
de modos em sinais de ondas guiadas do tipo SH pré-adquiridos. Os resultados
obtidos mostraram que a adoção da separação de modos pode, de fato,
melhorar os resultados do aprendizado de máquina. / [en] Recently ultrasonic guided waves have shown great potential for nondestructive
testing and structural health monitoring (SHM) in a damage evaluation
scenario. Measurements utilizing elastic waves are particularly useful due
to their capability to propagate in different materials such as solid and fluid
bounded media, and, also, the ability to cover broad areas. When enough guided
waves measurements are available and advanced data-driven techniques
such as machine learning can be applied to the problem, the damage evaluation
procedure becomes then even more powerful and robust. Based on these
circumstances, the present work deals with the application of machine learning
models to provide fault evaluation inferences based on ultrasonic guided waves
information. Two main case studies are tackled in the mentioned subject.
Firstly, a carbon fiber reinforced polymer (CFRP) plate is assessed using open
data of Lamb guided wave signals in the detection of dot type defects. Results
demonstrated that a baseline dependent approach can obtain excellent results
when using system identification feature extraction. Secondly, corrosion-like
defects in an aluminium plate are classified according to their severity. The
methodology is assisted by a mode separation scheme of SH guided waves
signals of pre-acquired data. Results have shown that the adoption of mode
separation can in fact improve the machine learning results.
|
68 |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS / [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕESIVAN DE JESUS PEREIRA PINTO 16 November 2021 (has links)
[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda
uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza
de informações a ser explorada por modelos computacionais, e que podem ser
positivos para sociedade. Os modelos de aprendizado de máquina, em especial,
possuem uma crescente necessidade de dados para treinamento, que precisam
ser estruturados e de tamanho considerável. Seu uso na área de processamento
de linguagem natural é pervasivo nas mais diversas tarefas.
Este trabalho realiza o esforço de coleta, construção, análise do maior
corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos
de vetores de palavras, bag-of-words e transformer. O modelo transformer
BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na
classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação
da Área de conhecimento nas categorizações de Teses e Dissertações.
É feita ainda uma análise semântica do corpus acadêmico através da
modelagem de tópicos, e uma visualização inédita das áreas de conhecimento
em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos
modelos treinados, o SucupiraBot. / [en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society.
Machine learning models in particular, have an increasing need for training
data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks.
This work makes the effort of collecting, constructing, analyzing and
training of models for the biggest known academic corpus in the Portuguese
language. Word embeddings, bag of words and transformers models have been
trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation.
A semantic analysis of the academic corpus is made through topic
modelling, and an unprecedented visualization of the knowledge areas is
presented. Lastly, an application that uses the trained models is showcased,
the SucupiraBot.
|
69 |
[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENTFREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade
essencial para a supervisão do mercado de capitais realizada pela Comissão de
Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço
humano despendido no processo de triagem de documentos são vitais para a CVM
lidar com a escassez de recursos humanos e a expansão do mercado de valores
mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos
algoritmos de aprendizado de máquina e técnicas de processamento de texto, a
partir de sua aplicação em duas tarefas de processamento de linguagem natural –
classificação de documentos e extração de informações – desempenhadas em
ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos
clássicos proporcionaram melhor desempenho que as redes neurais profundas, o
qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de
máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser
aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A
arquitetura BERT foi capaz de extrair informações sobre aumento de capital e
incorporação societária de documentos financeiros. Os resultados satisfatórios
obtidos em ambas as tarefas motivam a implementação futura em regime de
produção dos modelos estudados, sob a forma de um sistema de apoio à decisão.
Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o
escopo deste trabalho com documentos financeiros entregues por companhias
abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa
futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital
markets supervision performed by Comissão de Valores Mobiliários (Brazilian
SEC or CVM). Systems capable of reducing human effort involved in the task of
screening documents and outlining relevant information, for further manual
review, are important tools for CVM to deal with the shortage of human resources
and expansion of the Brazilian securities market. In this regard, this dissertation
presents and discusses the application of several machine learning algorithms and
text processing techniques to perform two natural language processing tasks—
document classification and information extraction—in a real market supervision
environment. In the classification exercise, classic algorithms achieved a better
performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the
current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network
architecture was able to extract information from financial documents on capital
increase and mergers. The successful results obtained in both tasks encourage
future implementation of the studied models in the form of a decision support
system. Another contribution of this work is the CVMCorpus, a corpus built to
produce datasets for the tasks, with financial documents released between 2009
and 2019 by Brazilian companies, which opens possibilities of future linguistic
and finance research.
|
70 |
[en] PERMEABILITY PREDICTIONS USING BOREHOLE LOGS AND WELL TESTING DATA: A MACHINE LEARNING APPROACH / [pt] PREVISÕES DE PERMEABILIDADE UTILIZANDO PERFIS À POÇO ABERTO E DADOS DE TESTE DE FORMAÇÃO: UMA ABORDAGEM COM APRENDIZADO DE MÁQUINASCIRO DOS SANTOS GUIMARAES 26 April 2021 (has links)
[pt] Este trabalho investiga o desempenho de modelos inteligentes na previsão de permeabilidade de reservatórios heterogêneos. Perfis de produção são utilizados para computar funções-objetivo para regressão no processo de otimização dos algoritmos. Um método de interpretação de perfil de produção é usado para remover efeitos de skin das medições de vazão. Adicionalmente, uma técnica de segmentação é aplicada a perfis de imagem acústica de alta resolução que fornecem, não apenas a imagem do sistema de mega e giga poros, mas também identifica fácies permeáveis ao longo do reservatório. A segmentação da imagem junto com outros perfis a poço aberto fornece os atributos necessários para o processo de treinamento do modelo. As estimativas apresentadas neste trabalho demonstram a habilidade dos algoritmos em aprender relações não lineares entre as variáveis geológicas e os dados dinâmicos de reservatório, mesmo quando a própria relação física é complexa e desconhecida à priori. Apesar das etapas de pré-processamento envolverem experiência em interpretação de dados, os algoritmos podem ser facilmente implementados em qualquer linguagem de programação, não assumindo qualquer premissa física de antemão. O procedimento proposto fornece curvas de permeabilidades mais acuradas que aquelas obtidas a partir de métodos convencionais que muitas vezes falham em prever a permeabilidade medida em testes de formação (TFR) realizados em reservatórios de dupla-porosidade. A contribuição deste trabalho é incorporar os dados dinâmicos oriundos dos perfis de produção (PP) ao processo de estimativa de permeabilidade usando algoritmos de Machine Learning. / [en] This work investigates the performance of intelligent models on the forecasting of permeability in heterogeneous reservoirs. Production logs are used to compute loss functions for regression in the algorithms optimization process. A flow profile interpretation method is used to remove wellbore skin effects from the measured flow rate. Additionally, a segmentation technique is applied to high-resolution ultrasonic image logs which provide not only the image of mega and giga pore systems but also identify the permeable facies along the reservoir. The image segmentation jointly with other borehole logs provides the necessary input data for the models training process. The estimations presented herein demonstrate the algorithms ability to learn non-linear relationships between geological input variables and a reservoir dynamic data even if the actual physical relationship is complex and not known a priori. Though the preprocessing stages of the procedure involve some data interpretation expertise, the algorithms can easily be coded in any programming language, requiring no assumptions on physics in advance. The proposed procedure provides more accurate permeability curves than those obtained from conventional methods, which may fail to predict the permeability measured on drill stem tests (DSTs) conducted in dual-porosity reservoirs. The novelty of this work is to incorporate dynamic production logging (PL) data into the permeability estimation workflow using machine learning algorithms.
|
Page generated in 0.0621 seconds