61 |
[pt] AVALIAÇÃO NÃO-DESTRUTIVA DE DUTOS E SOLDAS BASEADA EM DADOS ULTRASSÔNICOS NO CONTEXTO DA INDÚSTRIA DE ÓLEO E GÁS / [en] DATA-DRIVEN ULTRASONIC NON-DESTRUCTIVE EVALUATION OF PIPES AND WELDS IN THE CONTEXT OF THE OIL AND GAS INDUSTRYGUILHERME REZENDE BESSA FERREIRA 31 January 2022 (has links)
[pt] A avaliação não destrutiva ultrassônica é de extrema importância na
indústria de óleo e gás, principalmente para ativos e estruturas sujeitos
a condições que aceleram os mecanismos de falha. Apesar de amplamente
difundidos, os métodos ultrassônicos não destrutivos dependem de uma força
de trabalho especializada, sendo, portanto, suscetíveis a erros e demorados.
Nesse contexto, métodos de reconhecimento de padrões, como o aprendizado de
máquina, se encaixam convenientemente para solucionar os desafios da tarefa.
Assim, este trabalho tem como objetivo a aplicação de técnicas de inteligência
artificial para abordar a interpretação de dados adquiridos por meio de
avaliação não destrutiva ultrassônica no contexto da indústria de óleo e gás.
Para tanto, esta dissertação envolve três estudos de caso. Primeiramente, sinais
de ondas guiadas ultrassônicas são usados para classificar os defeitos presentes
em juntas soldadas de compósito termoplástico. Os resultados mostraram que,
ao usar atributos extraídos com modelos autoregressivos, a acurácia do modelo
de aprendizado de máquina melhora em pelo menos 72,5 por cento. Em segundo lugar,
dados ultrassônicos em formato de imagens são usados para construir um
sistema de diagnóstico de solda automático. A estrutura proposta resultou
em um modelo computacionalmente eficiente, capaz de realizar classificações
com acurácia superior à 99 por cento. Por fim, dados obtidos por simulação numérica
foram usados para criar um modelo de aprendizado profundo visando estimar
a severidade de defeitos semelhantes à corrosão em dutos. Resultados de R2
superiores a 0,99 foram alcançados. / [en] Ultrasonic non-destructive evaluation is of extreme importance in the oil
and gas industry, especially for assets and structures subjected to conditions
that accelerate failure mechanisms. Despite being widely spread, ultrasonic
non-destructive methods depend on a specialized workforce, thus being errorprone and time-consuming. In this context, pattern recognition methods, like
machine learning, fit conveniently to solve the challenges of the task. Hence,
this work aims at applying artificial intelligence techniques to address the
interpretation of data acquired through ultrasonic non-destructive evaluation
in the context of the oil and gas industry. For that purpose, this dissertation
involves three case studies. Firstly, ultrasonic guided wave signals are used to
classify defects present in welded thermoplastic composite joints. Results have
shown that, when using features extracted with autoregressive models, the
accuracy of the machine learning model improves by at least 72.5 percent. Secondly,
ultrasonic image data is used to construct an automatic weld diagnostic system.
The proposed framework resulted in a lightweight model capable of performing
classification with over 99 percent accuracy. Finally, simulation data was used to
create a deep learning model for estimating the severity of corrosion-like defects
in pipelines. R2 results superior to 0.99 were achieved.
|
62 |
[en] ASSESSMENT OF REDUCED ORDER MODELS APPLIED TO STEADY-STATE BI-DIMENSIONAL LAMINAR METHANE AIR DIFFUSION FLAME / [pt] AVALIAÇÃO DE MODELOS DE ORDEM REDUZIDA APLICADOS À SIMULAÇÃO BIDIMENSIONAL EM REGIME ESTACIONÁRIO DE CHAMAS LAMINARES DE DIFUSÃO DE METANO E ARNICOLE LOPES M DE B JUNQUEIRA 03 May 2022 (has links)
[pt] Dinâmica dos Fluidos Computacional (CFD) é frequentemente aplicada
ao estudo da combustão, permitindo otimizar o processo e controlar a emissão
de poluentes. Entretanto, reproduzir o comportamento observado nos sistemas
de engenharia tem uma elevada carga computacional. Para superar este custo,
técnicas de aprendizagem de máquinas, tais como modelos de ordem reduzida
(ROM), têm sido aplicadas a várias aplicações de engenharia com o objetivo
de criar modelos para sistemas complexos com custo computacional reduzido.
Aqui, o ROM é criado usando dados de simulação de chama laminar não
pré-misturada de CFD, decompondo-os, e depois aplicando um algoritmo de
aprendizagem de máquinas, criando um ROM estático. Este trabalho analisa
o efeito de cinco abordagens diferentes de pré-processamento de dados sobre o
ROM, sendo estas: (1) as propriedades tratadas como um sistema desacoplado
ou como um sistema acoplado, (2) sem normalização, (3) com temperatura
e velocidade normalizadas, (4) todas as propriedades normalizadas, e (5) o
logaritmo da espécie química. Para todos os ROM construídos são analisados a
energia do processo de redução e a reconstrução dos campos das propriedades
da chama. Em relação a análise da energia da redução, o ROM acoplado,
exceto o ROM (4), e o ROM do logaritmo convergem rapidamente, semelhante
ao ROM da temperatura desacoplado, enquanto o ROM da espécie química
minoritária desacoplado exibe uma lenta convergência, tal como o ROM
acoplado com todas as propriedades normalizadas. Assim, a aprendizagem é
atingida com um número menor de modos para a ROM (2), (3) e (5). Quanto à
reconstrução dos campos de propriedades, nota-se que existem regiões de fração
mássica negativa, o que sugere que a metodologia do ROM não preserva a
monotonicidade ou a delimitação das propriedades. A abordagem do logaritmo
mostra que estes problemas são superados e reproduzem os dados originais. / [en] Computational fluid dynamics (CFD) is often applied to the study of
combustion, enabling to optimize the process and control the emission of
pollutants. However, reproducing the behavior observed in engineering systems
has a high computational burden. To overcome this cost, machine learning
techniques, such as reduced order models (ROM), have been applied to several
engineering applications aiming to create models for complex systems with
reduced computational cost. Here, the ROM is created using CFD laminar
non premixed flame simulation data, decomposing it, and then applying a
machine learning algorithm, creating a static ROM. This work analyzes the
effect of five different data pre-processing approaches on the ROM, these being:
(1) the properties treated as an uncoupled system or as a coupled system, (2)
without normalization, (3) with temperature and velocity normalized, (4) all
properties normalized, and (5) the logarithm of the chemical species. For all
ROM constructed are analyzed the energy of the reduction process and the
reconstruction of the flame properties fields. Regarding the reduction energy
analysis, the coupled ROM, except the ROM (4), and the logarithm ROM
converges faster, similarly to the uncoupled temperature ROM, whereas the
uncoupled minor chemical species ROM exhibits a slower convergence, as does
the coupled ROM with all properties normalized. So, the learning is achieved
with a smaller number of modes for the ROM (2), (3) and (5). As for the
reconstruction of the property fields, it is noted that there are regions of
negative mass fraction, which suggest that the ROM methodology does not
preserve the monocity or the boundedness of the properties. The logarithm
approach shows that these problems are overcome and reproduce the original
data.
|
63 |
[en] PREDICTING THE ACQUISITION OF RESISTANT PATHOGENS IN ICUS USING MACHINE LEARNING TECHNIQUES / [pt] PREVENDO A AQUISIÇÃO DE PATÓGENOS RESISTENTES EM UTIS UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINALEILA FIGUEIREDO DANTAS 01 February 2021 (has links)
[pt] As infecções por bactérias Gram-negativas Resistentes aos Carbapenêmicos (CR-GNB) estão entre as maiores preocupações atuais da área da, especialmente em Unidades de Terapia Intensiva (UTI), e podem estar associadas ao aumento do tempo de hospitalização, morbidade, custos e mortalidade. Esta tese tem como objetivo desenvolver uma abordagem abrangente e sistemática aplicando técnicas de aprendizado de máquina para construir modelos para prever a aquisição de CR-GNB em UTIs de hospitais brasileiros. Propusemos modelos de triagem para detectar pacientes que não precisam ser testados e um modelo de risco que estima a probabilidade de pacientes de UTI adquirirem CR-GNB. Aplicamos métodos de seleção de características, técnicas de aprendizado de máquina e estratégias de balanceamento para construir e comparar os modelos. Os critérios de desempenho escolhidos para avaliação foram Negative Predictive Value (NPV) and Matthews Correlation Coefficient (MCC) para o modelo de triagem e Brier score e curvas de calibração para o modelo de risco de aquisição de CR-GNB. A estatística de Friedman e os testes post hoc de Nemenyi foram usados para testar a significância das diferenças entre as técnicas. O método de ganho de informações e a mineração de regras de associação avaliam a importância e a força entre os recursos. Nosso banco de dados reúne dados de pacientes, antibióticos e microbiologia de cinco hospitais brasileiros de 8 de maio de 2017 a 31 de agosto de 2019, envolvendo pacientes hospitalizados em 24 UTIs adultas. As informações do laboratório foram usadas para identificar todos os pacientes com teste positivo ou negativo para CR-GNB, A. baumannii, P. aeruginosa ou Enterobacteriaceae. Há um total de 539 testes positivos e 7.462 negativos, resultando em 3.604 pacientes com pelo menos um exame após 48 horas de hospitalização. Dois modelos de triagem foram propostos ao tomador de decisão do hospital. O modelo da floresta aleatória reduz aproximadamente 39 por cento dos testes desnecessários e prevê corretamente 92 por cento dos positivos. A rede neural evita testes desnecessários em 64 por cento dos casos, mas 24 por cento dos testes positivos são classificados incorretamente. Os resultados mostram que as estratégias de amostragem tradicional, SMOTEBagging e UnderBagging obtiveram melhores resultados. As técnicas lineares como Regressão Logística com regularização apresentam bom desempenho e são mais interpretáveis; elas não são significativamente diferentes dos classificadores mais complexos. Para o modelo de risco de aquisição, o Centroides Encolhidos Mais Próximos é o melhor modelo com um Brier score de 0,152 e um cinto de calibração aceitável. Desenvolvemos uma validação externa a partir de 624 pacientes de dois outros hospitais da mesma rede, encontrando bons valores de Brier score (0,128 and 0,079) em ambos. O uso de antibióticos e procedimentos invasivos, principalmente ventilação mecânica, são os atributos mais importantes e significativos para a colonização ou infecção de CR-GNB. Os modelos preditivos podem ajudar a evitar testes de rastreamento e tratamento inadequado em pacientes de baixo risco. Políticas de controle de infecção podem ser estabelecidas para controlar a propagação dessas bactérias. A identificação de pacientes que não precisam ser testados diminui os custos hospitalares e o tempo de espera do laboratório. Concluímos que nossos modelos apresentam bom desempenho e parecem suficientemente confiáveis para prever um paciente com esses patógenos. Esses modelos preditivos podem ser incluídos no sistema hospitalar. A metodologia proposta pode ser replicada em diferentes ambientes de saúde. / [en] Infections by Carbapenem-Resistant Gram-negative bacteria (CR-GNB) are among the most significant contemporary health concerns, especially in intensive care units (ICUs), and may be associated with increased hospitalization time, morbidity, costs, and mortality. This thesis aims to develop a comprehensive and systematic approach applying machine-learning techniques to build models to predict the CR-GNB acquisition in ICUs from Brazilian hospitals. We proposed screening models to detect ICU patients who do not need to be tested and a risk model that estimates ICU patients probability of acquiring CR-GNB. We applied feature selection methods, machine-learning techniques, and balancing strategies to build and compare the models. The performance criteria chosen to evaluate the models were Negative Predictive Value (NPV) and Matthews Correlation Coefficient (MCC) for the screening model and Brier score and calibration curves for the CR-GNB acquisition risk model. Friedman s statistic and Nemenyi post hoc tests are used to test the significance of differences among techniques. Information gain method and association rules mining assess the importance and strength among features. Our database gathers the patients, antibiotic, and microbiology data from five Brazilian hospitals from May 8th, 2017 to August 31st, 2019, involving hospitalized patients in 24 adult ICUs. Information from the laboratory was used to identify all patients with a positive or negative test for carbapenem-resistant GNB, A. baumannii, P. aeruginosa, or Enterobacteriaceae. We have a total of 539 positive and 7,462 negative tests, resulting in 3,604 patients with at least one exam after 48 hours hospitalized. We proposed to the hospital s decision-maker two screening models. The random forest s model would reduce approximately 39 percent of the
unnecessary tests and correctly predict 92 percent of positives. The Neural Network model avoids unnecessary tests in 64 percent of the cases, but 24 percent of positive tests are misclassified as negatives. Our results show that the sampling, SMOTEBagging, and UnderBagging approaches obtain better results. The linear techniques such as Logistic Regression with regularization give a relatively good performance and are more interpretable; they are not significantly different from the more complex classifiers. For the acquisition risk model, the Nearest Shrunken Centroids is the best model with a Brier score of 0.152 and a calibration belt acceptable. We developed an external validation of 624 patients from two other hospitals in the same network, finding good Brier score (0.128 and 0.079) values in both. The antibiotic and invasive procedures used, especially mechanical ventilation, are the most important attributes for the colonization or infection of CR-GNB. The predictive models can help avoid screening tests and inappropriate treatment in patients at low risk. Infection control policies can be established to control these bacteria s spread. Identifying patients who do not need to be tested decreases hospital costs and laboratory waiting times. We concluded that our models present good performance and seem sufficiently reliable to predict a patient with these pathogens. These predictive models can be included in the hospital system. The proposed methodology can be replicated in different healthcare settings.
|
64 |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS / [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕESIVAN DE JESUS PEREIRA PINTO 16 November 2021 (has links)
[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda
uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza
de informações a ser explorada por modelos computacionais, e que podem ser
positivos para sociedade. Os modelos de aprendizado de máquina, em especial,
possuem uma crescente necessidade de dados para treinamento, que precisam
ser estruturados e de tamanho considerável. Seu uso na área de processamento
de linguagem natural é pervasivo nas mais diversas tarefas.
Este trabalho realiza o esforço de coleta, construção, análise do maior
corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos
de vetores de palavras, bag-of-words e transformer. O modelo transformer
BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na
classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação
da Área de conhecimento nas categorizações de Teses e Dissertações.
É feita ainda uma análise semântica do corpus acadêmico através da
modelagem de tópicos, e uma visualização inédita das áreas de conhecimento
em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos
modelos treinados, o SucupiraBot. / [en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society.
Machine learning models in particular, have an increasing need for training
data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks.
This work makes the effort of collecting, constructing, analyzing and
training of models for the biggest known academic corpus in the Portuguese
language. Word embeddings, bag of words and transformers models have been
trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation.
A semantic analysis of the academic corpus is made through topic
modelling, and an unprecedented visualization of the knowledge areas is
presented. Lastly, an application that uses the trained models is showcased,
the SucupiraBot.
|
65 |
[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENTFREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade
essencial para a supervisão do mercado de capitais realizada pela Comissão de
Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço
humano despendido no processo de triagem de documentos são vitais para a CVM
lidar com a escassez de recursos humanos e a expansão do mercado de valores
mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos
algoritmos de aprendizado de máquina e técnicas de processamento de texto, a
partir de sua aplicação em duas tarefas de processamento de linguagem natural –
classificação de documentos e extração de informações – desempenhadas em
ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos
clássicos proporcionaram melhor desempenho que as redes neurais profundas, o
qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de
máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser
aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A
arquitetura BERT foi capaz de extrair informações sobre aumento de capital e
incorporação societária de documentos financeiros. Os resultados satisfatórios
obtidos em ambas as tarefas motivam a implementação futura em regime de
produção dos modelos estudados, sob a forma de um sistema de apoio à decisão.
Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o
escopo deste trabalho com documentos financeiros entregues por companhias
abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa
futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital
markets supervision performed by Comissão de Valores Mobiliários (Brazilian
SEC or CVM). Systems capable of reducing human effort involved in the task of
screening documents and outlining relevant information, for further manual
review, are important tools for CVM to deal with the shortage of human resources
and expansion of the Brazilian securities market. In this regard, this dissertation
presents and discusses the application of several machine learning algorithms and
text processing techniques to perform two natural language processing tasks—
document classification and information extraction—in a real market supervision
environment. In the classification exercise, classic algorithms achieved a better
performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the
current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network
architecture was able to extract information from financial documents on capital
increase and mergers. The successful results obtained in both tasks encourage
future implementation of the studied models in the form of a decision support
system. Another contribution of this work is the CVMCorpus, a corpus built to
produce datasets for the tasks, with financial documents released between 2009
and 2019 by Brazilian companies, which opens possibilities of future linguistic
and finance research.
|
66 |
[en] PERMEABILITY PREDICTIONS USING BOREHOLE LOGS AND WELL TESTING DATA: A MACHINE LEARNING APPROACH / [pt] PREVISÕES DE PERMEABILIDADE UTILIZANDO PERFIS À POÇO ABERTO E DADOS DE TESTE DE FORMAÇÃO: UMA ABORDAGEM COM APRENDIZADO DE MÁQUINASCIRO DOS SANTOS GUIMARAES 26 April 2021 (has links)
[pt] Este trabalho investiga o desempenho de modelos inteligentes na previsão de permeabilidade de reservatórios heterogêneos. Perfis de produção são utilizados para computar funções-objetivo para regressão no processo de otimização dos algoritmos. Um método de interpretação de perfil de produção é usado para remover efeitos de skin das medições de vazão. Adicionalmente, uma técnica de segmentação é aplicada a perfis de imagem acústica de alta resolução que fornecem, não apenas a imagem do sistema de mega e giga poros, mas também identifica fácies permeáveis ao longo do reservatório. A segmentação da imagem junto com outros perfis a poço aberto fornece os atributos necessários para o processo de treinamento do modelo. As estimativas apresentadas neste trabalho demonstram a habilidade dos algoritmos em aprender relações não lineares entre as variáveis geológicas e os dados dinâmicos de reservatório, mesmo quando a própria relação física é complexa e desconhecida à priori. Apesar das etapas de pré-processamento envolverem experiência em interpretação de dados, os algoritmos podem ser facilmente implementados em qualquer linguagem de programação, não assumindo qualquer premissa física de antemão. O procedimento proposto fornece curvas de permeabilidades mais acuradas que aquelas obtidas a partir de métodos convencionais que muitas vezes falham em prever a permeabilidade medida em testes de formação (TFR) realizados em reservatórios de dupla-porosidade. A contribuição deste trabalho é incorporar os dados dinâmicos oriundos dos perfis de produção (PP) ao processo de estimativa de permeabilidade usando algoritmos de Machine Learning. / [en] This work investigates the performance of intelligent models on the forecasting of permeability in heterogeneous reservoirs. Production logs are used to compute loss functions for regression in the algorithms optimization process. A flow profile interpretation method is used to remove wellbore skin effects from the measured flow rate. Additionally, a segmentation technique is applied to high-resolution ultrasonic image logs which provide not only the image of mega and giga pore systems but also identify the permeable facies along the reservoir. The image segmentation jointly with other borehole logs provides the necessary input data for the models training process. The estimations presented herein demonstrate the algorithms ability to learn non-linear relationships between geological input variables and a reservoir dynamic data even if the actual physical relationship is complex and not known a priori. Though the preprocessing stages of the procedure involve some data interpretation expertise, the algorithms can easily be coded in any programming language, requiring no assumptions on physics in advance. The proposed procedure provides more accurate permeability curves than those obtained from conventional methods, which may fail to predict the permeability measured on drill stem tests (DSTs) conducted in dual-porosity reservoirs. The novelty of this work is to incorporate dynamic production logging (PL) data into the permeability estimation workflow using machine learning algorithms.
|
67 |
[pt] CLASSIFICAÇÃO DE RESERVATÓRIO UTILIZANDO DADOS DA DERIVADA DE PRESSÃO DE TESTE DE POÇOS / [en] RESERVOIR CLASSIFICATION USING WELL-TESTING PRESSURE DERIVATIVE DATAANDRE RICARDO DUCCA FERNANDES 29 June 2021 (has links)
[pt] Identificar o modelo de um reservatório é o primeiro passo para interpretar corretamente os dados gerados em um teste de poços e desta forma estimar os parâmetros relacionados a esse modelo. O objetivo deste trabalho é de forma inversa, utilizar as curvas de pressão obtidas em um teste de poços, para identificar o modelo de um reservatório. Como os dados obtidos em um teste de poços podem ser ordenados ao longo do tempo, nossa abordagem será reduzir essa tarefa a um problema de classificação de séries
temporais, onde cada modelo de reservatório representa uma classe. Para tanto, foi utilizada uma técnica chamada shapelet, que são subsequências de uma série temporal que representam uma classe. A partir disso, foi construído um novo feature space, onde foi medida a distância entre cada série
temporal e as shapelets de cada classe. Então foi criado um comitê de votação utilizando os modelos k-nearest neighbors, decision tree, random forest, support vector machines, perceptron, multi layer perceptron e adaboost. Foram testados os pré-processamentos standard scaler, normalizer, robust
scaler, power transformer and quantile transformer. Então a classificação foi feita no novo feature space pré-processado. Geramos 10 modelos de reservatório multiclass analíticos para validação. Os resultados revelam que o uso de modelos clássicos de aprendizado de máquina com shapelets, usando
os pré-processamentos normalizer e quantile trasformer alcança resultados sólidos na identificação dos modelos de reservatório. / [en] Identifying a reservoir model is the first step to correctly interpret the data generated in a well-test and hence to estimate the related parameters to this model. The goal of this work is inversely to use the pressure curves, obtained in a well-test, to identify a reservoir model. Since the data obtained in a well-test can be ordered over time, we reduce this task to a problem of time series classification, where every reservoir model represents a class. For that purpose, we used a technique called shapelets, which are
times series subsequences that represent a class. From that, a new feature space was built, where we measured the distance between every time series and the shapelets of every class. Then we created an ensemble using the models k-nearest neighbors, decision tree, random forest, support vector machines, perceptron, multi-layer perceptron, and adaboost. The preprocessings standard scaler, normalizer, robust scaler, power transformer, and quantile transformer were tested. Then the classification was performed on
the new preprocessed feature space. We generated 10 analytical multiclass reservoir models for validation. The results reveal that the use of classical machine learning models with shapelets, using the normalizer and quantile transformer preprocessing, reaches solid results on the identification of reservoir models.
|
68 |
[pt] ENSAIOS EM PREDIÇÃO DO TEMPO DE PERMANÊNCIA EM UNIDADES DE TERAPIA INTENSIVA / [en] ESSAYS ON LENGTH OF STAY PREDICTION IN INTENSIVE CARE UNITSIGOR TONA PERES 28 June 2021 (has links)
[pt] O tempo de permanência (LoS) é uma das métricas mais utilizadas
para avaliar o uso de recursos em Unidades de Terapia Intensiva (UTI). Esta
tese propõe uma metodologia estruturada baseada em dados para abordar
três principais demandas de gestores de UTI. Primeiramente, será proposto
um modelo de predição individual do LoS em UTI, que pode ser utilizado
para o planejamento dos recursos necessários. Em segundo lugar, tem-se
como objetivo desenvolver um modelo para predizer o risco de permanência
prolongada, o que auxilia na identificação deste tipo de paciente e assim
uma ação mais rápida de intervenção no mesmo. Finalmente, será proposto
uma medida de eficiência ajustada por case-mix capaz de realizar análises
comparativas de benchmark entre UTIs. Os objetivos específicos são:
(i) realizar uma revisão da literatura dos fatores que predizem o LoS em
UTI; (ii) propor uma metodologia data-driven para predizer o LoS individual
do paciente na UTI e o seu risco de longa permanência; e (iii) aplicar
essa metodologia no contexto de um grande conjunto de UTIs de diferentes
tipos de hospitais. Os resultados da revisão da literatura apresentaram os
principais fatores de risco que devem ser considerados em modelos de predição.
Em relação ao modelo preditivo, a metodologia proposta foi aplicada
e validada em um conjunto de dados de 109 UTIs de 38 diferentes hospitais
brasileiros. Este conjunto continha um total de 99.492 internações de 01 de
janeiro a 31 de dezembro de 2019. Os modelos preditivos construídos usando
a metodologia proposta apresentaram resultados precisos comparados com
a literatura. Estes modelos propostos têm o potencial de melhorar o planejamento
de recursos e identificar precocemente pacientes com permanência
prolongada para direcionar ações de melhoria. Além disso, foi utilizado o
modelo de predição proposto para construir uma medida não tendenciosa
para benchmarking de UTIs, que também foi validada no conjunto de dados
estudado. Portanto, esta tese propôs um guia estruturado baseado em dados
para gerar predições para o tempo de permanência em UTI ajustadas ao
contexto em que se deseja avaliar. / [en] The length of stay (LoS) in Intensive Care Units (ICU) is one of the
most used metrics for resource use. This thesis proposes a structured datadriven
methodology to approach three main demands of ICU managers.
First, we propose a model to predict the individual ICU length of stay,
which can be used to plan the number of beds and staff required. Second,
we develop a model to predict the risk of prolonged stay, which helps
identifying prolonged stay patients to drive quality improvement actions.
Finally, we build a case-mix-adjusted efficiency measure (SLOSR) capable
of performing non-biased benchmarking analyses between ICUs. To achieve
these objectives, we divided the thesis into the following specific goals: (i)
to perform a literature review and meta-analysis of factors that predict
patient s LoS in ICUs; (ii) to propose a data-driven methodology to predict
the numeric ICU LoS and the risk of prolonged stay; and (iii) to apply this
methodology in the context of a big set of ICUs from mixed-type hospitals.
The literature review results presented the main risk factors that should
be considered in future prediction models. Regarding the predictive model,
we applied and validated our proposed methodology to a dataset of 109
ICUs from 38 different Brazilian hospitals. The included dataset contained
a total of 99,492 independent admissions from January 01 to December
31, 2019. The predictive models to numeric ICU LoS and to the risk of
prolonged stay built using our data-driven methodology presented accurate
results compared to the literature. The proposed models have the potential
to improve the planning of resources and early identifying prolonged stay
patients to drive quality improvement actions. Moreover, we used our
prediction model to build a non-biased measure for ICU benchmarking,
which was also validated in our dataset. Therefore, this thesis proposed a
structured data-driven guide to generating predictions to ICU LoS adjusted
to the specific environment analyzed.
|
69 |
[pt] MINERANDO O PROCESSO DE UM COQUEAMENTO RETARDADO ATRAVÉS DE AGRUPAMENTO DE ESTADOS / [en] MINING THE PROCESS OF A DELAYED COKER USING CLUSTERED STATESRAFAEL AUGUSTO GASETA FRANCA 25 November 2021 (has links)
[pt] Procedimentos e processos são essenciais para garantir a qualidade de
qualquer operação. Porém, o processo realizado na prática nem sempre está
de acordo com o processo idealizado. Além disso, uma análise mais refinada
de gargalos e inconsistências só é possível a partir do registro de eventos do
processo (log). Mineração de processos (process mining) é uma área que reúne
um conjunto de métodos para reconstruir, monitorar e aprimorar um processo a
partir de seu registro de eventos. Mas, ao aplicar as soluções já existentes no log
de uma unidade de coqueamento retardado, os resultados foram insatisfatórios.
O núcleo do problema está na forma como o log está estruturado, carecendo
de uma identificação de casos, essencial para a mineração do processo. Para
contornar esse problema, aplicamos agrupamento hierárquico aglomerativo no
log, separando as válvulas em grupos que exercem uma função na operação.
Desenvolvemos uma ferramenta (PLANTSTATE) para avaliar a qualidade desses
grupos no contexto da planta e ajustar conforme a necessidade do domínio.
Identificando os momentos de ativação desses grupos no log chegamos a uma
estrutura de sequência e paralelismo entre os grupos. Finalmente, propomos
um modelo capaz de representar as relações entre os grupos, resultando em
um processo que representa a operações em uma unidade de coqueamento
retardado. / [en] Procedures and processes are essential to guarantee the quality of any
operation. However, processes carried out in the real world are not always in
accordance with the imagined process. Furthermore, a more refined analysis
of obstacles and inconsistencies is only possible from the process events record
(log). Process mining is an area that brings together a set of methods to
rebuild, monitor and improve processes from their log. Nevertheless, when
applying existing solutions to the log of a delayed coker unit, the results
were unsatisfactory. The core of the problem is how the log is structured,
lacking a case identification, essential for process mining. To deal with this
issue, we apply agglomerative hierarchical clustering in the log, separating
the valves into groups that perform a task in an operation. We developed a
tool (PLANTSTATE) to assess the quality of these groups in the context of
the plant and to adjust in accord to the needs of the domain. By identifying
the moments of activation of these groups in the log we arrive at a structure
of sequence and parallelism between the groups. Finally, we propose a model
capable of representing the relationships between groups, resulting in a process
that represents the operations in a delayed coker unit.
|
70 |
[en] PREDICTING DRY GAS SEALS RELIABILITY WITH MACHINE LEARNING TECHNIQUES DEVELOPED FROM SCARCE DATA / [pt] PREVISÃO DE CONFIABILIDADE DE SELOS SECOS A GÁS COM TÉCNICAS DE MACHINE LEARNING DESENVOLVIDO A PARTIR DE DADOS ESCASSOSMATHEUS HOFFMANN BRITO 07 November 2022 (has links)
[pt] A correta operação de equipamentos na indústria de Óleo e Gás é fundamental
para a reduzir perdas ambientais, humanas e financeiras. Neste
cenário, foram estudados selos secos a gás (em inglês,DGS) de compressores
cetrífugos, por serem identificados como os mais críticos devido à extensão
dos danos potenciais causados em caso de falha. Neste estudo, foram desenvolvidos
31 modelos regressivos disponíveis no Scikit-Learn através de
técnicas de aprendizado de máquina (em inglês, ML). Estes foram treinados
com um conjunto de dados escassos, criado a partir de uma técnica de
planejamento de experimentos, para substituir simulações numéricas na previsão
de confiabilidade operacional de DGSs. Primeiramente, foi validado
um modelo baseado na simulação da Dinâmica dos Fluidos Computacionais
(em inglês, CFD) para representar o escoamento do gás entre as faces
de selagem, a fim de possibilitar o cálculo da confiabilidade operacional
do equipamento. Neste, foi utilizado o software de CFD de código aberto
OpenFOAM em conjunto com o banco de dados de substâncias do software
REFPROP, a fim de possibilitar ao usuário definir a mistura gasosa e as
condições operacionais avaliadas. Em seguida, foram realizados dois estudos
de caso seguindo um fluxograma genérico de projeto proposto. O primeiro
consistiu na determinação de um modelo regressivo para estimar a confiabilidade
de um DGS cuja composição gasosa (composta por metano, etano e
octano) é fixa porém suas condições operacionais podem ser alteradas. Já o
segundo consistiu na determinação de um modelo regressivo mais robusto,
onde tanto a composição gasosa como as condições operacionais podem ser
alteradas. Por fim, foi avaliada a viabilidade de implementação de ambos os
modelos em condições reais de operação, baseado na norma infinita obtida
para a predição do conjunto de teste. As performances atingidar foram de
1.872 graus Celsius e 6.951 grau Celsius para o primeiro e segundo estudos de caso, respectivamente. / [en] The correct equipment operation in the Oil and Gas industry is
essential to reduce environmental, human, and financial losses. In this
scenario, dry gas seals (DGS) of centrifugal compressors were studied,
as they are identified as the most critical device due to the extent of
the potential damage caused by their failure. In this study, 31 regression
models available at Scikit-Learn were developed using machine learning
(ML) techniques. They were trained with a scarce dataset, created based
on a design of experiment technique, to replace numerical simulations
in predicting the operational reliability of DGSs. First, a model based
on Computational Fluid Dynamics (CFD) simulation was validated to
represent the gas flowing between the sealing faces, to enable the calculation
of the equipment’s operational reliability. Thus, the open-source CFD
software OpenFOAM was used together with the substance database of
the software REFPROP, to allow the user to define the gas mixture and
the evaluated operational conditions. Then, two case studies were carried
out following a proposed generic workflow. The first comprised determining
a regression model to estimate the reliability of a DGS whose mixture
composition (composed of methane, ethane, and octane) is fixed but its
operating conditions can vary. The second consisted of determining a more
robust regressive model, where both the mixture composition and the
operational conditions can vary. Finally, the feasibility of implementing both
models under realistic operating conditions was evaluated, based on the
infinity norm obtained for the prediction of the test set. The performances
achieved were 1.872 degrees Celsius and 6.951 degrees Celsius for the first and second case studies,
respectively.
|
Page generated in 0.0514 seconds