1 |
[en] VISION TRANSFORMERS AND MASKED AUTOENCONDERS FOR SEISMIC FACEIS SEGMENTATION / [pt] VISION TRANSFORMERS E MASKED AUTOENCONDERS PARA SEGMENTAÇÃO DE FÁCIES SÍSMICASDANIEL CESAR BOSCO DE MIRANDA 12 January 2024 (has links)
[pt] O desenvolvimento de técnicas de aprendizado auto-supervisionado vem
ganhando muita visibilidade na área de Visão Computacional pois possibilita
o pré-treinamento de redes neurais profundas sem a necessidade de dados anotados. Em alguns domínios, as anotações são custosas, pois demandam muito
trabalho especializado para a rotulação dos dados. Esse problema é muito
comum no setor de Óleo e Gás, onde existe um vasto volume de dados não
interpretados. O presente trabalho visa aplicar a técnica de aprendizado auto-supervisionado denominada Masked Autoencoders para pré-treinar modelos Vision Transformers com dados sísmicos. Para avaliar o pré-treino, foi aplicada a
técnica de transfer learning para o problema de segmentação de fácies sísmicas.
Na fase de pré-treinamento foram empregados quatro volumes sísmicos distintos. Já para a segmentação foi utilizado o dataset Facies-Mark e escolhido o
modelo da literatura Segmentation Transformers. Para avaliação e comparação
da performance da metodologia foram empregadas as métricas de segmentação
utilizadas pelo trabalho de benchmarking de ALAUDAH (2019). As métricas
obtidas no presente trabalho mostraram um resultado superior. Para a métrica
frequency weighted intersection over union, por exemplo, obtivemos um ganho
de 7.45 por cento em relação ao trabalho de referência. Os resultados indicam que a
metodologia é promissora para melhorias de problemas de visão computacional
em dados sísmicos. / [en] The development of self-supervised learning techniques has gained a lot
of visibility in the field of Computer Vision as it allows the pre-training of
deep neural networks without the need for annotated data. In some domains,
annotations are costly, as they require a lot of specialized work to label the
data. This problem is very common in the Oil and Gas sector, where there is
a vast amount of uninterpreted data. The present work aims to apply the self-supervised learning technique called Masked Autoencoders to pre-train Vision
Transformers models with seismic data. To evaluate the pre-training, transfer
learning was applied to the seismic facies segmentation problem. In the pre-training phase, four different seismic volumes were used. For the segmentation,
the Facies-Mark dataset was used and the Segmentation Transformers model
was chosen from the literature. To evaluate and compare the performance of
the methodology, the segmentation metrics used by the benchmarking work
of ALAUDAH (2019) were used. The metrics obtained in the present work
showed a superior result. For the frequency weighted intersection over union
(FWIU) metric, for example, we obtained a gain of 7.45 percent in relation to the
reference work. The results indicate that the methodology is promising for
improving computer vision problems in seismic data.
|
2 |
[pt] AJUSTE FINO DE MODELO AUTO-SUPERVISIONADO USANDO REDES NEURAIS SIAMESAS PARA CLASSIFICAÇÃO DE IMAGENS DE COVID-19 / [en] FINE-TUNING SELF-SUPERVISED MODEL WITH SIAMESE NEURAL NETWORKS FOR COVID-19 IMAGE CLASSIFICATIONANTONIO MOREIRA PINTO 03 December 2024 (has links)
[pt] Nos últimos anos, o aprendizado auto-supervisionado demonstrou desempenho estado da arte em áreas como visão computacional e processamento de
linguagem natural. No entanto, ajustar esses modelos para tarefas específicas
de classificação, especialmente com dados rotulados, permanece sendo um desafio. Esta dissertação apresenta uma abordagem para ajuste fino de modelos
auto-supervisionados usando Redes Neurais Siamesas, aproveitando a função
de perda semi-hard triplet loss. Nosso método visa refinar as representações
do espaço latente dos modelos auto-supervisionados para melhorar seu desempenho em tarefas posteriores de classificação. O framework proposto emprega
Masked Autoencoders para pré-treinamento em um conjunto abrangente de
dados de radiografias, seguido de ajuste fino com redes siamesas para separação eficaz de características e melhor classificação. A abordagem é avaliada
no conjunto de dados COVIDx 9 para detecção de COVID-19 a partir de radiografias frontais de peito, alcançando uma nova precisão recorde de 98,5 por cento,
superando as técnicas tradicionais de ajuste fino e o modelo COVID-Net CRX
3. Os resultados demonstram a eficácia de nosso método em aumentar a utilidade de modelos auto-supervisionados para tarefas complexas de imagem
médica. Trabalhos futuros explorarão a escalabilidade dessa abordagem para
outros domínios e a integração de funções de perda de espaço de embedding
mais sofisticadas. / [en] In recent years, self-supervised learning has demonstrated state-of-theart performance in domains such as computer vision and natural language processing. However, fine-tuning these models for specific classification tasks,
particularly with labeled data, remains challenging. This thesis introduces a
novel approach to fine-tuning self-supervised models using Siamese Neural
Networks, specifically leveraging a semi-hard triplet loss function. Our method
aims to refine the latent space representations of self-supervised models to
improve their performance on downstream classification tasks. The proposed
framework employs Masked Autoencoders for pre-training on a comprehensive
radiograph dataset, followed by fine-tuning with Siamese networks for effective
feature separation and improved classification. The approach is evaluated on
the COVIDx dataset for COVID-19 detection from frontal chest radiographs,
achieving a new record accuracy of 98.5 percent, surpassing traditional fine-tuning
techniques and COVID-Net CRX 3. The results demonstrate the effectiveness
of our method in enhancing the utility of self-supervised models for complex
medical imaging tasks. Future work will explore the scalability of this approach
to other domains and the integration of more sophisticated embedding-space
loss functions.
|
3 |
[pt] APRENDIZADO SEMI E AUTO-SUPERVISIONADO APLICADO À CLASSIFICAÇÃO MULTI-LABEL DE IMAGENS DE INSPEÇÕES SUBMARINAS / [en] SEMI AND SELF-SUPERVISED LEARNING APPLIED TO THE MULTI-LABEL CLASSIFICATION OF UNDERWATER INSPECTION IMAGEAMANDA LUCAS PEREIRA 11 July 2023 (has links)
[pt] O segmento offshore de produção de petróleo é o principal produtor nacional desse insumo. Nesse contexto, inspeções submarinas são cruciais para a
manutenção preventiva dos equipamentos, que permanecem toda a vida útil
em ambiente oceânico. A partir dos dados de imagem e sensor coletados nessas
inspeções, especialistas são capazes de prevenir e reparar eventuais danos. Tal
processo é profundamente complexo, demorado e custoso, já que profissionais especializados têm que assistir a horas de vídeos atentos a detalhes. Neste
cenário, o presente trabalho explora o uso de modelos de classificação de imagens projetados para auxiliar os especialistas a encontrarem o(s) evento(s) de
interesse nos vídeos de inspeções submarinas. Esses modelos podem ser embarcados no ROV ou na plataforma para realizar inferência em tempo real, o que
pode acelerar o ROV, diminuindo o tempo de inspeção e gerando uma grande
redução nos custos de inspeção. No entanto, existem alguns desafios inerentes
ao problema de classificação de imagens de inspeção submarina, tais como:
dados rotulados balanceados são caros e escassos; presença de ruído entre os
dados; alta variância intraclasse; e características físicas da água que geram certas especificidades nas imagens capturadas. Portanto, modelos supervisionados
tradicionais podem não ser capazes de cumprir a tarefa. Motivado por esses
desafios, busca-se solucionar o problema de classificação de imagens submarinas a partir da utilização de modelos que requerem menos supervisão durante
o seu treinamento. Neste trabalho, são explorados os métodos DINO (Self-DIstillation with NO labels, auto-supervisionado) e uma nova versão multi-label proposta para o PAWS (Predicting View Assignments With Support Samples, semi-supervisionado), que chamamos de mPAWS (multi-label PAWS). Os
modelos são avaliados com base em sua performance como extratores de features para o treinamento de um classificador simples, formado por uma camada
densa. Nos experimentos realizados, para uma mesma arquitetura, se obteve
uma performance que supera em 2.7 por cento o f1-score do equivalente supervisionado. / [en] The offshore oil production segment is the main national producer of this input. In this context, underwater inspections are crucial for the preventive maintenance of equipment, which remains in the ocean environment for its entire useful life. From the image and sensor data collected in these inspections,experts are able to prevent and repair damage. Such a process is deeply complex, time-consuming and costly, as specialized professionals have to watch hours of videos attentive to details. In this scenario, the present work explores the use of image classification models designed to help experts to find the event(s) of interest in under water inspection videos. These models can be embedded in the ROV or on the platform to perform real-time inference,which can speed up the ROV, monitor notification time, and greatly reduce verification costs. However, there are some challenges inherent to the problem of classification of images of armored submarines, such as: balanced labeled data are expensive and scarce; the presence of noise among the data; high intraclass variance; and some physical characteristics of the water that achieved certain specificities in the captured images. Therefore, traditional supervised models may not be able to fulfill the task. Motivated by these challenges, we seek to solve the underwater image classification problem using models that require less supervision during their training. In this work, they are explorers of the DINO methods (Self-Distillation with NO labels, self-supervised) anda new multi-label version proposed for PAWS (Predicting View AssignmentsWith Support Samples, semi-supervised), which we propose as mPAWS (multi-label PAWS). The models are evaluated based on their performance as features extractors for training a simple classifier, formed by a dense layer. In the experiments carried out, for the same architecture, a performance was obtained that exceeds by 2.7 percent the f1-score of the supervised equivalent.
|
Page generated in 0.0318 seconds