11 |
[en] A SELF-SUPERVISED METHOD FOR BLIND DENOISING OF SEISMIC SHOT GATHERS / [pt] UM MÉTODO AUTOSUPERVISIONADO PARA ATENUAÇÃO CEGA DE RUÍDOS DE SISMOGRAMASANTONIO JOSE GRANDSON BUSSON 24 May 2022 (has links)
[pt] Nos últimos anos, a geofísicos tem se dedicado ao aprimoramento da
qualidade dos dados sísmicos por meio da atenuação de ruído e interpolação
de sismogramas usando métodos puramente baseados em CNN. Métodos
baseados em CNN podem alcançar resultados estado-da-arte para remoção
de ruídos. No entanto, eles não se aplicam a cenários sem dados de
treinamento emparelhados (ou seja, dados sísmicos ruidosos e dados sísmicos
sem ruído correspondentes). Neste trabalho, tratamos a atenuação de ruídos
de dados sísmicos como um problema de atenuação de ruído cega, que
consiste em remover ruídos desconhecidos sem dados pareados. Em outras
palavras, a base usada pelo modelo de denoiser é aprendida a partir
das próprias amostras ruidosas durante o treinamento. Motivado por este
contexto, o principal objetivo deste trabalho é propor um método autosupervisionado para atenuação cega de dados sísmicos, que não requer
análise prévia do sinal sísmico, nenhuma estimativa do ruído e nenhum
dado de treinamento pareado. O método proposto assume dois conjuntos
de dados: um contendo shot gathers com ruídos e o outro com shot gathers
sem ruídos. A partir desses dados, treinamos dois modelos: (1) Seismic Noise
Transfer (SNT), que aprende a produzir shot gathers com ruído sintético
contendo o ruído dos shot gathers com ruído e o sinal dos shot gathers sem
ruído; E (2) Sismic Neural Denoiser (SND), que aprende a mapear os shot
gathers com ruído sintético de volta aos shot gathers sem ruído original.
Após o treinamento, o SND sozinho é usado para remover o ruído das
capturas ruidosas originais. Nosso modelo SNT adapta o algoritmo Neural
Style Transfer (NST) ao domínio sísmico. Além disso, nosso modelo SND
consiste em uma nova arquitetura CNN baseada em fusão de atributos em
várias escalas para eliminação de ruído em shot gathers. Nosso método
produziu resultados promissores em experimentos, alcançando um ganho
de PSNR de 0,9 em comparação com outros modelos de última geração. / [en] In the last years, the geophysics community has been devoted to seismic data
quality enhancement by noise attenuation and seismogram interpolation
using CNN-based methods. Discriminative CNN-based methods can achieve
state-of-the-art denoising results. However, they do not apply to scenarios
without paired training data (i.e., noisy seismic data and corresponding
ground-truth noise-free seismic data). In this work, we treat seismic data
denoising as a blind denoising problem to remove unknown noise from noisy
shot gathers without ground truth training data. The basis used by the
denoiser model is learned from the noisy samples themselves during training.
Motivated by this context, the main goal of this work is to propose a selfsupervised method for blind denoising of seismic data, which requires no
prior seismic signal analysis, no estimate of the noise, and no paired training
data. Our proposed self-supervised method assumes two given datasets:
one containing noisy shot gathers and the other noise-free shot gathers.
From this data, we train two models: (1) Seismic Noise Transfer (SNT),
which learns to produce synthetic-noisy shot gathers containing the noise
from noisy shot gathers and the signal from noise-free shot gathers; And
(2) Seismic Neural Denoiser (SND), which learns to map the syntheticnoisy shot gather back to original noise-free shot gather. After training,
SND alone is used to remove the noise from the original noisy shot gathers.
Our SNT model adapts the Neural Style Transfer (NST) algorithm to the
seismic domain. In addition, our SND model consists of a novel multi-scale
feature-fusion-based CNN architecture for seismic shot gather denoising.
Our method produced promising results in a holdout experiment, achieving
a PSNR gain of 0.9 compared to other state-of-the-art models.
|
12 |
[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE / [pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊSLUCAS AGUIAR PAVANELLI 24 October 2022 (has links)
[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando
populares recentemente. A gama de aplicativos que se beneficiam de
NLP é extensa, desde criar sistemas de tradução automática até ajudar no
marketing de um produto. Dentro de NLP, o campo de Extração de Informações
(IE) é difundido; concentra-se no processamento de textos para recuperar
informações específicas sobre uma determinada entidade ou conceito. Ainda
assim, a comunidade de pesquisa se concentra principalmente na construção
de modelos para dados na língua inglesa. Esta tese aborda três tarefas no
domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações
Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um
novo conjunto de dados em português no domínio biomédico, descrevemos o
processo de anotação e medimos suas propriedades. Além disso, desenvolvemos
um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação,
verificando que o mesmo é competitivo em comparação com outros modelos.
Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas
diferentes do inglês e confirmamos a dominância de modelos baseados
em redes neurais. / [en] Natural language processing (NLP) techniques are becoming popular recently.
The range of applications that benefit from NLP is extensive, from
building machine translation systems to helping market a product. Within
NLP, the Information Extraction (IE) field is widespread; it focuses on processing
texts to retrieve specific information about a particular entity or concept.
Still, the research community mainly focuses on building models for English
data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First,
we created a novel Portuguese dataset in the biomedical domain, described the
annotation process, and measured its properties. Also, we developed a novel
model for the Joint Entity and Relation Extraction task, verifying that it is
competitive compared to other models. Finally, we carefully evaluated proposed
models on non-English language datasets and confirmed the dominance of
neural-based models.
|
13 |
[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊSROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra
de uma sentença com sua devida classe morfossintática (verbo, substantivo,
adjetivo e etc). POS tagging é considerada uma atividade fundamental no
processo de construção de aplicações de processamento de linguagem natural
(PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de
informação. Nesse trabalho, construímos um POS tagger para o Português
Contemporâneo e o Português Histórico, baseado em uma arquitetura de
rede neural recorrente. Tradicionalmente a construção dessas ferramentas
requer muitas features específicas do domínio da linguagem e dados externos
ao conjunto de treino, mas nosso POS tagger não usa esses requisitos.
Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que
se beneficia das representações de word embeddings e character embeddings
das palavras, para atividade de classificação morfossintática. Testamos nosso
POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe.
Nós obtemos um desempenho ligeiramente melhor que os sistemas estado
da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original,
97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para
Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para
a medida de acurácia fora do vocabulário, uma acurácia especial calculada
somente sobre as palavras desconhecidas do conjunto de treino. Realizamos
ainda um estudo comparativo para verificar qual dentre os mais populares
algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec
e Glove), é mais adequado para a atividade POS tagging em Português. O
modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word
in a sentence with a morphosyntactic class (verb, noun, adjective and
etc). POS tagging is a fundamental part of the linguistic pipeline, most
natural language processing (NLP) applications demand, at some step,
part-of-speech information. In this work, we constructed a POS tagger
for Contemporary Portuguese and Historical Portuguese, using a recurrent
neural network architecture. Traditionally the development of these tools
requires many handcraft features and external data, our POS tagger does
not use these elements. We trained a Bidirectional Long short-term memory
(BLSTM) network that benefits from the word embeddings and character
embeddings representations of the words, for morphosyntactic classification.
We tested our POS tagger on three different corpora: the original version
of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus,
and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for
the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus,
97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the
Tycho Brahe corpus. We also achieved an improvement in the three corpora
in out-of-vocabulary accuracy, that is the accuracy on words not seen in
training sentences. We also performed a comparative study to test which
different types of word embeddings (Word2Vec, FastText, Wang2Vec, and
Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model
showed higher performance.
|
14 |
[pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA CARACTERIZAÇÃO DE FASES NO PELLET FEED UTILIZANDO MICROSCOPIA DIGITAL E APRENDIZAGEM PROFUNDA / [en] DEVELOPMENT OF A METHODOLOGY FOR PHASE CHARACTERIZATION IN PELLET FEED USING DIGITAL MICROSCOPY AND DEEP LEARNINGTHALITA DIAS PINHEIRO CALDAS 09 November 2023 (has links)
[pt] O minério de ferro é encontrado na natureza como agregado de minerais,
dentre os principais minerais presentes em sua composição estão: hematita,
magnetita, goethita e quartzo. Dada a importância do minério de ferro para a
indústria, há um crescente interesse por sua caracterização com o objetivo de avaliar
a qualidade do material. Com o avanço de pesquisas na área de análise de imagens
e microscopia, rotinas de caracterização foram desenvolvidas utilizando
ferramentas de Microscopia Digital e Processamento e Análise Digital de Imagens
capazes de automatizar grande parte do processo. Porém esbarrava-se em algumas
dificuldades, como por exemplo identificar e classificar as diferentes texturas das
partículas de hematita, as diferentes formas de seus cristais ou discriminar quartzo
e resina em imagens de microscopia ótica de luz refletida. Desta forma, a partir da
necessidade de se construir sistemas capazes de aprender e se adaptar a possíveis
variações das imagens deste material, surgiu a possibilidade de estudar a utilização
de ferramentas de Deep Learning para esta função. Este trabalho propõe o
desenvolvimento de uma nova metodologia de caracterização mineral baseada em
Deep Learning utilizando o algoritmo Mask R-CNN. Através do qual é possível
realizar segmentação de instâncias, ou seja, desenvolver sistemas capazes de
identificar, classificar e segmentar objetos nas imagens. Neste trabalho, foram
desenvolvidos dois modelos: Modelo 1 que realiza segmentação de instâncias para
as classes compacta, porosa, martita e goethita em imagens obtidas em Campo
Claro e o Modelo 2 que utiliza imagens adquiridas em Luz Polarizada
Circularmente para segmentar as classes monocristalina, policristalina e martita.
Para o Modelo 1 foi obtido F1-score em torno de 80 por cento e para o Modelo 2 em torno
de 90 por cento. A partir da segmentação das classes foi possível extrair atributos
importantes de cada partícula, como distribuição de quantidade, medidas de forma,
tamanho e fração de área. Os resultados obtidos foram muito promissores e indicam
que a metodologia desenvolvida pode ser viável para tal caracterização. / [en] Iron ore is found in nature as an aggregate of minerals. Among the main
minerals in its composition are hematite, magnetite, goethite, and quartz. Given the
importance of iron ore for the industry, there is a growing interest in its
characterization to assess the material s quality. With the advancement of image
analysis and microscopy research, characterization routines were developed using
Digital Microscopy and Digital Image Processing and Analysis tools capable of
automating a large part of the process. However, it encountered some difficulties,
such as identifying and classifying the different textures of hematite particles, the
different shapes of its crystals, or discriminating between quartz and resin in optical
microscopy images of reflected light. Therefore, from the need to build systems
capable of learning and adapting to possible variations of the images of this
material, the possibility of studying the use of Deep Learning tools for this function
arose. This work proposes developing a new mineral characterization methodology
based on Deep Learning using the Mask R-CNN algorithm. Through this, it is
possible to perform instance segmentation, that is, to develop systems capable of
identifying, classifying, and segmenting objects in images. In this work, two models
were developed: Model 1 performs segmentation of instances for the compact,
porous, martite, and goethite classes in images obtained in Bright Field, and Model
2 uses images acquired in Circularly Polarized Light to segment the classes
monocrystalline, polycrystalline and martite. For Model 1, F1-score was obtained
around 80 percent, and for Model 2, around 90 percent. From the class segmentation, it was possible to extract important attributes of each particle, such as quantity
distribution, shape measurements, size, and area fraction. The obtained results were
very promising and indicated that the developed methodology could be viable for
such characterization.
|
15 |
[pt] APLICAÇÕES DE APRENDIZADO PROFUNDO NO MONITORAMENTO DE CULTURAS: CLASSIFICAÇÃO DE TIPO, SAÚDE E AMADURECIMENTO DE CULTURAS / [en] APPLICATIONS OF DEEP LEARNING FOR CROP MONITORING: CLASSIFICATION OF CROP TYPE, HEALTH AND MATURITYGABRIEL LINS TENORIO 18 May 2020 (has links)
[pt] A eficiência de culturas pode ser aprimorada monitorando-se suas condições de forma contínua e tomando-se decisões baseadas em suas análises. Os dados para análise podem ser obtidos através de sensores de imagens e o processo de monitoramento pode ser automatizado utilizando-se algoritmos de reconhecimento de imagem com diferentes níveis de complexidade. Alguns dos algoritmos de maior êxito estão relacionados a abordagens supervisionadas de aprendizagem profunda (Deep Learning) as quais utilizam formas de Redes Neurais de Convolucionais (CNNs). Nesta dissertação de mestrado, empregaram-se modelos de aprendizagem profunda supervisionados para classificação, regressão, detecção de objetos e segmentação semântica em tarefas de monitoramento de culturas, utilizando-se amostras de imagens obtidas através de três níveis distintos: Satélites, Veículos Aéreos Não Tripulados (UAVs) e Robôs Terrestres Móveis (MLRs). Ambos satélites e UAVs envolvem o uso de imagens multiespectrais. Para o primeiro nível, implementou-se um modelo CNN baseado em Transfer Learning para a classificação de espécies vegetativas. Aprimorou-se o desempenho de aprendizagem do transfer learning através de um método de análise estatística recentemente proposto. Na sequência, para o segundo nível, implementou-se um algoritmo segmentação semântica multitarefa para a detecção de lavouras de cana-de-açúcar e identificação de seus estados (por exemplo, saúde e idade da cultura). O algoritmo também detecta a vegetação ao redor das lavouras, sendo relevante na busca por ervas daninhas. No terceiro nível, implementou-se um algoritmo Single Shot Multibox Detector para detecção de cachos de tomate. De forma a avaliar o estado dos cachos, utilizaram-se duas abordagens diferentes: uma implementação baseada em segmentação de imagens e uma CNN supervisionada adaptada para cálculos de regressão
capaz de estimar a maturação dos cachos de tomate. De forma a quantificar cachos de tomate em vídeos para diferentes estágios de maturação, empregou-se uma implementação de Região de Interesse e propôs-se um sistema de rastreamento o qual utiliza informações temporais. Para todos os
três níveis, apresentaram-se soluções e resultados os quais superam as linhas de base do estado da arte. / [en] Crop efficiency can be improved by continually monitoring their state and making decisions based on their analysis. The data for analysis can be obtained through images sensors and the monitoring process can be automated by using image recognition algorithms with different levels of complexity. Some of the most successful algorithms are related to supervised Deep Learning approaches which use a form of Convolutional Neural Networks (CNNs). In this master s dissertation, we employ supervised deep learning models for classification, regression, object detection, and semantic segmentation in crop monitoring tasks, using image samples obtained through three different levels: Satellites, Unmanned Aerial Vehicles (UAVs) and Unmanned Ground Vehicles (UGVs). Both satellites and UAVs levels involve the use of multispectral images. For the first level, we implement a CNN model based on transfer learning to classify vegetative species. We also improve the transfer learning performance by a newly proposed statistical analysis method. Next, for the second level, we implement a multi-task semantic segmentation algorithm to detect sugarcane crops and infer their state (e.g. crop health and age). The algorithm also detects the surrounding vegetation, being relevant in the search for weeds. In the third level, we implement a Single Shot Multibox detector algorithm to detect tomato clusters. To evaluate the cluster s state, we use two different approaches: an implementation based on image segmentation and a supervised CNN regressor capable of estimating their maturity. In order to quantify the tomato clusters in videos at different maturation stages, we employ a Region of Interest implementation and also a proposed tracking system which uses temporal information. For all the three levels, we present solutions and results that outperform state-of-the art baselines.
|
16 |
Desenvolvimento de metodologias para o reconhecimento de estruturas quiescentes em mapas solares observados pelo Telescópio Solar para Ondas Submilimétricas (SST)Pereira, André Luiz Garcia 20 August 2018 (has links)
Submitted by Marta Toyoda (1144061@mackenzie.br) on 2018-10-09T18:48:03Z
No. of bitstreams: 2
Andre Luiz Garcia Pereira.pdf: 3744578 bytes, checksum: a771cb04ee2c242cc6b35d79cfdc34ff (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2018-10-17T18:19:38Z (GMT) No. of bitstreams: 2
Andre Luiz Garcia Pereira.pdf: 3744578 bytes, checksum: a771cb04ee2c242cc6b35d79cfdc34ff (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-10-17T18:19:38Z (GMT). No. of bitstreams: 2
Andre Luiz Garcia Pereira.pdf: 3744578 bytes, checksum: a771cb04ee2c242cc6b35d79cfdc34ff (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2018-08-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The Submillimeter Solar Telescope (SST) operates simultaneously and independently with a
multibeam focal array at 212 and 405 GHz. Since 1999, the SST daily monitors in different
modes of observation the solar activity generating binary files from which solar maps can be
extracted. The identification of Active Regions in these maps is affected by the strong
atmospheric attenuation and inaccuracies of the telescope's pointing, therefore, maps are
visually inspected to manually extract the Active Regions. This is a lengthy process for
performing a statistical analysis over the 20-year data set already recorded. To automatize the
process artificial intelligence techniques of machine learning and computer vision were
proposed. A Convolutional Neural Network was created within the Keras framework for the
classification of the SST maps and then, a computer vision algorithm in the OpenCV framework
was used for the automatic detection of ARs. This hybrid approach allowed the identification
of more than 400 active regions between January 2002 and December 2017 and their physical
properties were statistically analysed. The results were validated comparing with previous
works which were carried out with a visual identification and manual extraction procedure, and
a good agreement was found. Moreover, we present for the first time, evidence of a positive
correlation between the brightness temperature at 212 GHz and the flux density at 2.8 GHz (the
S component) along the solar cycle. / O Telescópio Solar Submilimétrico (SST) opera simultaneamente e de forma independente,
com uma matriz focal multifeixe em 212 e 405 GHz. Desde 1999, o SST monitora diariamente
em diferentes modos de observação a atividade solar gerando arquivos binários dos quais mapas
solares podem ser extraídos. A identificação de Regiões Ativas nesses mapas é afetada pela
forte atenuação atmosférica e imprecisões dos apontamentos do telescópio, portanto, os mapas
são visualmente inspecionados para extração manual as Regiões Ativas. Este é um processo
demorado para a realização de uma análise estatística ao longo do conjunto de dados de 20 anos
já registrado. Para automatizar o processo, foram propostas técnicas de inteligência artificial de
aprendizado de máquina e de visão computacional. Uma Rede Neural Convolucional foi criada
dentro do framework Keras para a classificação dos mapas SST e, em seguida, um algoritmo
de visão computacional no framework OpenCV para a detecção automática das Regiões Ativas.
Esta abordagem híbrida permitiu a identificação de mais de 400 Regiões Ativas entre janeiro
de 2002 e dezembro de 2017 e a análise estatística de suas propriedades físicas. Os resultados
foram validados a partir da comparação com trabalhos anteriores, que foram realizados com um
procedimento de identificação visual e extração manual, e foi encontrada boa concordância.
Além destes resultados, mostramos pela primeira vez evidências de uma correlação positiva
entre a temperatura de brilho em 212 GHz e o fluxo em 2.8 GHz (componente S).
|
Page generated in 0.1287 seconds